Dnes se podíváme, jak řešit poměrně častou úlohu - vracení nejvyšších záznamů z nějaké množiny dat.
15.7.2005 08:00 | Petr Zajíc | czytane 36078×
RELATED ARTICLES
KOMENTARZE
S látkou z mnulého dílu úzce souvisí poměrně časta potřeba různých
aplikací - a tou je vracení jednoho či více "maximálních" záznamů z
nějaké množiny. Může se jednat o nejvyšší teplotu, nejvyšší plat nebo
cokoli měřitelného. Abychom ale neměli všechny příklady stejné, ukážu
vám, že se to může týkat i třeba řazení kalendářních dat. Začněme hned
s daty, protože jakékoli další vysvětlování je myslím zbytečné.
Vracení nejvyšších N záznamů
Zadání může být takové - máte tabulku zákazníků a s kažým
zákazníkem
sepisujete dodavatelsko - odběratelskou smlouvu. V tabulce budete chtít
mít vždy zákazníka, a datum uzavření této smlouvy. Pojďme vyjít z
následujících dat:
create table smlouvy
(zakaznik varchar (50), datum date);
insert into smlouvy (zakaznik, datum) values ('První
stavební','20050410');
insert into smlouvy (zakaznik, datum) values ('První
stavební','20050512');
insert into smlouvy (zakaznik, datum) values ('První
stavební','20050615');
insert into smlouvy (zakaznik, datum) values ('Tunel,
s.r.o.','20041205');
insert into smlouvy (zakaznik, datum) values ('Tunel,
s.r.o.','20050512');
insert into smlouvy (zakaznik, datum) values ('Tunel,
s.r.o.','20050518');
insert into smlouvy (zakaznik, datum) values ('Linuxman','20050301');
insert into smlouvy (zakaznik, datum) values ('Linuxman','20050401');
insert into smlouvy (zakaznik, datum) values ('Linuxman','20050501');
Klauzule LIMIT
Především budeme chtít vybrat jeden záznam, ten s nejvyšším datem.
To půjde dobře pomocí rozšíření LIMIT příkazu SQL. Takže, naposledy
uzavřenou smlouvu zjistíme lehce takto:
select * from smlouvy
order by datum desc limit 1;
K tomu bych ale přece jen měl pár poznámek: Především, MySQL
nepodporuje syntaxi s
klíčovým slovem TOP, kterou možná znáte z jiných databázových systémů.
Takže, tohle v MySQL NEBUDE fungovat:
select TOP 1 * from
smlouvy order by datum desc;
Za druhé, rozšíření LIMIT je mnohem pružnější než TOP, protože
umožňuje zadat "počáteční" řádek a rovněž počet řádků, které mají
následovat. Čehož pomocí TOP v jiných DBMS dosáhnout nejde. Takže,
chcete-li sadu záznamů počínaje druhým nejvyšším datem a obsahující
čtyři řádky v sadě, zkuste něco jako:
select * from smlouvy
order by datum desc limit 2,4;
Za třetí, prakticky vždy se rozšíření LIMIT používá v souvislosti s
kaluzulí ORDER BY, protože v praxi většinou nemá smysl vybírat
podmnožinu podle pořadí řádků z neseřazené
sady záznamů. A konečně za čtvrté - klauzule LIMIT může být pro
začátečníky ošidná, protože:
- Ač se to nezdá, "LIMIT x" nemusí vrátit právě x záznamů. Jestliže
je například výsledná sada záznamů prázdná, skončí příkaz prázdným
výsledkem a nedojde přitom k žádné chybě.
- "LIMIT x" může sice vrátit x záznamů, ale nebudou to všechny
záznamy, které jste si možná mysleli. V našem případě jsou třebas
12.5.2005 uzavřeny dvě smlouvy, které se mají "dělit" o třetí místo v
pořadí podle data uzavření, příkaz s LIMIT 3 však vrátí VŽDY jen určený
počet záznamů. Řečeno jinak - jestliže by všechny smlouvy byly uzavřeny
tentýž den, LIMIT 3 vypíše jen tři z nich. Na to je třeba dávat pozor
při sestavování různých žebříčků, protože byste mohli na někoho
zapomenout.
Agregační funkce MAX
Jak asi očekáváte, vrací agregační funkce MAX() záznam s nejvyšší
hodnotou v dané skupině (nebo v celé sadě, pokud chybí klauzule GROUP
BY). Takže, nejvyšší datum dostaneme takto:
select max(datum) from
smlouvy;
Pokud bychom chtěli celý řádek (tedy jak datum, tak i odpovídajícího
zákazníka), nemůžeme bohužel napsat:
select zakaznik,
max(datum) from smlouvy;
Protože mixování seskupených a nesekupených záznamů je logicky
nesmyslné. Můžeme ale dotaz přeformulovat takto:
select zakaznik,
max(datum) from smlouvy group by zakaznik;
což je syntaxe, která projde a zobrazí u každého zákazníka datum
naposledy uzavřené smlouvy.
Složitější příklad
Možná si říkáte, že možnost zobrazit nejvyšší datum pro každého
zákazníka pomocí postupu popsaného výše je docela jednoduchá a zároveň
velmi užitečná. Bohužel, praxe je trochu jiná. Většinou totiž tabulka
obsahuje ještě jiné, neseskupitelné údaje, a ty bude třeba zpracovat.
Mějme následující, lehce
zmodifikovanou sadu záznamů, která kromě zákazníka a data sepsání bude
ještě
uvádět číslo smlouvy:
truncate table smlouvy;
alter table smlouvy add column cislosmlouvy int;
insert into smlouvy (zakaznik, datum, cislosmlouvy) values ('První
stavební','20050410',10);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values ('První
stavební','20050512',15);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values ('První
stavební','20050615',16);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values ('Tunel,
s.r.o.','20041205',18);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values ('Tunel,
s.r.o.','20050512',25);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values ('Tunel,
s.r.o.','20050518',30);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values
('Linuxman','20050301',31);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values
('Linuxman','20050401',32);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values
('Linuxman','20050501',17);
Zadání bude: Vybrat pro každého zákazníka jeho název a číslo smlouvy
s nejvyšším
datem uzavření. Samozřejmě nepomůže dotaz:
select zakaznik,
max(datum), cislosmlouvy from smlouvy group by zakaznik;
a nesprávné výsledky vrátí rovněž
select zakaznik,
max(datum), max(cislosmlouvy) from smlouvy group by zakaznik;
Proč? Protože první dotaz vybírá číslo smlouvy, na které "právě
natrefí", zatímco druhý dotaz vrací nejvyšší číslo smlouvy pro daného
zákazníka. Ani jeden dotaz však nevrací číslo smlouvy záznamu, který má
pro daného zákazníka nejvyšší datum.
Řešením je využít spojení ve smyslu:
select smlouvy.zakaznik,
smlouvy.cislosmlouvy from smlouvy join (select zakaznik, max(datum) as
datum from smlouvy group by zakaznik) as nejvyssi
on smlouvy.zakaznik = nejvyssi.zakaznik and smlouvy.datum =
nejvyssi.datum;
Neboli - využijeme data vrácená prostým výběrem maximálních hodnot a
spojíme je znovu s tou samou tabulkou pro dohledání zbývajících údajů.
Jak lze vidět, i s tabulkou obsahující tři sloupce si lze docela vyhrát.
V dalším díle se podíváme na jiný obvyklý problém, který může být na
první pohled těžké pomocí jazyka SQL vyřešit, a tím bude vracení
průběžných součtů.