Dnes se podíváme, jak řešit poměrně častou úlohu - vracení nejvyšších záznamů z nějaké množiny dat.
15.7.2005 08:00 | Petr Zajíc | přečteno 35838×
S látkou z mnulého dílu úzce souvisí poměrně časta potřeba různých
aplikací - a tou je vracení jednoho či více "maximálních" záznamů z
nějaké množiny. Může se jednat o nejvyšší teplotu, nejvyšší plat nebo
cokoli měřitelného. Abychom ale neměli všechny příklady stejné, ukážu
vám, že se to může týkat i třeba řazení kalendářních dat. Začněme hned
s daty, protože jakékoli další vysvětlování je myslím zbytečné.
Zadání může být takové - máte tabulku zákazníků a s kažým zákazníkem sepisujete dodavatelsko - odběratelskou smlouvu. V tabulce budete chtít mít vždy zákazníka, a datum uzavření této smlouvy. Pojďme vyjít z následujících dat:
create table smlouvy
(zakaznik varchar (50), datum date);
insert into smlouvy (zakaznik, datum) values ('První
stavební','20050410');
insert into smlouvy (zakaznik, datum) values ('První
stavební','20050512');
insert into smlouvy (zakaznik, datum) values ('První
stavební','20050615');
insert into smlouvy (zakaznik, datum) values ('Tunel,
s.r.o.','20041205');
insert into smlouvy (zakaznik, datum) values ('Tunel,
s.r.o.','20050512');
insert into smlouvy (zakaznik, datum) values ('Tunel,
s.r.o.','20050518');
insert into smlouvy (zakaznik, datum) values ('Linuxman','20050301');
insert into smlouvy (zakaznik, datum) values ('Linuxman','20050401');
insert into smlouvy (zakaznik, datum) values ('Linuxman','20050501');
Především budeme chtít vybrat jeden záznam, ten s nejvyšším datem. To půjde dobře pomocí rozšíření LIMIT příkazu SQL. Takže, naposledy uzavřenou smlouvu zjistíme lehce takto:
select * from smlouvy
order by datum desc limit 1;
K tomu bych ale přece jen měl pár poznámek: Především, MySQL nepodporuje syntaxi s klíčovým slovem TOP, kterou možná znáte z jiných databázových systémů. Takže, tohle v MySQL NEBUDE fungovat:
select TOP 1 * from
smlouvy order by datum desc;
Za druhé, rozšíření LIMIT je mnohem pružnější než TOP, protože umožňuje zadat "počáteční" řádek a rovněž počet řádků, které mají následovat. Čehož pomocí TOP v jiných DBMS dosáhnout nejde. Takže, chcete-li sadu záznamů počínaje druhým nejvyšším datem a obsahující čtyři řádky v sadě, zkuste něco jako:
select * from smlouvy
order by datum desc limit 2,4;
Za třetí, prakticky vždy se rozšíření LIMIT používá v souvislosti s
kaluzulí ORDER BY, protože v praxi většinou nemá smysl vybírat
podmnožinu podle pořadí řádků z neseřazené
sady záznamů. A konečně za čtvrté - klauzule LIMIT může být pro
začátečníky ošidná, protože:
Jak asi očekáváte, vrací agregační funkce MAX() záznam s nejvyšší hodnotou v dané skupině (nebo v celé sadě, pokud chybí klauzule GROUP BY). Takže, nejvyšší datum dostaneme takto:
select max(datum) from
smlouvy;
Pokud bychom chtěli celý řádek (tedy jak datum, tak i odpovídajícího zákazníka), nemůžeme bohužel napsat:
select zakaznik,
max(datum) from smlouvy;
Protože mixování seskupených a nesekupených záznamů je logicky
nesmyslné. Můžeme ale dotaz přeformulovat takto:
select zakaznik,
max(datum) from smlouvy group by zakaznik;
což je syntaxe, která projde a zobrazí u každého zákazníka datum
naposledy uzavřené smlouvy.
Možná si říkáte, že možnost zobrazit nejvyšší datum pro každého zákazníka pomocí postupu popsaného výše je docela jednoduchá a zároveň velmi užitečná. Bohužel, praxe je trochu jiná. Většinou totiž tabulka obsahuje ještě jiné, neseskupitelné údaje, a ty bude třeba zpracovat. Mějme následující, lehce zmodifikovanou sadu záznamů, která kromě zákazníka a data sepsání bude ještě uvádět číslo smlouvy:
truncate table smlouvy;
alter table smlouvy add column cislosmlouvy int;
insert into smlouvy (zakaznik, datum, cislosmlouvy) values ('První
stavební','20050410',10);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values ('První
stavební','20050512',15);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values ('První
stavební','20050615',16);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values ('Tunel,
s.r.o.','20041205',18);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values ('Tunel,
s.r.o.','20050512',25);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values ('Tunel,
s.r.o.','20050518',30);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values
('Linuxman','20050301',31);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values
('Linuxman','20050401',32);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values
('Linuxman','20050501',17);
Zadání bude: Vybrat pro každého zákazníka jeho název a číslo smlouvy s nejvyšším datem uzavření. Samozřejmě nepomůže dotaz:
select zakaznik,
max(datum), cislosmlouvy from smlouvy group by zakaznik;
a nesprávné výsledky vrátí rovněž
select zakaznik,
max(datum), max(cislosmlouvy) from smlouvy group by zakaznik;
Proč? Protože první dotaz vybírá číslo smlouvy, na které "právě natrefí", zatímco druhý dotaz vrací nejvyšší číslo smlouvy pro daného zákazníka. Ani jeden dotaz však nevrací číslo smlouvy záznamu, který má pro daného zákazníka nejvyšší datum. Řešením je využít spojení ve smyslu:
select smlouvy.zakaznik,
smlouvy.cislosmlouvy from smlouvy join (select zakaznik, max(datum) as
datum from smlouvy group by zakaznik) as nejvyssi
on smlouvy.zakaznik = nejvyssi.zakaznik and smlouvy.datum =
nejvyssi.datum;
Neboli - využijeme data vrácená prostým výběrem maximálních hodnot a
spojíme je znovu s tou samou tabulkou pro dohledání zbývajících údajů.
Jak lze vidět, i s tabulkou obsahující tři sloupce si lze docela vyhrát.
V dalším díle se podíváme na jiný obvyklý problém, který může být na první pohled těžké pomocí jazyka SQL vyřešit, a tím bude vracení průběžných součtů.