MySQL (29) - Vracení nejvyšších záznamů

Dnes se podíváme, jak řešit poměrně častou úlohu - vracení nejvyšších záznamů z nějaké množiny dat.

15.7.2005 08:00 | Petr Zajíc | přečteno 35318×

S látkou z mnulého dílu úzce souvisí poměrně časta potřeba různých aplikací - a tou je vracení jednoho či více "maximálních" záznamů z nějaké množiny. Může se jednat o nejvyšší teplotu, nejvyšší plat nebo cokoli měřitelného. Abychom ale neměli všechny příklady stejné, ukážu vám, že se to může týkat i třeba řazení kalendářních dat. Začněme hned s daty, protože jakékoli další vysvětlování je myslím zbytečné.

Vracení nejvyšších N záznamů

Zadání může být takové - máte tabulku zákazníků a s kažým zákazníkem sepisujete dodavatelsko - odběratelskou smlouvu. V tabulce budete chtít mít vždy zákazníka, a datum uzavření této smlouvy. Pojďme vyjít z následujících dat:

create table smlouvy (zakaznik varchar (50), datum date);
insert into smlouvy (zakaznik, datum) values ('První stavební','20050410');
insert into smlouvy (zakaznik, datum) values ('První stavební','20050512');
insert into smlouvy (zakaznik, datum) values ('První stavební','20050615');
insert into smlouvy (zakaznik, datum) values ('Tunel, s.r.o.','20041205');
insert into smlouvy (zakaznik, datum) values ('Tunel, s.r.o.','20050512');
insert into smlouvy (zakaznik, datum) values ('Tunel, s.r.o.','20050518');
insert into smlouvy (zakaznik, datum) values ('Linuxman','20050301');
insert into smlouvy (zakaznik, datum) values ('Linuxman','20050401');
insert into smlouvy (zakaznik, datum) values ('Linuxman','20050501');

Klauzule LIMIT

Především budeme chtít vybrat jeden záznam, ten s nejvyšším datem. To půjde dobře pomocí rozšíření LIMIT příkazu SQL. Takže, naposledy uzavřenou smlouvu zjistíme lehce takto:

select * from smlouvy order by datum desc limit 1;

K tomu bych ale přece jen měl pár poznámek: Především, MySQL nepodporuje syntaxi s klíčovým slovem TOP, kterou možná znáte z jiných databázových systémů. Takže, tohle v MySQL NEBUDE fungovat:

select TOP 1 * from smlouvy order by datum desc;

Za druhé, rozšíření LIMIT je mnohem pružnější než TOP, protože umožňuje zadat "počáteční" řádek a rovněž počet řádků, které mají následovat. Čehož pomocí TOP v jiných DBMS dosáhnout nejde. Takže, chcete-li sadu záznamů počínaje druhým nejvyšším datem a obsahující čtyři řádky v sadě, zkuste něco jako:

select * from smlouvy order by datum desc limit 2,4;

Za třetí, prakticky vždy se rozšíření LIMIT používá v souvislosti s kaluzulí ORDER BY, protože v praxi většinou nemá smysl vybírat podmnožinu podle pořadí řádků z neseřazené sady záznamů. A konečně za čtvrté - klauzule LIMIT může být pro začátečníky ošidná, protože:

  1. Ač se to nezdá, "LIMIT x" nemusí vrátit právě x záznamů. Jestliže je například výsledná sada záznamů prázdná, skončí příkaz prázdným výsledkem a nedojde přitom k žádné chybě.
  2. "LIMIT x" může sice vrátit x záznamů, ale nebudou to všechny záznamy, které jste si možná mysleli. V našem případě jsou třebas 12.5.2005 uzavřeny dvě smlouvy, které se mají "dělit" o třetí místo v pořadí podle data uzavření, příkaz s LIMIT 3 však vrátí VŽDY jen určený počet záznamů. Řečeno jinak - jestliže by všechny smlouvy byly uzavřeny tentýž den, LIMIT 3 vypíše jen tři z nich. Na to je třeba dávat pozor při sestavování různých žebříčků, protože byste mohli na někoho zapomenout.

Agregační funkce MAX

Jak asi očekáváte, vrací agregační funkce MAX() záznam s nejvyšší hodnotou v dané skupině (nebo v celé sadě, pokud chybí klauzule GROUP BY). Takže, nejvyšší datum dostaneme takto:

select max(datum) from smlouvy;

Pokud bychom chtěli celý řádek (tedy jak datum, tak i odpovídajícího zákazníka), nemůžeme bohužel napsat:

select zakaznik, max(datum) from smlouvy;

Protože mixování seskupených a nesekupených záznamů je logicky nesmyslné. Můžeme ale dotaz přeformulovat takto:

select zakaznik, max(datum) from smlouvy group by zakaznik;

což je syntaxe, která projde a zobrazí u každého zákazníka datum naposledy uzavřené smlouvy.

Složitější příklad

Možná si říkáte, že možnost zobrazit nejvyšší datum pro každého zákazníka pomocí postupu popsaného výše je docela jednoduchá a zároveň velmi užitečná. Bohužel, praxe je trochu jiná. Většinou totiž tabulka obsahuje ještě jiné, neseskupitelné údaje, a ty bude třeba zpracovat. Mějme následující, lehce zmodifikovanou sadu záznamů, která kromě zákazníka a data sepsání bude ještě uvádět číslo smlouvy:

truncate table smlouvy;
alter table smlouvy add column cislosmlouvy int;
insert into smlouvy (zakaznik, datum, cislosmlouvy) values ('První stavební','20050410',10);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values ('První stavební','20050512',15);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values ('První stavební','20050615',16);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values ('Tunel, s.r.o.','20041205',18);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values ('Tunel, s.r.o.','20050512',25);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values ('Tunel, s.r.o.','20050518',30);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values ('Linuxman','20050301',31);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values ('Linuxman','20050401',32);
insert into smlouvy (zakaznik, datum, cislosmlouvy) values ('Linuxman','20050501',17);

Zadání bude: Vybrat pro každého zákazníka jeho název a číslo smlouvy s nejvyšším datem uzavření. Samozřejmě nepomůže dotaz:

select zakaznik, max(datum), cislosmlouvy from smlouvy group by zakaznik;

a nesprávné výsledky vrátí rovněž

select zakaznik, max(datum), max(cislosmlouvy) from smlouvy group by zakaznik;

Proč? Protože první dotaz vybírá číslo smlouvy, na které "právě natrefí", zatímco druhý dotaz vrací nejvyšší číslo smlouvy pro daného zákazníka. Ani jeden dotaz však nevrací číslo smlouvy záznamu, který má pro daného zákazníka nejvyšší datum. Řešením je využít spojení ve smyslu:

select smlouvy.zakaznik, smlouvy.cislosmlouvy from smlouvy join (select zakaznik, max(datum) as datum from smlouvy group by zakaznik) as nejvyssi on smlouvy.zakaznik = nejvyssi.zakaznik and smlouvy.datum = nejvyssi.datum;

Neboli - využijeme data vrácená prostým výběrem maximálních hodnot a spojíme je znovu s tou samou tabulkou pro dohledání zbývajících údajů. Jak lze vidět, i s tabulkou obsahující tři sloupce si lze docela vyhrát.

V dalším díle se podíváme na jiný obvyklý problém, který může být na první pohled těžké pomocí jazyka SQL vyřešit, a tím bude vracení průběžných součtů.

Online verze článku: http://www.linuxsoft.cz/article.php?id_article=901