Tabulky všech zemí, spojte se! Nebojte, staré časy se nevrací, to jen v dnešním díle seriálu o MySQL bude řeč o spojování pomocí příkazu UNION.
12.8.2005 08:00 | Petr Zajíc | přečteno 47667×
... aneb tabulky všech zemí, spojte se. Dnes bude řeč o technice
spojování více sad záznamů do jedné, chcete-li si to nějak představit.
Může se jednat například o situaci, kdy budete chtít spojit současná
data s historickými záznamy a podobně. Leč jako vždy, nejprve trocha
teorie.
Příkaz pro spojení dvou sad v jednu v MySQL dlouho chyběl. K nelibosti vývojářů, kteří na tuto techniku byli zvyklí z jiných DBMS. Od verze 4.0.0 je však tato funkce k dispozici. Jde o to, že se výsledky jednoho příkazu SELECT spojí s výsledky jiného příkazu, takže to naoko vypadá, jako by ani nepocházely z více zdrojů. Mohlo by to vypadat nějak takto:
select id, nazev, autor
from knihy union select id, nazev, autor from stare_knihy
Platí přitom, že obě "zdrojové" sady záznamů musejí mít především
stejný počet polí. Takže, následující příkaz skončí chybou "The
used SELECT statements have a different number of columns
":
select id, nazev, autor
from knihy union select id, nazev from stare_knihy
protože se pokoušíme spojit sadu s třemi sloupci s jinou sadou,
která má sloupce pouze dva. Aby to nebylo až tak jednoduchá, tak navíc
platí, že spojované sloupce by měly mít stejný datový typ. Pokusíte-li
se spojit dvě sady záznamů a sloupce nebudou mít stejný datový typ,
operace UNION selže.
Abych nemluvil pouze o omezeních - JE možné spojit dvě sady záznamů, kde v každé z nich se spojovaná pole jinak jmenují (samozřejmě za předpokladuů uvedených výše). To znamená, že následující příkaz by mohl projít:
select id, nazev, autor
from knihy union select stare_id, stary_nazev, stary_autor from
stare_knihy
Nabízí se otázka - jak se v takovém případě budou jmenovat sloupce
výsledné sady záznamů? Odpověď je jednoduchá - budou se jmenovat tak,
jak se jmenují sloupce první sady. V našem případě tedy id, nazev a
autor.
Sloupce v příkazu SELECT nemusíte vyjmenovávat, můžete použít hvězdičkovou konvenci. Takže, i toto může být platný UNION, pokud mají tabulky stejnou strukturu:
select * from knihy
union select * from stare_knihy
Před tímto přístupem bych Vás však měl spíše varovat, než abych Vám
jej doporučoval. Problém je v tom, že stačí změnit strukturu libovolné
z oněch dovu tabulek a celé to přestane pracovat. Takže zásada - při
použití příkazu UNION více než kdy jindy vyjmenovávejte jednotlivé
sloupce.
Doposud jsem mluvil pouze o spojování dvou tabulek. Příkazem UNIOIN
však můžete spojit prakticky libovolný počet sad, takže se klíčové
slovo UNION smí opakovat.
Existuje jeden problém, s nímž se začátečníci používající příkaz UNION někdy potýkají, a tím problémem je, že UNION jako výchozí chování odstraňuje duplicitní řádky z výsledné sady záznamů. A to bez ohledu na to, zda duplicita pochází z jedné tabulky, nebo z různých tabulek. Toto chování Vám za prvé může vadit, a za druhé (logicky) zabere nějaký čas. Chcete-li se obojímu vyhnout, použijte namísto příkazu UNION příkaz UNION ALL.
select id, nazev, autor
from knihy union all select id, nazev, autor from stare_knihy
V takovém případě máte jednak jistotu, že duplicitní řádky budou
vráceny, a jednak dobrý pocit, že příkaz proběhne o nějakou tu
milisekundu rychleji než při použití "klasického" příkazu UNION. A
většinou je to to, co potřebujete.
Výsledky vrácené příkazem UNION lze řadit tak, jako lze řadit každou
jinou sadu záznamů, tedy pomocí klauzule ORDER BY v závěru příkazu.
Mějme však na paměti, že tento příkaz nejprve spojí obě (či všechny)
záznamy a teprve pak to celé seřadí. To je většinou to, co očekáváme.
Pokud byste chtěli nejprve řadit a pak spojovat, mám pro Vás dobrou
zprávu - i to MySQL umí. Podívejte se do manuálu, je
to tam popsáno.
Pozn.: Za svou praxi jsem to ale ještě
nepotřeboval, takže to berte spíše jako perličku než jako něco, co
byste měli doopravdy znát.
Čas od času je k vidění technika, kdy se data zapsaná do nějaké
tabulky po čase rozdělí - "čerstvá" data zůstávají v aktuální tabulce,
"stará" data jsou pak v tabulce archivní. Pokud má archiv stejnou
strukturu jako "živá" tabulka a potřebujeme data z obou, je UNION
(resp. UNION ALL) to pravé ořechové pro náš dotaz. Tato technika bývá k
vidění zejména u tabulek, které jsou velké a často modifikované na
konci (napříkad se může jednat o časově závislá statistická data).
Někdy potřebujeme (například do poddotazu a podobně) sestavit a použít virtuální, neexistující tabulku s více než jedním řádkem. V takovém případě může být mnohem rychlejší než vytvářet dočasnou tabulku použít něco jako:
select 1 as cislo union
select 2 union select 3 union select 4 union select 5
(tabulka může mít samozřejmě i více než jeden sloupec). Jelikož
MySQL s takovou "sadou" zachází jako s každou jinou, může to nejen
hodit, ale může to být rovněž velmi rychlé řešení.
Termínem "vzdáleně související data" mám na mysli taková data, která je obtížné nebo nemožné spojit pomocí relací. Může se jednat o data pro nějaký složitý kombinovaný report, o data obsahující jak podrobnosti tak i souhrny a podobně. I tady může být použití UNION namístě. Obyčejně se v takovém případě ještě dělá to, že se jeden sloupec vyhradí na identifikaci původní tabulky, protože to může být potřeba. Mám ny mysli něco jako:
select id, cas,
'vysledky' as tabulka from vysledky union all select id, cas, 'rekordy'
as tabulka from rekordy
Jistě existují i další, specifičtější příklady použití UNION. Pokud o nějakém víte a chcete se s námi o něj podělit, napište to do diskuse pod článkem.