MySQL (20) - spojení více tabulek

Málokdy potřebujeme data jen z jedné tabulky. Dnes se v seriálu o MySQL dozvíme něco o teorii spojování a ukážeme si na jednoduchý příklad.

13.5.2005 15:00 | Petr Zajíc | přečteno 69928×

V díle seriálu o příkazu SELECT jsem uvedl, že tento příkaz umí vrátit data z více než jedné tabulky pomocí procesu, kterému se říká spojování tabulek. To je přesně to, o čem bude dnes řeč. Podíváme se na teorii spojování tabulek, a rovněž na jeden způsob, jakým se v MySQL spojované tabulky zapisují.

Teorie

Ačkoli jsme v seriálu zatím vždy vystačili s příklady s jednou tabulkou, v praxi je to málokdy tak jednoduché. Zvažme napřílad situaci, kdy budete chtít navrhnout databázi pro evidenci knih v knihovně. Můžete samozřejmě začít tabulkou popisující knihy:

create table knihy (id int auto_increment, nazev varchar (50), primary key (id));

Jestliže bude v knihovně více druhů knih (například detektivky a odborná literatura), zjistíte třeba časem, že ke každé knize bude užitečné evidovat druh. Můžete tedy tabulku knih rozšířit o sloupec DRUH, například takto:

alter table knihy add column druh varchar (20);

Nebo, s použitím výčtových typů možná lepší způsob:

alter table knihy add druh enum ('detektivky', 'odborná literatura');

Ačkoli principelně mohou být oba způsoby správné, mají rovněž tyto závažné nedostatky:

Například by naše virtuální knihovna mohla chtít stanovit, že každý druh půjčovaných knih bude mít maximální dobu výpůjčky. Třeba detektivky bychom mohli postrádat měsíc, kdežto odbornou literaturu bychom chtěli půjčovat maximálně na týden. Jak na to jít? Pokud uděláme následující zásah:

alter table knihy add max_doba_vypujcky tinyint;

zjistíme, že u každé knihy se bude opakovat jak druh, do nějž kniha spadá, tak i maximální doba výpůjčky pro daný druh. Není to vůbec dobře, a to z několika důvodů:

  1. Tabulka neúměrně narůstá
  2. Skladují se duplicitní údaje
  3. Když budeme chtít detektivky půjčovat ne na měsíc, ale na šest neděl, musíme kvůli tomu zaktualizovat všechny záznamy v tabulce knih, jejichž druh je detektivka.

Asi tušíte, že se to v praxi opravdu tak nedělá. Je to pravda, obyčejně se vytvoří dvě tabulky - jedna pro knihy a další pro druhy knih - a pak se spojí. Tabulky se vytvoří běžným způsobem s tím, že tabulce druhů dáme rovněž automaticky číslované pole (za chvíli uvidíme proč). V tabulce knih bude pole druh, ale nebude to text, bude to celé číslo odkazující na odpovídající řádek v tabulce druhů knih. Celé to může vypadat nějak takto:

create table knihy (id int auto_increment, nazev varchar (50), druh id, primary key (id));
create table druhy (id int auto_increment, nazev varchar (20), max_doba_vypujcky tinyint, primary key (id));

Představme si teď následující data v obou tabulkách:

insert into druhy (nazev, max_doba_vypujcky) ;
values ('detektivky',30),('odborná literatura',7);
insert into knihy (nazev, druh) values ('Smrt na Nilu',1), ('Kdo chce zabít Zajíce?',1),
('Sto způsobů, jak shodit Windows',2),('Linux dokumentační projekt',2);

Vidíme, že tabulka druhů získala dva řádky (s ID č. 1 jsou to detektivky a s ID č. 2 pak odborná literatura) a tabulka knih 4 řádky (2 detektivky a 2 svazky odborné literatury). Jak to teď ale spojit?

Nejjednodušší spojení

Nejjednodušší způsob spojení je vyjmenovat v příkazu SELECT obě tabulky. Pokud chcete, můžete si jako rozcvičku zkusit spustit následující příkaz (je to syntakticky správně):

SELECT * FROM knihy, druhy;

Vyjmenováním více než jedné tabulky v příkazu SELECT způsobíme, že MySQL vrátí sadu, v níž budou všechny kombinace řádků z obou (případně ze všech) tabulek. Ta nám většinou bude k ničemu, protože nás zajímají pouze řádky související. Jak ale víme, lze výslednou množinu omezit pomocí klauzule WHERE. Mnohem užitečnější tedy bude omezit data na taková, kde druh z tabulky knih souvisí s druhem v tabulce druhů, takto:

select * from knihy, druhy where knihy.druh = druhy.id;

A tomu se v databázové hantýrce právě říká spojení. Pokud si to zkusíte, zjistíte, že dotaz vrátil sice data z obou tabulek, ale jen taková, která spolu opravdu souhlasí. Takto tedy můžeme jednoduše vracet data z více tabulek. K tomu si dovolím ještě několik postřehů:

  1. Použití SELECT * vrátí všechny sloupce ze všech tabulek. Je dobré na to myslet, většinou je taková sada zbytečně široká.
  2. Je možné vrátit data z jedné tabulky pomocí syntaxe SELECT [název tabulky].* a přesto využít spojení. V praxi by se to dalo udělat třeba v případě, kdy byste si přáli získat seznam knih, které mají zadán druh.
  3. V případě podobných konstrukcí se dá předpokládat, že zařazení všech sloupců do výsledného dotazu bude zbytečné. V našem případě například sloupec knihy.druh obsahuje stejné údaje jako druhy.id (aby ne, vždyť to byla podmínka). Minimálně jeden z těchto sloupců lze ve výsledné sadě vynechat, možná i oba.
  4. Při spojování tabulek se můžeme dostat do situace, kdy ve výsledné množině budeme mít dva či více sloupců se stejným názvem. Například my máme dva sloupce s názvem id a dva sloupce s názvem nazev. Tomu byste se měli pokud možno vyhýbat. Ačkoli sestavení takové sady záznamů není žádný problém pro MySQL, může mít se zpracováním takových dat problém aplikace, která je požaduje. Této mezní situaci se vyhnete vynecháním duplicitnách sloupců nebo použitím aliasů sloupců.

Výše uvedené zásady bychom mohli demostrovat přepsaným dotazem. Lepší verze by tedy byla:

select knihy.id, knihy.nazev, druhy.nazev as druh,
max_doba_vypujcky from knihy, druhy where knihy.druh = druhy.id;

Všimněte si, že sloupec nazev z tabulky druhů jsem nazval druh a že jsem počet vrácených sloupců omezil. Většina správně napsaných aplikací nebude mít problém s takovou sadou záznamů.

Příště uvidíme, že MySQL, stejně jako řada dalších databází má i jiný, častěji používaný a výkonnější způsob zápisu spojení. Je to důležité téma, takže se máte na co těšit.

Online verze článku: http://www.linuxsoft.cz/article.php?id_article=827