MySQL umí vyhledávat fulltextem. Co to je, k čemu to použít a na co dát pozor se dozvíte v dnešním díle seriálu.
9.9.2005 07:00 | Petr Zajíc | czytane 37237×
RELATED ARTICLES
KOMENTARZE
Nástroji, které se dají použít pro fulltextové vyhledávání se
jednotlivé databázové systémy liší, někdy dosti podstatně. V případě
MySQL mám pro Vás dobrou zprávu - tato databáze umí používat fulltext a
jde jí to celkem dobře. Fulltextové vyhledávání bude námětem dnešního
článku. Protože
(zejména při spolupráci MySQL, nějakého skriptovacího jazyka a webu) se
Vám tato funkce může velice hodit, rozebereme si ji poměrně podrobně,
hned ve dvou dílech.
Nejprve však mi dovolte nastínit něco teorie.
Fulltextové vyhledávání
Podle definice je fulltext "metoda vyhledávání textu uvnitř
dokumentů". Jako klasický příklad se uvádí situace, kdy máte k
dispozici sadu textů (možná umístěných v síti internet, na disku a
podobně) s různými tématy a jediný cíl - najít text, který se bude
zabývat vyhledávaným slovem, slovním spojením nebo frází. Většina
definic jedním dechem dodává, že v databázích se k realizaci
fulltextového vyhledávání používá speciální typ indexu.
Typickou fulltextovou funkci tedy "nakrmíte" seznamem prohledávaných
textů a hledaným výrazem. Výsledkem je (nejčastěji) číslo, kterému se
říká relevance (český
ekvivalent závažnost nebo váha se v odborných kruzích moc
neujal) a které uvádí pravděpodobnost, že prohledávaný článek obsahuje
to, po
čem jsme pátrali. Velice častým výstupem je potom seřazení výsledků
sestupně podle relevance (tedy nejpravděpodobnější výsledky nejvýše).
Fulltextové vyhledávání plní trochu komplexnější úlohu než funkce
pro práci s textem vyhledávající jeden řetězec v jiném (v MySQL
představované třeba
řetězcovou funkcí INSTR). Fulltext totiž umí při vyhledávání zohlednit
četnost vyhledáváných slov v daném textu, jejich vzájemnou vzdálenost a
podobně. Existují dokonce nástroje pro jemné doladění prohledávání -
třeba příkaz pro "umělé" snížení relevance některého z hledaných slov.
Fulltext a MySQL
To, co jsme uvedli v definici platí i pro MySQL - s jistými
omezeními. Měli byste ale vědět, že v praxi ani sebelepší fulltext není
všemocný. Pokud se budete pohybovat v česko-slovenských vodách, měli
byste vědět, že v souvislosti s použitím fulltextu v MySQL můžete pěkně
narazit na:
- diakritiku. Ne snad, že by si fulltextové vyhledávání s
diakritikou neumělo poradit. Spíše ale budete prohledávat texty
(například diskuse k článkům), v nichž někdo diakritiku používá a někdo
ne. Slovo kočička tak nebude
vůbec odpovídat slovu kocicka.
- skloňování. Slovo kočička nebude
MySQL považovat za stejné jako výraz kočiček,
takže v tomto případě obdržíte při vyhledávání takové výsledky, jako by
se jednalo o dvě naprosto různá slova.
Pozn.: V této souvislosti je
zajímavé vědět, že existují fulltextové vyhledávače, které skloňování
umí. Ne však v MySQL; takové nástroje patří mezi velmi pokročilé a
používají se především u internetových vyhledávačů. A ještě doplním, že
technologie za většinou vyhledávačů je mnohem komplexnější, než aby
obsahovala "pouhý" fulltext.
Při používání fulltextu v MySQL byste měli vědět o dalších
omezeních, které je nutné vzít v úvahu. Patří mezi ně:
- Fulltextové vyhledávání lze (celkem logicky) používat pouze u
sloupců obsahujících řetězce (tedy CHAR, VARCHAR nebo TEXT)
- Fulltextové vyhledávání nerozlišuje velikost znaků. To však lze
obejít tím, že je sloupec definován s klíčovým slovem BINARY - pak je
brána v úvahu i velikost písmen.
- Fulltextové vyhledávání lze použít u MySQL pouze tehdy, pokud
jsou prohledávané tabulky typu MyISAM. O typech MySQL tabulek jsme
ještě v tomto seriálu nehovořili, takže vám jen poskytnu link
na oficiální dokumentaci a nechám to na jindy.
- To, že daná tabulka má "umět" fulltextové vyhledávání lze určit
již při její definici, nebo kdykoli později. Vzhledem k tomu, že MySQL
používá pro zajištění fulltextového prohledávání tabulek index, platí
pravidlo, které jsme již rozebírali
- při hromadném nahrávání dat se vyplatí případný index zrušit, nahrát
všechna data a pak jej znovu vytvořit. Je to mnohem rychlejší než plnit
masivně daty tabulku, která už nějaký fulltextový index obsahuje.
- Jelikož je fulltext realizován indexem, můžete v MySQL touto metodou
prohledávat více sloupců najednou (pomocí indexu vytvořeného na více
sloupcích).
- Jelikož je fulltext realizován indexem, můžete mít v jediné tabulce i více
fulltextových indexů. To se může hodit - jednou budete chtít vyhledávat
například podle textu článku, jindy i podle jména autora či perexu.
- Jelikož je fulltext realizován indexem, nemůžete v MySQL bohužel fulltextem
vyhledávat data pocházející z více než jedné tabulky. To může nasazení
fulltextu pro některé projekty zhola znemožnit, protože existující data
mohou být ve více souvisejících tabulkách.
Aby těch omezení nebylo málo, platí pro práci s fulltextem v MySQL i
další
"pravidla hry".
- Fulltextové vyhledávání funguje smysluplně pouze pro větší počet
záznamů. Tabulku s jedním záznamem nelze smysluplně fulltextovat.
- Slova kratší než 4 písmena jsou z fulltextového vyhledávání
vypuštěna. Takže, výraz pes
si fulltextově nevyhledáte. (U verze databáze 4.0 nebo vyšší lze ovšem
minimální délku slova pro zahrnutí do fulltextu nastavit)
- Existuje seznam tzv. "stop slov", která jsou často používána a
která jsou z vyhledávání vyloučena. Patří mezi ně například anglický
člen the. Seznam lze upravit.
- Dále, existuje pravidlo "padesátiprocentního prahu". To stanoví,
že slova, která se vyskytují ve více než 50% prohledávaných záznamů
jsou z fulltextování vyloučena. To lze "vypnout" přepsáním zdrojového
kódu MySQL a rekompilací nebo obejít pomocí alternativní metody práce s
fulltextem
- Konečně, verze MySQL 4.0.1 a vyšší obsahují tzv. BOOLEAN MODE
fulltext, který umožňuje mnohem pokročilejší práci s fulltextem a který
vám rozhodně příště předvedu.
Vytvoření fulltextového indexu
Mějme v MySQL tabulku obsahující sloupce CHAR, VARCHAR nebo TEXT.
Klasicky se fulltextové vyhledávání předvádí na fragmentu nějakého
webového redakčního systému - je to sice poněkud otřepané, ale typické,
takže se toho budu rovněž držet.
create table clanky
(nazev varchar (50), zneni text);
Na této tabulce můžete vytvořit fulltextový index takto:
alter table clanky add
fulltext (zneni);
a/nebo, pokud bychom byli dychtivi vyhledávání rovněž v názvech
článků, lze definovat jiný fulltext
alter table clanky add
fulltext (nazev, zneni);
Oba fulltextové indexy mohou existovat na tabulce současně. Dost to
zpomalí aktualizaci tabulky, ale umožní to vyhledávat výrazy jak v
článku, tak v kombinaci článek + název.
Pozn.: Hořekování nad pomalostí
změny dat v tabulkách však leckdy nemá u fulltextových vyhledávání
valný význam. Často se touto metodou zpracovávají data, která se mění
jen jednou nebo zřídka (jako třeba právě články v databázi redakčního
systému) a právě u nich je ztráta času při vložení záznamů snesitelná.
Tento díl seriálu byl jen teoretický (pro někoho možná až příliš).
Nicméně příští díl bude nabit praktickými ukázkami vyhledávání, takže
se máte na co těšit. Ukážeme si, jak vyhledávat fulltextově v
rozsáhlých datech - ještě prozradím, že to budou opravdu data "ze
života", takže doufám, že to bude pro čtenáře přínosné.