MySQL (38) - Fulltext a praxe
Příklady na použití fulltextu v MySQL.
16.9.2005 07:00 |
Petr Zajíc
| Články autora
| přečteno 32431×
V tomto díle seriálu nebude žádná teorie. Opravdu. Slibuji.
Testovací data
Fulltextové vyhledávání se nejlépe zkouší na nějakých smysluplných
datech, a k tomu nejlépe, když jich je "větší než malé množství". Mějme
tedy následující tabulku:
create table clanky (id
int not null auto_increment, cislo int, zneni text, primary key (id));
s následujícím fulltextem
alter table clanky add
fulltext (zneni);
Najít smysluplná data na internetu také není problém, já jsem
tabulku naplnil údaji ze sesterského seriálu o PHP tímto triviálním
PHP skriptem:
<?php
$idclanku=Array(1=>171,172,173,176,177,178,179,180,181,183,
188,192,199,204,205,206,212,217,229,234,
252,257,264,269,270,274,292,296,297,303,
310,321,325,328,329,336,337,344,345,357,
361,366,368,369,375,408,414,420,422,425,
430,436,440,443,444,457,459,462,467,475,
484,488,492,502,504,514,517,523,524,538,
543,545,551,556,557,564,567,572,574,580,
587,588,609,613,617,623,626,629,635,636,
642,644,646,651,657,658,663,666,670,674
);
function textclanku($clanek){
global $idclanku;
$id=$idclanku[$clanek];
$url="http://www.linuxsoft.cz/article.php?id_article=$id";
ob_start();
readfile ($url);
$textclanku = ob_get_contents();
ob_end_clean();
$textzacatku="<h2><img
src=\"img/sipka1.png\" width=\"15\" height=\"15\" alt=\">\">";
$textkonce="<div
class=\"links\">";
$zacatek=strpos($textclanku,$textzacatku);
$konec=strpos($textclanku,$textkonce);
return substr($textclanku,$zacatek,($konec-$zacatek));
}
mysql_connect("localhost","root","") or die (mysql_error());
mysql_select_db("test");
mysql_query("SET NAMES 'utf8'");
for ($i=1; $i<=count($idclanku);$i++) {
$sql="insert into clanky
(cislo, zneni) values (".$idclanku[$i].",'".mysql_escape_string(textclanku($i))."')";
mysql_query($sql)or die (mysql_error());
}
?>
Pozn.: Pokud zrovna neholdujete
PHP, nezoufejte. Je to jen na okraj. Tento skriptík definuje stočlenné
pole hodnot, jehož každý člen obsahuje identifikátor článku ze seriálu
o PHP
na našem serveru. Toto stočlenné pole je postupně procházeno,
jednotlivé články se stahují a ukládají se do tabulky, kterou jsme
vytvořili. Zabýval jsem se tím jen proto, abych získal pro fulltextové
vyhledávání nějaká smysluplná data.
Vyhledáváme!
Takže, teď již máme opravdu vše pro vyhledávání fulltextem. K tomu
slouží v MySQL funkce MATCH.
Její nejjednodušší použití je následující:
select
* from
clanky where match (zneni) against ('substr');
Tento kód vybere ze seznamu článků ty, které obsahují hledanou frázi
- substr (to je jedna z
funkcí jazyka PHP). Přestože to z příkazu přímo nevyplývá, tento příkaz
vrátí výsledky sestupně podle relevance. To totiž funkce MATCH v
klauzuli WHERE bez uvedení implicitního řazení udělá vždy. Přestože je
relevance pouze hodnota sloužící k porovnávání, můžeme ji do výsledků
zahrnout - to by potom mohlo vypadat nějak takto:
select *, match (zneni)
against ('substr') from clanky where match (zneni) against ('substr');
Pozn.: Mohlo by se zdát, že to zatíže
server, protože ten bude muset provést řazení dvakrát. Nicméně není to
tak, podle dokumentace optimalizátor dotazů tuto situaci rozpozná a
fulltextové prohledávání provede pouze jednou.
Stejně tak by nebyl problém vyžádat si povinné seřazení položek -
třeba podle relevance vzestupně. Sice by to znamenalo, že
nejpravděpodobnější výsledky budou vráceny až naposled, ale syntakticky
je to možné. Odpovídající příkaz by byl:
select *, match (zneni)
against ('substr') from clanky where match (zneni) against ('substr')
order by match (zneni) against ('substr');
Všimněte si rovněž, že příkaz
select * from clanky
where match (zneni) against ('PHP');
žádné řádky nevrátí. Uplatní se zde pravidlo padesátiprocentního
prahu, protože fráze "PHP" se objevuje ve většině článků a je tudíž
vyhodnocena jako nepoužitelná. Všechny příklady jsem dosud uváděl s
tím, že hledaná fráze obsahovala jen jedno slovo - to pro jednoduchost.
Ve skutečnosti je spíše typické hledat slovní spojení. Takže, vypadalo
by to nějak takto:
select * from clanky
where match (zneni) against ('PHP ve spolupráci s apache');
Právě v tom je síla fulltextu - naprogramování něčeho podobného
"ručně" by vám nejspíš zabralo hodně času a úsilí. K tomuto
příkladu bych ještě připomněl, že slova "ve" a "a" budou z
fulltextového vyhledávání vypuštěna, protože jsou příliš krátká.
Boolean mode
To není všechno. MySQL umožňuje ještě mnohem pokročilejší techniky
fulltextového prohledávání. Databázi lze přikázat:
- Která slova v hledaném textu musejí být
- Která slova v hledaném textu nesmějí být
- Která slova budou při vyhledávání mít větší (nebo menší)
relevanci než tu, kterou by jim přiřadil počítač
- Která slovní spojení musejí být obsažena doslovně
- Některé další funkce pro zpřesnění vyhledávání.
Ke všemu tomu se dostanete prostřednictvím rozšíření funkce MATCH - IN
BOOLEAN MODE. Osvětlím to na pár příkladech:
select * from clanky
where match (zneni)
against ('+server -apache' IN BOOLEAN MODE);
najde články, které obsahují frázi server,
ale neobsahují frázi apache.
Kdybychom chtěli, aby byly nalezeny všechny články obsahující výraz databáze s tím, že výraz MySQL by byl pro nás méně
relevantní (ale vyloženě by nám nevadil), můžeme použít následující
syntaxi:
select * from clanky
where match (zneni) against ('+databáze <MySQL' IN BOOLEAN MODE);
Na stránkách manuálu se můžete dočíst i o dalších zběsilých formách
tohoto způsobu vyhledávání - lze například použít závorky a tak dále.
Poznámky
Měli byste vědět, že vyhledávání "IN BOOLEAN MODE" má některá
zajímavá omezení. Patří mezi ně:
- Pravidlo padesátiprocentního prahu se nepoužívá
- Výsledky nejsou automaticky řazeny sestupně podle relevance
- Může fungovat i bez existence odpovídajícícho FULLTEXT indexu,
ale je to dosti pomalé
- Existuje v databázi až od verze 4.0.1
K technice použití fulltextu v MySQL bych obecně uvedl následující -
pokud již máte data v MySQL (třeba v tom redakčním systému), může pro
vás použití fulltextu znamenat výhru - jeho nasazení a správa budou v
podstatě bezbolestné. Pokud to ale není váš případ, lze najít mnohem
obecnější fulltextové systémy - například Lucene. Vzájemné
porovnání fulltextových technologií není vůbec jednoduchá věc a
rozhodně to není předmětem našeho seriálu, ale je dobré mít na paměti,
že MySQL není jediný systém, který něco podobného umožňuje.
Verze pro tisk
|
Nejsou žádné diskuzní příspěvky u dané položky.
Příspívat do diskuze mohou pouze registrovaní uživatelé.
|
|
Vyhledávání software
Vyhledávání článků
28.11.2018 23:56 /František Kučera Prosincový sraz spolku OpenAlt se koná ve středu 5.12.2018 od 16:00 na adrese Zikova 1903/4, Praha 6. Tentokrát navštívíme organizaci CESNET. Na programu jsou dvě přednášky: Distribuované úložiště Ceph (Michal Strnad) a Plně šifrovaný disk na moderním systému (Ondřej Caletka). Následně se přesuneme do některé z nedalekých restaurací, kde budeme pokračovat v diskusi.
Komentářů: 1
12.11.2018 21:28 /Redakce Linuxsoft.cz 22. listopadu 2018 se koná v Praze na Karlově náměstí již pátý ročník konference s tématem Datová centra pro business, která nabídne odpovědi na aktuální a často řešené otázky: Jaké jsou aktuální trendy v oblasti datových center a jak je optimálně využít pro vlastní prospěch? Jak si zajistit odpovídající služby datových center? Podle jakých kritérií vybírat dodavatele služeb? Jak volit vhodné součásti infrastruktury při budování či rozšiřování vlastního datového centra? Jak efektivně datové centrum spravovat? Jak co nejlépe eliminovat možná rizika? apod. Příznivci LinuxSoftu mohou při registraci uplatnit kód LIN350, který jim přinese zvýhodněné vstupné s 50% slevou.
Přidat komentář
6.11.2018 2:04 /František Kučera Říjnový pražský sraz spolku OpenAlt se koná v listopadu – již tento čtvrtek – 8. 11. 2018 od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5). Tentokrát bez oficiální přednášky, ale zato s dobrým jídlem a pivem – volná diskuse na téma umění a technologie, IoT, CNC, svobodný software, hardware a další hračky.
Přidat komentář
4.10.2018 21:30 /Ondřej Čečák LinuxDays 2018 již tento víkend, registrace je otevřená.
Přidat komentář
18.9.2018 23:30 /František Kučera Zářijový pražský sraz spolku OpenAlt se koná již tento čtvrtek – 20. 9. 2018 od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5). Tentokrát bez oficiální přednášky, ale zato s dobrým jídlem a pivem – volná diskuse na téma IoT, CNC, svobodný software, hardware a další hračky.
Přidat komentář
9.9.2018 14:15 /Redakce Linuxsoft.cz 20.9.2018 proběhne v pražském Kongresovém centru Vavruška konference Mobilní řešení pro business.
Návštěvníci si vyslechnou mimo jiné přednášky na témata: Nejdůležitější aktuální trendy v oblasti mobilních technologií, správa a zabezpečení mobilních zařízení ve firmách, jak mobilně přistupovat k informačnímu systému firmy, kdy se vyplatí používat odolná mobilní zařízení nebo jak zabezpečit mobilní komunikaci.
Přidat komentář
12.8.2018 16:58 /František Kučera Srpnový pražský sraz spolku OpenAlt se koná ve čtvrtek – 16. 8. 2018 od 19:00 v Kavárně Ideál (Sázavská 30, Praha), kde máme rezervovaný salonek. Tentokrát jsou tématem srazu databáze prezentaci svého projektu si pro nás připravil Standa Dzik. Dále bude prostor, abychom probrali nápady na využití IoT a sítě The Things Network, případně další témata.
Přidat komentář
16.7.2018 1:05 /František Kučera Červencový pražský sraz spolku OpenAlt se koná již tento čtvrtek – 19. 7. 2018 od 18:00 v Kavárně Ideál (Sázavská 30, Praha), kde máme rezervovaný salonek. Tentokrát bude přednáška na téma: automatizační nástroj Ansible, kterou si připravil Martin Vicián.
Přidat komentář
Více ...
Přidat zprávičku
Poslední diskuze
31.7.2023 14:13 /
Linda Graham iPhone Services
30.11.2022 9:32 /
Kyle McDermott Hosting download unavailable
13.12.2018 10:57 /
Jan Mareš Re: zavináč
2.12.2018 23:56 /
František Kučera Sraz
5.10.2018 17:12 /
Jakub Kuljovsky Re: Jaký kurz a software by jste doporučili pro začínajcího kodéra?
Více ...
|