MySQL (59) - české řazení
Podívejme se dnes ještě na konverze textu a rovněž na způsob, jak zajistit české řazení v MySQL.
17.2.2006 06:00 |
Petr Zajíc
| Články autora
| přečteno 25823×
Minulý díl seriálu vzbudil celkem dost ohlasů. Pojďme tedy nejprve
lehce doplnit látku o konverzi textových souborů mezi znakovými sadami
a potom se věnujme českému řazení v MySQL.
Změna kódování souboru
Jak jsme uvedli, pokud chceme importovat znaková data do MySQL, musí
nám souhlasit znaková sada v definici sloupce, do něhož data přijdou,
znaková sada klienta, který import zajišťuje (jako je řádkový klient
mysql) a znaková sada souboru, z něhož data čerpáme. Právě v tom
posledním bodě se někdy můžete zaseknout, protože soubor je dodán v
jiném kódování než potřebujete.
Iconv
Není třeba zoufat. Linuxoví guru nám přece odjakživa vtloukají do
hlavy, že Linux se skládá z celé řady malých prográmků, které dělají
jednu věc (a dobře). Jedním z nich je utilita na převod kódování zvaná
iconv. Její použití je velmi intuitivní, takže to předvedu přímo na
příkladu se vstupním souborem v UTF-8, který chceme dostat do
ISO-8859-2:
iconv -f UTF-8 -t
ISO8859-2 text_utf.txt -o text_latin2.txt
Volby jsou v tomto případě triviální - vstupní kódování, výstupní
kódování, název souboru pro konverzi. Za ním je uveden přepínač -o
přikazující programu přesměrovat výstup do souboru (ve výchozím stavu
přesměrovává na standardní výstup, což je obrazovka, a to nám ve
většině případů moc užitečné nebude). Za zmínku stojí
už snad jen příkaz
iconv -l
který vypíše seznam všech dostupných kódování, která pro konverzi
můžete použít. A pro našince potěší zpráva, že mezi nimi je jak
ISO8859-2, tak UTF-8, tak WINDOWS-1250. Nebudete tedy ponecháni na
holičkách, ať už dostanete svůj soubor v jakémkoli kódování. Protože s
MySQL laborují dost často lidé kolem webových stránek je třeba se
rovněž zmínit o tom, že PHP umí s iconv spolupracovat, takže můžete
napsat něco jako:
iconv("UTF-8", "ISO-8859-2", $nejaky_retezec)
A jeden tip nakonec: Pokud nevíte, v jakém kódování je vstupní
soubor, můžete použít klasický příkaz linuxu file, který se to pokusí
zjistit. Opět malý příklad:
file text_utf.txt
(výstup)text_utf.txt: UTF-8 Unicode text
Recode
Jako poněkud robustnější alternativu k iconv můžete použít program
recode. Má podstatnou výhodu: Pracuje přímo s konvertovaným souborem.
Uvědomte si ale, že to může být i nevýhoda. Další "drobností" je, že
recode v systému po instalaci nemusíte mít, kdežto iconv tam nejspíše
mít budete. Takže jenom dodám příklad:
recode ISO_8859-2..UTF-8
text_latin2.txt
a téma konverzí textových souborů můžeme opustit. Znovu bych
doporučil důsledně používat UTF-8 všude tam, kde jen je to možné. Proto
ho máme.
České řazení v MySQL
V dávných a dávných dobách byl docela problém donutit MySQL česky
řadit. Jak nejspíš víte, je české řazení dost specifické.
Máme písmena s čárkami, háčky a rovněž ch, které tvrdohlavě řadíme mezi h a i. Proto hovoříme o tom, že české
řazení je několikaprůchodové - prosté porovnání znaků nám leckdy k
určení pořadí zkrátka nestačí. Hezky je to rozebráno například tady. S tím vším se
musí databáze nějak vypořádat.
Naštěstí doby temna skončily a současné verze MySQL řadí česky
správně. Pochopitelně, že je třeba správně definovat typ sloupce a
požadované řazení. Můžeme si to ukázat na příkladu. Vytvoříme tabulku s
jedním sloupcem:
create table
test_razeni(polozka varchar(50) character set utf8 collate
utf8_czech_ci not null);
Všimněte si, že je nutné specifikovat řazení pomocí klíčového slova collate. Tabulku teď naplníme
nějakými daty:
insert into test_razeni
(polozka) values ('auto'),('cihla'),('česnek'),
('chleba'),('rum'),('ředkvička'),('zlato'),
('židle'),('stůl'),('špička'),('dav'),('ďábel'),('ňouma'),('nestor');
a seřadíme pomocí order by:
select * from
test_razeni order by polozka;
Jak můžete vidět, žádné nepříjemné překvapení se nekoná. Ch je na svém místě a slova s
diakritickými znaménky rovněž. Poměrně málo známý je trik se
specifikací COLLATE přímo v klauzuli ORDER BY. Můžete si například
předchozí sadu záznamů zkusit setřídit podle pravidel pro řazení unicode:
select * from
test_razeni order by polozka collate utf8_general_ci;
Kdy něco takového použít? Vlastně asi nikdy. Vždy je totiž lepší
zadat si výchozí způsob třídění pro daný sloupec nebo tabulku. Dokážu
si nicméně představit třeba nějakou mezinárodní webovou aplikaci, kde
by byl dejme tomu seznam měst a uživatel by mohl dostat tento seznam
setříděný podle svých národních zvyklostí. Uznávám ale, že je to dosti
vykonstruovaný příklad, protože názvy měst se stejně většinou píší i
třídí anglicky.
Ještě poznámka k webovým aplikacím. Autoři stránek se občas v
minulosti pokoušeli implementovat několikaprůchodové české řazení přímo
pomocí skriptů, jako je PHP. Pokud data pocházejí z databáze, mělo by
těmto pokusům zvolna odzvonit, protože obecně jakákoli databáze seřadí
data rychleji než skript. Samozřejmě pokud řazená data z databáze
nepocházejí, pak asi nezbyde než se pokusit o implementaci vlastního
řazení - ale je to úkol pro odvážné.
Verze pro tisk
|
Příspívat do diskuze mohou pouze registrovaní uživatelé.
|
|
Vyhledávání software
Vyhledávání článků
28.11.2018 23:56 /František Kučera Prosincový sraz spolku OpenAlt se koná ve středu 5.12.2018 od 16:00 na adrese Zikova 1903/4, Praha 6. Tentokrát navštívíme organizaci CESNET. Na programu jsou dvě přednášky: Distribuované úložiště Ceph (Michal Strnad) a Plně šifrovaný disk na moderním systému (Ondřej Caletka). Následně se přesuneme do některé z nedalekých restaurací, kde budeme pokračovat v diskusi.
Komentářů: 1
12.11.2018 21:28 /Redakce Linuxsoft.cz 22. listopadu 2018 se koná v Praze na Karlově náměstí již pátý ročník konference s tématem Datová centra pro business, která nabídne odpovědi na aktuální a často řešené otázky: Jaké jsou aktuální trendy v oblasti datových center a jak je optimálně využít pro vlastní prospěch? Jak si zajistit odpovídající služby datových center? Podle jakých kritérií vybírat dodavatele služeb? Jak volit vhodné součásti infrastruktury při budování či rozšiřování vlastního datového centra? Jak efektivně datové centrum spravovat? Jak co nejlépe eliminovat možná rizika? apod. Příznivci LinuxSoftu mohou při registraci uplatnit kód LIN350, který jim přinese zvýhodněné vstupné s 50% slevou.
Přidat komentář
6.11.2018 2:04 /František Kučera Říjnový pražský sraz spolku OpenAlt se koná v listopadu – již tento čtvrtek – 8. 11. 2018 od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5). Tentokrát bez oficiální přednášky, ale zato s dobrým jídlem a pivem – volná diskuse na téma umění a technologie, IoT, CNC, svobodný software, hardware a další hračky.
Přidat komentář
4.10.2018 21:30 /Ondřej Čečák LinuxDays 2018 již tento víkend, registrace je otevřená.
Přidat komentář
18.9.2018 23:30 /František Kučera Zářijový pražský sraz spolku OpenAlt se koná již tento čtvrtek – 20. 9. 2018 od 18:00 v Radegastovně Perón (Stroupežnického 20, Praha 5). Tentokrát bez oficiální přednášky, ale zato s dobrým jídlem a pivem – volná diskuse na téma IoT, CNC, svobodný software, hardware a další hračky.
Přidat komentář
9.9.2018 14:15 /Redakce Linuxsoft.cz 20.9.2018 proběhne v pražském Kongresovém centru Vavruška konference Mobilní řešení pro business.
Návštěvníci si vyslechnou mimo jiné přednášky na témata: Nejdůležitější aktuální trendy v oblasti mobilních technologií, správa a zabezpečení mobilních zařízení ve firmách, jak mobilně přistupovat k informačnímu systému firmy, kdy se vyplatí používat odolná mobilní zařízení nebo jak zabezpečit mobilní komunikaci.
Přidat komentář
12.8.2018 16:58 /František Kučera Srpnový pražský sraz spolku OpenAlt se koná ve čtvrtek – 16. 8. 2018 od 19:00 v Kavárně Ideál (Sázavská 30, Praha), kde máme rezervovaný salonek. Tentokrát jsou tématem srazu databáze prezentaci svého projektu si pro nás připravil Standa Dzik. Dále bude prostor, abychom probrali nápady na využití IoT a sítě The Things Network, případně další témata.
Přidat komentář
16.7.2018 1:05 /František Kučera Červencový pražský sraz spolku OpenAlt se koná již tento čtvrtek – 19. 7. 2018 od 18:00 v Kavárně Ideál (Sázavská 30, Praha), kde máme rezervovaný salonek. Tentokrát bude přednáška na téma: automatizační nástroj Ansible, kterou si připravil Martin Vicián.
Přidat komentář
Více ...
Přidat zprávičku
Poslední diskuze
31.7.2023 14:13 /
Linda Graham iPhone Services
30.11.2022 9:32 /
Kyle McDermott Hosting download unavailable
13.12.2018 10:57 /
Jan Mareš Re: zavináč
2.12.2018 23:56 /
František Kučera Sraz
5.10.2018 17:12 /
Jakub Kuljovsky Re: Jaký kurz a software by jste doporučili pro začínajcího kodéra?
Více ...
|