Příliš žluťoučcí koně - prostě hrátky s nabodeníčky stokrát jinak a pokaždé s MySQL.
10.2.2006 06:00 | Petr Zajíc | přečteno 38942×
Teorie bylo minule až dost, takže vzhůru na praktické uplatnění
vědomostí o MySQL a znakových sadách.
Především je třeba vědět, že při definici tabulky lze v MySQL určit znakovou sadu a řazení pro každý sloupec zvlášť. V jediné tabulce tedy můžete mít sloupce s různým kódováním znaků. Příkaz, který to zajistí lze napsat nějak takto:
CREATE TABLE cestina (
win VARCHAR(50) CHARACTER SET cp1250 COLLATE cp1250_czech_cs,
latin VARCHAR(50) CHARACTER SET latin2 COLLATE latin2_czech_cs,
utf VARCHAR(50) CHARACTER SET utf8 COLLATE utf8_czech_ci
) TYPE = MYISAM ;
Samozřejmě, že v reálné aplikaci to většinou nebudete potřebovat. Tam často postačí definovat znakovou sadu pro celou tabulku, a tato znaková sada je pak použita pro všechny sloupce obsahující řetězce.
CREATE TABLE
cestina_cela (
text1 VARCHAR( 50 ) NOT NULL ,
text2 VARCHAR( 50 ) NOT NULL ,
text3 VARCHAR( 50 ) NOT NULL
) TYPE = MYISAM CHARACTER SET utf8 COLLATE utf8_czech_ci;
Leč zpátky k prvnímu příkladu. Pokud se nyní do tabulky cestina pokusíte zapsat data následujícím příkazem:
insert into cestina
(win, latin, utf) values ('Příliš žluťoučký kůň pěl ďábelské
ódy','Příliš žluťoučký kůň pěl ďábelské ódy','Příliš žluťoučký kůň pěl
ďábelské ódy');
Skončíte na 99% chybovým hlášením "Data too long for column 'win' at
row 1", nebo něčím hodně podobným. Než se to pokusím vysvětlit, je
třeba uvést, že:
Jakou znakovou sadu tedy vlastně používá řádkový klient mysql, když
"mluví" s databází? A vůbec - nějakou znakovou sadu přece musí používat
jakýkoli klient, řádkovým počínaje a třeba PHP skriptem konče, takže
jak to je? Odpověď je jednoduchá - server PŘEDPOKLÁDÁ, že klient bude
posílat data v určité znakové sadě! Ta je dána systémovou proměnnou
character_set_client a je předkonfigurována při instalaci.
Pozn.: Což je pro neznalé hotové
neštěstí, neb až do verze 4.1 byla výchozí latin1 - něco, co našincům
moc vyhovovat nebude. Naštěstí se zdá, že většina instalací "pětek" má
přednastavenou utf8.
To, jakou znakovou sadu Váš server od klienta očekává si můžete ověřit následujícím dotazem:
SHOW VARIABLES LIKE
'character_set_client';
To byly špatné zprávy, teď něco dobrých. Bez ohledu na to, jaká je výchozí znaková sada si můžete poručit, že pro Vaše připojení budete používat specifickou sadu. To provedete pomocí veledůležitého příkazu SET NAMES. Jestliže tedy budu chtít ve zdraví provést příkaz INSERT INTO, jak je uveden výše, mohu na to jít nějak takhle:
set names cp1250;
insert into cestina (win) values ('Příliš žluťoučký kůň pěl ďábelské
ódy');
set names latin2;
insert into cestina (latin) values ('Příliš žluťoučký kůň pěl ďábelské
ódy');
set names utf8;
insert into cestina (utf) values ('Příliš žluťoučký kůň pěl ďábelské
ódy');
Důležité:
Mají-li se data do databáze dostat ve správné znakové sadě, musí tedy
platit ZÁROVEŇ tato dvě pravidla:
Pokud si příklady zkoušíte a zapsali jste cvičná data do tabulky, můžete je teď zkusit pomocí řádkového klienta zobrazit:
a ejhle! Pokaždé se správně zobrazí jen ten sloupec, pro nějž je
odpovídajícím způsobem nastavena znaková sada. Čímž se vlastně
dostáváme k dalšímu tématu - a tím je spolupráce s PHP.
Tady není moc co dodat. Je třeba si uvědomit, že z hlediska databáze je PHP klient jako každý jiný, a že je tudíž namístě specifikovat v našich ctěných skriptech rovněž odpovídající příkaz SET NAMES, nějak takhle:
<!DOCTYPE HTML PUBLIC "-//W3C//DTD
HTML 4.01 Transitional//EN">
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<title>Test znakových sad</title>
</head>
<body>
<?
mysql_connect("localhost","root");
mysql_select_db("test");
mysql_query("SET NAMES 'cp1250';"); //nebo 'latin2' nebo
'utf8'
$vysledek=mysql_query("select * from cestina;");
while ($zaznam=MySQL_Fetch_Array($vysledek)):
echo $zaznam["win"]."<BR>\n";
echo $zaznam["latin"]."<BR>\n";
echo $zaznam["utf"]."<BR>\n";
endwhile;
?>
</BODY>
</HTML>
Samozřejmě, že něco takového se musí udělat ještě předtím, než
databáze vrátí data, jinak je to zbytečné. Pokud si to chcete
vyzkoušet, zjistíte, že pokaždé jsou správně zobrazena jen data v
odpovídající znakové sadě, a že ostatní je "rozsypaný čaj".
Jestliže importujeme data do MySQL z textových souborů, je třeba
navíc dbát na to, aby i vstupní soubor s daty byl ve správné znakové
sadě. Jinak platí to, co jsme uvedli výše. Tedy:
Není to složité, když si uvědomíte, jak spolu jednotlivé věci souvisejí. Nepříjemné je, že musí být splněno více podmínek - a když nejsou, nevyjde to.