|
||||||||||||||||||||||||||||||||||||||||||||||||
Menu
Distributions (131)
Software (10844)
|
Perl (24) - Regulární výrazy - příkladyNáš miniseriál se pomalu chýlí ke konci. Předposlední díl bude ryze praktický.
Již znáte řadu konstrukcí, které se v regulárních výrazech používají, ale jedna důležitá věc stále chybí. Dosud zde byly regulární výrazy podány výhradně teoreticky. Dnes se to změní, protože celý díl je věnován čistě příkladům. Testování vstupuTo, že je třeba každý vstup z neověřeného zdroje testovat, je jasné. A právě regulární výrazy nabízejí spolehlivé a pohodlné řešení. Mechanizmus takového testování si ukážeme. Budeme chtít po uživateli zadat trojciferné číslo a vzápětí zkontrolujeme, zda ho opravdu zadal. Na takové drobnosti se regulární výrazy využívají velmi často.
print "Zadej trojciferné číslo: "; Validace emailové adresyVyjádření emailové adresa je další regulární výraz, který patří k těm nejčastějším. Dokonalý zápis je velice složitý. Jeho vytvoření je popsáno v knize Mastering Regular Expressions. My se spokojíme s poměrně jednoduchým zápisem. Před zavináčem povolíme alfanumerické znaky a dále tečku a pomlčku. Část za zavináčem se skládá ze 2 částí. Doménu lze vyjádřit stejně jako jméno před zavináčem a přípona se skládá ze 2-4 písmen. Uvádím pouze samotný regulární výraz:
/^[\w\.-]+@[\w\.-]+\.[a-z]{2,4}$/i
Hledání odkazů v HTML souboruMáme HTML soubor. Z něj chceme získat vše, co je mezi <a href=" a "> a mezi <a...> a </a>. Tedy odkaz a jeho popis. Získaná data vytiskneme. Budeme postupně načítat řádky souboru (nebudeme brát ohled na odkazy obsahující znak nového řádku). V každém řádku se pokusíme najít HTML odkaz, z něj zapamatujeme adresu a popis a vytiskneme. Protože mohou existovat řádky bez odkazu, je nutné tisknout pouze v případě, že porovnání vzoru bylo úspěšné. Toho dosáhneme podmíněnním příkazu print. Dále víme, že HTML není case sensitive. Proto přidáme přepínač i.
open SOUBOR, "index.html" or die "Nelze otevřít soubor. $!"; Vyvstává nám tu několik problémů. Co když je na 1 řádku více odkazů? Na každý řádek se totiž aplikuje regulární výraz pouze jednou, není proto šance najít více než 1 odkaz. Problém by vyřešil další cyklus. Není ale potřeba nic zásadně upravovat. Pouze if zaměníme za while. Dalším problémem jakým způsobem vyhoví řetězce jako <a href="xxx'...> Jako odkaz se vyseparuje pouze xxx. Jinými slovy musíme zajistit, aby byly oba uvozující znaky stejné. To je úloha jako šitá pro pamatování. Uzavřeme tedy úvodní uvozovací znak do závorek (['"]) a místo dalšího ['"] pro uzavření jen \1. Podobně upravíme část ([^"']*), kde nahradíme znaky "' za \1. Po provedení úprav získáváme již funkční program:
open SOUBOR, "index.html" or die "Nelze otevřít soubor. $!"; Zvýraznění skalárních proměnnýchVytvoříme nástroj, který přijímá jako parametr soubor, ve kterém zvýrazní všechny skalární proměnné. Bude-li se například vyskytovat v textu řetězec '$promenna', bude nahrazen za '<font color="#800000">$promenna</font>'. Každou iterací cyklu načteme řádek zdrojového kódu Perlu, v něm zvýrazníme výskyty proměnných a vytiskneme výsledek. Jediný problém tak spočívá ve vytvoření vzoru, kterému vyhoví identifikátor skalární proměnné. Vzor bude začínat dolarem, následuje libovolné písmeno nebo podtržítko (nebereme ohled na speciální proměnné) a nakonec libovolný počet znaků slova. Celý vzor uzavřeme do kulatých závorek, získáme tak proměnnou $1, kterou použijeme jako část náhrady.
while (<>){ Získání adresáře a jména souboru z umístěníŘetězec, který je cestou k souboru, rozdělíme na 2 části. Na adresář, ve kterém je daný soubor a jeho relativní jméno. Víme, že oddělovacím znakem je poslední lomítko. Využijeme tak hladovosti kvantifikátorů.
$umisteni = "/boot/grub/menu.lst"; Výpočet výrazů v textuNa vstupu přijme program textový řetězec, ve kterém se občas může vyskytnout podřetězec <<výraz>>. Výraz vyhodnotíme a získanou hodnotu za něj nahradíme. Budeme tedy postupně načítat řádky textu a v něm takové výrazy hledat. Na 1 řádku se může vyskytnout více výrazů, proto použijeme přepínač g. Další přepínač, který aplikujeme, je e. Umožňuje nám přímo v regulárním výrazu nahrazovat za výsledek nějakého výrazu. A použijeme ho hned 2krát, protože ještě potřebujeme vyhodnotit řetězec, jako by byl částí zdrojového kódu.
while (<>){ Spíše jen pro ukázku zde uvádím zápis stejného programu, který používá pouze jeden přepínač e. Funkce eval může ten druhý zastoupit.
while (<>){ Pošleme programu na vstup řetězec
Týden má <<7>> dní, <<7*24>> hodin, <<7*24*60>> minut nebo <<7*24*60*60>> sekund. a získáme
Týden má 7 dní, 168 hodin, 10080 minut nebo 604800 sekund.
Upozorňuji, že toto je jen ilustrační příklad na regulární výrazy. Mimo jiné je totiž také velkou bezpečnostní dírou. Umožňuje spuštění příkazů. Například po zadání řetězce "...<<system("rm soubor")>>..." bude proveden systémový příkaz rm soubor. Speciální techniky, kterými se lze chránit, probereme někdy v budoucnu. Zdvojení všech znaků slova v řetězciProblém vyřešíme tak, že vyhledáme všechny (přepínač g) výskyty znaků slova a ty jednoduše zdvojíme. Nejlepší řešení vede přes pamatování, ale abychom vyzkoušeli také něco dalšího, použijeme proměnnou $&.
$_ = "LINUX & PERL"; Validace HTML taguHTML tagem může být <html>, <a href="http://www.linuxsoft.cz">, </b>, <img src="logo.png"/> nebo i <center >. Možností je celá řada. Pokusíme se je v co největší míře obsáhnout v našem řešení. Tag bude vždy začínat znakem < a končit znakem >. Za úvodním < následuje případné lomítko a dále samotné jméno tagu. To je složeno z nenulového počtu znaků slova. Potom je možných ještě několik bílých znaků, dále opět nepovinné lomítko a nakonec znak >. To je struktura tagu, který nemá žádné parametry. Argumenty se píší za jméno tagu. Může jich být libovolné množství. Každý z parametrů začíná bílým znakem. Tu následuje nenulový počet znaků slova. Nyní jsou v našem výrazu implementovány i přepínače. Ale stále chybí pravé parametry. Za přepínačem může nepovinně být rovnítko (případně obalené bílými znaky) a nějaká hodnota - v uvozovkách, apostrofech, nebo jako holé slovo. U HTML tagů nezáleží na velikosti písmen. O to se ale starat nemusíme, protože jsme nikde konkrétní velikost neuváděli. Když všechny tyto poznatky aplikujeme na regulární výraz, vznikne nám toto:
/ Ale nemůže to stále být konečné řešení, protože vyhoví i řetězec </x/>, který tagem rozhodně není. Lomítko tedy může být maximalně jedno - buď na začátku nebo na konci. Toho docílíme rozvětvením.
/ Generování příkazů INSERT z dat textového souboruNakonec si uvedeme (po testování vstupu) asi nejpraktičtější příklad. Řekněme si, že máme data v nějakém textovém souboru a chceme je dostat do databáze. Ve zdrojovém souboru je máme k dispozici ve formátu sloupec\tsloupec\tsloupec... (sloupce oddělené tabulátorem), tedy například: 20050101 50000 20050102 84000 20050103 0 20050102 -20000 20050104 47000 Právě pro případ dvou sloupců si napíšeme skript, který data převede na INSERT příkazy: INSERT INTO finance (datum, zisk) VALUES ("20050101", "50000"); INSERT INTO finance (datum, zisk) VALUES ("20050102", "84000"); INSERT INTO finance (datum, zisk) VALUES ("20050103", "0"); INSERT INTO finance (datum, zisk) VALUES ("20050104", "-20000"); INSERT INTO finance (datum, zisk) VALUES ("20050105", "47000"); Náš příklad je velmi konkrétní. Mělo by to usnadnit pochopení. Postupně načteme každý řádek, rozdělíme na jednotlivé sloupce a vygenerujeme INSERT příkaz.
open DATA, "data" or die "Nelze cist zdroj dat\n"; Poznámka - samozřejmě by šlo rozdělení řešit jednodušeji přes split:
($datum, $zisk) = split "\t", $_; Zkusíme si ještě podobnou věc a to generování INSERT příkazů z dokumentů tabulkových editorů. Přesně toto jsem kdysi potřeboval a někde jsem našel velice hezké řešení. Prvním krokem je uložit dokument v nějakém textovém formátu - například CSV. CSV soubor může vypadat třeba takto:
0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0;0 Středníky jsou oddělovače sloupců a konce řádků oddělovače řádků. V každé buňce máme hodnotu 0 nebo 1. Tuto dvojrozměrnou strukturu budeme ukládat do jednoho rozměru. Pro každou buňku budeme tedy chtít v databázi uložit její souřadnice.
my $radek; Poznámka - rozdělení by opět šlo řešit jednodušeji použitím funkce split:
@radek = split(";", $radek); Dnes jsem se pokusil ukázat široké využití regulárních výrazů. Doufám, že jsem vám dodal alespoň trochu inspirace. Příští díl bude ze série o regulárních výrazech poslední. Podíváme se na měření rychlosti a debugging.
|
Search Software
Search Google
|
||||||||||||||||||||||||||||||||||||||||||||||
©Pavel Kysilka - 2003-2024 | maillinuxsoft.cz | Design: www.megadesign.cz |