Popis a užití funkcí pro formátování textu.
11.5.2006 06:00 | Jiří Václavík | přečteno 36986×
Formátovat text lze v Perlu dvěma způsoby. Pro jednodušší, většinou jednořádkový text, je většinou nejvýhodnější použít funkci printf, která je přejatá z jazyka C. Druhou možností formátování je použití formátů. Tato metoda je určena pro komplikovanější výstup.
Funkce printf v jazycích C a Perl funguje prakticky stejně. Lze pomocí ní zaokrouhlovat, formátovat čísla do požadovaného tvaru, převádět mezi základními číselnými soustavami apod.
Obecnou syntaxi této funkce můžeme zapsat následovně.
printf OVLADAČ (formát, seznam);
Ovladačem se určuje, kam bude směřovat výstup a formát je šablona, do které budou vloženy aktuální hodnoty proměnných uvedených v seznamu.
sprintf dělá s řetězcem úplně to samé, ale rozdíl oproti printf je v tom, že zatímco printf formátovaný text tiskne, sprintf ho vrací. To je výhodné v okamžiku, kdy s naformátovaným řetězcem budeme ještě chtít pracovat. V seriálu jsme se o potřebnosti této funkce již přesvědčili. V 22. dílu jsme potřebovali zaokrouhlit hodnotu na 2 desetinné číslice a dále s ní pracovat.
Pro srovnání s funkcí printf se podívejme na následující dva zápisy, které jsou ve výsledku ekvivalentní.
printf OVLADAČ formát, seznam;
print OVLADAČ sprintf formát, seznam;
Nyní již přistupme k významu parametrů. Formát je speciální řetězec, který obsahuje zástupné znaky. Každému zástupnému znaku je v seznamu hodnot přiřazena nějaká proměnná. Její obsah se vloží vždy na místo příslušného zástupného znaku a zároveň se zformátuje podle určené šablony.
Zde je tabulka se základními formátovacími řetězci, které budeme dále rozšiřovat.
Formát | Význam |
%c | znak, odpovídající dané ASCII hodnotě |
%s | řetězec |
%d | celé číslo v desítkové soustavě |
%u | celé nezáporné číslo v desítkové soustavě |
%o | celé nezáporné číslo v osmičkové soustavě |
%b | celé nezáporné číslo v dvojkové soustavě |
%x, %X | celé nezáporné číslo v šestnáctkové soustavě (a-f, A-F) |
%f | desetinné číslo |
%e, %E | desetinné číslo v semilogaritmickém tvaru |
%g | automaticky se nahradí za %f nebo %e |
%p | adresa v paměti (šestnáctkově) |
%n | má zvláštní význam - do proměnné přiřadí počet dosud vytisknutých znaků |
%% | znak procento |
Podívejme se na konkrétní příklady.
$f = 350 / 3;#v $f je hodnota 116.666666666667
printf("Znak s ASCII hodnotou 116: %c", $f);#t
printf("Řetězec: %s", $f); #116.666666666667
printf("Celé číslo: %d", $f); #116
printf("Celé číslo šestnáctkově: %x", $f); #74
printf("Desetinné číslo: %f", $f); #116.666667
printf("Semilogaritmický tvar: %e", $f); #1.166667e+02
printf("Adresa: %p", $f); #816cafc
printf ("Text o 17 znacích%n a další text.", $n);
print $n; #17
Toto byly příklady toho nejjednoduššího užití. Řídící sekvence začínající znakem % mají ve skutečnosti mnohem rozsáhlejší syntaxi. Zde je její kompletní zápis.
%[příznaky][minimální_délka][.počet_desetinných míst]typ
To, co jsme si doposud ukázali bylo určení typu. Právě typ musí obsahovat každý formátovací řetězec. Vše ostatní je nepovinné.
Příznaky určují způsob, jakým se bude hodnota zarovnávat. Pokud by zabírala hodnota méně znaků, než kolik je v šabloně, lze nastavit na jakou stranu hodnotu zarovnat a případně čím.
Příznak | Význam |
0 | zleva zarovná nulami |
mezera | zleva zarovná mezerami |
- | zprava zarovná mezerami |
+ | vnutí znaménko +, je-li číslo kladné |
# | nejedná-li se o číslo v desítkové soustavě, vypisuje před ním 0x, 0, respektive 0b |
Minimální délka specifikuje, kolik znaků bude minimálně číslo nebo řetězec zabírat. Pokud je hodnota kratší než minimální délka, doplní se například mezerami. Záleží na nastavení příznaku.
Počet desetinných míst (tedy počet číslic za desetinnou tečkou) určuje přesnost. Začíná vždy tečkou. U celých čísel a řetězců určuje maximální délku.
printf("Dvojkové číslo s prefixem. %#b", 9444);#0b10010011100100
printf("Vnucené znaménko. %+d", 99); #+99
printf(">% 5d<", 10); #> 10<
printf(">%-5d<", 10); #>10 <
printf(">%05d<", 10); #>00010<
printf("Zaokrouhlování: %.3f", 9995.32154532); #9995.322
printf("%+010.3f", 9995.32154532); #+09995.322
printf("%.5s", "Nevejde se..."); #Nevej
printf("desítkově:
%d\nšestnáctkově:
%x\nosmičkově: %o\ndvojkově: %b\n", 250, 250, 250, 250);
#desítkově: 250
#šestnáctkově: fa
#osmičkově: 372
#dvojkově: 11111010
printf("pi = %.10f\n", 4 * atan2(1, 1)); #3.1415926536
$plan = 11200;
$vyrobeno = 10355;
printf("Plán je splněn z %3.1f%%\n", $vyrobeno / $plan * 100);
#Plán je splněn z 92.5%
Přesnost čísla pomocí proměnných lze zadávat i pomocí znaku *. Tyto zápisy mají stejný význam.
printf ">%${pocet}d<", 5;
printf ">%*d<", $pocet, 5;
Pomocí sekvence \$ lze určovat, který argument ze seznamu se použije.
printf "%2\$d", 11, 22, 33;
Do formátovacího řetězce můžeme připsat znak v a řetězec se rozloží na celá čísla oddělená implicitně tečkou.
printf "%vd/font>\n", 123;
printf umí ještě další věci, ale již jen odkazuji na manuálovou stránku perlfunc(1).
Abychom si ukázali trochu více než pouhé modelové příklady, pokusíme se zformátovat ASCII tabulku. Napíšeme tedy program, který načte ze vstupu jméno souboru a do něj uloží znaky 33 - 126 z ASCII tabulky. Na každém řádku bude znak a jeho desítkový, osmičkový a šestnáctkový zápis.
#!/usr/bin/perl
use strict;
my $cil;
print "Kam chcete uložit ASCII tabulku? ";
chomp($cil = <STDIN>);
open CIL, ">$cil" or die "Nelze psát do souboru $cil: $!";
print CIL "ZNAK DEC OCT HEX\n";
for (my $i=33; $i<=126; $i++){
printf CIL ("%4c %3d %3o %3x\n", $i, $i, $i, $i);
}
close CIL;
Celý algoritmus je velmi jednoduchý. Zaměříme se hlavně na funkci printf. Všimněme si, že se tiskne čtyřikrát totéž číslo, pokaždé však jinak zformátované. Poprvé jako znak s velikostí 4. Další 3 sloupce mají velikost 3 a určují pořadí znaku v ASCII tabulce.
Soubor, do kterého bude tabulka uložena se nám takto hezky srovná:
ZNAK DEC OCT HEX ... < 60 74 3c = 61 75 3d > 62 76 3e ? 63 77 3f @ 64 100 40 A 65 101 41 B 66 102 42 C 67 103 43 D 68 104 44 ...
Na dalším příkladu si předvedeme použití sprintf. Vytvoříme tabulku se třemi sloupci. V prvním bude hodnota a v dalších její sinus a kosinus s přesností 5 desetinných míst. Použijeme přitom hodnoty z intervalu <0; 2pi> po osminách.
Tabulka musí mít nějakou hlavičku a rámeček. K tomu budeme ale potřebovat znát předem její šířku. Jak ji ale zjistíme dříve, než vypíšeme hlavičku? Naštěstí je tu funkce sprintf. Nic vypisovat nebudeme, formátovanou hlavičku jen uložíme do proměnné a zjistíme její délku pomocí speciální sekvence %n. Až teď můžeme tisknout horní rámeček.
my $hlava = sprintf("| %11s | %8s | %8s | %n\n", "x", "sin x", "cos x", my $n);
my $line = "+" . "-" x ($n - 3) . "+\n";
print $line, $hlava, $line;
Teď konečně přijde na řadu obsah tabulky. Musíme zachovat šířku buněk.
my $osmina_pi = atan2(1,1) / 2;
for (my $i=0; $i<=16; $i++){
printf ("| %11s | %8.5f | %8.5f |\n", "$i / 8 * pi", sin($i*$osmina_pi),
cos($i*$osmina_pi));
}
Tabulku nakonec musíme uzavřít.
print $line;
Tímto získáváme na standardním výstupu formátovanou tabulku.