Vlákna zajišťují souběžné provádění několika různých podprogramů v rámci jednoho procesu.
13.8.2011 00:00 | Jiří Václavík | přečteno 11286×
Proces lze rozdělit na části, kterým se říká vlákna. Můžeme si je představit jako několik programů, které běží zároveň. Každé vlákno je jeden program. Přitom si mohou předávat (resp. sdílet) data.
Vlákna v Perlu jsou dostupné uvedením
use threads;
Již máme představu o tom, co to vlákna jsou. Pojďmě se podívat na základní kroky, které musíme v programu využívajícím vlákna udělat.
Nejprve je třeba vytvořit jedno nebo několik vláken. Na to máme konstruktor create nebo new. Nejdůležitějším parametrem konstruktoru je samozřejmě zadání úkolu, který má vlákno udělat. To se dělá ve formě anonymního či pojmenovaného podprogramu nebo i předáním jeho jména. Další parametry se předají tomuto podprogramu.
Nyní můžeme dělat cokoliv. Naše vlákno si teď samo paralelně běží a nemusímě se o něj starat. Klidně můžeme vytvořit další vlákna. Jakmile budeme chtít získat výsledky vlákna, zavoláme nad ním metodu join. join počká na to, až vlákno skončí (pokud se tak již nestalo) a předá návratovou hodnotu.
Pojďme se podívat na konkrétní kód.
#!/usr/bin/env perl
use strict;
use warnings;
use threads;
use IO::Handle;
STDOUT->autoflush(1);
print "Začátek\n";
my $vlakno1 = threads->new(\&ukol, 1);
sleep 1;
my $vlakno2 = threads->new(\&ukol, 2);
my $return1 = $vlakno1->join;
print "Vlákno 1 vrátilo $return1\n";
my $return2 = $vlakno2->join;
print "Vlákno 2 vrátilo $return2\n";
print "Konec\n";
sub ukol {
my $n = shift;
print "$n: Vlákno spuštěno\n";
sleep 2;
print "$n: Jsem uprostřed\n";
sleep 2;
print "$n: Končím\n";
return $n;
}
Co se tam děje? Pojďme se na to podívat.
Za prvé používáme IO::Handle kvůli autoflush pro vyprázdnění výstupního bufferu, což nás ale v tuto chvíli nezajímá, protože to s vlákny nemá nic společného. Kdybychom to neudělali, měli bychom problém se střídáním výstupu na STDOUT a funkce sleep.
Soustřeďme se nyní na to podstatné. Projděme si schematicky běh programu sekundu po sekundě.
Kolikátá sekunda běží | Co se děje |
---|---|
0 | Spustíme program |
Vytiskne se "Začátek\n" | |
Vytvoří se vlákno 1 | |
Tím pádem se vytiskne (už ve vlákně 1) text "1: Vlákno spuštěno\n" | |
1 | Vytvoří se vlákno 2 |
Vytiskne se (ve vlákně 2) text "1: Vlákno spuštěno\n" ... | |
... zatímco v hlavním programu zavoláme join a čekáme, až nám vlákno 1 vrátí výsledek | |
2 | Vlákno 1 tiskne "1: Jsem uprostřed\n" |
Hlavní program stále čeká | |
3 | Vlákno 2 tiskne "2: Jsem uprostřed\n" |
Hlavní program stále čeká | |
4 | Vlákno 1 tiskne "1: Končím\n" |
Vlákno 1 končí a vrací 1 | |
Na to reaguje hlavní program - join mu konečně vrátila výsledek. | |
Hlavní program neprodleně tiskne "Vlákno 1 vrátilo 1\n" | |
Hlavní program se posunuje na druhé join a čeká na ukončení druhého vlákna | |
5 | Vlákno 2 tiskne "2: Končím\n" |
Hlavní program opět získává návratovou hodnotu a tiskne "Vlákno 2 vrátilo 2\n" | |
Hlavní program tiskne "Konec\n" a program končí |
Jen stručně si přibližme další metody. Voláním threads->yield uvnitř vlákna dáme najevo, že toto vlákno je nejdůležitější a že má dostat největší CPU čas. Co to přesně znamená však není nikde specifikováno.
Metoda is_running nám řekne, zda ještě vlákno běží.
Vlákna jsou přetížené vzhledem k operaci ==, takže je tímto operátorem můžeme rozlišovat.
Metoda detach odtrhne vlákno. To znamená hlavně to, že nebude možné získat jeho návratovou hodnotu pomocí join. Detachovat se může i samo vlákno - tak lze učinit voláním threads->detach nebo oklikou pomocí získání vlastního objektu. To lze udělat nejlépe pomocí threads->self nebo, známe-li id objektu, threads->object($tid). Dodejme, že metodami is_joinable, is_detached lze detekovat aktuální stav.
Každému vláknu se automaticky přiřadí id, které lze získat metodou tid. Vlákna se číslují přirozenými čísly počínaje 1. Zajímavé je také to, že když zavedeme threads s parametrem stringify,
use threads qw(stringify);
bude objekt vlákna přetížen při použití uvnitř řetězce a bude se tak chovat jako proměnná uchovávající id vlákna.
Budeme pracovat se zavedeným threads::shared.
use threads;
use threads::shared;
Nyní můžeme proměnné označovat atributem :shared. Nejprve se ale podívejme na následující kód.
use threads;
my $data = 1;
threads->create(sub {$data = 2})->join();
print $data;
Co se vytiskne? 1 nebo 2? Vytiskne se 1, protože data mezi vlákny nejsou sdílena.
Co když ale sdílet chceme? Pak označme proměnnou atributem shared.
use threads;
use threads::shared;
my $data :shared = 1;
threads->create(sub {$data = 2})->join();
print $data;
Nyní program tiskne 2.
Nelze v tomto dílu nevzpomenout na fork. Mohlo by se zdát, že jde o totéž jako vlákna. Pravdou je, že ve většině aplikací lze tyto přístupy zaměnit. Je zde ale několik rozdílů.
Obecně platí, že při forku získáme méně závislé běhy programu než při použití vláken. V případě forku jsou rodič a potomek dva nezávislé procesy, které mají různé id procesu a nesdílejí systémové prostředky. Rodič i potomek mají vlastní adresní prostor. Komunikace mezi nimi je podstatně náročnější než u vláken, která paměť sdílejí.
Vlákna mají stejné id procesu a řadu dalších společných věcí - některá data, ovladače, signály atd. Nejzásadnější věc, kterou nesdílejí, je CPU, která jim je přidělována nezávisle. Vlákna celkově potřebují méně režie. Nastartování vlákna je podstatně rychlejší než nastartování forku (pokud ovšem nejde o 'lazy' implementaci forku, při které jsou data zkopírována až před prvním čtením nebo zápisem, což nemusí někdy ani nastat).
Ovšem se sdílenými prostředky se pojí také řada nebezpečí. Například změna hodnoty proměnné se promítne v obou vláknech. Pokud jedno vlákno náhle selže, má to vliv i na všechna ostatní. Psaní vícevláknového programu je díky těmto vlastnostem oproti forku podstatně méně čitelné.
Z důvodu průhlednosti se vyplatí dát přednost forku. Na vlákna se přechází buď nejsme-li spokojeni s rychlostními testy nebo když potřebujeme sdílet data.