Pojďme se začít věnovat transakcím; téma je bezpochyby na více dílů, takže dnes to bude spíše jen takový úvod.
7.10.2005 08:00 | Petr Zajíc | czytane 34282×
RELATED ARTICLES
KOMENTARZE
Transakce jsou v souvislosti s databázemi často skloňovaným tématem.
Není divu - většina databázových systému se ohání schopnosti
"transakčního zpracování", optimalizací pro "souběžný běh transakcí" a
kdoví, čím vším ještě. Pojďme se v dnešním díle seriálu podívat na to,
co to transakce vlastně jsou, co naopak nejsou a jak vlastně vevnitř
fungují.
Něco teorie
O transakcích toho bylo napsáno mnoho - a netýká se to jen databází.
Podle Akademického slovníku cizích slov je trasakce ve výpočetní
technice "činnost jedné položky dat zahrnující vstup položky dat do
počítače, vlastní zpracování položky a výstup výsledku zpracování". To
nám pro databázové pojetí transakcí moc nevyhovuje, proto bychom to
potřebovali lehce předefinovat. Mnohem lepší je tato definice:
"Transakční zpracování je obecný koncept, jehož cílem je zajistit
integritu jakéhokoliv dynamického systému v rámci přechodu z jednoho
konzistentního stavu do druhého". Jedním dechem můžeme dodat, že
"konzistentním stavem" z hlediska databázového systému může být stav,
kdy máme v pořádku data.
Transakce a aplikační logika
Z hlediska reálného světa databází půjde při trasakcích o jedno -
možnost provést sadu nějakých databázových operací jako jeden funkční
celek. To velmi často odpovídá situacím, se kterými se můeže setkat v
aplikacích. Představme si prodej ve velkoobchodě: zákazník si objedná
zboží, je mu vystaven doklad, zboží je odečteno ze stavu ve skladu a
jsou přijaty peníze. V databázi něco takového může znamenat následující
činnosti:
- Je přijata objednávka a zapsána do deníku objednávek
- Je vystavena faktura či prodejka (a zapsána do odpovídající
agendy)
- Ze skladových karet zboží je odečten odpovídající počet kusů
- Do pokladny je přičtena částa za uvedené zboží.
To celé by se s trochou nadsázky dalo považovat za transakci. Kdyby
se měly odpovídající příkazy provést v databázi, asi chápete, že je
třeba provést je všechny najednou. Není možné přestat v bodě 2 nebo 3 a
peníze za prodané zboží někam schovat. Na druhé straně se může stát, že
aplikace dojde při provádění transakce k bodu číslo 3 a zjistí, že
požadované zboží na skladě není. V tom případě musí být celá transakce
zrušena, a to včetně bodů 1) a 2). Můžeme tedy říci, že z hlediska
databází lze transakci považovat za jeden nebo více příkazů, které lze jako celek buď potvrdit, nebo zrušit. Protože to je činnost často
související s aplikační logikou, setkáváme se s tím, že aplikační
logika může být realizována pomocí transakcí.
Nesmíme rovněž zapomínat na to, že náš velkoobchod má možná více
pokladen a že si zboží v jedné chvíli může objednávat více lidí - ano,
v jednom DBMS může probíhat více transakcí najednou.
Co transakce nejsou
Je třeba rovněž vědět, co transakce nejsou. Zejména proto, že si to
mnoho lidí plete. Pokusím se tedy vyvrátit některé mýty, které jsem v
této souvislosti slyšel.
- Transakce jsou způsob, jak
zajistit práci více uživatelů najednou - To je dvojsečné
tvrzení. Správné použití transakcí sice může zajistit, že s nějakým
databázovým systémem může pracovat více uživatelů, na druhé straně však
špatné použití transakcí může práci více uživatelů zcela znemožnit.
Transakce tedy práci více uživatelů nezajišťují,
spíše ji umožňují - za
určitých okolností.
- Trasakce chrání databázi před
selháním - Naprostý nesmysl. Jestliže selže pevný disk, na němž
je uložená databáze, je úplně jedno, zda umožňovala transakce či nikoli
- data jsou v tomto případě vždy ztracena.
- Transakce jsou příliš pomalé
- Je stejné jako říci, že auta jsou pomalá. Závisí tedy na okolnostech.
Někdy mohou transakce operace zrychlit, jindy zpomalit. Opět to závisí
na okolnostech a stav, kdy je operaci kvůli transakci pomalejší nemusí
nutně znamenat chybu.
- Transakce udělají v databázi
pořádek - Je-li správný návrh databáze, dá se v ní vyznat.
Jestliže není, je třeba tu databázi předělat, a ne nasazovat transakce.
V takovém případě povedou transakce spíše k větším zmatkům.
Co musí transakce umět
Transakce musí, jak jsme si již ukázali, být nedělitelné (atomické). V praxi to znamená, že
navenek se musejí jevit jako jediná operace. Jestliže se transakce
dokončí, musejí být zapsány všechny změny, jestliže ne, musejí být
všechny změny zrušeny. V této souvislosti se sluší poznamenat, že:
- Převážná část transakcí končí jejich potvrzením a databázové
systémy bývají většinou na tento scénář optimalizovány.
- Transakce může selhat vlivem vyšší moci (například, během
provádění transakce vypadne napájení). I v takovém případě musí být
transakční systém schopen transakci dokončit nebo stornovat (ale nic
mezi tím).
- Transakce může být odvolána (před jejím dokončením) i na přání
klienta, to znamená například na přání uživatele.
Dále, transakce musejí být konzistentní.
To znamená, že databáze se nikdy navenek nesmí jevit jako v nějakém
přechodném stavu. Jestliže například nějaká součást transakce mění
data, nesmí být jinému uživateli (nebo jiné transakci) k dispozici část
změněných dat a část nezměněných dat. Uvědomte si, že tato vlastnost
transakcí závisí do jisté míry na vás - lze ji totiž ovlivnit dobrým
návrzem databáze.
Transakce navíc musejí být izolované.
Zajistit něco takového v praxi znamená, že jedna probíhající transakce
nesmí ovlivnit transakci jinou. Vzhledem k tomu, že teoreticky může v
jednom čase probíhat na stejných datech více transakcí, asi tušíte, že
uhlídat něco takového není žádná legrace - a máte pravdu. Jediný
"jistý" způsob je všechny transakce hezky řadit do fronty a provádět je
tak, jak na ně přijde řada. Protože to je velmi pomalé, v praxi se
většinou lze uchýlit ke kompromisu a izolovanost nepožadovat tak
striktně. Proto existují takzvané úrovně
izolace, které v přijatelné míře slevují z této zásady ve
prospěch rychlosti zpracování.
Konečně, transakce musejí být trvalé.
V praxi to znamená, že při potvrzení transakce dojde k zápisu dat a
systém je opět považován za konzistentní (o to pořece šlo, ne?). Je
třeba si uvědomit, že potvrzení transakce může pro databázový systém
znamenat dost práce, přestože to uživatel většinou nevnímá.
Jak se to dělá
Třebaže princip vnitřního fungování transakcí většinou není potřeba
detailně znát, je docela zajímavý. Většina uživatelů si totiž myslí, že
každá transakce je do databáze zapsána až v okamžiku jejího potvrzení,
ale tak tomu není. Transakce jsou zapisovány do databáze okamžitě, a
spolu s tím si databáze někde uchovává seznam kroků potřebných k
potvrzení (nebo zrušení) dané transakce.
To lze v podstatě dělat dvěma způsoby. Jedním z nich je takzvaná
multigenerační architektura. Tento způsob zpracování transakcí spočívá
v tom, že každá změna je zapsána do databáze spolu s čísem verze.
Trochu se to podobá způsobu, jakým systému pro správu kódu uchovávají
verze rozpracovaných projektů. Asi nejlepší český článek na toto téma
si můžete přečíst na serveru IBPhoenix. Není
divu, protože tento server je spjat s databází Firebird, která
multigenerační architekturu používá.
Druhý způsob (který používá i MySQL) spočívá v tom, že server si
udržuje takzvaný transakční protokol, což je seznam všech transakcí a
jejich kroků. Ten lze využít k odvolání nebo potvrzení transakce. Je
nutné se zmínit o tom, že součástí filozofie tohoto přístupu jsou
takzvané zámky, které slouží jako mechanizmus k zajištění izolovanosti
dat.
Který způsob realizace transakcí je lepší? To se, jak už to bývá,
nedá jednoznačně určit. Jak systém protokolů, tak i multigenerační
architektura prošly během let vývojem a mají za sebou kus cesty. MySQL,
jako většina databází, používá systém s protokolem. Příště si ukážeme,
jak se transakce v MySQL realizují.