-
1. ábra
|1|
-
2. ábra
|2|
-
3. ábra
|3|
-
4. ábra
|4|
-
5. ábra
|5|
-
6. ábra
|6|
-
Animáció
|1|
-
Animáció : A működés: térbeli információ
|2|
-
Animáció
|3|
-
Animáció : Térbeli alakok csoportosítása
|4|
-
Animáció : Tárgyak hasonlósága
|5|
-
Animáció : Integrált adatbázis - Azonosítás új adatok bevonásával
|6|
-
Animáció : Hagyományos centrális dogma -Új centrális dogma
|7|
-
Animáció : Gyógyszercélpont kiválasztása
|8|
Pongor Sándor
Az adathalmoktól a rendezett információs hálózatokig - Bioinformatika és rendszerbiológia
I. Bevezetés
Kereken öt évvel ezelőtt készült el az ember örökletes anyagának első olvasata. Mai kérdésünk, hogy hogyan tudjuk ezeket az adatokat értelmezni, megérteni, felhasználható információvá lefordítani.
Mára már több mint kétszáz szervezet - baktériumok, vírusok, növények és állatok -örökletes információját ismerjük. Adatokban tehát nincs hiány, ezek rendezésével, értelmezésével egy új szakterület, a bioinformatika foglalkozik. Ezt a tudományágat ma már a legtöbb egyetemen önálló tárgyként oktatják, évente legalább tíz tankönyve jelenik meg. Megszületését az informatika és a biológia, biotechnológia területén jelentkező forradalmi fejlődésnek köszönheti. De a molekuláris biológia vagy a fehérjék szerkezetével foglalkozó tudományágak valójában meg sem születhettek volna számítástechnikai eszközök nélkül, ugyanis olyan bonyolult molekulákkal foglalkoznak, hogy azok szerkezetét papíron, ceruzával nem lehet felvázolni. Mára a bioinformatika annyira egybeforrt a biológia új irányzataival, hogy a biológia új, informatikai szemléletmódjáról beszélhetünk. Mindez összefügg azzal, hogy a biológia a legújabb időkig leíró tudomány volt, de az új genomadatok megjelenésével a hangsúly áttevődött az értelmezésre, méghozzá a számítógépek által segített értelmezésre.
Mostani előadásunk tehát kirándulás erre az új területre, ahol új ismeretekkel és az ismeretábrázolás új módszereivel találkozhatunk.
II. DNS, fehérjék, kölcsönhatások
Vegyük szemügyre először az adatokat, amelyekkel foglalkozunk. Azok az óriásmolekulák, amelyek az információt tárolják, bonyolult szerkezetűek. Egy DNS-molekulának például megjeleníthetjük az atomjait, a felszínét, vagy - tudva hogy csak négyféle építőelem van - egyszerűen leírhatjuk az építőelemek sorrendjét.
Animáció |1}|
: A DNS molekula
Ez a betűsorozat a szekvencia, ebben az igen egyszerűsített formában állnak rendelkezésünkre az öröklött információ, a genom adatai.
- |1|
Ahhoz, hogy a DNS működését is el tudjuk magyarázni, még ennél is egyszerűbb, vonalas ábrákat szoktunk alkalmazni, ahol a láncszerű DNS-molekulának egyetlen vonal felel meg. Az örökletes információ egysége a gén, amelyik a lánc egy szakasza. Mikor a gén működésbe lép, erről a szakaszról egy szintén láncszerű másolat készül (RNS), majd erről a másolatról elkészül egy fehérjemolekula. A fehérje maga is láncszerű, de igen változatos térbeli alakokat vehet fel. A gén tehát olyan, mint egy tervrajz, amelyet szükség esetén lemásolnak és leküldenek a műhelybe legyártásra.
De mikor lépjen működésbe egy gén? Erről külön utasítások gondoskodnak. A gének elején van egy jelzőszakasz, amelyik megmondja, mikor van szükség arra, hogy a tervrajzot lemásolják. A másolatban - az RNS-molekulán - vannak jelek, amelyek megmondják, hogy a tervnek mely részeire van szükség, és melyekre nem. Végül a fehérjemolekulák egy részén szintén van egy címzés (szignál-peptid), amelyik megmondja, hogy a molekula hová menjen a sejten belül, illetve hogy hagyja-e el a sejtet. Ez az egész tehát nem más, mint egy részletes utasításrendszer, amely az örökletes információban van kódolva. Vagyis egy gén nemcsak egy géntermék - egy fehérje - szerkezeti információit hordozza, hanem a működés feltételeit. Ennek a kódolásnak igazán alaposan csak egyik fejezetét ismerjük, a genetikai kódot, amelyik megmondja, hogy a génből milyen fehérje készíthető.
Az információáramlásnak azonban ezzel nincs vége. A gének termékei, vagyis a fehérjék maguk is további információcserében vesznek részt. Vegyünk például egy emésztőenzimet, amely más fehérjemolekulák megemésztésére képes.
Animáció |2}| : A működés: térbeli információ
A reakcióhoz az enzim több ponton megköti "áldozatát", és egy pontosan célzott kémiai reakció révén a hasítás már szobahőmérsékleten végbemegy. Ennek alapja az, hogy az enzimben kódolva van a megkötendő fehérjepartner térbeli képe. Ha mi magunk akarjuk feldarabolni mondjuk egy hús fehérjéit, mikor például húslevest főzünk, akkor magas hőmérsékletet kell használnunk, és sok energiát kell elpazarolnunk. A fehérjék információt használnak energia helyett. Ennek az információnak nincs általánosan megfogalmazható nyelve, kódja, minden kölcsönhatást külön kell megismernünk.
- |2|
Egy sejten belül számtalan kölcsönhatás működhet. A gének és fehérjék egymást szabályozzák, kölcsönhatásban vannak. Bonyolult hálózatról van szó, van olyan gén, amely 50 másikat szabályoz. A szabályzás tipikusan úgy történik, hogy egy gén elkezd termelni egy fehérjét, az pedig beindít vagy leállít egy másik gént. Itt tehát a gének utasításrendszerét olvassák a fehérjék, olyan háromdimenziós kölcsönhatások alapján, mint amit az emésztőfehérjéknél láttunk. Ma még nem sok szervezet szabályozási hálózatait ismerjük, és ez az ismeretünk is csak részleges: általában csak annyit tudunk, hogy két elem segíti vagy gátolja egymást, de csak kevés esetben ismerjük a hatás nagyságát vagy a háromdimenziós részleteket.
Mindez illusztrálja, hogy tudásunkat nyelvre emlékeztető modellek (karaktersorozatok, utasítások), háromdimenziós modellek és kölcsönhatási hálózatok formájában ábrázoljuk.
III. Hogyan olvassuk el a géneket?
Eddig azt láttuk, hogy a gének és másolataik, majd termékeik sokféle kölcsönhatásban állhatnak. Mikor egy szervezet genomját megismerjük, minderről csak egy-egy szűkszavú leírást kapunk, az építőelemek sorrendjét, ami olyan, mint egy nagyon hosszú, monoton szöveg. Gondoljuk el, az ember esetében 3 milliárd karaktert kellene elolvasnunk, ami oldalanként kétezer karaktert megengedve is másfél millió oldal, ezerötszáz ötszáz lapos kötet. De egyetlen ember összes DNS-molekulájának együttes hossza is sokszorosa a Föld-Hold távolságnak. Megérthetjük-e egyáltalán, hogy miről szól ez a szöveg?
- |3|
Mikor számítógépekkel próbáljuk elolvasni a gének szövegét, lényegében ugyanezeket a fogásokat vetjük be. Van ugyanis egy egyszerű írásmodellünk, a genetikai kód, amely szerint a DNS három szomszédos építőeleme kódol egy aminosavat. Ha pusztán ezt a modellt alkalmazzuk, akkor a genom szekvenciáját szinte egész hosszában, részben hegyén-hátán átfedő aminosav-sorozatokkal kellene lefednünk, és ez nyilvánvalóan nem lehet helyes megoldás. Ki kell terjesztenünk tehát a modellt, ezután csak olyan megfejtéseket fogunk elfogadni, amelyek elején és végén például megtaláljuk a megfelelő szabályozási utasításjeleket. Ilyenekből már sokkal kevesebbet találunk, és ha azt is kikötjük, hogy a sorozatok megfelelő hosszúságúak legyenek, akkor már csak néhány fehérjeszekvencia-jelöltünk marad. Az egyszerű szervezetek - a prokarióták - génjeit ezzel a módszerrel szinte teljes mértékben fel lehet deríteni. A bonyolultabb - eukarióta - szervezetek génjei azonban, mint azt már említettük is, szakaszokból állnak, és a szakaszok külön kezdő és végpontjeleit külön kell értelmeznünk. Mindezeket a jeleket valószínűségi alapon kombináljuk össze, de a bonyolult szervezetek - állatok, növények - génszakaszainak felfedezése még így is problematikus.
IV. Hasonlóság a molekulák világában
A következő lépés a hasonló szavak - esetünkben a hasonló fehérjék - csoportosítása, majd megkeresése a genom szövegében. A fehérjeszekvenciákat csoportosítani csak számítógépes módszerekkel tudjuk, az emberi szem ugyanis nem könnyen észleli a hosszú karaktersorozatok hasonlóságát. A közelítő illesztés (approximate string matching) algoritmusai viszont igen hatékonyak és segítségükkel a csoportosítás könnyen megoldható.
Képzeljünk most magunk elé egy nagy halom szekvenciát, amelyekről nem tudunk semmit. Ezeket a számítógép elkezdi páronként összehasonlítani, és felírja, ha kettő hasonlít egymáshoz.
Animáció |3}| : Szekvenciák csoportosítása számítógéppel- Genom elolvasása
Két dolgot vehetünk észre. Egyrészt, hogy rengeteg hasonlóság jelenik meg, egymás hegyén hátán. Ugyanakkor egyes csoportoknál sűrűsödéseket látunk, ezek tagjai jobban hasonlítanak egymásra, mint a többire. Most tehát úgy ahogy megtaláltuk a hasonló szavakat, de kérdés, tudjuk-e mit jelentenek.
Itt meg kell állnunk egy pillanatra. Ugyanis ahhoz, hogy a hasonlóságok hálózatából kiválogassuk az értelmes csoportokat, már jelentős emberi munka kell. Szakembereknek kell megmondani, hogy az egyik csoport, teszem azt, az emésztőenzimeket, egy másik pedig a vérben lévő hemoglobinmolekulákat alkotja. Itt a csoporttagok egymáshoz sokkal hasonlóbbak, mint másokhoz, van tehát egy értelmes hasonlósági mérőszámunk. Szerencsére ez az osztályozás már jó harminc-negyven éve folyik, és ma már körülbelül 10 ezer olyan csoportot ismerünk, amely többször előfordul a természetben. Vagyis mintegy tízezer gyakoribb szavunk van. De ennek többszörösét teszik ki az olyan fehérjék, amelyek csak egyetlen egyszer szerepelnek. Mindezek az adatok számítógépes adatbázisokban találhatók, s ezek fenntartása komoly emberi és számítógépes munkát igényel.
Rendezett adatbázisunkkal mindjárt el is kezdhetjük egy genom olvasását. Feltételezett fehérjeszakaszainkat összehasonlítjuk a rendezett adatbázis csoportjaival, és sok esetben a hasonlóság olyan erős, hogy nem kétséges, az ismert fehérjék egy új példányát fedeztük fel. Néhány esetben viszont csak gyenge és szétszórt hasonlóságokat találunk, és nem tudjuk, ez a véletlen műve, vagy pedig valami újszerű fehérjét fedeztünk-e fel.
Itt tehát megakadnánk, de szerencsére van még olyan információnk, amit eddig nem használtunk fel.
V. Integrált adatbázisok
Eddig például nem vettük figyelembe a fehérjék - géntermékek - térbeli alakját. Ha a molekulák felszínét nem tudjuk is az emberi szemnek jól felfogható formában ábrázolni, a fehérjemolekulák vázát alkotó láncok formáival már sokkal jobban boldogulunk.
Animáció |4}| : Térbeli alakok csoportosítása
Itt ugyanis szemmel láthatóak az ismétlődő egyenes és spirális szakaszok (vagyis a béta-szálak, alfa-hélixek), és szembetűnnek az egyezések is. A szekvenciák összehasonlításánál a számítógépek voltak ügyesebbek, a térbeli alakoknál azonban az ember: a fehérjék térbeli formáinak talán legjobb adatbázisát egy orosz kutató, Alekszej Murzin szabad szemmel osztályozza. Egyszerűen látja a különbségeket. Érdemes tehát odafigyelni, hogy mi az, amit az ember jobban tud, mint a számítógép. Két köznapi tárgy hasonlóságát például azonnal és csalhatatlanul észre szoktuk venni, mert nemcsak a közös szerkezeti elemeket látjuk, de ismerjük a közös funkciót is, vagyis például hogy egy váza úgy működik, hogy virágot tesznek bele.
Animáció |5}| : Tárgyak hasonlósága
Magyarul, szerkezeti és működési információt is használunk, méghozzá együttesen.
Vannak-e ilyen adataink? Vannak, bár jóval nehezebben kezelhetők, mint a szekvenciák adatai. Térszerkezetből például néhány ezret, funkcióból pedig néhány tízezret ismerünk. Feladatunk most az, hogy ezeket csoportosítsuk és közös adatbázisba integráljuk. A csoportosítást számítógépek végzik el, így különféleképpen rendezett adatbázisokat kapunk, amelyek között az azonos elemeket a világháló technikájával összeköthetjük.
Animáció |6}| : Integrált adatbázis - Azonosítás új adatok bevonásával
Így egy rendezett információs hálózathoz jutunk, amelyben az egyes csoportok megfeleltethetők egymásnak. Akkor is, ha nem minden tagjukról van meg minden információ. Az összekötéssel látszólag nagyon kis dolgot csináltunk, de ezzel a tárolt tudás életre kelt, eddigi bizonytalan értelmezéseinket meg tudjuk erősíteni!
Nézzünk erre példákat. Az esetek többségében egy feltételezett új fehérje csak egyetlen csoportra hasonlít, és ennek egyetlen szerkezet és egyetlen funkció felel meg. Ezek a biztos tippek. Vannak azonban olyan fehérjék, melyek kétféle csoportra is hasonlítanak. Itt jön a segítségünkre a többi adat, melyek révén végül is csak egyfajta formának és egyfajta funkciónak feleltethetjük meg a fehérjét. Tehát ismét igen biztos tippet kaptunk, ráadásul felfedeztünk egy új, átmeneti esetet. Vannak azonban reménytelen esetek is, például egy szekvencia többféle csoportra, többféle alakra és funkcióra is hasonlít. Ilyenkor további információkat kell igénybe vennünk. Itt vannak például a szakcikkek kulcsszavai, ezek alapján a szakcikkekről is van egy rendezett adatbázisunk. Ha szerencsénk van - és ebben a példában legyen egyszer szerencsénk - akkor a kulcsszavak alapján kiderülhet, hogy az eddig vizsgált kétféle funkciónak lehet köze egymáshoz. Itt tehát ismét egy felfedezést tettünk, kibővíthetjük eddig ismert csoportjainkat. Vagyis tudásunk, tudásbázisunk is gyarapodott.
Valójában nemcsak néhány információféleséget kezelünk, ahogy itt a képeken mutattuk, hanem legalább 100 nagyobb adatbázis információit kell összekötnünk, a feladat tehát óriási, hiszen a rendszert úgy kell fenntartani, hogy a naponta sokezresével érkező új adatokat csoportosítsuk, hiperlinkekkel egymáshoz kapcsoljuk, hogy a felhasználók azonnal kérdezni tudják a rendszert. Adatainkat tehát nemcsak tárolni kell, hanem intelligensen lekérdezhető formába kell hozni.
VI. Mit értünk el eddig?
Eddig azt láttuk, hogy a színfalak mögött folyik az adatbázisok integrálása. Használhat-e ebből valamit az egyszerű kutató is? Az első, és talán máig legjobb rendszert az Egyesült Államokban hozták létre. A PubMed egy mindenki számára hozzáférhető rendszer, amellyel például egy gyakorló orvos megtalálhatja az őt érdeklő cikket, annak alapján egy betegségben érintett gént, majd a gyógyszer hatóanyagát. Mindehhez nem kell más, csak szakértelem - jelen esetben orvosi vagy biológusi szakértelem -, internet és persze némi számítógépes gondolkodásmód. Azt hiszem, az élettudományokban nem is ismerek kutatót, aki ne használná nap mint nap ezt a rendszert.
Végül nézzük meg, hogy mi az, amit ezeknek a bonyolult eszközöknek, az információs hálózatoknak a segítségével eddig sikerült megtanulnunk, most, hogy több szervezet genetikai állományát is ismerjük.
Először is vannak igen fontos, általános felfedezéseink, amelyek a biológia egész szemléletmódját megváltoztatták. Még ha a legtöbb részletet nem értjük is, kezdjük látni az egyszerű és a bonyolult szervezetek közötti óriási különbségeket.
- |4|
Egy másik érdekes pont, hogy az általunk olvasott gének az emberi genomnak csak alig néhány százalékát töltik ki. A többi szekvencia nagyrészt fehér folt, funkcióját nem ismerjük. Annyit látunk, hogy a bennük rejlő információt nem tudjuk a ma ismert nyelven - tehát a genetikai kódhoz vagy a génszabályozás jeleihez hasonló elveken - elolvasni. Funkciójukról csak sejtéseink vannak.
- |5|
Ugyanakkor látjuk, hogy az emberi géneket viszonylag nehéz azonosítani, ma, azaz öt évvel az első emberi genom-olvasat közzététele után is csak mintegy kétharmadukat azonosítottuk, míg egy baktérium génjeit ma már pár napos munkával biztonsággal fel lehet deríteni. De a gének számát tekintve is érdekes különbségek vannak az egyes genomok között. Az embernek ugyan sokkal több génje van, mint egy baktériumnak, de alig több, mint a macskának vagy a kutyának, és sokkal kevesebb, mint több növénynek. Észrevehettük, hogy az emberi génekről sokkal többféle másolat készül, mint a baktériumnál. Vagyis a tervet sokkal többféleképpen használjuk - ez már jelentős különbség, ugyanis ezzel a rendszer sokkal komplexebb lesz.
Felfogásunk éppen azáltal változott meg, hogy rádöbbentünk a biológiai rendszerek komplexitására. Régen úgy kezeltük, hogy a gén-RNS-DNS viszony egyszerű egyirányú utca, ma inkább egymással sokféle kapcsolatban álló elemek hálózatát látjuk, amely az önszerveződés még alig ismert elveinek segítségével éri el a stabilitást.
Animáció |7}| : Hagyományos centrális dogma -Új centrális dogma
Úgy fogalmazhatunk, hogy a biológia központi felfogása változott meg. Rendszerbiológiáról azért beszélhetünk, mert sokféle adatunkat közös rendszerbe tudjuk szervezni, másrészt, mert kísérleti módszereink is kezdenek alkalmassá válni arra, hogy például egyes sejtek összes génjének válaszait egyszerre, rendszerszinten tanulmányozhassuk. És mindehhez a hálózati modellek ígéretes elméleti keretet biztosítanak.
VII. Gyakorlati példák
Vizsgáljunk meg egy példát a konkrét gyakorlati alkalmazások területéről! Mondjuk képzeljük el, hogy egy patogén baktérium vagy vírus ellen kívánunk hatóanyagot kifejleszteni.
A mai stratégia szerint először is meg kell ismernünk a kórokozó génjeit és össze kell hasonlítanunk őket az ember génjeivel.
Animáció |8}|
: Gyógyszercélpont kiválasztása
- |6|
A fejlesztés elve lényegében az enzimek és szubsztrátjaik kölcsönhatásain alapul, mint erre már láttunk is egy példát. Egyes vírusok, például az influenza vagy az HIV esetében azonosították azokat a fehérjéket, amelyek kulcsfontosságúak, és nem hasonlítanak az ember fehérjéire. Ezek ellen lehet olyan hatóanyagot tervezni, amely nagyon erősen fog hozzájuk kötni, így meggátolja működésüket. Vírusoknál például megszakítja a vírus életciklusát. A tervezésnél az enzimfehérje és a potenciális gátlóanyagok térbeli modelljeit próbáljuk számítógéppel egymáshoz illeszteni, és kiválasztjuk azokat, amelyek várhatóan a legerősebben kötnek majd. Az ilyen alapon kifejlesztett hatóanyagok némelyike igen biztató sikertörténet, még akkor is, ha hatásuk egyenlőre nem százszázalékos.
VIII. Összefoglalás
Remélem, hogy az előadás során sikerült bemutatni, hogy az új biológiának nagyon sokféle természetű adattal kell elboldogulnia ahhoz, hogy egységes rendszerben tudja ábrázolni a gének, fehérjék, hatóanyagok szerkezetét, funkcióját. A génállományok adatainak robbanásszerű megszaporodása a biológia, biotechnológia és az egészségügyi kutatás számára kényszerhelyzetet teremtett. Ennek megoldására született meg a bioinformatika, amely elsősorban az integrált adatbázisok segítségével igyekszik hozzájárulni az adatok értelmezéséhez. Az információs hálózatok ismeretábrázolása sok tekintetben eltér a lineáris könyvi szövegek hagyományos világától.
Nem beszéltünk az összes ma használatos ábrázolási formáról, csak röviden azt tekintettük át, hogy az adatok célszerű csoportosításával és összekötésével az élettelen adatokat részben azonnal hasznosítható tudássá lehet változtatni. Ismereteinket eddig főként lineáris szövegek formájában tároltuk, könyvekben, enciklopédiákban és szakfolyóiratokban. A élettudományokban egyre inkább a naprakész, szervezett információs rendszerek veszik át ezt a szerepet. De bárhogy is legyen, érdemes észben tartani, hogy virtuális ismereteink mindig emberi konstrukciók. Az adatbázisokban tárolt információ emberi modellekre épül, azok szerint szerveződik, ezért konklúzióinkat mindig kísérletes munkával kell igazolnunk.