Jarno Tuimala: Bioinformatiikkaa supertietokoneella – ja ilman


Nykyisin tunnetaan miljoonia proteiinimuotoja tuhansilta eliölajeilta. Vaikka proteiinit voivat näyttää hyvinkin erilaisilta, saattaa niiden toiminta soluissa silti olla samanlaista. Jotta saataisiin selville, mitkä proteiinit toimivat samalla tapaa eli kuuluvat samaan perheeseen, on kaikki proteiineja verrattava toisiinsa. Vaikka tietokoneet ovatkin hyvin tehokkaita, veisi tällaisen vertailun toteuttaminen yhdellä ainoalla koneella liki kymmenen vuotta.

Avuksi tulee supertietokone, joka koostuu tuhansista yhteen liitetyistä yksittäisistä tietokoneista. Supertietokoneessa proteiinien vertailu voidaan hajauttaa suurelle määrälle yksittäisiä koneita, jolloin vertailu nopeutuu huomattavasti. Suomessa Liisa Holmin bioinformatiikan tutkimusryhmä toteutti tällaisen vertailun Tieteen tietotekniikan keskus CSC:ssä sijaitsevilla supertietokoneilla muutamassa kuukaudessa.

Aina ei raaka laskentateho kuitenkaan tee auvoisaksi. Kaikkien ihmisten geenien toiminta on määritetty tuhansilta henkilöiltä, ja aineisto on kaikkien vapaasti saatavilla ilmaisissa, kansainvälisissä tietokannoissa. Näin laajan aineiston perusteella on suhteellisen helppo selvittää esimerkiksi geenien toiminnan eroja terveiden henkilöiden ja syöpäsairaiden potilaiden välillä. Tarvittava aineisto, kooltaan noin 30 GB, mahtuu helposti tavallisen, vähän vanhemmankin tietokoneen kovalevylle. Parhaan tuloksen saamiseksi koko aineiston pitäisi kuitenkin mahtua kerralla tietokoneen muistiin. Tällaisia muistimääriä ei enää tavallisista tietokoneista löydykään. Jälleen apuun rientää supertietokone, jossa on runsaasti muistia.


Kuva: Lämpökarttakuvio geenien ilmentymiseroista.

Yllä oleva lämpökarttakuvio havainnollistaa terveiden ja sairaiden henkilöiden välisiä geenien ilmentymiseroja. Kuvion keskellä olevalla värillisellä alueella keltainen väri tarkoittaa geenien korkeaa aktiivisuutta ja punainen suhteessa vähäisempää aktiivisuutta. Kuvion riveille on sijoitettu geenit ja sarakkeisiin yksittäisistä henkilöistä otetut näytteet. Geenit ja näytteet on lisäksi sijoitettu keskenään samankaltaisiin ryhmiin, joita kuvataan puukaavioilla. Ne on sijoitettu värillisen alueen reunoille. Esimerkiksi kuvion yläreunassa olevasta puusta voidaan havaita, että näytteet jakautuvat kahteen toisistaan eroavaan ryhmään. Äärimmäiseksi vasemmalle sijoittuvatkin terveet henkilöt, ja oikealle syöpäsairaat potilaat. Lämpökarttakuvion perusteella on myös mahdollista nopeasti havaita verrattavien ryhmien välisiä geenien ilmentymiseroja.

Tietokoneiden suorituskyky kasvaa jatkuvasti, mutta jotkut ongelmat ovat niin laajoja, ettei niitä pystyttäisi ratkomaan nopeallakaan koneella ilman uusia entistä tehokkaampia menetelmiä. Esimerkiksi lajien sukulaisuussuhteiden selvittäminen on perinteisesti ollut suhteellisen raskasta laskentaa. Laskennallisten menetelmien jatkokehityksellä on kuitenkin saavutettu uskomattomia parannuksia: ajanmukaisilla menetelmillä on mahdollista saada aiempaa tarkempia tuloksia kymmeniä tuhansia kertoja nopeammin kuin perinteisillä menetelmillä.

Oheisen levien sukupuun muodostaminen supertietokoneella perinteisillä menetelmillä vei useita viikkoja. Uudemmilla menetelmillä tehty analyysi antoi perinteisiä menetelmiä tarkemman tuloksen jo viiden minuutin ajon jälkeen ja toistaiseksi parhaan tuloksen noin tunnin ajon jälkeen. Koska analyysi vaati vain hyvin vähän aikaa, se voitiin siirtää supertietokoneelta henkilökohtaiselle työasemalle. Menestyksekäs menetelmäkehitys voikin vapauttaa runsaasti superkoneaikaa todella raskaita, supertietokonetta vaativia ongelmia varten.


Kuva: Panssarisiimalevien sukupuu.

Kuvan panssarisiimalevien sukupuu sisältää kaikki sellaiset levät, joista tunnetaan tietyn aineenvaihduntageenin rakenne. Vaaleanharmaalla on korostettu symbionttiset, korallien kanssa yhdessä elävät lajiryhmät. Koska kaikkien lajien yhdistetty analyysi ei ole aiemmin ollut mahdollista, on uskottu, että symbionttiset lajit muodostavat yhtenäisen ryhmän. Uusien tulosten perusteella symbionttisia ryhmiä on useita, jotka eivät näytä olevan toisilleen erityisen läheistä sukua, sillä ne sijaitsevat puussa varsin kaukana toisistaan.

Koodia ja geeninpätkiä -blogi kertoo bioinformatiikan tutkimuksesta. Artikkelin kirjoittaja FT Jarno Tuimala työskentelee Tieteen Tietotekniikan Keskus CSC:llä. Vapaa-aikana hänestä puhkeaa häikäilemätön bibliofiili. Halpoja, hyvin pidettyjä kirjoja myynnissä.

Kommentoi

Textile ohje