30.09.2020

Laskennallista taikuutta

Kirjoittaja: Kati Kallio

Kati Kallio johtaa FILTER-konsortiota, kirjoittaa runolaulusta ja on kuunnellut kohtuullisen määrän vahalieriöiden rahinaa.

Suomen Kansan Vanhat Runot -kirjasarja eli tuttavallisemmin SKVR on paksuudeltaan reilusti yli puolitoista metriä. Tiedän muutaman ihmisen, jotka ovat kahlanneet sen kokonaan läpi.

Ison aineiston käsittelyn avuksi on vuosikymmenten kuluessa tullut erilaisia apuvälineitä. Oikeastaan itse kirjasarjan teko 1900-luvun alkupuoliskolla on näistä ensimmäinen. Sekalaisina käsikirjoituksina olleet aineistot puhtaaksikirjoitettiin, järjestettiin ja varustettiin nidekohtaisilla runohakemistoilla. Runojen digitoiminen ja muokkaaminen tietokannaksi loi uusia käyttötapoja. Toisaalta kaikki aineiston valikoiminen ja järjestäminen myös vaikuttaa siihen, miten sitä on mahdollista käyttää, mitä löytyy helposti ja mitä jää huomiotta.

SKVR-aineisto on suuri: 89 247 runoa karjalan, suomen, inkeroisen ja vatjan kielillä. Se ei kuitenkaan ole koko kalevalamittaisen runouden aineisto. Vastaavassa virolaisessa tietokannassa Regilaulude andmebaas on yli 90 000 runoa, ja julkaisemattomia digitoituja runoja on Suomessa ja Virossa yli 100 000. Lisäksi on ääniteaineistoja ja muita tekstikokoelmia, esimerkiksi Petroskoin Kielen, kirjallisuuden ja historian instituutissa, Kotuksessa, Tampereen yliopiston Kansanperinteen arkistossa, Juminkeossa ja muissa instituutioissa. Lajikirjo on myös laaja: mukana on lähes mitä hyvänsä syntymyyteistä sananlaskuihin, pilkkalauluihin ja rakkauslyriikkaan.

Sekä arkistoissa oleva kokonaisaineisto että julkaisuihin valikoituneet aineistot ovat aikansa tutkimusintressien mukaan painottuneita. Innokkaimmin pyrittiin tallentamaan pitkää, poeettisesti täyteläistä sankariepiikkaa. Runomitan tutkimukseen taas valittiin parhaat ja eheimmät laulut.

Ei olekaan ihme, että pitkästä tutkimushistoriasta huolimatta emme täysin tiedä, mitä kaikkea itämerensuomalainen runolaulu eli kalevalamittainen runous oikein oli. Aineisto on yksinkertaisesti niin suuri, monikielinen ja monilajinen. Sen tutkimus on myös jakautunut aineistokokonaisuuksien ja lajien mukaan.

Aineiston suuruuden takia myös vanhemman tutkimuksen tuloksia on hidasta tarkistaa. Monet yleiset käsitykset suullisesta runoudesta perustuvat sata vuotta sitten tehtyihin tarkkoihin, yksittäisiä runotyyppejä säe säkeeltä tarkastelleisiin tutkimuksiin. Näiden jälkeen käsitys suullisen runouden piirteistä ja variaatiosta on muuttunut olennaisesti, samoin laajempiin tulkintoihin vaikuttavat historian, arkeologian, kielihistorian ja genetiikan tulokset – jälkimmäisistä kannattaa muuten lukea Valter Langin vastikään suomeksi käännetty Homo Fennicus – Itämerensuomalaisten etnohistoria.

Yhden vaihtoehdon aineiston suuruuden ja sen tarkastelun hitauden ongelmaan tarjoavat laskennalliset menetelmät. Lauri Harvilahti (2019) kuvaa niiden historiaa folkloristiikassa: lähestymistavalla on syvät juuret ja laaja lehvästö.

Monellako eri tavalla Väinämöisen voi kirjoittaa?

Viime vuosina olen kokenut runoaineiston äärellä uudenlaisia suurempia ja pienempiä ihmeen tunteita. Aloin nimittäin pohtia tietojenkäsittelytieteilijä Eetu Mäkelän kanssa tarkemmin, mitä kalevalamittaisesta runoudesta voisi saada irti humanistista tutkimusta tukevilla laskennallisilla menetelmillä. Pari vuotta sitten SKVR-aineisto solahti hänen Octavo-hakujärjestelmäänsä.

Äkkiä oli mahdollista selvittää nopeasti ja pienellä vaivalla vaikkapa minkälaisissa eri muodoissa ja kirjoitusasuissa Väinämöinen esiintyy. Muotoja on yli 300, ja variaatio on laajempaa kuin mihin oma runontutkijan mielikuvitukseni ja aineiston tuntemukseni yltäisi.

Väniämöine, Väilämöinen, Viänämöinen, Vääinämöinen, Vainämoinen, Wäinämöisen, Väinämyösen, Väinämöinji, Väinö, Väinen, Väinossa, Väinämön’i, Vainamöinen, Väenämöenen, Väimälöinen, Väinimöltä, Väinomoinen…

Aineiston vertaileva luenta tuli nopeammaksi ja helpommaksi – tästä enemmän Elore-lehden artikkelissamme Suullisen runon sähköisestä lukemisesta.

Myös visualisointikokeilut avasivat silmiä. Äkkiä saikin helposti esitettyä, miten SKVR-aineiston runotyyppihakemiston otsikot esiintyvät samoissa runoteksteissä, eli miten tiheästi aineiston teemat punoutuvat toisiinsa. Ei tarvinnut enää selata puolimanuaalisesti läpi kymmeniä ja satoja runotekstejä vaikka nähdäkseen, miten Jos mun tuttuni tulisi -runotyyppi linkittyy muihin lyyrisen runon aihelmiin, ja nämä taas uusiin aihelmiin.

SKVR-teemahakemiston lyyristen aihelmien välisiä yhteyksiä Jos mun tuttuni tulisi -runon ympäristössä. Senni Timonen on tehnyt teemahakemiston lyriikka-osion analyysin. Eetu Mäkelä on luonut teemahakemiston tiedoista näkymän Palladio-käyttöliittymään. Mukana ovat vain ne tapaukset, joissa hakemisto-otsikot esiintyvät samassa runotekstissä vähintään viisi kertaa.

Hakutulosten kartalla esittäminen on ollut virolaisessa tietokannassa mahdollista jo hyvän aikaa. Karttanäkymä auttaa nopeasti hahmottamaan, missä kaikkialla tietystä aiheesta on tallennusten aikaan laulettu: tässä esimerkiksi Kuldnaine eli Kultaneito-runon esiintymät (tilanne 30.9.2020).

Kuldnaine eli Kultaneito-runon esiintymät kartalla Regilaulude andmebaas -tietokannassa 30.9.2020.

SKVR-aineiston osalta karttanäkymän luominen edellytti vielä hieman kesken olevaa paikkakuntamerkintöjen tarkistamista ja sijoittamista kartalle sekä vanhan perinnealuekartan työstämistä sähköiseksi.

Sähköisestä aineistosta saa laskennallisin keinoin irti alustavaa peruskuvausta, joka toisaalta valtaosin sopii ennakkotietoihin, toisaalta usein haastaa niitä tai kertoo aineiston ongelmakohdista. Kävi esimerkiksi hyvin nopeasti ilmi, että

SKVR-aineiston

89 247 runossa on
1 340 987 säettä, joissa on
4 367 678 yksittäistä sanaa
498 252 eri kirjoitusasussa

ja runoille on annettu

1632 tallentajaa,
317 289 huomautusta ja
7 555 runotyyppiotsikkoa joilla
137 925 ilmentymää.

Puolet SKVR-aineiston säkeistä on pituudeltaan 3–4 sanaa, ja valtaosa (90%) 2–5 sanaa.

Itseäni riemastutti erityisesti yhdestä sanasta koostuvien säkeiden lista. Esimerkiksi sanat ”Karpansurmanala-ńeid’i”, ”Vaskivarpahuisilla”, ”Tsipatsapatoissa”, ”Miehentappotanterilla”, ”Talvitallukkaisihee”, ”Lautakattokammarissa” ja ”Ihhihhihhihahhahhahhah” muodostavat omat säkeensä.

Aineiston ongelmakohtiakin tulee esille. Esimerkiksi runosäkeeksi on paikoin koodautunut myös proosatekstin pätkiä, kommentaareja, tai jatkoa osoittavia viivarivejä. Säkeiden lopun yksitavuisista sanoista suuri osa on jne.-merkintöjä. Jotkut tekstit esiintyvät aineistossa kahteen kertaan, ja niille on annettu eri runotyyppihakemiston otsikot. Tämänkaltaiset piirteet täytyy tunnistaa ja ottaa huomioon ennen tarkempia analyyseja.

FILTER-tutkimushanke

Alustavien kokeilujen ja pohdintatyön tuloksena syntyi Suomen Akatemian konsortio FILTER, jonka tarkoituksena on kehittää välineitä ja näkökulmia koko laajan runoaineiston analyysiin, tiiviissä yhteistyössä folkloristien ja tietojenkäsittelytieteilijöiden välillä. Olennaista on löytää tutkimuskysymyksiä, jotka ovat mielekkäitä kummankin alan kannalta.

Tavoitteet ovat korkealla: miten runoteemat ja ilmaukset varioivat ja liukuvat toisiinsa, miten runojen poetiikka varioi, mitä ovat eri alueiden väliset suhteet? Käytännössä edessä on paljon perustyötä, menetelmäkehitystä ja keskustelua. Aineiston erityisyyksiä, painotuksia, epäloogisuuksia ja aukkoja täytyy selvittää. Folkloristien menetelmiä ja tavoitteita täytyy avata tietojenkäsittelytieteilijöille ja tietojenkäsittelytieteen mahdollisuuksia folkloristeille.

Tämänkaltainen työ edellyttää eri aineistokokonaisuuksien ja näkökulmien toisiaan täydentävää hallintaa. Hankkeessa Mari Sarv on virolaisten, Jukka Saarinen suomalaisten runoaineistojen ja tutkimushistorian asiantuntija. Tietojenkäsittelytieteellisellä puolella Maciej Janicki hallitsee erityisesti kieliteknologian menetelmät ja Antti Kanner yhdistää kielentutkimuksen ja tietojenkäsittelytieteen näkökulmia.

Tavoitteenamme on liittää yhteen neljä aineistoa: suomalainen SKVR-aineisto, virolainen Regilaulude andmegaas, SKS:n julkaisemattomien runojen kokoelma sekä valikoima kirjallisia kalevalamittaisia runoja, kuten Kalevala ja 1800-luvun runojulkaisuja. Tämänkaltainen aineistokokonaisuus tekee mahdolliseksi uudenlaiset vertailuasetelmat.

Työn alussa olennaista on etsiä aineistojen ongelmakohtia, metatietokenttien epäloogisuuksia, digitoinnissa tulleita muutoksia ja kummallisia poikkeamia. Viimeisten kuukausien aikana olen esimerkiksi lukenut SKVR-sarjan alkupuheita ja selvitellyt, mitä erilaiset merkinnät sarjan eri osissa tarkoittavat, analysoinut tarkemmin laskennallisesti poimittuja ja lajiteltuja yksitavuisia sanoja runosäkeiden lopussa ja käynyt läpi pisimmiksi tunnistettuja runotekstejä.

Etäältä ja läheltä lukemisen lomittaisuus

FILTER-hanke perustuu läheltä ja kaukaa lukemisen, laadullisen ja määrällisen lähestymistavan tiiviiseen vuoropuheluun. Tietojenkäsittelytieteen tutkijoiden kannalta nimenomaan aineiston vaikeus – sen loputon variaatio ja tulkintoja hankaloittavat vääristymät – tekee sen mielenkiintoiseksi. Työssä on riittävästi haastetta. On myös hyvä, että käytettävissä on aiempia manuaalisia tutkimustuloksia, joihin kokeiluita voi verrata.

Ensimmäinen hankkeessa luotu täysin uusi työväline on Maciej Janickin luoma samankaltaisia runosäkeitä ja runojaksoja tunnistava käyttöliittymä. Analyysin pohjana on laskutoimitus siitä, minkälaisia kahden kirjaimen jaksoja säkeessä esiintyy (bigram similarity), miten nämä esiintymät eri säkeissä vastaavat toisiaan ja mitkä runotekstit ovat (erilaisten algoritmien läpi käsiteltynä) näiden pohjalta toisiaan lähimpänä. Menetelmä löytää sellaisiakin samankaltaisuuksia, joihin folkloristin kekseliäisyys ja manuaaliset tietokantahaut eivät yllä. Iso työssä vastaan tuleva kysymys on, mitkä kaikki variaation tasot folkloristia kiinnostavat, ja minkälaiset samankaltaisuudet missäkin yhteydessä ovat merkitseviä.

Eräs hauska tieteidenvälisen yhteistyön piirre on, että humanistien jo vanhastaan hyvin tunteman seikan löytyminen laskennallisissa kokeiluissa voi olla täydellinen, kaivattu tulos. Janicki esimerkiksi vertaili Kalevalan tekstiä ja SKVR-aineistoa laskennallisesti ja huomasi pelkästään tämän nojalla, että Lönnrot ei näytä käyttäneen kokonaisia runoja vaan huomattavasti lyhyempiä pätkiä, yksittäisiä säkeitäkin ja että jotkut Kalevalan ilmaisut näyttävät olevan Lönnrotin omaa sommittelua. Havainnot vastaavat Väinö Kaukosen tutkimustuloksia ja Avoin Kalevala -editiossa tarkemmin analysoituja Lönnrotin työskentelyprosesseja.

Tämänkaltaiset yhtäläisyydet vahvistavat, että menetelmät samankaltaisten, mutta muodoltaan varioivien säkeiden ja runojaksojen tunnistamiseksi toimivat. Kun menetelmien toimivuuden saa ensin vahvistettua riittävällä tarkkuudella, on mahdollista siirtyä analysoimaan kysymyksiä, joihin vastauksia ei vielä ole.

Ajatuksenamme on siis tuottaa aineistolähtöisiä tulkintoja, joita tehdessä humanistitutkijan on mahdollista liikkua joustavasti laskennallisten ja manuaalisten tulosten ja näkökulmien välillä. Monimutkaisen historiallisen aineiston kohdalla pelkkä laskennallinen tulos ei kertoisi paljoakaan: vaaditaan paljon työtä sen perusteiden, vääristymien ja merkitysten selittämiseen ja tarkistamiseen.

Keskeinen kysymys koko hankkeessa on, miten huiman varioivasta aineistosta on mahdollista tunnistaa riittävän luotettavasti haluttuja ilmiöitä. Parhaimmillaan yhteistyö voi tuottaa myös muille tutkijoille käyttökelpoisia välineitä ja näkökulmia.

Aineistoja pitkään manuaalisesti ja SKVR-tietokannassa käyttäneelle humanistille yhteistyö tuntuu monin paikoin taikuudelta. Tenka Issakaisen väitöskirja Tavallista taikuutta vuodelta 2012 antoi sytykkeen blogin otsikolle.

Kirjallisuutta

Harvilahti, Lauri. 2019. History of computational folkloristics in Finland and some current perspectives. Folkloristics in the Digital Age, toim. Pekka Hakamies and Anne Heimo. Helsinki, Suomalainen Tiedeakatemia, 158–175.

Harvilahti, Lauri 2013. The SKVR Database of Ancient Poems of the Finnish People in Kalevala Meter and the Semantic Kalevala. Oral Tradition 28(2): pp. 223–232. https://doi.org/10.1353/ort.2013.0019

Ilyefalvi, Emese. 2018. The theoretical, methodological and technical issues of digital folklore databases and computational folkloristics. Acta Ethnographica Hungarica 63(1): 209–258. https://doi.org/10.1556/022.2018.63.1.11

Kallio, Kati & Eetu Mäkelä 2019. Suullisen runon sähköisestä lukemisesta. Elore 26(2): 25–40 https://doi.org/10.30666/elore.84570

Kallio, Kati, Frog & Mari Sarv. 2017: What to Call the Poetic Form: Kalevala-Meter or Kalevalaic Verse, Regivärss, Runosong, the Finnic Tetrameter, Finnic Alliterative Verse, or Something Else? RMN Newsletter 12–13: 94–117. http://hdl.handle.net/10138/305420

Mäkelä, Eetu, Krista Lagus, Leo Lahti, Tanja Säily, Mikko Tolonen, Mika Hämäläinen, Samuli Kaislaniemi & Terttu Nevalainen. 2020. Wrangling with non-standard data. Proceedings of the Digital Humanities in the Nordic Countries 5th Conference (DHN 2020), CEUR Workshop Proceedings. http://ceur-ws.org/Vol-2612/paper6.pdf

Sarv, Mari & Janika Oras (tulossa). From tradition to data: The case of Estonian runosong. Arv. Nordic Yearbook of Folklore.

Tangherlini, Timothy R. 2016. Big Folklore: A Special Issue on Computational Folkloristics. Journal of American Folklore 129 (511): 5–13. DOI: 10.5406/jamerfolk.129.511.0005

Uutiset-sivulle