Sex års arbete på sex månader – artificiell intelligens innebär stora möjligheter för arkiven

Fotograf: Olof Karsvall

Hur fungerar egentligen texttolkning av handskrivet material? Har tekniken kommit tillräckligt långt – eller blir resultatet snarare felstavningar som gör sig bäst i humorsammanhang? Digisams kommunikatör stämde digital träff med Olof Karsvall, forskningsledare på Riksarkivet, som under de senaste två åren varit med och drivit ett projekt där Riksarkivet, genom artificiell intelligens, tolkat 22 000 sidor äldre handskrifter.

Genom finansiering av Vinnova kunde Riksarkivet 2020 starta projektet. Materialet man valde att transkribera var polisrapporter från Göteborg under perioden 1862-1902. Under slutet av 1800-talet fördubblades befolkningen i Göteborg, samtidigt passerade hundratusentals svenskar staden under den stora emigrationsvågen. Ett spännande material, vilket många forskare hade påtalat. Att materialet i sig även var väldigt lämpligt för texttolkning – renskrivna sidor där texten löper från vänster till höger, uppifrån och nedåt – var en faktor som bidrog till beslutet.

Bättre information om arkivets material

Av Riksarkivets totala handlingar är ungefär fem procent digitiserade, det vill säga omgjorda från analog till digital form. Fem procent kan låta som en låg siffra, men om man tar i beaktan att Riksarkivet totalt har 180 hyllmil arkivhandlingar, så pratar vi om ungefär 230 miljoner skannade bilder.

Hur stor del av Riksarkivets material som utgör handskrivet material är svårt att avgöra, men troligen rör det sig om ungefär en femtedel av det totala materialet. Att nu kunna transkribera genom artificiell intelligens skapar nya möjligheter.

– Genom transkribering kan vi göra materialet mer tillgängligt för användaren. Dels handlar det om möjligheten att lättare kunna läsa handlingarna, äldre handskrifter är inte helt enkla för den ovane. Dels handlar det om att transkribering skapar helt nya möjligheter för oss som arkiv. Vi kan få fram metadata på en ny nivå, vilket innebär att forskare och den intresserade allmänheten kan söka i arkiven på ett helt nytt sätt.

Lyckat projekt med låg felmarginal

Målbilden med transkriberingen av polisrapporterna var att eftersträva så låg felmarginal som möjligt.

– Efter att materialet hade hanteras av programvaran så nådde vi 97 % korrekthet. En hög träffsäkerhet. Och vi skulle absolut kunna nöja oss med det resultatet, men det gjorde vi inte, utan med hjälp av volontärer har vi sedan valt att rätta de sista felen.

Felen i sig handlar ofta inte om att maskinen tolkat tecknen fel, utan det beror snarare på att vissa delar i materialet inte är tillräckligt tydligt, exempelvis att de handskrivna orden inte syns tillräckligt bra.

Behöver det texttolkade materialet alltid överensstämma till hundra procent med originalhandlingen? Olof menar att det beror på vad som är syftet med transkriberingen:

– Vill man först och främst söka i handlingarna och skapa annan form av metadata så behövs inte så hög korrekthet som var fallet med vårt material. Är syftet däremot att läsa texterna så är det ju självklart trevligt med så få fel som möjligt, men samtidigt så tror jag att man uppskattar att det finns en texttolkning med en del fel, än ingen texttolkning alls.

Vad krävs då för att korrektheten ska bli så pass hög som var fallet med polisrapporterna? Dels handlar det om hur materialet är uppbyggt, om det är prydliga handskrifter där orden intar liknande positioner på sidorna. Sedan spelar den träningsdata som man skapar modellen stor roll. Olof förklarar:

– Efter att materialet hade skannats in transkriberade volontärerna manuellt 470 sidor, vilket sedan är vad som ligger till grund för den modell vi använde. Ska man få ett bra resultat så bör modellen byggas på 400-500 sidor manuella transkriberingar. Resultatet blir okej med färre transkriberade sidor, men för att få ett hyfsat bra resultat så bör man använda sig av minst 100 sidor. Ju fler sidor desto bättre modell, men överstiger det 500 sidor så ger det inte längre så stor utväxling.

Texttolkade genom Transkribus

Riksarkivet valde att göra transkriberingarna genom Transkribus, en programvara men även en plattform för texttolkning. Olof ser flera fördelar med verktyget.

– Dels är den enkel att använda, dels behövs inte allt för stora tekniska kunskaper, vilket innebär att tröskeln är låg. Sedan behöver man inte bygga egna modeller, utan kan använda de som andra skapat.

Vad kan då nedsidan vara? Att en annan aktör hanterar ens data och att servrarna ligger i Österrike innebär att man inte kan transkribera allt material genom Transkribus.

– Vi hanterar ju känsligt material som går under sekretess. Dessutom måste vi förhålla oss till GDPR. Vi har så smått börjat att bygga egna HTR-modeller, vilket innebär att Riksarkivet kan göra tolkningarna på hemmaplan och därmed hantera känsligt material.

Det totala material som man texttolkade var på 22 000 sidor, vilket i sig tog ca sex månader. Skulle en människa manuellt göra arbetet skulle det ta cirka 6 år. En stor tidsbesparing.

Vad skulle du säga att texttolkning kommer innebära för användaren av arkiven i framtiden?

– Framförallt blir det ett nytt informationslager som vi adderar till det nuvarande. Genom en ny form av metadata kan användaren söka mer på innehåll än vad som är möjligt nu. Handskrivet materialet blir läs- och sökbart, vilket skapar helt nya möjligheter för datadriven forskning.

För dig som vill ta del av mer av Riksarkivets arbete så har de tagit fram en film som berättar om projektet. Vill du botanisera bland rapporterna så hittar du dem här.