Om ett område skulle kunna bli årets julklapp så undrar vi på Digisam om inte artificiell intelligens, ofta förkortat som AI, har goda möjligheter att bli det om ett halvår. För den intelligenta maskinen och vad den kan innebära för oss – som medborgare men även verksamma inom kulturarvsområdet – är något som det pratas intensivt om. Men osäkerheten gnager ständigt; ofta undrar vi hur vi ska kunna använda AI och hur vi ska komma igång. Lyckligt nog har Riksarkivet krattat gången en aning för oss.
Under slutet av 2018 släppte Riksarkivet rapporten ”Kunskapssystem i Arkivmiljö”, som handlar om vad AI kan innebära för Riksarkivets verksamhet. Catharina Grönqvist är arkivarie på Riksarkivet och författaren bakom rapporten. Att hon brinner för innovation går inte att ta miste på.
– När jag började förstå vad AI är och vad det innebär – då föll polletten ner för hur vi inom arkiv, men även hela kulturarvsområdet, ska kunna använda all vår information som big data.
Rapporten pekar på flera områden där Riksarkivet genom AI kommer kunna förbättra sin verksamhet.

– Det finns flera olika spår att gå, där vi ser att de flesta är beroende av varandra. För att komma igång behövde vi prioritera och då vi ser en stor efterfrågan på mer avancerade söktjänster både för externa och interna användare så föll det sig ganska naturligt att börja arbeta med att få fram mer detaljerad metadata ur våra bestånd. AI-tekniken är dessutom inom flera användningsområden tillräckligt mogen för detta, vilket är en förutsättning för att få tillräckligt bra slutresultat.
För att nå mer detaljerade metadatanivåer jobbar Riksarkivet med så kallad automatiserad metadataextraktion.
– Kort kan man förklara det som att AI använder sig av flera olika tolkningstekniker för att gräva i handlingarna och där få ur relevant metadata på en mer detaljerad nivå.
Du nämnde att tekniken inte riktigt är mogen inom alla områden, kan du utveckla det?
– Dels är detta ett forskningsområde där det fortfarande finns många vita områden på kartan för alla, oavsett användningsområde. Men kulturarvssektorns utmaning är att forskningen inom AI utgår från nyare data som ibland skiljer sig rätt mycket från den äldre information som vi bevarar. Det innebär att vi hamnar lite i baksätet och tyvärr inte fullt ut kan dra fördel av det som sker inom forskningen. Till exempel inom bildigenkänning där de stora öppna dataset som alla använder för att träna AI på inte innehåller bilder på äldre föremål, vilket gör att AI:n inte kan känna igen dem.
Betyder det att det är kört för oss?
– Inte alls, men jag tror det är bra att ha en förståelse för hur kulturarvssektorns data skiljer sig från den moderna som alla pratar om i det här sammanhanget och sätta sig in i vilka förutsättningar, både som begränsningar och styrkor, som detta ger. Det är viktigt att vi inser att det som är unikt för oss och våra samlingar är ett komplement som behövs till det här forskningsområdet och som inte kommer den till del utan vår medverkan. Vi behöver en symbios mellan de som förstår hur man använder och tränar AI och de som förstår materialet som används för att träna AI:n.
Vad är det senaste som du snappat upp inom forskningen kring AI?
– Det händer väldigt mycket just nu. Ett av de största hindren för att skapa en riktigt smart AI är i många fall att det är väldigt dyrt att samla in stora mängder att träna på, så det forskas mycket på hur man ska komma runt det problemet. Vissa testar tekniker där två AI arbetar mot varandra för att bli smartare, andra testar att ta fram nya verktyg som skapar extra träningsdata för att ”blåsa upp” de dataset de redan har. Man börjar också tänka utanför boxen i större utsträckning och testar, kombinerar och använder etablerade AI-tekniker inom nya områden, exempelvis har det kommit nya spännande resultat där man använder samma typ av AI för att tolka text som man tidigare tolkat bilder med. Sedan förfinar man ständigt upplärningen av maskinerna och här ser jag att man är i en fas där man försöker ta reda på hur mycket maskinerna egentligen förstår av kontext och rimlighet. Man försöker också skapa mer mångsidiga och smarta system som man kan lära vidare med nya uppgifter så att man inte måste börja från noll varje gång man vill lära AI:n en ny färdighet.
Många pratar om AI – men inte fullt lika vanligt tycks det vara att ta steget vidare. Catharina menar att det inte ska ses som något oöverstigligt.
–För oss på Riksarkivet föll det sig naturligt att undersöka om det fanns möjligheter att använda AI inom de utvecklingsaktiviteter som redan var igång. Så vi gjorde en inventering över vilka aktiviteter som kunde vara aktuella för AI och gjorde samtidigt en omvärldsbevakning för att se om det fanns AI-tekniker som kunde vara relevanta. Gör man så och hittar en matchning är nästa steg att titta på om man har tillräckligt med data för att skapa en AI och om tekniken verkar redo att ge de resultat som man är ute efter. Märker man här att tekniken inte är riktigt där ännu, så har man ändå skapat sig en bättre förståelse för förutsättningarna som datamängderna har – och det i sin tur kan ge upphov till nya idéer. Det kan också visa sig att man inser att man måste höja kvaliteten på sin information eller göra den digitalt bearbetningsbar fullt ut och då kan man börja med de åtgärderna medan själva AI-tekniken kommer ikapp.
Metadata ses ju som en nödvändighet för att ha koll på all data – men kommer metadata verkligen behövas i en framtid där man kommit än längre med AI?
– AI innebär helt klart ett paradigmskifte. Kontextuell metadata, det vill säga vår beskrivning av ett objekt, ser jag än så länge som en nödvändighet för att finna och få fram informationen. Men på längre sikt är det troligt att man genom AI kan hantera och söka information i de digitala objekten utan att vara beroende av den mellanhand som kontextuell metadata innebär.
Innebär det att vi inte behöver fortsätta med metadata?
– Jodå, för de flesta användningsområden inom AI är metadata fortfarande väldigt centralt för att vi ska få systemen att fungera. Dessutom behöver vi träna den framtida AI:n och för att kunna göra det är metadata en förutsättning. Så kort, metadata behövs kanske inte i framtiden, men för att nå dit behöver vi just metadata.
Slutligen, hur tror du vi på Digisam ska arbeta för att på bästa sätt hantera AI?
– Det vore guld värt med en löpande omvärldsbevakning på vilka utvecklingsprojekt som är på gång inom sektorn. Det är viktigt att vi inte uppfinner hjulet flera gånger och att vi samverkar smart och på rätt nivå. Det kan handla om att byta erfarenheter, förstå vilka system som fungerar, att byta data med varandra. Just att byta och berika varandras träningsdata tror jag vi kommer ha stor vinning av.
Catharinas rapport fungerar utmärkt för att få en fördjupad bild av vad AI är och kan dessutom ge inspiration för vad man kan uppnå med tekniken.