Riksarkivet involverar AI i sin verksamhet

Om ett område skulle kunna bli årets julklapp så undrar vi på Digisam om inte artificiell intelligens, ofta förkortat som AI, har goda möjligheter att bli det om ett halvår. För den intelligenta maskinen och vad den kan innebära för oss – som medborgare men även verksamma inom kulturarvsområdet – är något som det pratas intensivt om. Men osäkerheten gnager ständigt; ofta undrar vi hur vi ska kunna använda AI och hur vi ska komma igång. Lyckligt nog har Riksarkivet krattat gången en aning för oss.

Under slutet av 2018 släppte Riksarkivet rapporten ”Kunskapssystem i Arkivmiljö”, som handlar om vad AI kan innebära för Riksarkivets verksamhet. Catharina Grönqvist är arkivarie på Riksarkivet och författaren bakom rapporten. Att hon brinner för innovation går inte att ta miste på.

– När jag började förstå vad AI är och vad det innebär – då föll polletten ner för hur vi inom arkiv, men även hela kulturarvsområdet, ska kunna använda all vår information som big data.

Rapporten pekar på flera områden där Riksarkivet genom AI kommer kunna förbättra sin verksamhet.

Catharina Grönqvist från Riksarkivet är författaren bakom rapporten. Foto: Catharina Grönqvist (CC BY)

– Det finns flera olika spår att gå, där vi ser att de flesta är beroende av varandra. För att komma igång behövde vi prioritera och då vi ser en stor efterfrågan på mer avancerade söktjänster både för externa och interna användare så föll det sig ganska naturligt att börja arbeta med att få fram mer detaljerad metadata ur våra bestånd. AI-tekniken är dessutom inom flera användningsområden tillräckligt mogen för detta, vilket är en förutsättning för att få tillräckligt bra slutresultat.

För att nå mer detaljerade metadatanivåer jobbar Riksarkivet med så kallad automatiserad metadataextraktion.

– Kort kan man förklara det som att AI använder sig av flera olika tolkningstekniker för att gräva i handlingarna och där få ur relevant metadata på en mer detaljerad nivå.

Du nämnde att tekniken inte riktigt är mogen inom alla områden, kan du utveckla det?

– Dels är detta ett forskningsområde där det fortfarande finns många vita områden på kartan för alla, oavsett användningsområde. Men kulturarvssektorns utmaning är att forskningen inom AI utgår från nyare data som ibland skiljer sig rätt mycket från den äldre information som vi bevarar. Det innebär att vi hamnar lite i baksätet och tyvärr inte fullt ut kan dra fördel av det som sker inom forskningen. Till exempel inom bildigenkänning där de stora öppna dataset som alla använder för att träna AI på inte innehåller bilder på äldre föremål, vilket gör att AI:n inte kan känna igen dem.

Betyder det att det är kört för oss?

– Inte alls, men jag tror det är bra att ha en förståelse för hur kulturarvssektorns data skiljer sig från den moderna som alla pratar om i det här sammanhanget och sätta sig in i vilka förutsättningar, både som begränsningar och styrkor, som detta ger. Det är viktigt att vi inser att det som är unikt för oss och våra samlingar är ett komplement som behövs till det här forskningsområdet och som inte kommer den till del utan vår medverkan. Vi behöver en symbios mellan de som förstår hur man använder och tränar AI och de som förstår materialet som används för att träna AI:n.

Vad är det senaste som du snappat upp inom forskningen kring AI?

– Det händer väldigt mycket just nu. Ett av de största hindren för att skapa en riktigt smart AI är i många fall att det är väldigt dyrt att samla in stora mängder att träna på, så det forskas mycket på hur man ska komma runt det problemet. Vissa testar tekniker där två AI arbetar mot varandra för att bli smartare, andra testar att ta fram nya verktyg som skapar extra träningsdata för att ”blåsa upp” de dataset de redan har. Man börjar också tänka utanför boxen i större utsträckning och testar, kombinerar och använder etablerade AI-tekniker inom nya områden, exempelvis har det kommit nya spännande resultat där man använder samma typ av AI för att tolka text som man tidigare tolkat bilder med. Sedan förfinar man ständigt upplärningen av maskinerna och här ser jag att man är i en fas där man försöker ta reda på hur mycket maskinerna egentligen förstår av kontext och rimlighet. Man försöker också skapa mer mångsidiga och smarta system som man kan lära vidare med nya uppgifter så att man inte måste börja från noll varje gång man vill lära AI:n en ny färdighet.

Många pratar om AI – men inte fullt lika vanligt tycks det vara att ta steget vidare. Catharina menar att det inte ska ses som något oöverstigligt.

–För oss på Riksarkivet föll det sig naturligt att undersöka om det fanns möjligheter att använda AI inom de utvecklingsaktiviteter som redan var igång. Så vi gjorde en inventering över vilka aktiviteter som kunde vara aktuella för AI och gjorde samtidigt en omvärldsbevakning för att se om det fanns AI-tekniker som kunde vara relevanta. Gör man så och hittar en matchning är nästa steg att titta på om man har tillräckligt med data för att skapa en AI och om tekniken verkar redo att ge de resultat som man är ute efter. Märker man här att tekniken inte är riktigt där ännu, så har man ändå skapat sig en bättre förståelse för förutsättningarna som datamängderna har – och det i sin tur kan ge upphov till nya idéer. Det kan också visa sig att man inser att man måste höja kvaliteten på sin information eller göra den digitalt bearbetningsbar fullt ut och då kan man börja med de åtgärderna medan själva AI-tekniken kommer ikapp.

Metadata ses ju som en nödvändighet för att ha koll på all data – men kommer metadata verkligen behövas i en framtid där man kommit än längre med AI?

– AI innebär helt klart ett paradigmskifte. Kontextuell metadata, det vill säga vår beskrivning av ett objekt, ser jag än så länge som en nödvändighet för att finna och få fram informationen. Men på längre sikt är det troligt att man genom AI kan hantera och söka information i de digitala objekten utan att vara beroende av den mellanhand som kontextuell metadata innebär.

Innebär det att vi inte behöver fortsätta med metadata?

– Jodå, för de flesta användningsområden inom AI är metadata fortfarande väldigt centralt för att vi ska få systemen att fungera. Dessutom behöver vi träna den framtida AI:n och för att kunna göra det är metadata en förutsättning. Så kort, metadata behövs kanske inte i framtiden, men för att nå dit behöver vi just metadata.

Slutligen, hur tror du vi på Digisam ska arbeta för att på bästa sätt hantera AI?

– Det vore guld värt med en löpande omvärldsbevakning på vilka utvecklingsprojekt som är på gång inom sektorn. Det är viktigt att vi inte uppfinner hjulet flera gånger och att vi samverkar smart och på rätt nivå. Det kan handla om att byta erfarenheter, förstå vilka system som fungerar, att byta data med varandra. Just att byta och berika varandras träningsdata tror jag vi kommer ha stor vinning av.

Catharinas rapport fungerar utmärkt för att få en fördjupad bild av vad AI är och kan dessutom ge inspiration för vad man kan uppnå med tekniken.

Nu fortsätter vi!

 

2780164539_133bb7bfdd_z

Woman in a rowing boat, ca 1890. Collection of National Media Museum/Kodak Museum. Inga kända copyrightrestriktioner.

Digisam har vid årsskiftet bytt organisationstillhörighet från Riksarkivet till Riksantikvarieämbetet. På samma gång har Digisam blivit en permanentad plattform för samverkan, vilket ger helt nya möjligheter till fler långsiktiga samarbeten, insatser och engagemang. Vi är väldigt glada för förtroendet och ser verkligen fram emot att, tillsammans med alla berörda, fortsätta arbetet för ett digitaliserat, tillgängligt och användbart kulturarv.

Vilka är vi?

Digisam är placerat som en enhet vid staben på Riksantikvarieämbetet, centralt på Storgatan i Stockholm. Vi är idag tre anställda – Jag själv som projektsamordnare, Catharina Ekdahl som jurist och Henrik Summanen som verksamhetsutvecklare. Två vakanta tjänster som verksamhetsledare och projektledare kommer att utlysas, och till dess att tjänsten som verksamhetsledare blivit tillsatt är stabschef Torsten Hökby också verksamhetsledare för Digisam. På Digisams hemsida hittar ni våra kontaktuppgifter. Johanna Berg, som arbetar med frågor som rör Swe-Clarin (Common Language Resources and Technology Infrastructure), är fortsatt verksam hos Riksarkivet men rapporterar till Digisams styrgrupp.

Vad händer nu?

I lagrådsremissen Kulturarvspolitik gör regeringen bland annat bedömningen att ansvaret för museifrågor bör samlas hos Riksantikvarieämbetet, som också bör driva en centrumfunktion för utveckling av kulturarvsarbetet där kunskaper och metoder för ett mer tillgängligt kulturarv utvecklas. Huvuddelen av Riksutställningars uppgifter ska tas över av Riksantikvarieämbetet och Riksutställningar upphöra som myndighet redan till sommaren. I korthet händer mycket på Riksantikvarieämbetet som behöver ta form i relation till Digisam, så att alla olika delar samspelar på bästa sätt för störst effekt.

I slutet av januari kommer Digisams styrgrupp att ha årets första möte för dialog kring Digisams fortsatta inriktning, och parallellt pågår intensivt tankearbete hos oss på sekretariatet kring hur vi bäst lägger upp arbetet framöver. I närtid kommer vi bland annat diskutera hur vi tar hand om resultaten från det pilotprojekt om lagring för långsiktigt användbarhet som avslutades före jul, och hur vi startar upp det pilotprojekt kring aggregering och länkad öppen data som beslutades av styrgruppen före verksamhetsövergången.

I lagrådsremissen gör regeringen bedömningen att Digisam bör få ett tydligare ansvar för att arbeta med stöd i juridiska frågeställningar. På det juridiska området kommer vi till att börja med att göra en utvärdering och uppföljning kring resultatet av den framförhandlade rekommendationen om avtalslicens för bilder som gör det möjligt för våra medverkande myndigheter och institutioner att teckna enskilda bildavtal med Bildupphovsrätt. Vi fortsätter också den dialog som påbörjats kring en avtalslicensbaserad lösning på området text.

Självklart är vi alltid öppna för era tankar, synpunkter och inspel, så tveka inte att höra av er.

Digisamfika den 27 januari

Vi fortsätter med det vinnande konceptet Digisamfika, dit alla är välkomna för att träffa oss och varandra och mingla loss kring frågor om digitalt kulturarv. Årets första fika blir fredagen den 27 januari. Vi ses som vanligt på Espresso House i Konserthuset kl. 8.00-9.30. Välkommen!

Moa Ranung