Riksarkivet involverar AI i sin verksamhet

Om ett område skulle kunna bli årets julklapp så undrar vi på Digisam om inte artificiell intelligens, ofta förkortat som AI, har goda möjligheter att bli det om ett halvår. För den intelligenta maskinen och vad den kan innebära för oss – som medborgare men även verksamma inom kulturarvsområdet – är något som det pratas intensivt om. Men osäkerheten gnager ständigt; ofta undrar vi hur vi ska kunna använda AI och hur vi ska komma igång. Lyckligt nog har Riksarkivet krattat gången en aning för oss.

Under slutet av 2018 släppte Riksarkivet rapporten ”Kunskapssystem i Arkivmiljö”, som handlar om vad AI kan innebära för Riksarkivets verksamhet. Catharina Grönqvist är arkivarie på Riksarkivet och författaren bakom rapporten. Att hon brinner för innovation går inte att ta miste på.

– När jag började förstå vad AI är och vad det innebär – då föll polletten ner för hur vi inom arkiv, men även hela kulturarvsområdet, ska kunna använda all vår information som big data.

Rapporten pekar på flera områden där Riksarkivet genom AI kommer kunna förbättra sin verksamhet.

Catharina Grönqvist från Riksarkivet är författaren bakom rapporten. Foto: Catharina Grönqvist (CC BY)

– Det finns flera olika spår att gå, där vi ser att de flesta är beroende av varandra. För att komma igång behövde vi prioritera och då vi ser en stor efterfrågan på mer avancerade söktjänster både för externa och interna användare så föll det sig ganska naturligt att börja arbeta med att få fram mer detaljerad metadata ur våra bestånd. AI-tekniken är dessutom inom flera användningsområden tillräckligt mogen för detta, vilket är en förutsättning för att få tillräckligt bra slutresultat.

För att nå mer detaljerade metadatanivåer jobbar Riksarkivet med så kallad automatiserad metadataextraktion.

– Kort kan man förklara det som att AI använder sig av flera olika tolkningstekniker för att gräva i handlingarna och där få ur relevant metadata på en mer detaljerad nivå.

Du nämnde att tekniken inte riktigt är mogen inom alla områden, kan du utveckla det?

– Dels är detta ett forskningsområde där det fortfarande finns många vita områden på kartan för alla, oavsett användningsområde. Men kulturarvssektorns utmaning är att forskningen inom AI utgår från nyare data som ibland skiljer sig rätt mycket från den äldre information som vi bevarar. Det innebär att vi hamnar lite i baksätet och tyvärr inte fullt ut kan dra fördel av det som sker inom forskningen. Till exempel inom bildigenkänning där de stora öppna dataset som alla använder för att träna AI på inte innehåller bilder på äldre föremål, vilket gör att AI:n inte kan känna igen dem.

Betyder det att det är kört för oss?

– Inte alls, men jag tror det är bra att ha en förståelse för hur kulturarvssektorns data skiljer sig från den moderna som alla pratar om i det här sammanhanget och sätta sig in i vilka förutsättningar, både som begränsningar och styrkor, som detta ger. Det är viktigt att vi inser att det som är unikt för oss och våra samlingar är ett komplement som behövs till det här forskningsområdet och som inte kommer den till del utan vår medverkan. Vi behöver en symbios mellan de som förstår hur man använder och tränar AI och de som förstår materialet som används för att träna AI:n.

Vad är det senaste som du snappat upp inom forskningen kring AI?

– Det händer väldigt mycket just nu. Ett av de största hindren för att skapa en riktigt smart AI är i många fall att det är väldigt dyrt att samla in stora mängder att träna på, så det forskas mycket på hur man ska komma runt det problemet. Vissa testar tekniker där två AI arbetar mot varandra för att bli smartare, andra testar att ta fram nya verktyg som skapar extra träningsdata för att ”blåsa upp” de dataset de redan har. Man börjar också tänka utanför boxen i större utsträckning och testar, kombinerar och använder etablerade AI-tekniker inom nya områden, exempelvis har det kommit nya spännande resultat där man använder samma typ av AI för att tolka text som man tidigare tolkat bilder med. Sedan förfinar man ständigt upplärningen av maskinerna och här ser jag att man är i en fas där man försöker ta reda på hur mycket maskinerna egentligen förstår av kontext och rimlighet. Man försöker också skapa mer mångsidiga och smarta system som man kan lära vidare med nya uppgifter så att man inte måste börja från noll varje gång man vill lära AI:n en ny färdighet.

Många pratar om AI – men inte fullt lika vanligt tycks det vara att ta steget vidare. Catharina menar att det inte ska ses som något oöverstigligt.

–För oss på Riksarkivet föll det sig naturligt att undersöka om det fanns möjligheter att använda AI inom de utvecklingsaktiviteter som redan var igång. Så vi gjorde en inventering över vilka aktiviteter som kunde vara aktuella för AI och gjorde samtidigt en omvärldsbevakning för att se om det fanns AI-tekniker som kunde vara relevanta. Gör man så och hittar en matchning är nästa steg att titta på om man har tillräckligt med data för att skapa en AI och om tekniken verkar redo att ge de resultat som man är ute efter. Märker man här att tekniken inte är riktigt där ännu, så har man ändå skapat sig en bättre förståelse för förutsättningarna som datamängderna har – och det i sin tur kan ge upphov till nya idéer. Det kan också visa sig att man inser att man måste höja kvaliteten på sin information eller göra den digitalt bearbetningsbar fullt ut och då kan man börja med de åtgärderna medan själva AI-tekniken kommer ikapp.

Metadata ses ju som en nödvändighet för att ha koll på all data – men kommer metadata verkligen behövas i en framtid där man kommit än längre med AI?

– AI innebär helt klart ett paradigmskifte. Kontextuell metadata, det vill säga vår beskrivning av ett objekt, ser jag än så länge som en nödvändighet för att finna och få fram informationen. Men på längre sikt är det troligt att man genom AI kan hantera och söka information i de digitala objekten utan att vara beroende av den mellanhand som kontextuell metadata innebär.

Innebär det att vi inte behöver fortsätta med metadata?

– Jodå, för de flesta användningsområden inom AI är metadata fortfarande väldigt centralt för att vi ska få systemen att fungera. Dessutom behöver vi träna den framtida AI:n och för att kunna göra det är metadata en förutsättning. Så kort, metadata behövs kanske inte i framtiden, men för att nå dit behöver vi just metadata.

Slutligen, hur tror du vi på Digisam ska arbeta för att på bästa sätt hantera AI?

– Det vore guld värt med en löpande omvärldsbevakning på vilka utvecklingsprojekt som är på gång inom sektorn. Det är viktigt att vi inte uppfinner hjulet flera gånger och att vi samverkar smart och på rätt nivå. Det kan handla om att byta erfarenheter, förstå vilka system som fungerar, att byta data med varandra. Just att byta och berika varandras träningsdata tror jag vi kommer ha stor vinning av.

Catharinas rapport fungerar utmärkt för att få en fördjupad bild av vad AI är och kan dessutom ge inspiration för vad man kan uppnå med tekniken.

Små men betydelsefulla tillägg i upphovsrättslagen

Small things, Big things

CC-BY Sherman Geronimo-Tan

Halvårsskiftet brukar innebära en del förändringar i lagstiftningen. Det gäller i år även upphovsrättslagen. För några små tillägg och förändringar i den lagen har nämligen riksdagen klubbat igenom under våren. Vissa på kulturarvsområdet kommer att ha god nytta av dem.

Sedan tidigare får statliga och kommunala arkiv och olika typer av bibliotek som drivs av det allmänna kopiera sitt upphovsrättsligt skyddade material för bevarande, kompletterings- eller forskningsändamål. Kopieringen får ske oavsett om det skyddade materialet har offentliggjorts tidigare eller inte. Den här kopieringsmöjligheten gäller både i digital och analog form, men omfattar däremot inte datorprogram. Inskränkningen innehåller även rätt att på vissa sätt få sprida de framställda exemplaren.

Tillägget från den 1 juli riktar sig till alla övriga arkiv och bibliotek. Det innebär att även dessa från det datumet får framställa kopior av sitt skyddade material, men bara om det sker i bevarandesyfte. Någon rätt att sprida kopiorna får de däremot inte. Den här utvidgningen av kretsen arkiv och bibliotek gäller även för vilka som efter halvårsskiftet kan få ingå avtalslicensbaserade avtal, dvs. när det handlar om massanvändning av upphovsrättsligt skyddade verk och bilder. Ett exempel på ett sådant avtal är Digisams rekommenderade bildavtal.

Ytterligare en ändring i upphovsrättslagen gäller de bibliotek och organisationer som arbetar för delaktighet för personer med funktionsnedsättning. För den här typen av institutioner och organisationer finns möjlighet att få framställa, sprida och överföra exemplar av offentliggjorda litterära, musikaliska och bildkonstverk, så länge det sker på sätt som behövs för att funktionsnedsatta personer ska kunna ta del av verken och det inte sker genom ljudupptagningar. Berörda upphovspersoner och rättighetshavare har dock rätt till ersättning. Den här paragrafen är inte ny i sig, men tidigare gällde den bara de bibliotek och organisationer som regeringen beslutat om.

/Catharina Ekdahl

Arkivinformation + CIDOC CRM = sant?

b2ap3_thumbnail_bild.jpg

Digisam medverkar sedan hösten 2015 i en testplattform som har som syfte att undersöka om en harmonisering av arkivinformation och CIDOC CRM är möjlig, hur förutsättningarna ser ut och hur det kan underlättas av ett stödjande system.

Det finns idag ett starkt behov av ökad kvalitet i metadatabeskrivningar av digital kulturarvsinformation, konceptuell harmonisering av information mellan olika domäner samt tillgängliggörande av samlingar som maskinläsbar och länkbar data. Stödjande verktyg vid registrering behövs för att skapa så enkla och automatiserade processer som möjligt. Länkbar öppen data i kombination med vedertagna internationella standarder, och stödfunktioner för detta är ett första steg mot ökad användning av kvalitativa kulturarvsdata och möjligheten till sammanlänkningar av olika datamängder.

b2ap3_thumbnail_bild.jpgFoto: Adam Rönnlund

Testplattformen i Västernorrland görs inom ett pilotprojekt som koordineras av Riksarkivet och delfinansierat av Kulturrådet och Länsstyrelsen i Västernorrland, där bland annat British Museum deltar som partner. Verktygen som utvecklas inom ramen för detta initiativ kommer att testas, utvärderas och anpassas för att strukturera arkivinformation till CIDOC CRM samtidigt som man behåller hög kvalitet och ökar möjligheter till praktiska tillämpningar genom bl.a.interoperabel länkbar metadata. Beröringspunkterna kring hanteringen av data mellan Research Space på British museum, Murbergets samlingsdatabas och Nationell arkivdatabas (NAD) kommer att analyseras.
 
Ambitionen är också att diskutera olika förslag till utformning av beständiga identifierare (persistent identifiers/PID), dvs unika kodsträngar för identifiering av digitala objekt/webbresurser, i bred samverkan med nationell och internationell expertis. Under våren kommer en workshop om beständiga identifierare att anordnas.

Sanja Halling

Rapport från konferensen Collaboration and networking for a digital archival future

b2ap3_thumbnail_budapest.jpg

b2ap3_thumbnail_budapest.jpg

Den 7-9 september deltog Sanja Halling och jag i APEx-projektets (Archives Portal Europe network of Excellence) andra konferens ”Collaboration and networking for a digital archival future – Sustainable perspectives through the Archives Portal Europe” som gick av stapeln i Budapest. Projektet startade 2012 som en fortsättning på APEnet-projektet (2009 – 2012) där syftet var att skapa en europeisk arkivportal. Archives Portal Europe innehåller idag arkivinformation från 5766 institutioner från 32 länder. APEx-projektet avslutades i och med denna konferens, och portalen kommer nu att förvaltas vidare av APEF – Archives Portal Europe Foundation. Under konferensens första dag gjordes ett högtidligt överlämnande av ett USB-minne med hela portalen från APEx till APEF.

b2ap3_thumbnail_handov.jpg

Gerrit De Bruin (Project Coordinator, APEx) lämnar över portalen till Karel Velle (Chair of the Assembly of Associates, APEF). Foto: S. Danelius. CC 0

Under konferensen deltog föreläsare från 14 länder och flera olika organisationer. En av keynote-talarna var Hannes Kulovits från Österrikes Staatsarchiv som berättade hur det gick till att utveckla Europeiska Arkivportalen utifrån en teknisk och funktionell synvinkel, samt hur den har influerat Europas arkivvärld och bidragit till att skapa ett finmaskigt och brett nätverk av professionella inom den Europeiska arkivdomänen. En annan keynote hölls av Luciana Duranti från School of Library, Archival and Information Studies of the University of British Columbia som presenterade olika utmaningar för Born Digital-arkiv i framtiden när de skapas, används och bevaras i moln-miljöer.

Sanja presenterade Digisams verksamhet och talade om vårt arbete med digitala infrastrukturer, på vilket sätt arkivinformation är en del av detta och vilka utmaningar och möjligheter som finns. Karin Bredenberg från Riksarkivet berättade om hur arkivariens roll har ändrats från det analoga arkivet till att syssla med Born Digital, digitaliserat material och digitala beskrivningar. De som hanterar arkiv borde åtminstone hjälpligt förstå vad det digitala innebär, eftersom det är önskvärt att personen som känner materialet också kan ge synpunkter på utformning av metadata etc.  Arkivutbildningarna borde uppdateras för att hänga med i de nya digitala behoven.

Konferensens hemsida: http://apex2015budapest.mnl.gov.hu/ (där presentationerna kommer att läggas ut)

Susanne Danelius

BitCurator workshop – För dig som arbetar med arkiv

b2ap3_thumbnail_hmta.png

b2ap3_thumbnail_hmta.png

CC: BY-NC-ND, Welcome Library

Den 23-24 juni i Stockholm kan du delta i en workshop om digitala personarkiv och digital forensics. Workshopen vänder sig till dig som är arkivarie eller tekniker på ett arkiv eller bibliotek, eller som arbetar med arkiv i någon form. Arrangörer är Göteborg och Umeå universitetsbibliotek, i samarbete med Kungliga biblioteket och Riksarkivet.

Syftet med workshopen är att du ska få ökade kunskaper om hur digitalt födda arkivresurser bör hanteras. Under workshopen kommer BitCurator, som är en plattform med fria verktyg, att presenteras. Som deltagare kommer du också att få arbeta praktiskt med egna samlingar och använda verktygen i BitCurator.

Läs mer om workshopen och hur du anmäler dig här. Att delta är kostnadsfritt. Sista anmälningsdatum är 15 juni.