”För många kommer det bli ett uppvaknande att se hur mycket som kan göras med ett digitaliserat kulturarv”
Love Börjeson är verksamhetsledare för KB-labb, Kungliga bibliotekets labb för datadriven forskning med utgångspunkt i KB:s digitala samlingar, som startade i maj 2019. Vad händer just nu på KB-labb, hur kan språkmodeller gör skillnad i samhället och vilka möjligheter finns i digitaliseringen av kulturarvet?
KB-labb fyller snart två år, hur är läget hos er?
I och med att vi släppte språkmodellen KB-BERT förra året har Kungliga biblioteket blivit en aktör att räkna med inom språkteknologi. KB-labb har också fått en hel del samarbetsförfrågningar. Vi är med i projektet Språkmodeller för svenska myndigheter som drivs av RISE och håller på att etablera ett partnerskap med AI Sweden. Och så bygger vi förstås fler och starkare språkmodeller. Som nationalbibliotek har vi en viktig roll att spela i utvecklingen av artificiell intelligens (AI) som bygger på humanistisk data.
Det låter som en snabb utveckling på kort tid?
Ja, det har gått snabbt tack vare flera lyckliga omständigheter. En av dem var att vi redan hade två stora forskningsprojekt som styrde logiken – att verksamheten ska vara forskningstillvänd. Det tvingade oss att bli bra väldigt snabbt. Förfrågningen om att bygga BERT kom från akademin och KB-labb startade som ett projekt. Nu ska verksamheten föras över i förvaltning och bli en del av nationell infrastruktur för datadriven forskning.
Vilken roll har ni i projektet Språkmodeller för svenska myndigheter?
Vi grundtränar språkmodeller som andra sedan kan experimentera med och bygga vidare på. Det arbetet gör vi ändå, men det här är ett naturligt sammanhang för oss att finnas i. RISE har en stark expertis inom NLP, Natural Language Processing, och datavetenskapen generellt har en hastighet som gör att vi behöver samarbeta och bevaka vad som händer utanför sektorn och internationellt på de stora företagens forskningsavdelningar.
Hur används språkmodellerna och vilken är den största nyttan?
Den stora samhällsnyttan är att användarna kan interagera med samlingarna på helt nya sätt. Användningsområdena är enorma eftersom språkmodellerna kan användas fritt och överallt där det finns textresurser. Polisen, Skatteverket och Arbetsförmedlingen är några av de myndigheter som använder modellerna idag. Ett område där språkmodellerna kan göra konkret nytta är inom GDPR-hantering där de används för att automatisera uttagen av personnamn. Språkmodellerna används också inom medicinsk forskning för att identifiera inopererade implantat och vid utbyggnad av busstrafik i glesbygd.
Hur långt har kulturarvssektorn kommit i arbetet med digitalisering?
Vi hade nyligen Matilda Ernkrans, minister för högre utbildning och forskning, på besök här på KB och passade på att berätta om kopplingen mellan digitaliseringen av det svenska kulturarvet och ekonomisk samhällsnytta. För många kommer det bli ett uppvaknande att se hur mycket som går att göra med ett digitaliserat kulturarv. Det finns en stor ängslighet inför AI och digitalisering inom kulturarvssektorn. Fler skulle behöva släppa taget och våga sig ut.
Kompetens är alltså en viktig fråga för digitaliseringen av kulturarvet?
Ja, det skulle jag säga. Det är en fråga om kompetens, men också om vilja. Att digitalisera är ganska enkelt idag om man inte utgår från det svåraste fallet och generaliserar det till alla materialtyper. Det handlar också om att kompetens inom datavetenskap behöver finnas med från början och på fler positioner i organisationerna. Vi är inne i ett kunskapsskifte och det är viktigt att vi som myndigheter är föregångare i att realisera digitaliseringens möjligheter.
Text: Karolina Gerdin