Språkteknologi för nybörjare

 

Flygvapenmuseum, Verktyg i verktygslåda, Fotografi: Hedvall, Stina, licens: CC BY.

Flygvapenmuseum, Verktyg i verktygslåda. Fotografi: Stina Hedvall, CC-BY

Språkteknologin har sedan lång tid utarbetat verktyg och metoder för att på olika sätt beforska språkets form. Inom Swe-Clarin (Common Language Resources and Techno­logy Infrastructure) är vi övertygade om att dessa verktyg och metoder också skulle kunna vara till nytta och glädje för den forskning som mer intres­serar sig för språkets innehåll. Med vår nya handbok vill vi erbjuda en introduktion till oprövade arbetssätt för forskare inom framför allt humaniora och samhällsvetenskap. Med stegvis vägledning blir det lätt att sätta sig in i hur man kan dra nytta av språkteknologins verktyg, utan att själv behöva koda eller programmera.

Språkteknologin ger forskaren möjlighet att arbeta med vedertagna metoder, men i betydligt högre tempo. Kanske viktigare är att den också öppnar för essentiellt nya forskningsfrågor och till exempel möjliggör bearbetning av väldiga datamängder som tidigare varit omöjliga att hantera. Swe-Clarins handbok kompletterar verktygen i Swe-Clarins verktygslåda (se presentationer från invigningen av verktygslådan här) och den hylla med textresurser som tillhandahålls av Språkbanken med flera. Exempeltexterna i vår handbok finns, förutom i de enskilda verktygen, även publikt tillgängliga i Korp, och de kommer fram­över att återkomma i flera användningsfall. På det viset kan den som är nybörjare på om­rådet få en chans att steg­vis fördjupa sig och komma tillbaka till samma källor gång på gång.

En bärande tanke är att verktygen ska gå att tillämpa på användarens egna texter, en annan att användaren själv avgör om hen vill jobba med verktygen via webbklient eller ladda hem dem till sin egen dator. Idag finns bara några få verktyg i lådan, men fler kommer att utarbetas löpande efter användarnas behov. Textresurser publiceras med öppna licenser och källkod finns fritt nedladdningsbar i öppna repositorier.

Språkteknologin kan dock inte lösa allt. Till svagheterna hör bland annat beroendet av textkällor i digital och maskinläsbar form. Inom många domäner finns fortfarande för lite material för forskningen att arbeta med, och alltför ofta saknas de öppna licenser som är en förutsättning för automatiserad bearbetning (data mining).

Språkteknologin kräver alltså av oss att vi gör mer material fritt och öppet tillgängligt för bearbetning, att vi digitaliserar mer (äldre) text och att vi skapar så effektiva arbetsflöden som möjligt. Det innebär bland annat ett öppet förhållningssätt till kolla­borativa forskningsprocesser där annoteringar och annan berikning av källtexter delas med andra forskare, som därmed kan bygga vidare på redan nedlagt arbete. På det viset kan alla gemensamt bidra till ny kunskap och vidgade perspektiv på samhällets historia och utveckling. Vi gör det tillsammans!

Johanna Berg, Swe-Clarin på Riksarkivet

 

 

 

Öppna data, förbättra metadata & skapa länkad öppen data – verktyg på nätet

Öppna data

Öppna data är data som vem som helst fritt kan använda, återanvända och distribuera. Att skapa länkade öppna data innebär att data är inte bara öppna, utan även publicerade i ett maskinläsbart format och sammanlänkade med andra datakällor. Öppna data kan användas på många innovativa och oväntade sätt. Samtidigt är det viktigt att förstå hur data ska publiceras online så att användare kan söka, hitta använda och återanvända data i olika tjänster och produkter. Vilka utbildningsmaterial och verktyg finns det för att publicera uppgifter som öppna eller länkade öppna data?

DCAT-AP är en katalogiseringsspecifikation som rekommenderas av EU Kommissionen som en gemensam vokabulär de datamängder som har publiceras som öppna data. Portalen öppnadata.se exponerar de svenska öppna data som tillgängliggjorts med DCAT-AP. Utbildningsmaterial om hur man skapar en beskrivning av sina öppna data med DCAT-AP finns på nätet.

Metadata

Metadata är ”data om data” som beskriver de digitala samlingarna i kulturarvsinstitutioner och struktureras för att informationen ska bli så kvalitativ och användbar som möjligt. Vid olika tillfällen ökar man kvaliteten och användbarheten på informationen genom att den struktureras enligt vedertagna standarder och format. Ofta görs det när metadata från ett system ska migreras till ett annat system eller när informationen ska aggregeras eller på annat sätt exponeras på nätet. I dessa fall krävs det en hel del resurskrävande teknisk utveckling vid institutionerna. Hur kan man förenkla, förbättra och effektivisera strukturering av kulturarvsinformationen med hjälp av tekniska verktyg på nätet?

"Metadata is a love note to the future", Flickr, by cea+, Licens: CC-BY 2.0.

”Metadata is a love note to the future”, Flickr, by cea+, Licens: CC-BY 2.0.

Det finns idag flera olika verktyg för att strukturera (mappa) metadata från ett till ett annat format eller standard. När man ska exponera metadata genom olika aggregeringstjänster (som exempelvis K-samsök eller Europeana) får man stöd för detta arbete genom dessa tjänster. Inom Europeana tittar man nu också på möjligheterna till att institutionerna ska direkt kunna publicera sina metadata som länkbara i Europeana och en pilotstudie har gjorts för att se på effekterna av den typen av aggregering.

För att få stöd vid strukturering av metadata enligt olika format och standarder, finns det idag också verktyg med öppen källkod på Github. Dessa verktyg har ofta även semantiska stödfunktioner, som gör det möjligt att skapa länkad öppen data.

Mappningsfunktioner

3M är ett mappningsverktyg med öppen källkod, som finns på Github. Med 3M kan man omvandla interna strukturerade data från databaser och annan tillhörande kontextuell information till andra scheman. Fält eller element från en källdatabas (Source Nodes) mappas mot en eller flera enheter som beskrivs i målschemat så att data från ett helt system kan transformeras.

B2SHARE är en tjänst som har utvecklats inom ramen för EUDAT-projektet och som har som syfte att stödja synlighet och sökbarhet av information som lagras digitalt. I B2SHARE finns mappningsfunktioner och beständiga identifierare, anpassade till internationella standarder. Det finns möjlighet att hantera informationen under själva överföringen och efteråt. Man behöver inte ladda ner programvara utan tjänsten kan nås online.

MINT är en mappningsfunktion som har utvecklats i de europeiska samarbetsprojekten Athena, Linked Heritage och Athena Plus. Den stödjer mappning av metadata från institutionernas egna modell till LIDO-format samt transformering av poster till Europeana Data Modell (EDM).

Europeana Connection Kit (ECK) är ett verktyg som har utvecklats inom EU-projektet Europeana Inside där man identifierar befintliga arbetsflöden, standarder och verktyg för att kartlägga vilka funktioner som kan förenkla aggregering för institutioner.

Semantiska stödfunktioner och länkade öppna data

Den semantiska webbens möjligheter kan effektivisera de processer som gör informationen sökbar och användbar. Det finns idag flera initiativ kring att både lägga ut data som öppna data, och att göra det  i ett maskinläsbart format (exempelvis RDF), för att göra datat länkbart. Fördelarna med länkbar data är många då ett maskinläsbart format skapar många fler möjligheter till användning, sammanlänkning och återanvändning.

Open refine

OpenRefine är ett gratisverktyg som bygger på öppen källkod och som har använts i en rad LODprojekt inom kulturarvssektorn. Det fungerar också bra för att undersöka sub-set av metadata samt underlättar identifiering och loggning av felstavning och andra brister i katalogen. Mer information om hur man arbetar med metadata i OpenRefine finns i vår checklista för metadatastatus.

Karma

Karma är ett verktyg med öppen källkod som finns på Github och som gör det möjligt för användare att snabbt och enkelt integrera data från olika datakällor, inklusive databaser, kalkylblad, avgränsade textfiler, XML, JSON, KML och Web API. Användarna kan integrera information genom att modellera den enligt en ontologi som de själva väljer, med hjälp av automatiserade processer. Verktyget kan automatiskt generera en ontologimodell som användarna sedan kan justera och därpå publicera som RDF och/eller lagra i en databas.

Data Tank är ett verktyg med öppen källkod som finns på Github. Verktyget gör det möjligt att omvandla datamängder till en HTTP API och beskriva dem med DCAT-AP.

Recogito är ett verktyg med öppen källkod som har utvecklats inom Pelagios Commons. Verktyget är för närvarande tillgänglig för beta-testning, och beräknas vara klar i december 2016. Recogito kan användas både för att för att publicera öppna data och för sammanlänkning med andra datakällor.

Gemensamma resurser gör processerna mer effektiva: teknisk utveckling behöver inte göras hos alla institutioner samtidigt som informationsförvaltarna får ökad kompetens i frågor kring standarder och hantering av digital kulturarvsinformation. Idag hanteras olika digitala samlingar oftast i den domänspecifika standard som är inbyggd i systemet som man använder. Användning av gemensamma verktyg kan därför vara en fördel vid hantering av flera olika typer av information. Både material som är specifik för en institution (t ex arkivhandlingar) och som inte är det (t ex föremål som ibland finns på arkiv, kopplade till handlingar) kan hanteras genom användning av den mest lämpliga standarden. Även interoperabilitet mellan dessa standarder kan byggas in genom användning av samma verktyg.

En del verktyg är mer utvecklade än andra och det behövs en del anpassningar för att få det passa till sina material och sina behov, men det kanske är ett tillfälle där flera institutioner med samma behov av verktyg kan samarbeta med varandra?

Sanja Halling