Rapport från seminariet om beständiga identifierare

publiken

publiken

Foto: Emma Almroth

Måndag den 7 mars arrangerade Digisam tillsammans med arbetsgrupperna för Riksarkivets arbetsgrupp för testplattformen i Västernorrland och Digisams pilotprojekt om lagring för långsiktig användbarhet samt SUNET ett seminarium om beständiga identifierare.

Syftet med dagen var att titta på hur man idag använder olika typer av identifierare och system för dessa vid de olika kulturarvs- och forskningsinstitutionerna. På så sätt ville vi på Digisam undersöka ifall man kan gå ett steg längre än den checklista som redan har framställts av Digisam genom att ta fram rekommendationer för beständiga identifierare samt undersöka vilka system som finns för att skapa identifierare.

Läs mer…

 

Sanja Halling berättade om Digisams arbete med auktoriteter och beständiga identifierare.
Beständiga identifierare (PID) är kodsträngar som hänvisar till digitala objekt . De är en förutsättning för att man ska kunna skapa länkbar och användbar digital information. Vid tillgängliggörande av data, både t ex vid aggregering eller LOD är PID:ar viktiga för att länkarna ska kunna fungera på sikt. Digisam skriver i sin rapport att institutionerna bör samverka kring beständiga identifierare. Den checklista för beständiga identifierare som Digisam har tagit fram grundas på befintliga rekommendationer från bl a EU Kommissionen.

På seminariet berättade några kulturarvsinstitutioner som idag hanterar både sina egna data men även aggregerad data från andra institutioner om sitt arbete och tankar kring beständiga identifierare.

Martin Malmsten och Stina Degerstedt berättade att Kungl. biblioteket har LOD-identifierare som både http URI:er och URN-NBN. Det räcker inte att ha ett enda system för identifierare, man behöver ta hänsyn till kontext, organisation och typ av data. Har man ingen organisation som stödjer beständiga identifierare så fungerar det inte långsiktigt. En LOD-identifierare består både av domännamn och en lokal unik identifierare. Det handlar inte bara om teknik utan om data. URN-NBN står inte i någon direkt motsats till att använda htp-uri:er. Kungl. biblioteket är administratör för URN-NBN systemet i Sverige och det används mest internt samt av bibliotek vid universitet och högskolor. Man har också en uppslagstjänst med en mappning mellan alla urn.

Mårten Johansson berättade att det vid Riksarkivet ännu inte finns någon färdig lösning för beständiga identifierare, men att man har tittat på Kungliga Bibliotekets lösning. NAD (Nationell Arkivdatabas) innehåller dels Riksarkivets databas och dels levererade arkivdata från andra institutioner. På allt data finns en unik identifierare – en GUID – som borde kunna kombineras med ett domännamn för att skapa en PID.

Henrik Summanen berättade om K-samsök som förvaltas av Riksantikvarieämbetet och är en gemensam söktjänst för kulturarv från svenska museer och andra minnesinstitutioner. PID:arna som finns i K-samsök byggs lokalt utifrån domän+tjänst+unikt id. Från beständighetssynpunkt är ett av problemen att om någon dataleverantör byter system så tappar man länken. Ett annat problem är att om ett objekt byter museum så får den ett nytt id.

Dagen fortsatte med ett exempel  för att belysa vilka tankar som uppstår i ett samarbetsprojekt när datakällor från flera institutioner ska sammankopplas med syftet att publiceras online.

Mats Berggren från Riksarkivet  berättade om TORA-projektet som syftar till att koordinera olika rumsligt relaterade databaser genom ett koordinatregister som bygger på historiska bebyggelseenheter. Varje bebyggelseenhet får ett id och en koordinat utifrån mittpunkten på bebyggelsen. Tanken är att man ska kunna knyta andra register till detta register tex. geometriska kartor. De olika databaserna har sina egna identiteter och fält, men man kan lägga till en identitet i TORA-registret istället för att ha koordinater och beskrivning av bebyggelseenheten i alla register. I princip kan man publicera varje bebyggelseenhet som länkad öppen data. En fråga som projektet diskuterade är hur registrets PID:ar ska se ut. Ska man använda Riksarkivets egna? En gemensam tjänst som tex. Kulturnav? Eller bör man ha ett gemensamt domännamn för kulturarvsmyndigheter och institutioner? Det viktiga är inte den tekniska delen utan att det är en beständig organisation som står bakom.

Ulf Bodin presenterade KulturNav, som är en webbplats och programvara för att skapa, förvalta och distribuera gemensam öppen terminologi och auktoriteter, med fokus på museer och andra kulturarvsinstitutioner. Kulturnav förvaltas och ägs av KulturIT som är ett bolag som ägs av 6 museer: 5 norska och 1 svenskt. Det är en molntjänst (software as a service), öppet för alla. Upplägget är att man ska kunna samverka och bygga tillsammans. Varje organisation får själv ansvara för förvaltning och uppdatering av de auktoritetslistor som de själva lägger in på Kulturnav men fler kan hjälpa till och förbättra och föreslå förändringar.

Frågor om beständiga identifierare diskuteras även när det gäller forskningsdata. Vad finns det för likheter med resonemanget kring kulturarvsdata?

Carl Johan Håkansson från KTH-PDC presenterade det europeiska projektet EUDAT som skapar en gemensam europeisk datainfrastruktur för forskningsdata. Flera olika tjänster tas fram i projektet för att t.ex. lagra och söka data. Tre av tjänsterna använder beständiga identifierare, de som handlar om att lagra data, hantera data och göra data tillgängligt. Projektet använder främst EPIC Handle-PID-system, vilket innebär en samverkan mellan Handle.net, EPIC och EUDAT. Man arbetar med metadata med länkar till kopior som går att spåra genom EPIC-Handle. EUDAT kan lägga på ytterligare information och protokoll för att hantera de stora datamängderna.

Ett exempel följde på ett system som kan hantera identiferare för data från olika datakällor där de både harmoniseras i gemensam beskrivning och tilldelas identifierare. Nikos Minadakis från FORTH berättade om PID i deras mappningsverktyg 3M.  I systemet görs först en schemamappning, andra steget är en URI generation specification som utförs av IT-personal. En funktion för att skapa URI kan implementeras i programmet. Det finns tre sätt att skapa URI:er i systemet, generera policy files, generera genom templates, custom instance generators. Nikos förklarade hur det tekniskt går till när PID skapas i systemet och exemplen går att hitta i presentationen.

Dominic Oldman från British Museum, ResearchSpace berättade om hur de arbetar med PID. Principen är att man använder http URI:er anligt Storbritaniens statliga riktlinjer. Dessa hänvisar till att använda domän (tex. organisation), id, koncept och nummer. Dessa går att förstå för mänskliga ögat, därtill kan information om objektet läggas till, t.ex. dimension. Man måste se upp med termerna och skilja på det som är unikt för objektet respektive hela databasen. Dominic visade hur praktisk exempel på användning av PID:ar i 3M.
 
Birger Jerlehag presenterade hur Svensk nationell datatjänst arbetar med att insamla, bevara och tillgängliggöra forskningsdata. De sätter beständiga identifierare i form av Digital Object Identifier (DOI – http://snd.gu.se/sv/om-oss/tjanster/pid) på artiklar och annan forskningsdata som publiceras och delar ut DOI till institutioner som behöver det. Systemet för att använda sig av DOI är baserat på Handle. Det genereras mycket data inom forskningen vilket gör att det är viktigt att märka upp data. Det går att lägga in relationer till annat data i systemet så att man visar att det hänger ihop. DOI ska alltid peka till en landningssida med info om objektet tex. accessvillkor, rättigheter, versioner, citering. Om en sida måste tas bort finns en ”gravstensida” med information om vad som hänt. PID:en är permanent men det krävs att det finns någon organisation bakom som garanterar tillgång och beständighet.

Matthias Palmér från Meta Solutions presenterade Fackverket 3.0-projektets arbete. Han inledde med att hävda att beständiga identifierare bör vara URI:er som använder http-format. Ska man återanvända URI:er eller inte? Det finns både för- och nackdelar. Hur kan man skifta mellan central och egen förvaltning utan att byta URIer? Det går att byta identifierare så länge man pekar om dem och hänvisar.

Efter föreläsningarna följde en diskussion. Att standarder och licenser är viktiga är grundläggande men även att tänka behovsstyrt och samarbeta. Hur hanterar man brutna länkar? Är centraliserade eller distribuerade lösningar att föredra? Man behöver en grundläggande infrastruktur för att kunna hantera de distribuerade lösningarna. Det kommer alltid att uppstå omflyttningar av data och det kommer att finnas system som går ner. Det viktiga är att kunna hantera beständiga identifierare och peka till aktuell information även när dessa situationer uppstår. Bara en liten del handlar egentligen om tekniken. Det som behöver finnas på plats redan innan är en tydlig policy och organisation. På så sätt kan långsiktigheten garanteras. Gemensamma system kan däremot vara ett tekniskt hjälpmedel tillgänglig för flera, gärna med öppen källkod. Institutionerna behöver även hjälp med kravspecifikationer. Interoperabiliteten mellan de olika systemen för identifierare behöver också skapas.

Kan man samarbeta med gemensamma dataset om t.ex. auktoriteter? Blir det enklare eller mer svårhanterligt? Olika institutioner/myndigheter har olika utmaningar och möjligheter.
Internet är till sin natur distribuerat, behöver man ändå en central punkt? Redundans och öppen källkod är viktiga aspekter. Olika typer av digital information behöver olika identifierare som är anpassade efter typen av information.

Det blev en intensiv dag med många presentationer och diskussioner. Vi tycker nu att vi har fått mycket material för att jobba vidare med frågan. Vi hoppas kunna fortsätta diskussionen och återkomma snart med ett förslag på rekommendation!

Sanja Halling och Lina Marklund