Auktoritetsfiler och beständiga identifierare i praktiken

Viktor Lundgren CC BY

Foto: Viktor Lundgren CC BY

Vad menas med auktoritetsfiler?

När man ska skapa kopplingar mellan digital information från olika institutioner, domäner och metadatamodeller, kan informationen länkas samman genom så kallade auktoritetsfiler. Det innebär att datakällor som kan vara referenspunkter för beskrivning av information från flera institutioner tillgängliggörs online. Dessa kan t.ex. vara personer, organisationer, platser, händelser, ämnen och liknande data som har att göra med samlingarna men som är av mer generell natur och på så sätt oberoende av kulturarvssektorns olika traditioner av informationshantering. Via dessa data kan man sedan referera till arkiv-, biblioteks- eller museimaterialet.

Auktoritetsfiler är också en lättillgänglig sökingång för den användare som saknar insikt i hur arkiv, bibliotek och museer ordnar sina samlingar. Samtidigt innebär filerna att även om sökbarheten förbättras, så blir det i längden inte så enkelt att få fram relevanta resultat endast med hjälp av dem. Ibland finns också auktoritetsfiler som refererar till olika aspekter av samma företeelse. Till exempel kan en person förekomma i flera olika auktoritetslistor, i olika roller.

Sökandet efter Viktor Lundgren – Ett praktiskt exempel

Som ett praktiskt exempel kan vi nämna att vi inom arbetsgruppen för Riksarkivets pilotprojekt i Västernorrland  valt att länka samman fotografier av fotografen Victor Lundgren. (Se mer information i en tidigare bloggpost ). I Murbergets  samlingssystem hittade vi en hel del fotografier av Viktor Lundgren, bland annat med hästar som motiv. I NAD (Nationella Arkivdatabasen)  fanns det en fotografisamling av Janrik Bromé där vi fick en träff på samma fotograf, Viktor Lundgren, men inte som fotograf utan som motiv på en fotografi. Troligtvis var det ett självporträtt han tog som skulle skickas som julkort, med följande text på kortets baksida: ”God Jul och Gott Nytt år! Tillönskar Viktor Lundgr” (resten saknas).

Men vårt sökande efter fotografen Viktor Lundgren i det nationella fotografregistret i Kulturnav  gav inga träffar, trots att det fanns en auktoritetspost av honom som fotograf inbäddad i en metadatapost från Sundsvall museum. I Kulturnav är det möjligt att samarbeta kring auktoritetslistor, och i arbetsgruppen diskuterade vi om man kan lägga till en auktoritetspost i det nationella fotografregistret. Vi tog kontakt med Kulturnav/Nordiska museet och fick hjälp med att lägga till en auktoritetspost om fotografen Viktor Lundgren i registret, så att vi kunde länka till den. Posten om Lundgren som fotograf länkades även till posten i Libris. Nu dök även en intressant fråga om identifierare upp. I allmänhet bör auktoritetsfiler inte dupliceras, men här fanns det två olika auktoritetslistor. Den ena listan omfattar författare och pekar på Lundgren i sin roll som författare, och den andra, nationella fotografregistret, pekar på Lundgren i hans roll som fotograf. Fotografier av Lundgren fanns även med i Svenska Turistföreningens arkiv på Nordiska museet, men fotografierna i databasen var enbart märkta ”V Lundgren” och hans namn hade följaktligen inte hamnat i registret. Nu när Lundgrens namn fanns i registret kunde även dessa poster och medföljande information kopplas till auktoritetsposten.

När vi fick reda på grundläggande information om Viktor Lundgren kunde vi lätt hitta mycket mer information om honom i NAD, inklusive kyrkoböcker (födelseböcker, sockenbok och länsrättsliga arkiv (bouppteckning). Vi kunde även hitta information om Lundgren som författare och information (och auktoritetsfil) i Libris  och VIAF (Virtual International Authority File).

Och sedan?

Det finns ingen tvekan om att Lundgren bör finnas i flera listor, i sina olika roller, men finns det ett behov av två separata beständiga identifierare? Ska en ”samma som ”-sammanlänkning skapas eller borde identifieraren från Libris/VIAF återanvändas? Tekniskt sett finns det flera vägar att gå, som är delvis beroende av den tekniska plattformen, och det är en intressant fråga att arbeta vidare med framöver.

Sanja Halling

Digisams pilotprojekt om lagring går in i skarpare testfas

b2ap3_thumbnail_Skarmavbild-2016-05-23-kl.-15.54.43.png

b2ap3_thumbnail_Skarmavbild-2016-05-23-kl.-15.54.43.png
Bild från sidan 468 ur ”Bell telephone magazine” (1922). Inga kända copyright-restriktioner

Digisams pilotprojekt kring lagring för långsiktig användbarhet går nu in i en skarpare testfas. Pilotprojektet är en del av ett pågående arbete kring en skalbar och flexibel infrastruktur som utförs i samverkan med SUNET, och syftar till att ta fram en effektivare infrastrukturell lösning för gemensam lagring för att skapa högre användbarhet av digital kulturarvsinformation. Här  kan du läsa mer om bakgrunden till arbetet.

Pilotprojektet har haft en förberedelsefas under 2015 och planeras att löpa till hösten 2016. Under projektet ska en modell som bygger på gemensam lagring testas och utvärderas. I utvärderingen kommer hänsyn bland annat tas till eventuella skalfördelar, och kravspecifikationen för modellen kommer att innehålla förslag på lösningar för beständiga identifierare. Förhoppningen är att lösningen kan bidra till effektivare hantering av information och högre grad av interoperabilitet.

I Digisams förstudie pekades en gemensam lagringslösning ut som önskvärd, antingen centraliserad eller distribuerad. Pakettjänster för bevarande kan eventuellt ligga ovanpå en sådan teknisk lösning. Från institutionerna finns önskemål om att kunna sköta lagringen i de egna systemen genom ett gemensamt administrationsgränssnitt. Därför anordnade vi inom ramen för projektet ett seminarium  tillsammans med SUNET, där både systemleverantörer och systemutvecklare för samlingssystem deltog. Under seminariet blev det tydligt att några specifika användarfall behöver testas för att se vilka gemensamma fördelar som kan finnas vid en gemensam lösning, utöver exempelvis ekonomisk vinning. För närvarande utformar vi några sådana scenarier tillsammans med flera kulturarvsinstitutioner, för att i nästa steg testa dessa.

b2ap3_thumbnail_lagring_gemensam_distribuerad_2.png

Bild: S. Danelius CC 0

Illustrationen visar hur institutionerna skulle kunna arbeta i ett gemensamt administrationsgränssnitt (alternativt direkt i sina egna samlingssystem för dem som enklare använder dessa) för att sedan, via kvalitetshöjande tjänster, lagra informationen i standardiserade informationspaket. Ett användargränssnitt kan sedan göra informationen lättare att använda.

Sanja Halling

Rapport från seminariet om beständiga identifierare

publiken

publiken

Foto: Emma Almroth

Måndag den 7 mars arrangerade Digisam tillsammans med arbetsgrupperna för Riksarkivets arbetsgrupp för testplattformen i Västernorrland och Digisams pilotprojekt om lagring för långsiktig användbarhet samt SUNET ett seminarium om beständiga identifierare.

Syftet med dagen var att titta på hur man idag använder olika typer av identifierare och system för dessa vid de olika kulturarvs- och forskningsinstitutionerna. På så sätt ville vi på Digisam undersöka ifall man kan gå ett steg längre än den checklista som redan har framställts av Digisam genom att ta fram rekommendationer för beständiga identifierare samt undersöka vilka system som finns för att skapa identifierare.

Läs mer…

 

Sanja Halling berättade om Digisams arbete med auktoriteter och beständiga identifierare.
Beständiga identifierare (PID) är kodsträngar som hänvisar till digitala objekt . De är en förutsättning för att man ska kunna skapa länkbar och användbar digital information. Vid tillgängliggörande av data, både t ex vid aggregering eller LOD är PID:ar viktiga för att länkarna ska kunna fungera på sikt. Digisam skriver i sin rapport att institutionerna bör samverka kring beständiga identifierare. Den checklista för beständiga identifierare som Digisam har tagit fram grundas på befintliga rekommendationer från bl a EU Kommissionen.

På seminariet berättade några kulturarvsinstitutioner som idag hanterar både sina egna data men även aggregerad data från andra institutioner om sitt arbete och tankar kring beständiga identifierare.

Martin Malmsten och Stina Degerstedt berättade att Kungl. biblioteket har LOD-identifierare som både http URI:er och URN-NBN. Det räcker inte att ha ett enda system för identifierare, man behöver ta hänsyn till kontext, organisation och typ av data. Har man ingen organisation som stödjer beständiga identifierare så fungerar det inte långsiktigt. En LOD-identifierare består både av domännamn och en lokal unik identifierare. Det handlar inte bara om teknik utan om data. URN-NBN står inte i någon direkt motsats till att använda htp-uri:er. Kungl. biblioteket är administratör för URN-NBN systemet i Sverige och det används mest internt samt av bibliotek vid universitet och högskolor. Man har också en uppslagstjänst med en mappning mellan alla urn.

Mårten Johansson berättade att det vid Riksarkivet ännu inte finns någon färdig lösning för beständiga identifierare, men att man har tittat på Kungliga Bibliotekets lösning. NAD (Nationell Arkivdatabas) innehåller dels Riksarkivets databas och dels levererade arkivdata från andra institutioner. På allt data finns en unik identifierare – en GUID – som borde kunna kombineras med ett domännamn för att skapa en PID.

Henrik Summanen berättade om K-samsök som förvaltas av Riksantikvarieämbetet och är en gemensam söktjänst för kulturarv från svenska museer och andra minnesinstitutioner. PID:arna som finns i K-samsök byggs lokalt utifrån domän+tjänst+unikt id. Från beständighetssynpunkt är ett av problemen att om någon dataleverantör byter system så tappar man länken. Ett annat problem är att om ett objekt byter museum så får den ett nytt id.

Dagen fortsatte med ett exempel  för att belysa vilka tankar som uppstår i ett samarbetsprojekt när datakällor från flera institutioner ska sammankopplas med syftet att publiceras online.

Mats Berggren från Riksarkivet  berättade om TORA-projektet som syftar till att koordinera olika rumsligt relaterade databaser genom ett koordinatregister som bygger på historiska bebyggelseenheter. Varje bebyggelseenhet får ett id och en koordinat utifrån mittpunkten på bebyggelsen. Tanken är att man ska kunna knyta andra register till detta register tex. geometriska kartor. De olika databaserna har sina egna identiteter och fält, men man kan lägga till en identitet i TORA-registret istället för att ha koordinater och beskrivning av bebyggelseenheten i alla register. I princip kan man publicera varje bebyggelseenhet som länkad öppen data. En fråga som projektet diskuterade är hur registrets PID:ar ska se ut. Ska man använda Riksarkivets egna? En gemensam tjänst som tex. Kulturnav? Eller bör man ha ett gemensamt domännamn för kulturarvsmyndigheter och institutioner? Det viktiga är inte den tekniska delen utan att det är en beständig organisation som står bakom.

Ulf Bodin presenterade KulturNav, som är en webbplats och programvara för att skapa, förvalta och distribuera gemensam öppen terminologi och auktoriteter, med fokus på museer och andra kulturarvsinstitutioner. Kulturnav förvaltas och ägs av KulturIT som är ett bolag som ägs av 6 museer: 5 norska och 1 svenskt. Det är en molntjänst (software as a service), öppet för alla. Upplägget är att man ska kunna samverka och bygga tillsammans. Varje organisation får själv ansvara för förvaltning och uppdatering av de auktoritetslistor som de själva lägger in på Kulturnav men fler kan hjälpa till och förbättra och föreslå förändringar.

Frågor om beständiga identifierare diskuteras även när det gäller forskningsdata. Vad finns det för likheter med resonemanget kring kulturarvsdata?

Carl Johan Håkansson från KTH-PDC presenterade det europeiska projektet EUDAT som skapar en gemensam europeisk datainfrastruktur för forskningsdata. Flera olika tjänster tas fram i projektet för att t.ex. lagra och söka data. Tre av tjänsterna använder beständiga identifierare, de som handlar om att lagra data, hantera data och göra data tillgängligt. Projektet använder främst EPIC Handle-PID-system, vilket innebär en samverkan mellan Handle.net, EPIC och EUDAT. Man arbetar med metadata med länkar till kopior som går att spåra genom EPIC-Handle. EUDAT kan lägga på ytterligare information och protokoll för att hantera de stora datamängderna.

Ett exempel följde på ett system som kan hantera identiferare för data från olika datakällor där de både harmoniseras i gemensam beskrivning och tilldelas identifierare. Nikos Minadakis från FORTH berättade om PID i deras mappningsverktyg 3M.  I systemet görs först en schemamappning, andra steget är en URI generation specification som utförs av IT-personal. En funktion för att skapa URI kan implementeras i programmet. Det finns tre sätt att skapa URI:er i systemet, generera policy files, generera genom templates, custom instance generators. Nikos förklarade hur det tekniskt går till när PID skapas i systemet och exemplen går att hitta i presentationen.

Dominic Oldman från British Museum, ResearchSpace berättade om hur de arbetar med PID. Principen är att man använder http URI:er anligt Storbritaniens statliga riktlinjer. Dessa hänvisar till att använda domän (tex. organisation), id, koncept och nummer. Dessa går att förstå för mänskliga ögat, därtill kan information om objektet läggas till, t.ex. dimension. Man måste se upp med termerna och skilja på det som är unikt för objektet respektive hela databasen. Dominic visade hur praktisk exempel på användning av PID:ar i 3M.
 
Birger Jerlehag presenterade hur Svensk nationell datatjänst arbetar med att insamla, bevara och tillgängliggöra forskningsdata. De sätter beständiga identifierare i form av Digital Object Identifier (DOI – http://snd.gu.se/sv/om-oss/tjanster/pid) på artiklar och annan forskningsdata som publiceras och delar ut DOI till institutioner som behöver det. Systemet för att använda sig av DOI är baserat på Handle. Det genereras mycket data inom forskningen vilket gör att det är viktigt att märka upp data. Det går att lägga in relationer till annat data i systemet så att man visar att det hänger ihop. DOI ska alltid peka till en landningssida med info om objektet tex. accessvillkor, rättigheter, versioner, citering. Om en sida måste tas bort finns en ”gravstensida” med information om vad som hänt. PID:en är permanent men det krävs att det finns någon organisation bakom som garanterar tillgång och beständighet.

Matthias Palmér från Meta Solutions presenterade Fackverket 3.0-projektets arbete. Han inledde med att hävda att beständiga identifierare bör vara URI:er som använder http-format. Ska man återanvända URI:er eller inte? Det finns både för- och nackdelar. Hur kan man skifta mellan central och egen förvaltning utan att byta URIer? Det går att byta identifierare så länge man pekar om dem och hänvisar.

Efter föreläsningarna följde en diskussion. Att standarder och licenser är viktiga är grundläggande men även att tänka behovsstyrt och samarbeta. Hur hanterar man brutna länkar? Är centraliserade eller distribuerade lösningar att föredra? Man behöver en grundläggande infrastruktur för att kunna hantera de distribuerade lösningarna. Det kommer alltid att uppstå omflyttningar av data och det kommer att finnas system som går ner. Det viktiga är att kunna hantera beständiga identifierare och peka till aktuell information även när dessa situationer uppstår. Bara en liten del handlar egentligen om tekniken. Det som behöver finnas på plats redan innan är en tydlig policy och organisation. På så sätt kan långsiktigheten garanteras. Gemensamma system kan däremot vara ett tekniskt hjälpmedel tillgänglig för flera, gärna med öppen källkod. Institutionerna behöver även hjälp med kravspecifikationer. Interoperabiliteten mellan de olika systemen för identifierare behöver också skapas.

Kan man samarbeta med gemensamma dataset om t.ex. auktoriteter? Blir det enklare eller mer svårhanterligt? Olika institutioner/myndigheter har olika utmaningar och möjligheter.
Internet är till sin natur distribuerat, behöver man ändå en central punkt? Redundans och öppen källkod är viktiga aspekter. Olika typer av digital information behöver olika identifierare som är anpassade efter typen av information.

Det blev en intensiv dag med många presentationer och diskussioner. Vi tycker nu att vi har fått mycket material för att jobba vidare med frågan. Vi hoppas kunna fortsätta diskussionen och återkomma snart med ett förslag på rekommendation!

Sanja Halling och Lina Marklund

Seminarium om persistenta identifierare

b2ap3_thumbnail_axe.jpg

b2ap3_thumbnail_axe.jpg
Neolitisk stenyxa från West Sussex. Pitt Rivers Museum.

Uppdatering 23 feb: Programmet är nu klart och finns här.

Är du intresserad av att sammankoppla digital kulturarvsinformation genom auktoritetsposter? Har du funderat på hur beständiga identifierare för informationen ska se ut? Den 7 mars kommer ett halvdagsseminarium om beständiga identifierare (persistent identifiers – PID) att äga rum i Stockholm.  Seminariet organiseras inom ramen för projektet ”Culture Broker – Testplattform i Västernorrland” som Riksarkivet koordinerar, i samarbete med Digisams pilotprojekt om lagring för långsiktigt användbarhet.

Auktoritetsfiler är en typ av resurser som det pratas mycket om idag eftersom de kan vara till stor gemensam nytta för att koppla samman material från olika kulturarvsinstitutioner. De är därför särskilt värdefulla att tillgängliggöra som öppna data. Auktoritetsfiler är listor med auktoriteter  t.ex. ortsnamn eller personnamn, som ofta är av brett intresse för många aktörer. För närvarande pågår en uppbyggnad av olika plattformar för hantering av auktoriteter (terminologier, tesaurier, kontrollerade vokabulärer). En förutsättning för en hållbar användning av dessa plattformar är att de stöds av en beständig struktur för identifierare (se vidare i Digisams Checklista för beständiga identifierare).

Programmet för seminariet  är fortfarande under arbete men några punkter i programmet kommer att omfatta utformning av URI:er för kulturarvsinformation med exempel  från NAD, KB, och K-samsök, en case study från TORA-projektet, samt en presentation om hur beständiga identifierare utformas i KulturNav och hur de hanteras inom forskningsvärlden.

Workshopen vänder sig till alla som är intresserade av eller redan idag arbetar med beständiga identifierare. Det är begränsat antal platser så det är först till kvarn som gäller.
Tid: Kl 9.00-12.30 den 7 mars 2016.
Plats: SUNET, Tulegatan 11, Stockholm
Anmälan görs till lina.marklund@riksarkivet.se senast 1 mars.

Sanja Halling

Checklista för beständiga identifierare

b2ap3_thumbnail_lista_20150528-115132_1.jpg

b2ap3_thumbnail_lista_20150528-115132_1.jpg

Bild: S. Danelius CC-0

I ett tidigare blogginlägg har jag skrivit om beständiga identifierare – unika kodsträngar kopplade till digitala poster. Vi publicerade då också ett utkast till en checklista för vad man kan tänka på vad gäller beständiga identifierare.

Checklistan har nu redigerats klart i samverkan med ett antal experter och är tänkt att fungera som ett stöd för kulturarvsinstitutionerna. Vi vill tacka alla som har skickat oss sina synpunkter och kommentarer! Listan finns publicerad här.

Sanja Halling

Checklista för beständiga identifierare – Vad ska jag tänka på?

Medaljer

Medaljer

Medaljer. Marinmuseum Karlskrona. Ett urval av medaljer från ur Marinmuseums samlingar. CC-BY-NC.

Kopplat till Digisams pågående arbete med att ta fram förslag till nationella riktlinjer för hur en samordnad digital informationshantering kan ske hos statliga institutioner som samlar, bevarar och tillgängliggör kulturarvsmaterial och kulturarvsinformation, tar vi just nu även fram olika checklistor. Dessa är tänkta att fungera som ett stöd för kulturarvsinstitutionerna i arbetet med olika digitaliseringsmoment. I detta blogginlägg ligger en checklista som handlar om beständiga identifierare i fokus.

Mängden kulturarvsinformation på webben ökar ständigt, och länkad öppen data öppnar möjligheterna att sammanföra information från olika kulturarvsinstitutioner. Samtidigt innebär webbens dynamiska karaktär att den information man söker efter ibland har flyttat och att den inte går att finna trots att den fortfarande finns på webben. Så hur kan man se till att den digitala kulturarvsinformation man publicerar blir så beständig som möjligt?

I ett tidigare blogginlägg har jag skrivit om beständiga identifierare, som är unika kodsträngar kopplade till digitala poster. Själva utformningen av identifierarna för olika objekt och begrepp påverkar om de kommer att vara unika och beständiga. Därför har vi nu tagit fram ett utkast till en checklista för vad man kan tänka på vad gäller beständiga identifierare. Är det någonting du saknar i checklistan? Vi är mycket tacksamma för dina kommentarer och synpunkter på checklistan, antingen direkt som bloggkommentarer eller per mail till sanja.halling@riksarkivet.se (obs! senast den 11 mars). Vi räknar med att dokumentet därefter redigeras och publiceras på vår webbsida.

Sanja Halling