Auktoritetsfiler och beständiga identifierare i praktiken

Viktor Lundgren CC BY

Foto: Viktor Lundgren CC BY

Vad menas med auktoritetsfiler?

När man ska skapa kopplingar mellan digital information från olika institutioner, domäner och metadatamodeller, kan informationen länkas samman genom så kallade auktoritetsfiler. Det innebär att datakällor som kan vara referenspunkter för beskrivning av information från flera institutioner tillgängliggörs online. Dessa kan t.ex. vara personer, organisationer, platser, händelser, ämnen och liknande data som har att göra med samlingarna men som är av mer generell natur och på så sätt oberoende av kulturarvssektorns olika traditioner av informationshantering. Via dessa data kan man sedan referera till arkiv-, biblioteks- eller museimaterialet.

Auktoritetsfiler är också en lättillgänglig sökingång för den användare som saknar insikt i hur arkiv, bibliotek och museer ordnar sina samlingar. Samtidigt innebär filerna att även om sökbarheten förbättras, så blir det i längden inte så enkelt att få fram relevanta resultat endast med hjälp av dem. Ibland finns också auktoritetsfiler som refererar till olika aspekter av samma företeelse. Till exempel kan en person förekomma i flera olika auktoritetslistor, i olika roller.

Sökandet efter Viktor Lundgren – Ett praktiskt exempel

Som ett praktiskt exempel kan vi nämna att vi inom arbetsgruppen för Riksarkivets pilotprojekt i Västernorrland  valt att länka samman fotografier av fotografen Victor Lundgren. (Se mer information i en tidigare bloggpost ). I Murbergets  samlingssystem hittade vi en hel del fotografier av Viktor Lundgren, bland annat med hästar som motiv. I NAD (Nationella Arkivdatabasen)  fanns det en fotografisamling av Janrik Bromé där vi fick en träff på samma fotograf, Viktor Lundgren, men inte som fotograf utan som motiv på en fotografi. Troligtvis var det ett självporträtt han tog som skulle skickas som julkort, med följande text på kortets baksida: ”God Jul och Gott Nytt år! Tillönskar Viktor Lundgr” (resten saknas).

Men vårt sökande efter fotografen Viktor Lundgren i det nationella fotografregistret i Kulturnav  gav inga träffar, trots att det fanns en auktoritetspost av honom som fotograf inbäddad i en metadatapost från Sundsvall museum. I Kulturnav är det möjligt att samarbeta kring auktoritetslistor, och i arbetsgruppen diskuterade vi om man kan lägga till en auktoritetspost i det nationella fotografregistret. Vi tog kontakt med Kulturnav/Nordiska museet och fick hjälp med att lägga till en auktoritetspost om fotografen Viktor Lundgren i registret, så att vi kunde länka till den. Posten om Lundgren som fotograf länkades även till posten i Libris. Nu dök även en intressant fråga om identifierare upp. I allmänhet bör auktoritetsfiler inte dupliceras, men här fanns det två olika auktoritetslistor. Den ena listan omfattar författare och pekar på Lundgren i sin roll som författare, och den andra, nationella fotografregistret, pekar på Lundgren i hans roll som fotograf. Fotografier av Lundgren fanns även med i Svenska Turistföreningens arkiv på Nordiska museet, men fotografierna i databasen var enbart märkta ”V Lundgren” och hans namn hade följaktligen inte hamnat i registret. Nu när Lundgrens namn fanns i registret kunde även dessa poster och medföljande information kopplas till auktoritetsposten.

När vi fick reda på grundläggande information om Viktor Lundgren kunde vi lätt hitta mycket mer information om honom i NAD, inklusive kyrkoböcker (födelseböcker, sockenbok och länsrättsliga arkiv (bouppteckning). Vi kunde även hitta information om Lundgren som författare och information (och auktoritetsfil) i Libris  och VIAF (Virtual International Authority File).

Och sedan?

Det finns ingen tvekan om att Lundgren bör finnas i flera listor, i sina olika roller, men finns det ett behov av två separata beständiga identifierare? Ska en ”samma som ”-sammanlänkning skapas eller borde identifieraren från Libris/VIAF återanvändas? Tekniskt sett finns det flera vägar att gå, som är delvis beroende av den tekniska plattformen, och det är en intressant fråga att arbeta vidare med framöver.

Sanja Halling

Digisams pilotprojekt om lagring går in i skarpare testfas

b2ap3_thumbnail_Skarmavbild-2016-05-23-kl.-15.54.43.png

b2ap3_thumbnail_Skarmavbild-2016-05-23-kl.-15.54.43.png
Bild från sidan 468 ur ”Bell telephone magazine” (1922). Inga kända copyright-restriktioner

Digisams pilotprojekt kring lagring för långsiktig användbarhet går nu in i en skarpare testfas. Pilotprojektet är en del av ett pågående arbete kring en skalbar och flexibel infrastruktur som utförs i samverkan med SUNET, och syftar till att ta fram en effektivare infrastrukturell lösning för gemensam lagring för att skapa högre användbarhet av digital kulturarvsinformation. Här  kan du läsa mer om bakgrunden till arbetet.

Pilotprojektet har haft en förberedelsefas under 2015 och planeras att löpa till hösten 2016. Under projektet ska en modell som bygger på gemensam lagring testas och utvärderas. I utvärderingen kommer hänsyn bland annat tas till eventuella skalfördelar, och kravspecifikationen för modellen kommer att innehålla förslag på lösningar för beständiga identifierare. Förhoppningen är att lösningen kan bidra till effektivare hantering av information och högre grad av interoperabilitet.

I Digisams förstudie pekades en gemensam lagringslösning ut som önskvärd, antingen centraliserad eller distribuerad. Pakettjänster för bevarande kan eventuellt ligga ovanpå en sådan teknisk lösning. Från institutionerna finns önskemål om att kunna sköta lagringen i de egna systemen genom ett gemensamt administrationsgränssnitt. Därför anordnade vi inom ramen för projektet ett seminarium  tillsammans med SUNET, där både systemleverantörer och systemutvecklare för samlingssystem deltog. Under seminariet blev det tydligt att några specifika användarfall behöver testas för att se vilka gemensamma fördelar som kan finnas vid en gemensam lösning, utöver exempelvis ekonomisk vinning. För närvarande utformar vi några sådana scenarier tillsammans med flera kulturarvsinstitutioner, för att i nästa steg testa dessa.

b2ap3_thumbnail_lagring_gemensam_distribuerad_2.png

Bild: S. Danelius CC 0

Illustrationen visar hur institutionerna skulle kunna arbeta i ett gemensamt administrationsgränssnitt (alternativt direkt i sina egna samlingssystem för dem som enklare använder dessa) för att sedan, via kvalitetshöjande tjänster, lagra informationen i standardiserade informationspaket. Ett användargränssnitt kan sedan göra informationen lättare att använda.

Sanja Halling

Archival Information + CIDOC CRM = true?

b2ap3_thumbnail_Skarmavbild-2016-05-12-kl.-17.37.52.png

Today there is a strong need for increased quality in the metadata descriptions of digital cultural heritage information, harmonisation of information between different domains and making collections available as machine-readable and linked data. Linked open data, in combination with accepted international standards and support for those standards, is a first step towards increased use of qualitative cultural heritage data and the possibility of the interconnection of different data sets.

Digisam has been participating in a project coordinated by the National Archives of Sweden, involving, among others, British Museum as a partner. The aim of the project was to examine whether the harmonisation of archival information and CIDOC CRM is possible, what the conditions for making data interoperable with this model look like when applied to data from archives and museums, and how those processes could be facilitated by a support service. The project has primarily tested the service 3M (Mapping Memory Manager),  developed by FORTH.

The aim of the project was also to discuss various alternatives for the design of persistent identifiers (PID), the unique code strings for identification of digital objects. A workshop on persistent identifiers was organised to identify and discuss current routines and systems in the LAM sector.

Archives & Collections

Challenges we faced in describing archival information with the CIDOC CRM RDF model  included defining the role of “archives creator”, the description of “volume” and object-based descriptions.

In CIDOC-CRM  a person or organisation can be assigned different roles. An information object can be created by a ”creator”. But creator in the archival context does not necessarily need to be the same person as the one who created the information. A person or organisation can, in the role of records- or archive creator, receive information created by others. This means that in the archival context there is a difference between ”archive” and ”collection”. A collection is a selection of items collected on the basis of a specific theme or choice, which could form an archive, but do not necessarily need to. A collection requires creators, but may have been acquired in several independent collectors activities.

Another challenge is the concept of ”volume” which goes back to a time when the archives were usually paper documents, which means that the volume represented both the physical object (cardboard box) and the logical object (information content of the documents in the box). This complicates the use of CIDOC-CRM as it requires a clear distinction between the physical and the logical nature (for example for updates) – though in the real archive world, much of the information on a volume is related to either the physical or the logical description of the object.

On the other hand, additional information could be added during the adaptation to a more object-oriented description. A letter might have a completely different value for researchers and users, and would be interesting as more than a document. It may have to do with, for example, specific material, special ink, etc.

The results of the mappings between archival data and CIDOC-CRM indicates that today there are challenges with regard to the specific requirements for the description of archival information. While there is great potential in the ability to link information descriptions, it has also been obvious that an initiative to harmonisation of the descriptions should be taken on a more general level.

Linking archival information and museum information

Given the challenges that we met when mapping archival information to the CIDOC CRM, we decided to test how it would be to create links between archival and museum information using the CIDOC CRM model. After a few searches in the material we decided to make a test with some photographs by the photographer Victor Lundgren. In the collection system of the museum Murberget, we found a lot of photographs by Viktor Lundgren, including some showing horses.

b2ap3_thumbnail_Skarmavbild-2016-05-12-kl.-17.37.52.png

Photo: Viktor Lundgren CC BY

The photographs were described at the object level, and it was quite straightforward to do a mapping of the information that was included.

b2ap3_thumbnail_Skarmavbild-2016-05-12-kl.-17.55.38.png

To find a basic common level based on the metadata that was available in both the museum system and the archival system, and with using CIDOC CRM as a starting point, we drew up the following model that includes information from both the archival information system and the collection system:

bild

In the archival system NAD (National Archive Database)  we found a photography collection by Janrik Bromé where we got a hit on the same photographer, Viktor Lundgren, however not as a photographer but as a subject in a photograph, probably a self-portrait that he has made to be sent out as Christmas cards, with the text on the back of the card: ”Merry Christmas and a Happy New Year! Best wishes Viktor Lundgr ”(the rest is missing).

viktor

The image below shows the result of the mapping on the basis of archival information, a graphic representation of the hierarchical structures, expressed through relationships in the CIDOC CRM.

b2ap3_thumbnail_visualisering2.png

When we found out the basic information about Viktor Lundgren we could easily find much more information about him in NAD, including church records (birth records, parish book and county judicial archives (probate). We could even find information about Lundgren as a writer, and information (and authority file) on him as a writer in National Library database, Libris  and VIAF (Virtual International Authority File)

However, our search for photographer Viktor Lundgren in the national photographer register available in web platform for authority files, Kulturnav  did not give any match, even if there was an authority record of him as photographer embedded in a metadata record from Sundsvall museum . In Kulturnav it is possible to cooperate on the authority lists, and in our working group the question came up on how to add a single authority record in the national photographer database. We made contact with Kulturnav/Nordic Museum and they published an authority record for a photographer Viktor Lundgren  in the register, so we could link to it. Now the interesting question about identifiers came up. Generally, authority files should not be duplicated, but here there are two different authority lists, one list for writers pointing to Lundgren in his role as a writer, and the other one, the national photographer register, pointing at his role as photographer. There is no doubt that the authority post about Lundgren should be a part of both lists, regarding his different roles, but is there a need for two separate persistent identifiers (with “SameAs”-connection) or should an identifier from Libris/VIAF be re-used? Technically, there are two ways to go, and we are looking forward to deal with this question in our future work.

Concerning other authority files (for example terms like ‘photographer’) we used TMP2 (ThesaurusManagement Platform),  a web platform to collaborate on and to publish thesaurus and authority files. There, we could link information in metadata with terms like ”photographer”,  ”Professional photography” , ”Black-and-white photograph,”  to name a few.

Results

Regarding the interoperability between archives, museums and information that could be harmonised by use of CIDOC CRM, there are both opportunities and challenges. Results of the mappings between archival data and CIDOC-CRM RDF show that there are challenges with regard to the specific requirements in description of archival information. Based on current limitations, it is primarily about the difficulties in the description of the material itself because the information is not mapped on the same level, but also in finding a way to express some specific terms, as for example “archival volume”.

Today, in order to link information between different metadata models, the focus is on the linking information with authority files. There is also a great potential in the possibility to link information by creating interoperability between data models, which was what we explored with the help of CIDOC CRM in the tests carried out. It is also clear that a comprehensive initiative should be taken on a more general level. In the library domain, similar issues have been handled to overcome similar challenges and adjustments have been made on a global level in cooperation with ICOM / CIDOC by developing adaptations of CIDOC for library materials, including the authority of the data; FRBR, FRAD and FRSAD models and FRBRoo. This means that the library and museum data today have a common conceptual model for the description of the information.

Do you have personal experience of the linking of information from archives and museums? Have you been working on harmonisation of these data models? We are grateful for your comments and views on the project, either directly here on the blog or by email to sanja.halling@riksarkivet.se (note: deadline for feedback is May 23).

Lina Marklund and Sanja Halling

Arkivinformation + CIDOC CRM = sant (del 2)

b2ap3_thumbnail_Skarmavbild-2016-05-12-kl.-17.37.52.png

Vi har i en tidigare bloggpost  skrivit att Digisam medverkar i ett projekt på Riksarkivet som handlar om att undersöka hur arkivinformation kan harmoniseras med CIDOC CRM  och hur detta kan underlättas av ett stödjande system. Det är intressant att se CIDOC CRM RDF  användas med data från arkiv och museer, eftersom CIDOC CRM RDF är en befintlig etablerad semantisk beskrivning för tvärsektoriell kulturarvsdata som kan uttryckas med bibehållen kvalitet. Projektet har i första hand testat tjänsten 3M (Mapping Memory Manager),  utvecklat av FORTH.

Arkiv och samlingar

Utmaningar som vi har mött i att uttrycka arkivinformation med CIDOC CRM-modellen omfattade bland annat att definiera arkivbildarens roll, beskriva volym och utgå ifrån objektbaserad beskrivning.

I CIDOC-CRM  kan en person eller organisation tilldelas olika roller. Ett informationsobjekt kan exempelvis ha skapats av en ”creator”. Men arkivbildaren behöver inte vara densamma som den som har skapat informationen. Arkivbildaren kan också ta emot information som skapats av andra, men som mottas av personen/organisationen i egenskap av arkivbildare. Därmed blir det inom arkivinformationskontexten en skillnad mellan ”arkivbildning” och ”samling”. En samling, dvs. ett antal objekt som samlats utifrån ett specifikt tema eller urval, kan vara ett arkiv men behöver inte vara det. En samling förutsätter inte en arkivbildare, utan kan ha uppkommit i flera av varandra oberoende samlares verksamheter.

Ytterligare en utmaning utgör begreppet ”volym” som går tillbaka till en tid då arkiv i regel var pappershandlingar, det vill säga volymen som fysiskt objekt (kartong med papper) och som logiskt objekt (informationsinnehållet i handlingarna i kartongen). Detta försvårar användningen av CIDOC-CRM som förutsätter en tydlig åtskillnad mellan fysisk och logisk natur (t.ex. i fråga om dateringar) – medan det i praktiken är mycket av informationen om en volym i arkivredovisningen som kan hänföras till antingen den fysiska eller den logiska beskrivningen av objektet.

Å andra sidan skulle ytterligare information kunna adderas i och med anpassning till möjligheterna att göra en mer objektorienterad beskrivning. Ett brev kan exempelvis ha ett annat värde för forskare och andra användare än bara som ett dokument. Det kan ha att göra med exempelvis specifikt material, särskilt bläck, m.m.

Resultatet av mappningarna mellan arkivdata och CIDOC-CRM pekar på att det idag finns utmaningar med hänsyn till de specifika krav som ställs för beskrivning av arkivinformation. Samtidigt finns det en stor framtida potential i möjligheten att sammanlänka informationsbeskrivningar. Det har även varit tydligt att ett övergripande initiativ för detta borde tas på en mer generell nivå.

Läs mer…

Sammanlänkningar av arkivinformation och museiinformation

Med hänsyn till de utmaningar som vi mötte vid mappningarna av arkivinformation till CIDOC CRM, bestämde vi oss för att testa hur det skulle vara att sammanlänka arkivinformation med museiinformation med hjälp av CIDOC CRM–modellen. Efter några sökningar i materialet valde vi att försöka hitta några fotografier av fotografen Victor Lundgren. I Murbergets  samlingssystem hittade vi en hel del fotografier av Viktor Lundgren, bland annat med hästar som motiv.

b2ap3_thumbnail_Skarmavbild-2016-05-12-kl.-17.37.52.png

Foto: Viktor Lundgren CC BY

Fotografierna var beskrivna på objektnivå och det var ganska okomplicerat att göra en mappning i 3M av den information som fanns med.

 b2ap3_thumbnail_Skarmavbild-2016-05-12-kl.-17.55.38.png

För att hitta en grundläggande gemensam nivå utifrån det metadata som fanns tillgänglig i de båda systemen och med CIDOC CRM som utgångspunkt ritade vi upp en modell som såg ut på följande sätt och som omfattade information från både arkivinformationssystem och samlingssystem:

bild

I NAD (Nationella Arkivdatabasen)  fanns det en fotografisamling av Janrik Bromé där vi fick en träff på samma fotograf, Viktor Lundgren, men inte som fotograf utan som motiv på en fotografi, troligtvis ett självporträtt han har tagit som skulle skickas som julkort, med texten på kortets baksida: ”God Jul och Gott Nytt år! Tillönskar Viktor Lundgr” (resten saknas).

viktor

Bilden nedan visar resultatet av mappningen utifrån arkivinformation, en grafisk framställning av de hierarkiska strukturerna, uttryckta genom relationer i CIDOC CRM.

b2ap3_thumbnail_visualisering2.png

Vi ville även testa sammanlänkningar av fotografens auktoritetspost. Vi tittade i Fotografregistret från Nordiska museet i Kulturnav  men lyckades inte hitta fotografen som vi tittade på (Viktor Lundgren) där- Däremot fanns det en auktoritetspost om honom inbäddat i en metadatapost från Sundsvalls museum . Idag är Kulturnav en plattform för samarbete kring auktoritetslistor, och i vårt arbete uppstod frågan om hur vi gör när vi vill lägga till en enstaka auktoritetspost. Vi kontaktade då Kulturnav/Nordiska museet och fick auktoritetsposten http://kulturnav.org/e8cbd259-d5da-434c-b621-9f654e664561 publicerad i registret, så att vi kunde länka till den.

När vi nu fick reda på grundläggande uppgifter om Viktor Lundgren kunde vi även hitta mycket annan information om honom i NAD, bland annat i kyrkoarkiven (födelseboken, församlingsboken och häradsrätts arkiv (bouppteckning).

Genom TMP2 (ThesaurusManagement Platform),  webbplattform för att samarbeta kring och publicera tesaurier och auktoritetsfiler kunde vi också sammanlänka informationen med termer som ”fotograf”,  ”professionellt fotografi” , ” Svart-vitt fotografi”,  för att nämna några.

Resultat

När det gäller interoperabilitet mellan arkiv- och museiinformation som skulle kunna effektiviseras av CIDOC CRM och/eller länkbara data så har vi kunna konstatera både möjligheter och utmaningar. Resultatet av mappningarna mellan arkivdata och CIDOC-CRM RDF pekar på att det idag finns utmaningar med hänsyn till de specifika krav som ställs för beskrivning av arkivinformation. Så som det ser ut utifrån dagens begränsningar handlar det framförallt om svårigheterna i beskrivningen av själva materialet eftersom informationen inte mappas på samma nivå då arkivinformation använder flernivåbeskrivning.

För att åstadkomma snabb effekt och sammanlänka information mellan skilda metadatamodeller fokuserar man redan idag på att sammanlänka information genom auktoritetsfiler. Det finns också en stor framtida potential i möjligheten att sammanlänka information genom att skapa interoperabilitet mellan datamodeller, vilket var vad vi undersökte med hjälp av CIDOC CRM i de tester som genomförts. Det har även varit tydligt att ett övergripande initiativ för detta borde tas på en mer generell nivå. Om man jämför hur liknande frågor har hanterats i biblioteksdomänen för att överkomma liknande utmaningar så har anpassningar gjorts på en övergripande nivå i samarbete med ICOM/CIDOC. Man har exempelvis tagit fram anpassningar av CIDOC för biblioteksmaterial, inklusive auktoritetsdata; FRBR, FRAD och FRSAD-modeller samt FRBRoo. Det innebär att biblioteks- och museidata idag har en gemensam konceptuell modell för beskrivning av informationen.

Har du egna erfarenheter av sammanlänkning av informationen från arkiv och museer? Har du synpunkter på harmonisering av dessa datamodeller? Vi är tacksamma för dina kommentarer och synpunkter på projektets resultat, antingen direkt som bloggkommentarer eller per mail till sanja.halling@riksarkivet.se (obs! senast den 23 maj).

Lina Marklund och Sanja Halling

Kulturarv genom tid och framför allt rum

b2ap3_thumbnail_rom_map.jpg

b2ap3_thumbnail_rom_map.jpg

Inzoomad bild från Digital atlas of the Roman Empire.

Idag utvecklas allt fler applikationer som ger oss information om kulturarvsinstitutionernas samlingar genom kartvisning. Geokodad kulturarvsinformation ger oss möjligheter att utforska information genom tid och rum. Följ med på resan!

Applikationer och projekt – Aktuella exempel

  • Karttjänsten och forskningsportalen Digital Atlas of the Roman Empire, utvecklad vid Lunds Universitet, bygger på länkade öppna data. Den är kopplad till det internationella projektet Pelagios och samarbetet Pelagios Commons.
  • Regnum Francorum Online visar tidigmedeltida digitaliserat källmaterial.
  • Projektet ARIADNE sammanför distribuerade arkeologiska uppgifter i en datainfrastruktur för forskning. Projektet har tagit fram en kartapplikation som gör det möjligt att söka i deras portal.
  • Nordiska museets Tidskikaren visar förändringarna i landskapet kring Julita gård under fyra sekel.
  • På Riksantikvarieämbetets söktjänst Aktuell Arkeologi kan man få överblick över var i landet arkeologiska utgrävningar pågår.
  • Platsr kan man utforska och skapa berättelser om olika platser och samlingar.
  • Inom TORA-projektet samarbetar Riksarkivet med Institutet för språk och folkminnen, SLU, Stockholms universitet och Uppsala universitet med att koordinera olika rumsligt relaterade databaser genom ett koordinatregister som bygger på historiska bebyggelseenheter.
  • Inom LoCloud-projektet LoCloud-projektet finns både Geolocation Enrichment Tools och Historical Placenames Service.
  • Sammanlänkning av maskinläsbar data med fokus på “geospatial properties of the linked entities” sker i verktyget FAGI-gis.
  • Projektet Digitising the Patterns of Power använder kartvisning för att utforska utveckling av makt under medeltiden i en geografisk kontext. Kartvisningen kommer att bygga på databastjänsten OpenAtlas med öppen källkod, samt CIDOC-CRM-modellen.
  • Projektet ARCHES har utvecklat en plattform för hantering av kulturarvsinformation – geodata-anpassad och med öppen källkod. Exempel på implementeringar av plattformen visas här.
  • GeoKnow-projektet Making the web an exploratory place for geospatial data utforskar geodata utifrån länkad data-perspektiv och har tagit fram en rad olika tjänster.
  • Kultur- og naturreise är ett norsk projekt där Kartverket, Kulturrådet, Riksantikvaren och Riksarkivet i Norge samarbetar för att öka tillgången till och användning av offentlig information och lokal kunskap om kultur och natur. Projektet har utvecklat en kartapplikation där man visar olika tematiska exempel.

Hur går man då tillväga när man ska publicera kulturarvsinformation från samlingar i en kartapplikation?

Europeiska samarbeten och eCultureMap

Under senare år har Digisam deltagit i projekten Linked Heritage och Athena Plus. Båda projekten har tittat på hur kulturarvsinstitutionernas material kan presenteras på ett användarvänligt sätt med hjälp av geografisk information.

karta

eCultureMap

Inom Athena Plus utvecklades en GIS-kartapplikation, eCultureMap som kan användas som ett alternativt användargränssnitt för sökportaler och som möjliggör sökningar baserade på geografiska platser eller GPS-positionering. På Digisam.se har vi lagt in kartan här.

Riktlinjer för användning av eCultureMap kan du ta del av här. För att läsa mer om hur du kan göra rent praktiskt för att använda dig av tjänsten, lägga till material eller återanvända plattformen/källkoden, klicka här.

I Linked Heritage-projektet har man tidigare tagit fram publikationen Geocoded Digital Cultural Content. Där beskrivs det hur proveniens, nuvarande placering och relaterade händelser kan knytas samman med hjälp av geografisk information. Projektets arbete grundas i Athena-projektets tidigare riktlinjer Guidelines for Geographic Information.

Geodata på webben – rekommendationer

Utvecklingen går framåt – i och med ökad tillgång till olika tekniska tjänster och verktyg hoppas vi att samarbeten kring kulturarvsinformation genom interaktiva kartor kommer att öka!

Sanja Halling

Digikult – Digitalt kulturarv i praktiken

logga-digikult

logga-digikult

Förra veckan gick Digikult-konferensen av stapeln, för fjärde året i rad. Konferensens fokus var ”digitalt kulturarv i praktiken” och presentationerna belyste öppna data, digital humaniora, digital förmedling av kulturarvet och inte minst praktiska exempel på hur man skapar bättre tillgänglighet och användbarhet.

Från Digisam presenterade Rolf Källman vår rapport Ett digitalare kulturarv  som överlämnades till regeringen i februari. Presentationen hittar du här.

Mycket av fokus i presentationerna låg på användning av informationen. Riksarkivarien Björn Jordells presentation handlade om just detta – att kulturarvet bevaras för att användas. Björn pekade på att fokus i e-förvaltningsfrågorna under de senaste åren har gått från teknisk inriktning till återanvändning av information. Det värdefulla och centrala i digitaliseringen är just informationen. Tekniken är föränderlig men värdet i informationen består och därför är öppna data en viktig fråga – det är tekniken som ska anpassas till informationen och inte tvärtom.

Trineke Kamerling från Rijksmuseum i Amsterdam berättade om museets olika projekt och samarbeten som involverar användare på olika sätt. Med museets Rijksstudio kan museets analoga konstverk resultera i produkter där konstverk från museet får spridning genom olika vardagsföremål som legobitar, yoghurtpaket och klänningar. Ett pågående projekt tar också fram en webbaserad ”paint-sample database”. Museet är också involverat i ett samarbete kring crowdsourcing-verktyget Accurator. Trineke berättade också om samarbeten med andra museer, t.ex. med British Museums Research Space, där den semantiska webbens tekniker utforskas.

Mahendra Mahey höll en presentation om British Library Labs verksamhet och utmaningen som ligger i att skapa så stor tillgång som möjligt till den digitala informationen. Mahendra visade exempel på hur man samarbetar med användarna. Man har anordnat tävlingar som t.ex. Shakespeare Off The Map och några specifika projekt såsom Mechanical Curator, där slumpmässigt utvalda små illustrationer från 1700- till 1900-talets böcker publiceras varje timme.

Torsten

Torsten Johansson från Kungliga biblioteket. Foto: Johanna Berg CC-0

Torsten Johansson från Kungliga biblioteket berättade om digitalisering av dagstidningar, bland annat utifrån projektet DigiDaily och utifrån hur OCR-tolkning öppnar för nya typer av forskning eftersom det möjliggör fritextsökningar i textmassor.

Fredrik Skott från Institutet för språk och folkminnen pratade om tillgängliggörande och publicering av arkiv- och museisamlingar med folkminnesarkiven som exempel. Fredrik lyfte frågor kring etiska överväganden och urvalsprinciper. Hur beskrivs informationen vid olika historiska tidpunkter? Institutionerna är inte bara förvaltare av information – vi bevarar, vårdar och visar vår historia men är också med och skapar den, menar Fredrik.

Ulla Bøgvad Kejser från det Kongelige Bibliotek i Danmark pratade om kostnader för bevarande (curation) och om institutionens arbete i det europeiska projektet 4C, där bland annat verktyget Curation Costs Exchange utvecklades.

Pelle Snickars, professor i medie- och kommunikationsvetenskap med inriktning mot digital humaniora vid Umeå universitet, lyfte i sin presentation intressanta frågor kring att skanna i 3D och vad det innebär för digitalt original och kopia, med exempel från historien om hur den digitala bysten av Nefertiti har tagits fram. Pelle presenterade också ett nytt projekt – Digitala Modeller: teknikhistoriens samlingar, digital humaniora & industrialismens berättelser.

Magnus Johansson, Statens museer för världskultur och Wilhelm Lagercrantz, Statens historiska museer, presenterade några digitala tillämpningar av utställningar som har tagits fram de senaste åren, t.ex. den digitala utställningen Magasinet. Idag finns det flera möjligheter för institutioner att utveckla gemensamma tillämpningar. Exempelvis pågår ett initiativ kring att skapa ett gemensamt administrationsgränssnitt där flera institutioner kan samarbeta kring den information som finns i K-samsök och t.ex. skapa digitala utställningar.

Ovanstående är bara en del av alla de intressanta presentationer som hölls. Hela konferensen filmades, och både filmen och presentationerna kommer framöver att publiceras på Digikults webbplats http://digikult.se.

Sanja Halling

Save the date – seminarium om lagring för användbarhet och hackathon 2-4 maj

cogs

cogs
Cogs. Foto: Stuart Madeley CC BY-NC-SA

Digisam och Sunet bjuder in till ett öppet seminarium den 2 maj i Sunets lokaler i Stockholm. Seminariet riktar sig till leverantörer av system som idag används för att hantera kulturarvsinformation (som exempelvis samlingssystem) och som är intresserade av att höra mer om Digisams samarbete med Sunet kring digital lagring för tillgängliggörande samt den tjänst för lagring och back up som erbjuds igenom Sunet.

Alla systemleverantörer som är intresserade av möjligheten att koppla in sina system till denna lagringslösning kommer att få möjlighet att testa det under ett hackathon som kommer att anordnas den 3-4 maj.

Anmälan skickas till sanja.halling@riksarkivet.se senast den 25 april.

Sanja Halling

Rapport från seminariet om beständiga identifierare

publiken

publiken

Foto: Emma Almroth

Måndag den 7 mars arrangerade Digisam tillsammans med arbetsgrupperna för Riksarkivets arbetsgrupp för testplattformen i Västernorrland och Digisams pilotprojekt om lagring för långsiktig användbarhet samt SUNET ett seminarium om beständiga identifierare.

Syftet med dagen var att titta på hur man idag använder olika typer av identifierare och system för dessa vid de olika kulturarvs- och forskningsinstitutionerna. På så sätt ville vi på Digisam undersöka ifall man kan gå ett steg längre än den checklista som redan har framställts av Digisam genom att ta fram rekommendationer för beständiga identifierare samt undersöka vilka system som finns för att skapa identifierare.

Läs mer…

 

Sanja Halling berättade om Digisams arbete med auktoriteter och beständiga identifierare.
Beständiga identifierare (PID) är kodsträngar som hänvisar till digitala objekt . De är en förutsättning för att man ska kunna skapa länkbar och användbar digital information. Vid tillgängliggörande av data, både t ex vid aggregering eller LOD är PID:ar viktiga för att länkarna ska kunna fungera på sikt. Digisam skriver i sin rapport att institutionerna bör samverka kring beständiga identifierare. Den checklista för beständiga identifierare som Digisam har tagit fram grundas på befintliga rekommendationer från bl a EU Kommissionen.

På seminariet berättade några kulturarvsinstitutioner som idag hanterar både sina egna data men även aggregerad data från andra institutioner om sitt arbete och tankar kring beständiga identifierare.

Martin Malmsten och Stina Degerstedt berättade att Kungl. biblioteket har LOD-identifierare som både http URI:er och URN-NBN. Det räcker inte att ha ett enda system för identifierare, man behöver ta hänsyn till kontext, organisation och typ av data. Har man ingen organisation som stödjer beständiga identifierare så fungerar det inte långsiktigt. En LOD-identifierare består både av domännamn och en lokal unik identifierare. Det handlar inte bara om teknik utan om data. URN-NBN står inte i någon direkt motsats till att använda htp-uri:er. Kungl. biblioteket är administratör för URN-NBN systemet i Sverige och det används mest internt samt av bibliotek vid universitet och högskolor. Man har också en uppslagstjänst med en mappning mellan alla urn.

Mårten Johansson berättade att det vid Riksarkivet ännu inte finns någon färdig lösning för beständiga identifierare, men att man har tittat på Kungliga Bibliotekets lösning. NAD (Nationell Arkivdatabas) innehåller dels Riksarkivets databas och dels levererade arkivdata från andra institutioner. På allt data finns en unik identifierare – en GUID – som borde kunna kombineras med ett domännamn för att skapa en PID.

Henrik Summanen berättade om K-samsök som förvaltas av Riksantikvarieämbetet och är en gemensam söktjänst för kulturarv från svenska museer och andra minnesinstitutioner. PID:arna som finns i K-samsök byggs lokalt utifrån domän+tjänst+unikt id. Från beständighetssynpunkt är ett av problemen att om någon dataleverantör byter system så tappar man länken. Ett annat problem är att om ett objekt byter museum så får den ett nytt id.

Dagen fortsatte med ett exempel  för att belysa vilka tankar som uppstår i ett samarbetsprojekt när datakällor från flera institutioner ska sammankopplas med syftet att publiceras online.

Mats Berggren från Riksarkivet  berättade om TORA-projektet som syftar till att koordinera olika rumsligt relaterade databaser genom ett koordinatregister som bygger på historiska bebyggelseenheter. Varje bebyggelseenhet får ett id och en koordinat utifrån mittpunkten på bebyggelsen. Tanken är att man ska kunna knyta andra register till detta register tex. geometriska kartor. De olika databaserna har sina egna identiteter och fält, men man kan lägga till en identitet i TORA-registret istället för att ha koordinater och beskrivning av bebyggelseenheten i alla register. I princip kan man publicera varje bebyggelseenhet som länkad öppen data. En fråga som projektet diskuterade är hur registrets PID:ar ska se ut. Ska man använda Riksarkivets egna? En gemensam tjänst som tex. Kulturnav? Eller bör man ha ett gemensamt domännamn för kulturarvsmyndigheter och institutioner? Det viktiga är inte den tekniska delen utan att det är en beständig organisation som står bakom.

Ulf Bodin presenterade KulturNav, som är en webbplats och programvara för att skapa, förvalta och distribuera gemensam öppen terminologi och auktoriteter, med fokus på museer och andra kulturarvsinstitutioner. Kulturnav förvaltas och ägs av KulturIT som är ett bolag som ägs av 6 museer: 5 norska och 1 svenskt. Det är en molntjänst (software as a service), öppet för alla. Upplägget är att man ska kunna samverka och bygga tillsammans. Varje organisation får själv ansvara för förvaltning och uppdatering av de auktoritetslistor som de själva lägger in på Kulturnav men fler kan hjälpa till och förbättra och föreslå förändringar.

Frågor om beständiga identifierare diskuteras även när det gäller forskningsdata. Vad finns det för likheter med resonemanget kring kulturarvsdata?

Carl Johan Håkansson från KTH-PDC presenterade det europeiska projektet EUDAT som skapar en gemensam europeisk datainfrastruktur för forskningsdata. Flera olika tjänster tas fram i projektet för att t.ex. lagra och söka data. Tre av tjänsterna använder beständiga identifierare, de som handlar om att lagra data, hantera data och göra data tillgängligt. Projektet använder främst EPIC Handle-PID-system, vilket innebär en samverkan mellan Handle.net, EPIC och EUDAT. Man arbetar med metadata med länkar till kopior som går att spåra genom EPIC-Handle. EUDAT kan lägga på ytterligare information och protokoll för att hantera de stora datamängderna.

Ett exempel följde på ett system som kan hantera identiferare för data från olika datakällor där de både harmoniseras i gemensam beskrivning och tilldelas identifierare. Nikos Minadakis från FORTH berättade om PID i deras mappningsverktyg 3M.  I systemet görs först en schemamappning, andra steget är en URI generation specification som utförs av IT-personal. En funktion för att skapa URI kan implementeras i programmet. Det finns tre sätt att skapa URI:er i systemet, generera policy files, generera genom templates, custom instance generators. Nikos förklarade hur det tekniskt går till när PID skapas i systemet och exemplen går att hitta i presentationen.

Dominic Oldman från British Museum, ResearchSpace berättade om hur de arbetar med PID. Principen är att man använder http URI:er anligt Storbritaniens statliga riktlinjer. Dessa hänvisar till att använda domän (tex. organisation), id, koncept och nummer. Dessa går att förstå för mänskliga ögat, därtill kan information om objektet läggas till, t.ex. dimension. Man måste se upp med termerna och skilja på det som är unikt för objektet respektive hela databasen. Dominic visade hur praktisk exempel på användning av PID:ar i 3M.
 
Birger Jerlehag presenterade hur Svensk nationell datatjänst arbetar med att insamla, bevara och tillgängliggöra forskningsdata. De sätter beständiga identifierare i form av Digital Object Identifier (DOI – http://snd.gu.se/sv/om-oss/tjanster/pid) på artiklar och annan forskningsdata som publiceras och delar ut DOI till institutioner som behöver det. Systemet för att använda sig av DOI är baserat på Handle. Det genereras mycket data inom forskningen vilket gör att det är viktigt att märka upp data. Det går att lägga in relationer till annat data i systemet så att man visar att det hänger ihop. DOI ska alltid peka till en landningssida med info om objektet tex. accessvillkor, rättigheter, versioner, citering. Om en sida måste tas bort finns en ”gravstensida” med information om vad som hänt. PID:en är permanent men det krävs att det finns någon organisation bakom som garanterar tillgång och beständighet.

Matthias Palmér från Meta Solutions presenterade Fackverket 3.0-projektets arbete. Han inledde med att hävda att beständiga identifierare bör vara URI:er som använder http-format. Ska man återanvända URI:er eller inte? Det finns både för- och nackdelar. Hur kan man skifta mellan central och egen förvaltning utan att byta URIer? Det går att byta identifierare så länge man pekar om dem och hänvisar.

Efter föreläsningarna följde en diskussion. Att standarder och licenser är viktiga är grundläggande men även att tänka behovsstyrt och samarbeta. Hur hanterar man brutna länkar? Är centraliserade eller distribuerade lösningar att föredra? Man behöver en grundläggande infrastruktur för att kunna hantera de distribuerade lösningarna. Det kommer alltid att uppstå omflyttningar av data och det kommer att finnas system som går ner. Det viktiga är att kunna hantera beständiga identifierare och peka till aktuell information även när dessa situationer uppstår. Bara en liten del handlar egentligen om tekniken. Det som behöver finnas på plats redan innan är en tydlig policy och organisation. På så sätt kan långsiktigheten garanteras. Gemensamma system kan däremot vara ett tekniskt hjälpmedel tillgänglig för flera, gärna med öppen källkod. Institutionerna behöver även hjälp med kravspecifikationer. Interoperabiliteten mellan de olika systemen för identifierare behöver också skapas.

Kan man samarbeta med gemensamma dataset om t.ex. auktoriteter? Blir det enklare eller mer svårhanterligt? Olika institutioner/myndigheter har olika utmaningar och möjligheter.
Internet är till sin natur distribuerat, behöver man ändå en central punkt? Redundans och öppen källkod är viktiga aspekter. Olika typer av digital information behöver olika identifierare som är anpassade efter typen av information.

Det blev en intensiv dag med många presentationer och diskussioner. Vi tycker nu att vi har fått mycket material för att jobba vidare med frågan. Vi hoppas kunna fortsätta diskussionen och återkomma snart med ett förslag på rekommendation!

Sanja Halling och Lina Marklund

Seminarium om persistenta identifierare

b2ap3_thumbnail_axe.jpg

b2ap3_thumbnail_axe.jpg
Neolitisk stenyxa från West Sussex. Pitt Rivers Museum.

Uppdatering 23 feb: Programmet är nu klart och finns här.

Är du intresserad av att sammankoppla digital kulturarvsinformation genom auktoritetsposter? Har du funderat på hur beständiga identifierare för informationen ska se ut? Den 7 mars kommer ett halvdagsseminarium om beständiga identifierare (persistent identifiers – PID) att äga rum i Stockholm.  Seminariet organiseras inom ramen för projektet ”Culture Broker – Testplattform i Västernorrland” som Riksarkivet koordinerar, i samarbete med Digisams pilotprojekt om lagring för långsiktigt användbarhet.

Auktoritetsfiler är en typ av resurser som det pratas mycket om idag eftersom de kan vara till stor gemensam nytta för att koppla samman material från olika kulturarvsinstitutioner. De är därför särskilt värdefulla att tillgängliggöra som öppna data. Auktoritetsfiler är listor med auktoriteter  t.ex. ortsnamn eller personnamn, som ofta är av brett intresse för många aktörer. För närvarande pågår en uppbyggnad av olika plattformar för hantering av auktoriteter (terminologier, tesaurier, kontrollerade vokabulärer). En förutsättning för en hållbar användning av dessa plattformar är att de stöds av en beständig struktur för identifierare (se vidare i Digisams Checklista för beständiga identifierare).

Programmet för seminariet  är fortfarande under arbete men några punkter i programmet kommer att omfatta utformning av URI:er för kulturarvsinformation med exempel  från NAD, KB, och K-samsök, en case study från TORA-projektet, samt en presentation om hur beständiga identifierare utformas i KulturNav och hur de hanteras inom forskningsvärlden.

Workshopen vänder sig till alla som är intresserade av eller redan idag arbetar med beständiga identifierare. Det är begränsat antal platser så det är först till kvarn som gäller.
Tid: Kl 9.00-12.30 den 7 mars 2016.
Plats: SUNET, Tulegatan 11, Stockholm
Anmälan görs till lina.marklund@riksarkivet.se senast 1 mars.

Sanja Halling

Arkivinformation + CIDOC CRM = sant?

b2ap3_thumbnail_bild.jpg

Digisam medverkar sedan hösten 2015 i en testplattform som har som syfte att undersöka om en harmonisering av arkivinformation och CIDOC CRM är möjlig, hur förutsättningarna ser ut och hur det kan underlättas av ett stödjande system.

Det finns idag ett starkt behov av ökad kvalitet i metadatabeskrivningar av digital kulturarvsinformation, konceptuell harmonisering av information mellan olika domäner samt tillgängliggörande av samlingar som maskinläsbar och länkbar data. Stödjande verktyg vid registrering behövs för att skapa så enkla och automatiserade processer som möjligt. Länkbar öppen data i kombination med vedertagna internationella standarder, och stödfunktioner för detta är ett första steg mot ökad användning av kvalitativa kulturarvsdata och möjligheten till sammanlänkningar av olika datamängder.

b2ap3_thumbnail_bild.jpgFoto: Adam Rönnlund

Testplattformen i Västernorrland görs inom ett pilotprojekt som koordineras av Riksarkivet och delfinansierat av Kulturrådet och Länsstyrelsen i Västernorrland, där bland annat British Museum deltar som partner. Verktygen som utvecklas inom ramen för detta initiativ kommer att testas, utvärderas och anpassas för att strukturera arkivinformation till CIDOC CRM samtidigt som man behåller hög kvalitet och ökar möjligheter till praktiska tillämpningar genom bl.a.interoperabel länkbar metadata. Beröringspunkterna kring hanteringen av data mellan Research Space på British museum, Murbergets samlingsdatabas och Nationell arkivdatabas (NAD) kommer att analyseras.
 
Ambitionen är också att diskutera olika förslag till utformning av beständiga identifierare (persistent identifiers/PID), dvs unika kodsträngar för identifiering av digitala objekt/webbresurser, i bred samverkan med nationell och internationell expertis. Under våren kommer en workshop om beständiga identifierare att anordnas.

Sanja Halling