Språkteknologi för nybörjare

 

Flygvapenmuseum, Verktyg i verktygslåda, Fotografi: Hedvall, Stina, licens: CC BY.

Flygvapenmuseum, Verktyg i verktygslåda. Fotografi: Stina Hedvall, CC-BY

Språkteknologin har sedan lång tid utarbetat verktyg och metoder för att på olika sätt beforska språkets form. Inom Swe-Clarin (Common Language Resources and Techno­logy Infrastructure) är vi övertygade om att dessa verktyg och metoder också skulle kunna vara till nytta och glädje för den forskning som mer intres­serar sig för språkets innehåll. Med vår nya handbok vill vi erbjuda en introduktion till oprövade arbetssätt för forskare inom framför allt humaniora och samhällsvetenskap. Med stegvis vägledning blir det lätt att sätta sig in i hur man kan dra nytta av språkteknologins verktyg, utan att själv behöva koda eller programmera.

Språkteknologin ger forskaren möjlighet att arbeta med vedertagna metoder, men i betydligt högre tempo. Kanske viktigare är att den också öppnar för essentiellt nya forskningsfrågor och till exempel möjliggör bearbetning av väldiga datamängder som tidigare varit omöjliga att hantera. Swe-Clarins handbok kompletterar verktygen i Swe-Clarins verktygslåda (se presentationer från invigningen av verktygslådan här) och den hylla med textresurser som tillhandahålls av Språkbanken med flera. Exempeltexterna i vår handbok finns, förutom i de enskilda verktygen, även publikt tillgängliga i Korp, och de kommer fram­över att återkomma i flera användningsfall. På det viset kan den som är nybörjare på om­rådet få en chans att steg­vis fördjupa sig och komma tillbaka till samma källor gång på gång.

En bärande tanke är att verktygen ska gå att tillämpa på användarens egna texter, en annan att användaren själv avgör om hen vill jobba med verktygen via webbklient eller ladda hem dem till sin egen dator. Idag finns bara några få verktyg i lådan, men fler kommer att utarbetas löpande efter användarnas behov. Textresurser publiceras med öppna licenser och källkod finns fritt nedladdningsbar i öppna repositorier.

Språkteknologin kan dock inte lösa allt. Till svagheterna hör bland annat beroendet av textkällor i digital och maskinläsbar form. Inom många domäner finns fortfarande för lite material för forskningen att arbeta med, och alltför ofta saknas de öppna licenser som är en förutsättning för automatiserad bearbetning (data mining).

Språkteknologin kräver alltså av oss att vi gör mer material fritt och öppet tillgängligt för bearbetning, att vi digitaliserar mer (äldre) text och att vi skapar så effektiva arbetsflöden som möjligt. Det innebär bland annat ett öppet förhållningssätt till kolla­borativa forskningsprocesser där annoteringar och annan berikning av källtexter delas med andra forskare, som därmed kan bygga vidare på redan nedlagt arbete. På det viset kan alla gemensamt bidra till ny kunskap och vidgade perspektiv på samhällets historia och utveckling. Vi gör det tillsammans!

Johanna Berg, Swe-Clarin på Riksarkivet

 

 

 

Samlingarna och forskningen

gunnar lundh

gunnar lundh
En man och en kvinna ligger i sovsäckar utomhus. Foto: Gunnar Lundh CC BY-NC-ND

I slutet av februari 2016 arrangerade Digisam tillsammans med Riksbankens JubileumsfondNordiska museet och SWE-CLARIN en seminariedag för de projekt som beviljades stöd i RJ/KVHAA-satsningen på Samlingarna och forskningen 2015.

Bakgrunden till dagen är att vi på Digisam ser stora möjligheter i en fördjupad dialog mellan minnesinstitutioner och universitet. Vi har med intresse följt RJ:s och KVHAA:s initiativ för att utveckla forskningsmöjligheterna på samlingar inom de svenska minnesinstitutionerna, och ser också en växande entusiasm för digital humaniora i universitetsvärlden. Därför kändes det motiverat att ordna ett seminarium där de olika projekten skulle kunna lära känna varandra och kanske hitta nya samarbetsmöjligheter. Dessutom ville vi ta tillfället i akt att visa hur språkteknologin genom SWE-CLARIN kan utgöra ett stöd för humanistiska forskare. Lars Borin presenterade satsningen som sådan och han och hans kollegor fick under dagen många frågor om sådant som topic modelling och name entity recognition.

Dagen inleddes av Pelle Snickars, som presenterade ”Digitala modeller”, ett samarbete mellan HumLab Umeå och Tekniska museet. I tre delprojekt kommer man att arbeta med olika typer av material: Polhems mekaniska alfabet, arkivet efter Carl Sahlin och museets årsbok Daedalus. Material kommer att digitaliseras och bearbetas med olika tekniker och i planerna finns både 3D-scanning, Minecraft och kvalificerad språkteknologi. Se vidare: http://pellesnickars.se/2016/02/forsta-projektpresentationen-av-digitala-modeller/

Patrik Granholm och Roger Andersson presenterade ”TTT: Text till tiden!”, där KB samarbetar med UB Uppsala och Centrum för medeltidsstudier vid Stockholms universitet. Projektet syftar till att skapa en fullständig katalog över de 234 fornsvenska handskrifter som förvaras på biblioteken. Det inkluderar även TEI-kodning av innehållet och inblandade forskare fokuserar på sådant som språkväxling i texterna, form, kontext och influens. Se vidare: http://1drv.ms/1RzhT2X & http://www.kb.se/aktuellt/nyheter/2015/Sveriges-medeltida-handskrifter-lyfts-fram-i-ljuset

Claes Gejrot, Christian Lovén och Carl-Niclas Odenbring presenterade ”TORA (TOpografiskt register på RA)”, där Riksarkivet samarbetar med Institutet för språk och folkminnen, SLU, Stockholms och Uppsala universitet. Målet är att skapa en nationell standard för att sammankoppla information om geografiska enheter (gårdstomter, ortsnamn) i olika historiska källor och databaser. Se vidare: https://riksarkivet.se/Nyhetsarkiv?item=108498

Jonas Engman och Jonas Hedberg presenterade ”Vardagens bilder”, ett samarbete mellan Nordiska museet och Stockholms universitet. Projektet utgår ifrån ett par större samlingar i museets arkiv – Gunnar Lundhs fotografier (300 000) och transkriberade frågelistsvar (500 000 sidor) – och undersöker bl a hur de i olika former tecknar historien om folkhemmets framväxt och hur de olika källorna förhåller sig till varandra.

Tyvärr saknade vi representation från Arosenius-projektet som drivs av Centrum för digital humaniora vid Göteborgs universitet i samverkan med bl a UB Göteborg, Göteborgs konstmuseum och Nationalmuseum. Projektet syftar till att sammanställa alla slags material om Arosenius – målningar, skisser, fotografi, brev, föremål etc – för att undersöka hur digitaliseringen kan göra det möjligt att ”frammana konstnären ur arkiven”. Mer info finns här och här.

Under dagen fick vi också veta att Riksbankens Jubileumsfond fått in 40 fullständiga ansökningar på årets utlysning för Samlingarna och forskningen. Bedömningen är att ansökningarna generellt håller hög kvalitet, och man hoppas denna gång kunna stödja kanske åtta eller tio projekt. Beslut kommer till midsommar, och vi är många som ser fram emot nya forskningsfrågor, nya samarbeten och nya givande seminariedagar för gemensam utveckling av den digitala humanioran.

Johanna Berg

SWE-CLARIN och det talade språket

b2ap3_thumbnail_IMG_4967.jpg

Hur digitaliserar man bäst teckenspråksfilmer?

Vad kan forskningen få ut av en språkfrågelåda?

Och skulle man kanske kunna bygga talsyntes på texter från Wikipedia?

b2ap3_thumbnail_IMG_4967.jpg

Susanna Karlsson rapporterar från sin arbetsgrupp, med teckentolk i bakgrunden. Foto: Johanna Berg (CC:BY)

Den 16 november höll vi SWE-CLARIN-workshop på KTH i Stockholm, för att söka svar på bland annat sådana frågor. Arrangörer var SWE-CLARINs taldatagrupp och tanken att under en eftermiddag söka fördjupa några case som på sikt kan leda vidare till mer formaliserade projekt och förhoppningsvis ny forskningsfinansiering. Inbjudna till dagen var samlingsförvaltare, språk/tal-teknologer och forskare från hum/sam-området och när vi skildes åt mot kvällen hade vi alla lärt oss en hel del om varandras forskningsfrågor och intresseområden. Det var bra!

Johanna Berg