Flygvapenmuseum, Verktyg i verktygslåda. Fotografi: Stina Hedvall, CC-BY
Språkteknologin har sedan lång tid utarbetat verktyg och metoder för att på olika sätt beforska språkets form. Inom Swe-Clarin (Common Language Resources and Technology Infrastructure) är vi övertygade om att dessa verktyg och metoder också skulle kunna vara till nytta och glädje för den forskning som mer intresserar sig för språkets innehåll. Med vår nya handbok vill vi erbjuda en introduktion till oprövade arbetssätt för forskare inom framför allt humaniora och samhällsvetenskap. Med stegvis vägledning blir det lätt att sätta sig in i hur man kan dra nytta av språkteknologins verktyg, utan att själv behöva koda eller programmera.
Språkteknologin ger forskaren möjlighet att arbeta med vedertagna metoder, men i betydligt högre tempo. Kanske viktigare är att den också öppnar för essentiellt nya forskningsfrågor och till exempel möjliggör bearbetning av väldiga datamängder som tidigare varit omöjliga att hantera. Swe-Clarins handbok kompletterar verktygen i Swe-Clarins verktygslåda (se presentationer från invigningen av verktygslådan här) och den hylla med textresurser som tillhandahålls av Språkbanken med flera. Exempeltexterna i vår handbok finns, förutom i de enskilda verktygen, även publikt tillgängliga i Korp, och de kommer framöver att återkomma i flera användningsfall. På det viset kan den som är nybörjare på området få en chans att stegvis fördjupa sig och komma tillbaka till samma källor gång på gång.
En bärande tanke är att verktygen ska gå att tillämpa på användarens egna texter, en annan att användaren själv avgör om hen vill jobba med verktygen via webbklient eller ladda hem dem till sin egen dator. Idag finns bara några få verktyg i lådan, men fler kommer att utarbetas löpande efter användarnas behov. Textresurser publiceras med öppna licenser och källkod finns fritt nedladdningsbar i öppna repositorier.
Språkteknologin kan dock inte lösa allt. Till svagheterna hör bland annat beroendet av textkällor i digital och maskinläsbar form. Inom många domäner finns fortfarande för lite material för forskningen att arbeta med, och alltför ofta saknas de öppna licenser som är en förutsättning för automatiserad bearbetning (data mining).
Språkteknologin kräver alltså av oss att vi gör mer material fritt och öppet tillgängligt för bearbetning, att vi digitaliserar mer (äldre) text och att vi skapar så effektiva arbetsflöden som möjligt. Det innebär bland annat ett öppet förhållningssätt till kollaborativa forskningsprocesser där annoteringar och annan berikning av källtexter delas med andra forskare, som därmed kan bygga vidare på redan nedlagt arbete. På det viset kan alla gemensamt bidra till ny kunskap och vidgade perspektiv på samhällets historia och utveckling. Vi gör det tillsammans!
Johanna Berg, Swe-Clarin på Riksarkivet