Community på Sveriges dataportal
Roda eArkiv - Frågor och svar
-
Tisdagen 7 maj genomfördes en digital workshop, Roda-nätverket.
Presentationen fokuserade på RODA som e-arkivlösning där frågor kring tillämpningar, införande och konfiguration berördes samt hur svenska myndigheter och kommuner gått samman i ett nätverk för att stötta varandra. (Presentationer finns på https://nosad.se/workshops).
Under workshopen ställdes en del frågor. Dessa finns nu besvarade nedan:
Fråga 1: Delar Tullverket era tillägg (pre-ingest) som öppen källkod?
Tullverket: Nej, inte än, men det är ambitionen. Förhoppningsvis kan vi göra det via NOSAD.Fråga 2: Kan serienummer, diarienummer och andra unika nummer skapas lokalt utan att en central programvara ska krävas.
Tullverket: Missförstår kanske frågan, men olika sorters informationsidentiteter skapas inte i RODA, utan i de verksamhetssystem som arkiveras. Vissa identiteter kan behöva skapas vid pre-ingest i vissa fall, när sådana saknas i datakällan.Försäkringskassan: Diarienummer genereras oftast i det ursprungliga diariesystemet i samband med att ett ärende skapas. När det kommer till UUID som ofta används på olika sätt vid arkivering skapas de på olika sätt, ofta lokalt i samband med förberedelse av en leverans.
Fråga 3: Finns det inbyggd vektordatabas i RODA? Dvs kan man göra semantiska sökningar i arkivet?
Tullverket: RODA bygger på Apache Solr indexering. RODA har ingen funktionalitet för att skapa eller lagra vektorer. Men en amatörgissning kan vara att det är möjligt att integrera ML-lösningar via befintliga API.Försäkringskassan: Det finns en indexeringsmotor i Roda. Den heter Solr vilket möjliggör sökningar på indexerad metadata. Vad vi vet finns ingen vektordatabas integrerad i systemlösningen idag.
Fråga 4: Hur lagras informationen i Roda? Ligger paketen "as is" eller packas de upp och skickas till olika ställen.
Tullverket: Paketen lagras as is.Försäkringskassan: De inskickade SIP:arna packas om till AIP:ar. Däremot är de i community versionen inte 100% i enlighet med E-ARK specifikationen för AIP:ar då de saknar en uppdaterad mets-fil för innehållet efter ingest-processen. I ingest-processen skapas flera filer i enlighet med premis upp och lagras i respektive AIP för att dokumentera vad som hänt med informationen vid arkivering.
Fråga 5: Har ni tittat på https://gotenberg.dev/ för konvertering av olika format till pdf?
Tullverket: En fråga för våra utvecklare, men när jag läser på hemsidan ser det ut att bygga på Docker. Vi har inte implementerat Docker, men någon sorts containerteknik kommer vi säkert att tillämpa framöver.
Försäkringskassan: Nej inte än men det låter intressant att titta på och ev testa.Fråga 6: Har RODA översatts till svenska?
Tullverket: Ja svenska är valbart i gränssnittet. Tyvärr är delar av översättningen inte toppen än, men det funkar.Fråga 7: Hur går beslutet till? Vilka frågor fastnar ni på? Säkerhet, kostnad, organisation osv?
Tullverket: Om frågan gäller val av e-arkivlösning så har vi gjort en bred analys av många perspektiv, med utgångspunkt från vad som är möjligt och lämpligt i vår organisation.Försäkringskassan: Beslutet att välja öppen källkod och Roda baserades dels på omvärldsbevakning men även på att vi genomförde en PoC (Proof of concept) för att säkerställa att vi kunde applicera vårt säkerhetsramverk och att systemlösningen fungerade inom myndighetens it-miljöer.
Arkitektbeslut av myndighetens it-arkitekter att kunna använda öppen källkod med en prioritering av olika systemlösningar att testa igenom. Därefter kunde styrgruppen för projektet besluta om projektet kunde fortsätta eller inte.Fråga 8: Finns det en öppen vektordatabas, t ex ChromaDB hade varit bra för att möjliggöra AI vid senare tillfälle.
Tullverket: se svar fråga 3.
Försäkringskassan: Det är inget vi stött på eller testat ännu. Vi har ju annan datahantering inom myndigheten när det kommer till underlag för AI/Maskininlärning.Fråga 9: Hur hanterar ni tillgängliggörandet av arkiverade webbplatser?
Försäkringskassan: Detta är inte helt färdigt ännu, men vi ska ta fram en guide för externa om hur de kan öppna och se våra avläsningar i html och warc. Guiden kommer innehålla beskrivning på vilka/vilket verktyg som kan behövas för uppvisningen. Då våra html-avläsningar innehåller relativa länkar så krävs ”enbart” verktyg i form av en webbläsare, och i fallet med warc-filer kan man använda https://replayweb.page/Fråga 10: Ni som har utvärderat och valt RODA - hur tycker ni det har blivit i praktiken? Är ni nöjda med RODA överlag, prestanda, support (KEEPS?), kanske inte användargränssnittet? Lite som input för de som skulle fundera på att gå samma väg.
Tullverket: Överlag är vi mycket nöjda. Med det sagt så har alla lösningar sina specifika problem. Det som är överlägset med RODA är att det är en avancerad och flexibel lösning som är både open source och gratis. Och att det dessutom finns möjligheter att betala för funktioner och tjänsters om man inte kan eller vill hantera själv. ”Problemen” med RODA ligger nog i hög grad i vilka ambitioner och vilket arbetssätt man själv har, inte så mycket i lösningen i sig. Man behöver helt enkelt göra en noggrann behovsanalys själv och se om RODA passar kraven.Försäkringskassan: Roda är en systemlösning som möjliggör olika arbetssätt. Det finns en stor frihet som innebär att varje organisation måste gå igenom vad den vill använda och hur. Utifrån Försäkringskassans behov är vi nöjda med funktionaliteten och vi har tagit fram en hel del arbetssätt och metoder för hur vi vill och kan använda Roda. Det är ju detta arbete som kan kännas stort och lite svårnavigerat för de som precis börjar använda Roda. Där är nätverket för Roda en bra källa till stöd, och även om man är en privat organisation är det ju möjligt att skicka in frågor till nätverket. Alla deltagare i nätverket är offentliga verksamheter som har service skyldighet
I de fall där vi varit lite missnöjda t.ex. användarvänligheten/tillgänglighet av gränssnittet har vi själva lyckats ta fram en lösning (sökgränssnittet). Detta är ju baserat på att vi har en användargrupp som arbetar med sökningar som måste kunna göra sitt jobb på ett så smidigt och effektivt sätt som möjligt. Sen har ju Keep meddelat att version 6 av Roda ska vara tillgänglighetsanpassat.
En positiv aspekt med nuvarande utveckling kring Roda är ju att det idag finns fler leverantörer av support till Roda, vilket vi hoppas ska kunna öka mer så vi kan få en ännu stabilare kompetensförsörjning.