Jättekul att intresset för RODA växer! Bara några inledande kommentarer som kanske reder ut några funderingar. Kanske en del självklarheter, men ändå:
De verktyg i RODA-familjen som är centrala är
RODA - ett e-arkiv som bl a kan
- ta emot och validera SIP i några olika internationella paketstandarder E-ARK och BagIt. E-ARK som vi använder, bygger på metadatastandarder EAD, EAC, METS, PREMIS. Ett självklart val tycker vi, särskilt som EU-medlemsland och i synnerhet som statlig myndighet.
- validera paketen bl a utifrån kontrollsumma, metadatainnehåll, struktur mm utifrån standard (och ev egen konfiguration)
- lagra, söka, visa, förvalta, gallra,
- skapa och hantera flera behörighetsnivåer ner till paketnivå
- möjliggör uppdatering av paket och paketmetadata (för den med rätt behörighet)
- viruskontroll vid Ingest är konfigurerbart
Det och mycket annat är vad RODA gör i grunden.
Observera att valet av RODA också innebär ett val av paketstandard (metadata och paketstruktur) för e-arkiverad information. Vilket ju är en bonus!
Valet av RODA är i sig ganska enkelt. Men Pre-Ingest är (som vanligt) den stora tröskeln när det gäller e-arkivering. Man behöver börja titta på hur man vill att e-arkivering ska gå till. Vad ska e-arkiveras? Vem ska göra det? Hur ska det gå till? När man har behoven och den önskade processen klar för sig kan man börja titta på Pre-Ingest-verktyg.
Till RODA behövs Pre-Ingestverktyg för att skapa SIP med önskade metadata. I RODA-familjen finns ett Pre-Ingestverktyg för det - RODA-In - som är en klientprogramvara för "manuell" e-arkivering där man kan berika SIP med metadata. Dvs skapa arkivpaket av filer/filkataloger/filstrukturer. Om det är arkivering av "dokumentfiler" som är behovet så uppfyller RODA-In i princip behovet av Pre-Ingest.
Om behovet är att e-arkivera uppgifter ur tabeller i databaser som "ärenden" (paketeras som t ex E-ARK), så behöver man skaffa eller bygga en pre-ingestfunktion med någon variant av ETL-programvara (särskilt Extract och Transformation). Detta ligger alltså helt utanför RODA. Här finns hur många vägar som helst att ta.
Open source, kanske Talend eller liknande.
Prioprietär programvara som MS SSIS, kanske i kombination med MS Power BI, kanske Informatica etc. Vilken väg man tar avgörs bl a av
- Hur man vill arbeta och vilka behov man har (t ex grafisk dataanalys eller inte)
- Vad det får kosta
- Vad som ev redan finns i organisationen som går att använda
- Den tekniska miljön och vad som fungerar ur det perspektivet.
- Kunskap och resurser i organisationen
Vi använder MS SSIS och en serie egenutvecklade script som kör hela ETL-processen från hämtning ur datakällan till inlastning av färdiga SIP i RODA. Vi hade hellre använt open source här också, men det var så det blev av bl a tids- och ekonomiska skäl och vad som fanns i organisationen.
Om behovet är att e-arkivera uppgifter ur databaser i tabellform så kommer vi in på andra standarder och andra verktyg i RODA-familjen:
Format för databasarkivering: SIARD-formatet som bygger på sql
DBPTK Developer för att skapa avgränsade databasuttag i SIARD-format (text)
DBPTK Desktop för att visa, söka och validera arkiverade tabeller
DBPTK Enterprise för att visa, söka och hantera olika databaser, behörigheter mm
Så, vi har alltså i fallet databasarkivering två möjligheter:
- e-arkivera som tabeller (databas som SIARD-fil) eller
- e-arkivera som ärenden (E-ARK).
Vi använder båda, utifrån sökbehoven i varje enskilt fall.
Båda varianterna e-arkiveras i RODA (som E-ARK-paket). DBPTK används för visning av SIARD-paket. (Uppdatering av RODA/DBPTK lär möjliggöra visning av SIARD-filer i DBPTK direkt ur RODA. )
Filkonverteringsverktyg hanteras också helt utanför RODA. Välj själv bland verktyg som funkar för dina behov bland verktyg som går att köra som plug-in i RODA. De som anges i ett inlägg av @lfvjimisola ovan är de som vi har valt för våra behov.
Sist men inte minst tänker jag nämna att man bör ha en generell informationsmodell för de paket som e-arkiveras. Det är ju långsiktig sökning som är kärnan i ett e-arkiv. Utan en generell och långsiktig sökmöjlighet (samma metadatauppsättning till alla paket) så har man bara ett antal stuprör som blir svåra att använda. Så en rekommendation är - oavsett vilken e-arkivlösning man har - att definiera en metadatakatalog som alltid tillämpas när man skapar SIP. Och att man konfigurerar RODA (och RODA-In om man vill använda den) med motsvarande metadataformulär.
Långt inlägg :-). Sorry.