Community på Sveriges dataportal
AI och alla myndigheters pdf:er
-
På ett jobbmöte berättade https://www.linkedin.com/in/markjohngraham nyss om förfrågan från AI-företag att få tillgång till alla PDF:er som inhämtats från .gov domäner i USA.
Datamängden är galen stor. 38 miljoner pdf:er. Hundratals terabyte.
Då uppkommer frågan om hur detta effektivt tillgängliggörs?
Han berättade att han skulle ha möte med AWS om de skulle kunna hjälpa möjliggöra effektiv delning av denna värdefulla datamängd.
AWS har tidigare samarbetat med andra non-profits för att tillgängliggöra enorma öppna datamängder på ett kostnadseffektivt sätt.
Finns det en liknande datamängd i Sverige?
Är det några som har alla PDF:er som någonsin delats via svenska myndigheters webbplatser utom möjligen Internet Archive?
KB? -
@Dennis_Priskorn intressant! Skriver för att följa inlägget också och har tyvärr ingen ny info mer än att AWS har gått bort i några projekt i offentlig sektor jag varit i pga oklarheter i möjlighet att hålla datan under hela livscykeln inom EU.
Men om ni nationellt skulle vilja se hur andra hanterat pdf som datamängd skulle jag se mot Skatteverket. Om ni kan gå utanför offentlig sektor så skulle jag gå mot revision- och finansbranschen.
Redan 2016-2017 satt jag i stora projekt och diskussioner om hur man skulle hantera det eftersom många dokument fortfarande faxades och sedan var tvungna att skrapas för att kunna indexeras och sökas. Jag upplevde att problemet inte var det tekniska utan snarare vem som fick befatta sig med respektive data. Eftersom detta var innan GDPR kan vi väl hoppas att behörighet i informationsstrukturen är mer klarlagd.
I utlandet så har ni hur US hanterar publika register från domstolar genom öppna api:er.
-
@Dennis_Priskorn min gissning är att inga inom EU gör som Internet Archive.
Det mesta av programvaran som dom kör är delat som fri programvara för övrigt. Vi kanske behöver ett European Archive också?
Varför Finns det inte nu när vi vet att länkar dör relativt snabbt? -
@Dennis_Priskorn jag är lite delad. För om vi tänker ett externt archive så ser jag en risk i att vi då får mindre morot till att få till en beteendeförändring och bygga säkert och tänka på data availability när vi publicerar och väljer informations forum eller data form. Absolut att frågan om att effektivt tillgängliggöra det är väsentlig men jag tycker frågan om att välja ett hållbart forum som är tillgängligt är högre.
Tänker att vi behöver få in Archive-tänket dvs data availability, både i kod och dokumenthantering som en naturlig del av lifecykling av data och systemutveckling. Precis som att vi ska få in dokumentation och lifecykelhantering när vi bygger.
I EU finns idag exempel på hur man fått in det ganska bra på en policynivå, i vart fall, när det kommer till kommissionens data och article hantering. De kallar det "document managmeent and archival policy.
Vidare finns för forskning Open Data Guideline och Metod. Jag ser inte varför delar av det inte kan användas i praktisk tillämpning.
Jag ser tillgänglighet av data på myndigheters sidor som en samhällstjänst och otillgänglighet av sådan därmed som en säkerhetsrisk. I grund och botten handlar det då om vår beredskap och går in i NIS-direktivet. Redan i ENISA:s rapport om NIS investments 2021 såg man att Sverige halkar efter när vi kommer till investering och FTE:s för att att säkra upp samhällsviktiga (och digitala) tjänster. Eller som det i NIS kallas "Operators of Essential Services (OES) and Digital Service Providers (DSP)".
Så för mig handlar det i grund och botten om hur vi ska få till kravställningen av nya (och befintliga) system och data/information. Hur vi ska definera de som är samhällsviktiga. Exempelvis MSB:s arbete med just informationssäkerhet som lyft sig mycket när det kommer till kommunikation och informationsspridning. Men det fortsätter att spotta ut pdf:er som leder till lång ledtid för informationsspridning ex rapporter om NIS årligen och den info som inte är pdf:er kommer ostrukturerat och otillgängligt exempelvis CERT-SE och termbanken som lanserades i oktober.
Vi måste våga kravställa arbetet kring informationssäkerhet, säkerhetsarbetet generellt samt policyhantering vid öppna data. Precis som att man i ENA haft tydliga ägare av byggblock respektive data.