Community på Sveriges dataportal
-
Både Italien och Sverige delar sin budget som data, men inga av dem har klarat av att lyfta datan till nivå 5 (rätta mig om jag har fel!).
Enter g0v.it! De har skapat en ontologi för den italienska budgeten.
Såhär ser ontologin ut, dvs. hur datans olika delar beskrivs i förhållande till varandra:
Är nån sugen på att göra samma med den svenska och ladda in i en graf? Forskningsprojekt?
Den svenska budgeten delas i excel och csv formaten här https://www.regeringen.se/sveriges-regering/finansdepartementet/statens-budget/statens-budget-som-excel/ men där finns vad jag sett ingen ontologi, så det är en silo (enligt @salgo60-ej-aktiv's begrepp) och används nog inte mycket i dagsläget).
Ändringar i budgetinformationen ut såhär:
https://www.regeringen.se/4978b3/contentassets/cae3434fdfc94f9da5f478fbd33b2cd0/varandringsbudget-for-2021-prop.-20202199.pdfInuti verkar tjänstemännen inte orka länka till sina egna URI/URLer så att användarna/läsarna själva får gissa vad de olika förkortningarna betyder och hur man får tag i informationen bakom. Regeringen kanske vill att jag ska ringa växeln och fråga?
Exempelvis hittar man
Söker man på https://www.regeringen.se/sokresultat/?query=prop.+2020%2F21%3A77 då får man faktiskt dokumentet som första resultat ur 2.
Se https://www.regeringen.se/rattsliga-dokument/proposition/2021/01/prop.-20202177/
Gissa hur datan där är strukturerad? Inte alls, det är PDF där med.Jag önskar mig strukturerad data från Regeringen så att det går att följa allt de tar sig till och koppla ihop personer, dokument, webbsidor, m.m.
Bonus:
Regeringen skulle även kunna ge ut en ändringsström så att jag i realtid kan se vad som händer i grafen hos Regeringen, precis som jag kan på Wikipedia (de kör Kafka internt och har ett enkelt API). -
@dennis_priskorn Intressant projekt som tydligen går att hämta ned och provköra om man har ork och kunskaper.
Ser ut som det också finns ändringsförslag i Excel-format på sidan om statsbudgeten som Excel, är det annan information än den som finns i vårändringsbudgeten? Fanns det budgetar även i csv-format, jag undrar lite hur det ser ut i så fall?
En stor del av myndighetssverige med regeringskansliet i spetsen som det ser ut verkar ju annars publicera mycket av sitt material som PDF:er med hjälp av Adobe InDesign (Creative Cloud?) och Microsoft Office 365. Jag vet inte om det faktiskt finns en avsikt i att det inte enkelt ska gå att analysera och vidarenyttja materialet, eller om det mest är en tradition man håller kvar vid där all slutkonsumtion handlar om pappersutskrifter.
Knepigt som sagt med alla referenser som ligger inbäddade i PDF-filer.
-
@jonor sa i Statens budget som länkad data?:
@dennis_priskorn Intressant projekt som tydligen går att hämta ned och provköra om man har ork och kunskaper.
Ser ut som det också finns ändringsförslag i Excel-format på sidan om statsbudgeten som Excel, är det annan information än den som finns i vårändringsbudgeten? Fanns det budgetar även i csv-format, jag undrar lite hur det ser ut i så fall?
En stor del av myndighetssverige med regeringskansliet i spetsen som det ser ut verkar ju annars publicera mycket av sitt material som PDF:er med hjälp av Adobe InDesign (Creative Cloud?) och Microsoft Office 365. Jag vet inte om det faktiskt finns en avsikt i att det inte enkelt ska gå att analysera och vidarenyttja materialet, eller om det mest är en tradition man håller kvar vid där all slutkonsumtion handlar om pappersutskrifter.
Intressant, jag har inte sett en öppen-data strategi från Regeringskansliet, vet nån här om en sådan finns? Om inte så skulle jag vilja att de fixar en och börjar jobba mot att öppna upp maskinläsbar data. Ett litet första steg skulle vara att för varenda PDF de lägger upp också dela källdatan i txt (excel läcker känsklig metadata som ett såll så det är inte lämpligt IMO, och även PDF läcker känslig metadata)
Det finns också säkerhetsbrister i PDFers skydd mot ändringar.
Min hobbykonklusion är att PDF-data är i dagsläget opålitligt och svårt att läsa och helt enkelt inget bra format att välja för utväxling eller delning av data i en offentlig förvaltning om ni frågar mig.
Finns det någon säkerhetsforskare som försökt hitta hemligheter i regeringens PDF:er? Om nån är intresserad skulle jag gärna bidra, verkar som ett roligt projekt.
Det finns lösningar för metadata-städning, men min gissning är att inga/få av våra myndigheter har koll på denna risk i dagsläget...
-
@jonor sa i Statens budget som länkad data?:
En stor del av myndighetssverige med regeringskansliet i spetsen som det ser ut verkar ju annars publicera mycket av sitt material som PDF:er
tror det mer visar på inkompetens och brist på vision. Blir inte bättre av att öppna data projekt fastnar i hur en koordinat för öppna data skall representeras och i princip inte levererar några dataset eller mervärde....
min tro är
- gör som IKEA skapa dedikerade experter med tydliga och gärna mätbara mål. IKEA känns tydliga "digital acceleration across the entire organization as part of large-scale data transformation" dagens "dutt projekt" med utegym specar gör ingen glad.... mer än dom som får skicka sin faktura....
- var tydlig med att dagens organisationer behöver nya kompetenser inom ML, feature engineering och öppna data... "dutt projekten" borde begravas på design kyrkogården
- att fastna flera år i "egen påhittade" beskrivning av koordinater och inte lyckas skapa dataset som används borde skicka "varningssignaler". Att så inte sker är nog mer en indikation på att massa nivåer är dysfunktionella.... och måste bytas ut innan detta tar fart och rör sig framåt....
- tror att bristen på öppna backlogs visar på en rädsla och att man inte är lärande organisationer... gissar att projekt som typ Vinnoiva finansierar blir lite som en kommunpoet där öppna data inte är en del av verksamheten och skapar data first som det borde bli ... extern finansiering har sina avigsidor gissar jag....
Sitter just nu på en workshop "Research infrastructures in heritage institutions" där man pratar om hur det digitala förskjuter saker till att arbeta ihop och inte bara dela "output" dvs. det som produceras.... med det tänket blir Öppna Prioriterade Backlogs lika viktiga och självklara som det idag är skapa en pdf
PDF:er ser jag som en indikation att man tänker mer Output än att skapa digitala mervärden...
-
@dennis_priskorn Jag ställde också en fråga till regeringskansliet, angående publicering i PDF-formatet, om hur de förhöll sig till det uppdrag som tilldelats DIGG angående främjande av delning och nyttiggörande av data (PDF från regeringen.se), men de återkom aldrig i den frågan.
Kanske forumtråden om Textdata och delning av statliga utredningar för maskinell analys är en form av svar på detta.
-
@dennis_priskorn sa i Statens budget som länkad data?:
@dennis_priskorn sa i Statens budget som länkad data?:
Det finns lösningar för metadata-städning, men min gissning är att inga/få av våra myndigheter har koll på denna risk i dagsläget...
Skickade just en epost till Regeringskansliets IT-säkerhetschef Jens Storberget och frågade om de har koll på risken med PDF. Han har varit många år på FRA så han har nog koll, men i mina ögon är PDF inte värt riskerna när det finns bra alternativ som tex. TXT i Markdown format som kan exporteras direkt från ordbehandlare och garantera noll läckning av metadata och dessutom är mycket lättare att maskinavläsa.
Säkerhetsstrategin på regeringskansliet kanske består i att inte svara på några frågor, security by obscurity.
https://sverigesradio.se/artikel/ekot-kunde-mejla-som-forsvarsministern
I ett mejl skriver Regeringskansliets säkerhetschef Fredrik Agemark de inte kan gå in på hur säkerhetsarbetet ser ut, men att de har olika säkerhetslösningar och anpassar åtgärderna efter olika risker.
-
@dennis_priskorn Spännande idé! Vilken forskningsorganisation tycker du skulle kunna stå bakom? Och om det skulle finnas finansiering - vem tror du skulle vilja finansiera detta?
-