Textdata och delning av statliga utredningar för maskinell analys
-
Den 26/11 sker en halvdagskonferens som lyfter behovet av ökad databeredskap för texter/utredningar i staten.
Konferensen ordnas av ESV tillsammans med KB och Rise. Se https://www.esv.se/utbildningar-och-seminarier/seminarier-och-konferenser/datalabbet-resultaten-i-staten/Känner någon förresten till några liknande arbete kring textanalys som görs ?
-
@angela spännande var förs dialogen om detta? Det känns som skall detta skala så bör det finnas en öppen och kanske gemensam kunskapsgraf i botten så att text kan kopplas till entiteter
I Wikidata med alla dess fel och brister har Daniel gjort en del spännande saker men eftersom det data vi får från Domstolsverket etc. är textsträngar så måste vi göra massa NER se tweet/ SPARQL / video / lördagsintervju
Vi pratar även vagt om att skapa ämnesord (som jag uppfattar lite spretigt):- den vision jag delar med Paul-Olivier Dehaye (han som avslöjade Cambridge Analytica) är att vi med ett knapptryck skall kiunna se alla motioner, beslut som tas i Europe hos beslutande organ då det gäller exempelvis AI
- snyggt jobb som @Dennis_Priskorn gjort se GITHUB / exempel vetenskapliga dokument och Morfin där han byggt ett verktyg för detta som mest används för vetenskapliga dokument
- @Ainali har haft "skrivstugor" och gjort massa filmer om hur man kan med dom verktyg som finns i #Wikidata göra det semimanuellt
- 2019 var jag hos Riksdagen och då fanns tankar att klassificera motioner etc. med Eurovoc (Wikidata P5437) men sedan dess har vi inte sett några aktiviteter från Riksdagen (dom saknar publik öppen backlog) men har mycket bra Öppna data
- Wikidata projekt "Swedish Riksdag documents"
- Scholia ex. Anna Lindh / Topics of authored works (långt från komplett mycket beroende på brist på bra indata)
)
Textanalys
Rätt mycket forskning görs kring WIkidata eftersom det är mycket text och det finns bra API:er och en kunskapsgraf i botten exempel -
@angela tack för tipset! Jag har anmält mig.
-
Ungefär samma tema där dagens PDF fixering skapar hinder twitter
Datastory har nu tvättat myndighetsdata publicerade i PDF:er och skapat "Sök i regeringens diarium"
- mer från Datastory
-
-
Vad menas med databeredskap?
Kan man ta del av innehållet från konferensen i efterhand, gärna i form av sammanfattningar och slutsatser.
-
@jonor tror det kan komma i efterhand men det var om du frågar mig helt fel nivå och väldigt visionslöst....
Min sammanfattning: Dagens myndigheter sitter med PDF:er som är layoutorienterade och då sitter man och pratar i flera timmar om att det inte är bra
Så myndighetsvisionen är presentera text som text inte med layout.... känns mer 1985 än 2021... man var till och med inne och snurra på att HTML som också är layoutorienterat skulle vara en väg framåt.... känns som DIGG borde vara ett kompetenscenter som deltar och pekar med rak hand...
dvs. det finns i dessa "gamla organisationer" inga visioner om att skapa kunskapsgrafer, NER och bygga "samma som", eller presentera saker på flera språk... var lite GD:ar med men dom kommer ju ofta från gamla myndigheter så dom har inte sett ljuset i tunneln är min tro....
Positivt trappan från 5stardata.info visades av Naturvårdsverket, Ulrika Domellöf Mattsson men förklarades inte
@jonor dyker du upp på Wikidata snack idag så kan vi fundera varför det blir så fel
- saknas tydliga visioner om flerspråkighet
- saknas en insikt att dagens jobba i SILOS med "dumma" textdokument som inte intelligent kopplar ihop sig enl. modell som jag visar ovan med HD:s domar
- saknas visionen att koppla ihop alla Europas utredningar som behandlar samma saker dvs. koppla dataset med kunskapsgrafer till varje rapport som kopplas ihop med övriga Europas utredningar
- kostnaden och ineffektiviteten med att inte skapa digital kunskap måste vara enorm.... tom med Wikidata känns som ett under av effektivitet
Vän av ordning undrar kommer vi fortfarande 2031 sitta med svenska dataset om utegym med specar på svenska och tycka att vi skapar öppna data och tro att sbart är vi bäst i världen på att ta vara på digitaliseringsmöjligheter
Ny bok gratis om KG kgbook.org
-
@salgo60-ej-aktiv sa i Textdata och delning av statliga utredningar för maskinell analys:
Så myndighetsvisionen är presentera text som text inte med layout.... känns mer 1985 än 2021... man var till och med inne och snurra på att HTML som också är layoutorienterat skulle vara en väg framåt.... känns som DIGG borde vara ett kompetenscenter som deltar och pekar med rak hand...
Trots allt, HTML och Markdown är väl textformat som ligger nära till hands för att publicera strukturerade dokument på en betydligt högre nivå än PDF, med stöd för tabelldata, länkar och relationer mellan dokument. Wikidata beskriver ju information om och referenser till resurser, medan resurserna existerar i form av webbsidor som exempelvis artiklar på Wikipedia.
-
@jonor hör gärna av dig 0735152802 så jag förstår hur du tänker
- Wikidata med alla dess fel och brister har en grafdatabas med "samma som" dvs. datat är maskinläsbart och kan förstås.... det finns relationer och externa referenser dvs. man landar på nivå i 5star modellen
- samma har du för bild exemplet nedan men då är det en separat Wikibase installation som kallas "Structured Data on Commons"
- html är för mig (med bakgrund att ha jobbat med dess storebror SGML) djävulens påhitt som inte gör någon glad där texten kanske är enklare att webscrapa men har i princip bara layout struktur dvs. ointelligent
- Wikipedia har en "snygg" länkmodell där syntax [[zzzz]] skapar en relation mellan ett text element och ett annat textelement zzzz dvs. där visas relation mellan ett text element och en artikel MEN du saknar en beskrivning på relationen som i Wikidata kallas Property
- bra visualisering av detta får du om du installerar https://github.com/derenrich/wwwyzzerdd där alla länkar i en WIkitexten visas och kopplingar som även finns i WIkidata med en egenskap markeras gröna
-
bild från Regeringen Andersson med wwwyzzerdd aktiverad
-
Annat exempel med semantisk koppling i bild länk
-
- bra visualisering av detta får du om du installerar https://github.com/derenrich/wwwyzzerdd där alla länkar i en WIkitexten visas och kopplingar som även finns i WIkidata med en egenskap markeras gröna
Hur digitala är Regeringskansliet ?
länk www.regeringen.se pressmeddelanden regeringsskifte-den-30-november-2021
osv....
Här har du alla nya namnen som text dvs.
- saknas samma som
- skall datat webscrapas så är det i princip omöjligt att koppla texten till rätt person för många nya
- istället för att publicera data som kan användas så måste alla som skall använda datat göra jobbet....
- stöd för ett språk svenska (plats 96 i världen)
Min fundering
- varför finns ingen som har en vision att svensk Digitaliseringen innebär att skapa bättre digitala plattformar där data är data och kan även presenteras på andra språk
- varför publicerar en digital expert myndighet pdf:er?
- vän av ordning förväntar sig
- dataset släpps samtidigt som PDF dokumentet med strukturerad info om man måste släppa PDF:er
- att kopplingar mellan liknande dokument publicerade i olika länder enkelt kan hittas
- att icke svenskspråkiga skall kunna ta del av informationen
- att inte varje myndighet är en SILO utan precis som Wikipedia stödjer > 300 språk med EN gemensam Wikidata så borde Sveriges myndigheters info knytas ihop, eller varför inte hela Europas myndigheter eller är visionen [data om utegym på enbart
- vän av ordning förväntar sig
Var finns visionen?
- Wikidata med alla dess fel och brister har en grafdatabas med "samma som" dvs. datat är maskinläsbart och kan förstås.... det finns relationer och externa referenser dvs. man landar på nivå i 5star modellen
-
@angela Görs det någon uppföljning angående detta, finns det innehåll eller slutsatser att ta del av? Jag kan inte hitta något om det på webbplatsen.
11.20 Hur fortsätter vi framåt?
Clas Olsson, generaldirektör ESV
-
-
-
-
-