Sveriges dataportal, DIGG - Myndigheten för digital förvaltning
Sök data Nyheter Om oss Community
  • Hem
  • Kategorier
  • Senaste
  • Taggar
  • Populära
  • Användare
  • Grupper
  • Sök
  • Ser ut som din anslutning till %1 gick förlorad, vänta medan vi försöker att återansluta.
  • Registrera
  • Logga in

    Textdata och delning av statliga utredningar för maskinell analys

    Meetups och evenemang
    digitala event nov-21
    4
    9
    628
    RSS Feed
    Laddar fler inlägg
    • Äldst till nyaste
    • Nyaste till äldst
    • Flest röster
    Svara
    • Svara som ämne
    Logga in för att posta
    Det här ämnet har raderats. Endast användare med ämneshanterings-privilegier kan se det.
    • angela
      angela Senaste redigerad av Kristine_

      Den 26/11 sker en halvdagskonferens som lyfter behovet av ökad databeredskap för texter/utredningar i staten.
      Konferensen ordnas av ESV tillsammans med KB och Rise. Se https://www.esv.se/utbildningar-och-seminarier/seminarier-och-konferenser/datalabbet-resultaten-i-staten/

      Känner någon förresten till några liknande arbete kring textanalys som görs ?

      Magnus Sälgö D J 3 svar Senaste svaret Svara Citera Gilla 3 Post Tools Trigger
      • Magnus Sälgö
        Magnus Sälgö @angela Senaste redigerad av Magnus Sälgö

        @angela spännande var förs dialogen om detta? Det känns som skall detta skala så bör det finnas en öppen och kanske gemensam kunskapsgraf i botten så att text kan kopplas till entiteter

        I Wikidata med alla dess fel och brister har Daniel gjort en del spännande saker men eftersom det data vi får från Domstolsverket etc. är textsträngar så måste vi göra massa NER se tweet/ SPARQL / video / lördagsintervju

        4279b35e-4ade-41ee-86a4-d32d464e16e7-image.png

        a56cbfce-b6f8-41fd-ba13-ebddd13183ff-image.png

        d691283b-95bf-462c-be0f-d8e998a093bb-image.png
        Vi pratar även vagt om att skapa ämnesord (som jag uppfattar lite spretigt):

        • den vision jag delar med Paul-Olivier Dehaye (han som avslöjade Cambridge Analytica) är att vi med ett knapptryck skall kiunna se alla motioner, beslut som tas i Europe hos beslutande organ då det gäller exempelvis AI
        • snyggt jobb som @Dennis_Priskorn gjort se GITHUB / exempel vetenskapliga dokument och Morfin där han byggt ett verktyg för detta som mest används för vetenskapliga dokument
        • @Ainali har haft "skrivstugor" och gjort massa filmer om hur man kan med dom verktyg som finns i #Wikidata göra det semimanuellt
          • blog "Framtiden för Riksdagens data i Wikidata"
        • 2019 var jag hos Riksdagen och då fanns tankar att klassificera motioner etc. med Eurovoc (Wikidata P5437) men sedan dess har vi inte sett några aktiviteter från Riksdagen (dom saknar publik öppen backlog) men har mycket bra Öppna data
          • Wikidata projekt "Swedish Riksdag documents"
          • Scholia ex. Anna Lindh / Topics of authored works (långt från komplett mycket beroende på brist på bra indata)

        bef76284-fb63-46f5-86aa-cc08943e259d-image.png )

        Textanalys
        Rätt mycket forskning görs kring WIkidata eftersom det är mycket text och det finns bra API:er och en kunskapsgraf i botten exempel

        • spaCy-entity-linker video
        • OpenTapioca
        Ett svar Senaste svaret Svara Citera Gilla 1 Post Tools Trigger
        • D
          Dennis_Priskorn @angela Senaste redigerad av

          @angela tack för tipset! Jag har anmält mig. 🙂

          Magnus Sälgö Ett svar Senaste svaret Svara Citera Gilla 0 Post Tools Trigger
          • Magnus Sälgö
            Magnus Sälgö @Dennis_Priskorn Senaste redigerad av Magnus Sälgö

            Ungefär samma tema där dagens PDF fixering skapar hinder twitter

            Datastory har nu tvättat myndighetsdata publicerade i PDF:er och skapat "Sök i regeringens diarium"

            39648a53-082e-4405-bf70-ab9c64c21763-image.png

            • mer från Datastory
            Ett svar Senaste svaret Svara Citera Gilla 3 Post Tools Trigger
            • Referenced by  J jonor 
            • J
              jonor Senaste redigerad av

              Vad menas med databeredskap?

              Kan man ta del av innehållet från konferensen i efterhand, gärna i form av sammanfattningar och slutsatser.

              Ett svar Senaste svaret Svara Citera Gilla 1 Post Tools Trigger
              • Magnus Sälgö
                Magnus Sälgö Senaste redigerad av Magnus Sälgö

                @jonor tror det kan komma i efterhand men det var om du frågar mig helt fel nivå och väldigt visionslöst....

                Min sammanfattning: Dagens myndigheter sitter med PDF:er som är layoutorienterade och då sitter man och pratar i flera timmar om att det inte är bra

                Så myndighetsvisionen är presentera text som text inte med layout.... känns mer 1985 än 2021... man var till och med inne och snurra på att HTML som också är layoutorienterat skulle vara en väg framåt.... känns som DIGG borde vara ett kompetenscenter som deltar och pekar med rak hand...

                dvs. det finns i dessa "gamla organisationer" inga visioner om att skapa kunskapsgrafer, NER och bygga "samma som", eller presentera saker på flera språk... var lite GD:ar med men dom kommer ju ofta från gamla myndigheter så dom har inte sett ljuset i tunneln är min tro....

                Positivt trappan från 5stardata.info visades av Naturvårdsverket, Ulrika Domellöf Mattsson men förklarades inte

                c8c98c4c-ebea-493f-9c4f-4a41aab25bb0-image.png

                @jonor dyker du upp på Wikidata snack idag så kan vi fundera varför det blir så fel

                • saknas tydliga visioner om flerspråkighet
                • saknas en insikt att dagens jobba i SILOS med "dumma" textdokument som inte intelligent kopplar ihop sig enl. modell som jag visar ovan med HD:s domar
                  • saknas visionen att koppla ihop alla Europas utredningar som behandlar samma saker dvs. koppla dataset med kunskapsgrafer till varje rapport som kopplas ihop med övriga Europas utredningar
                  • kostnaden och ineffektiviteten med att inte skapa digital kunskap måste vara enorm.... tom med Wikidata känns som ett under av effektivitet

                Vän av ordning undrar kommer vi fortfarande 2031 sitta med svenska dataset om utegym med specar på svenska och tycka att vi skapar öppna data och tro att sbart är vi bäst i världen på att ta vara på digitaliseringsmöjligheter

                Ny bok gratis om KG kgbook.org
                ee18c7ae-353e-4ea9-896f-2a20fb8c6abe-image.png

                4eaf0912-4ac6-44f7-89bf-ddac2c384ea1-image.png

                J Ett svar Senaste svaret Svara Citera Gilla 2 Post Tools Trigger
                • J
                  jonor @Magnus Sälgö Senaste redigerad av

                  @salgo60-ej-aktiv sa i Textdata och delning av statliga utredningar för maskinell analys:

                  Så myndighetsvisionen är presentera text som text inte med layout.... känns mer 1985 än 2021... man var till och med inne och snurra på att HTML som också är layoutorienterat skulle vara en väg framåt.... känns som DIGG borde vara ett kompetenscenter som deltar och pekar med rak hand...

                  Trots allt, HTML och Markdown är väl textformat som ligger nära till hands för att publicera strukturerade dokument på en betydligt högre nivå än PDF, med stöd för tabelldata, länkar och relationer mellan dokument. Wikidata beskriver ju information om och referenser till resurser, medan resurserna existerar i form av webbsidor som exempelvis artiklar på Wikipedia.

                  Ett svar Senaste svaret Svara Citera Gilla 0 Post Tools Trigger
                  • Magnus Sälgö
                    Magnus Sälgö Senaste redigerad av Magnus Sälgö

                    @jonor hör gärna av dig 0735152802 så jag förstår hur du tänker

                    • Wikidata med alla dess fel och brister har en grafdatabas med "samma som" dvs. datat är maskinläsbart och kan förstås.... det finns relationer och externa referenser dvs. man landar på nivå i 5star modellen
                      • samma har du för bild exemplet nedan men då är det en separat Wikibase installation som kallas "Structured Data on Commons"

                    17d1f65c-3440-463f-a8ed-5e4dde77a73c-image.png

                    • html är för mig (med bakgrund att ha jobbat med dess storebror SGML) djävulens påhitt som inte gör någon glad där texten kanske är enklare att webscrapa men har i princip bara layout struktur dvs. ointelligent
                    • Wikipedia har en "snygg" länkmodell där syntax [[zzzz]] skapar en relation mellan ett text element och ett annat textelement zzzz dvs. där visas relation mellan ett text element och en artikel MEN du saknar en beskrivning på relationen som i Wikidata kallas Property
                      • bra visualisering av detta får du om du installerar https://github.com/derenrich/wwwyzzerdd där alla länkar i en WIkitexten visas och kopplingar som även finns i WIkidata med en egenskap markeras gröna
                        • bild från Regeringen Andersson med wwwyzzerdd aktiverad
                          a646287e-9d2f-4232-b5d4-65e476e52dca-image.png

                        • Annat exempel med semantisk koppling i bild länk
                          3df0354c-84e9-4c80-94ee-8027045cc1e8-image.png

                          • denna bild finns även med metadata i json
                            • P180 innebär motiv
                            • Q3372917 är personen som avbildas
                            • P2677 är relativ position i bilden ex. pct:31.8108,44.0666,6.4363,21.8647 är offset i procent
                              ea4d0cdf-c7c7-405d-b42d-eeee5a6423e8-image.png

                    Hur digitala är Regeringskansliet ?
                    länk www.regeringen.se pressmeddelanden regeringsskifte-den-30-november-2021
                    5a5caa73-2241-4c40-acc9-a3bc42a70d7b-image.png
                    bb1f9d5e-591a-414e-907b-9ffc481da261-image.png
                    ef6660e7-8f33-41f4-896e-dd66176fb39d-image.png

                    osv....

                    Här har du alla nya namnen som text dvs.

                    • saknas samma som
                    • skall datat webscrapas så är det i princip omöjligt att koppla texten till rätt person för många nya
                      • istället för att publicera data som kan användas så måste alla som skall använda datat göra jobbet....
                    • stöd för ett språk svenska (plats 96 i världen)

                    Min fundering

                    • varför finns ingen som har en vision att svensk Digitaliseringen innebär att skapa bättre digitala plattformar där data är data och kan även presenteras på andra språk
                      • Regeringen Andersson finns nu på 7 wikispråk
                        793d5f80-9783-467c-aab6-4c8c26e96796-image.png
                    • varför publicerar en digital expert myndighet pdf:er?
                      • vän av ordning förväntar sig
                        • dataset släpps samtidigt som PDF dokumentet med strukturerad info om man måste släppa PDF:er
                        • att kopplingar mellan liknande dokument publicerade i olika länder enkelt kan hittas
                        • att icke svenskspråkiga skall kunna ta del av informationen
                        • att inte varje myndighet är en SILO utan precis som Wikipedia stödjer > 300 språk med EN gemensam Wikidata så borde Sveriges myndigheters info knytas ihop, eller varför inte hela Europas myndigheter eller är visionen [data om utegym på enbart

                    Var finns visionen?

                    Ett svar Senaste svaret Svara Citera Gilla 2 Post Tools Trigger
                    • J
                      jonor @angela Senaste redigerad av

                      @angela Görs det någon uppföljning angående detta, finns det innehåll eller slutsatser att ta del av? Jag kan inte hitta något om det på webbplatsen.

                      https://www.esv.se/utbildningar-och-seminarier/seminarier-och-konferenser/datalabbet-resultaten-i-staten/

                      11.20 Hur fortsätter vi framåt?

                      Clas Olsson, generaldirektör ESV

                      Ett svar Senaste svaret Svara Citera Gilla 1 Post Tools Trigger
                      • Referenced by  Magnus Sälgö Magnus Sälgö 
                      • Referenced by  Magnus Sälgö Magnus Sälgö 
                      • Referenced by  Magnus Sälgö Magnus Sälgö 
                      • Referenced by  Magnus Sälgö Magnus Sälgö 
                      • Referenced by  Magnus Sälgö Magnus Sälgö 
                      • Referenced by  J jonor 
                      • Referenced by  Magnus Sälgö Magnus Sälgö 
                      • Första inlägg
                        Sista inlägg