Identifierare för utgivare på Dataportalen

jonor

@kristine_ sa i Webinar om identifierare för data eller API:

Hej @jonor !

Idag finns det lite olika typer av rekommendationer och dokumentation kring identifierare.

Kopplat till din fråga har vi lagt till en allmän och mer teknisk beskrivning om hur dataportalen fungerar idag kopplat till identifierare för datamängder. Du finner den här i metadata-skördningsspecifikationen under skördningsmekanism-hantering av identifierare).

I skördningsspecifiktionen som helhet ligger sedan tidigare ett antal rekommendationer kring till exempel val av identifierare och rekommendationer för identifierare av organisationer.

Vi ser att det finns ett behov av information och rekommendationer kring identifierare, inte minst för att förenkla praktisk tillämpning. Ett aktuellt arbete på temat är att vi just nu utarbetar en rekommendation kring REST API:er - URI format och namngivning. Rekommendationen, som dock fortfarande är under remittering, finner du här: https://dev.dataportal.se/sv/rest-api--profil/

Vänliga hälsningar,
Kristine

Ok, det ser ut som det diskuterats och formulerats en del saker för några år sedan.
Hur ska då URI:er för utgivare i dataportalen se ut, och hur är de länkade till annan data på nätet?

Vem har uppdrag och ansvar för att upprätthålla datakvaliteten för katalogen över dataset, är det någon som lägger tid på detta? Hur stor andel av innehållet följer rekommendationen?

Kristine_

@jonor

Det är DIGG som ansvarar för den sammanställda katalogen, dvs Sveriges dataportal.
Respektive organisation som är dataproducent (eller mer specifikt organisation som erhåller en datakatalog) är ansvarig för den och att man följer de tekniska krav som finns kopplat till metadata och skördning.

Vi ser att det idag finns en generell utmaning att ett allt för stort ansvar läggs på enskilda aktörer när det gäller att publicera data med tillhörande maskinläsbar (länkade) metadata, så det är något som vi arbetar med.
Om vi upptäcker felaktigheter i metadatan jobbar vi utifrån en process där DIGG tar kontakt med den organisation det gäller. För dataportalens perspektiv och från att ha jobbat med det här nåt år nu kan jag konstatera att det är en balansgång mellan att hålla en skördning som är strikt compliant till rekommendationerna – samtidigt som att vi vill sänka trösklarna att dela data.

jonor

@kristine_ Ja det verkar inte riktigt fungera med mindre än att någon ser till att riktlinjerna följs. Det som saknas i ekvationen verkar vara den part som ska konsumera datan. Om det är problematiskt att tolka en datakatalog maskinellt så är väl inte uppdraget fullföljt.

Jag tittade exempelvis efter information om livsmedelsdata, och identiteten för SLV (publisher) i katalogen är http://www7.slv.se/datasets/resource/1/
Samtidigt är organisation (vcard) angiven i metadatan som http://www7.slv.se/datasets/resource/3
Metadata för datasetet är angiven som http://www7.slv.se/datasets/resource/5

Jag kan inte se att någon av dessa uppgifter möjliggör läsning av vare sig vidare information om utgivaren eller själva datamängden?

I sådana fall är väl katalogposten helt enkelt undermålig för konsumtion för det syfte katalogen publiceras, och vem ska då avhjälpa detta?

Om det är så att jag har missat något i tillvägagångssättet för att läsa in datamängden och länka till information om utgivaren utifrån katalogen, förklara gärna hur jag ska gå tillväga.

jonass

@jonor Vi (Arbetsförmedlingen) har nog fokuserat mer på innehållet/datasetet än metadata om oss som utgivare. Gissar att det kanske krävs en konvention och ett bra exempel på hur data om utgivaren kan/bör se ut för att vara meningsfull för användaren. Granska gärna arbetsförmedlingen när du ändå är i farten! Kan inte släppa tanken på att Bolagsverket borde vara master för organisationer, borde alla ha en bakåtreferens (URI) till de också, typ https://bolagsverket.se/bolag/orgnummer eller dylikt?

jonor

@jonass Ja "meningsfull för användaren" borde ju vara en viktig formulering i sammanhanget. Nu ser metadatan ut att peka på sig själv på ett vis som jag upplever som ganska förvirrande, och om den ändå är tekniskt korrekt är detta kanske inte nog. Vad som vore meningsfullt är något som kan leda till en maskinläsbar beskrivning för konsumtion av vidare tillgängliga data och tjänster. En referens från Bolagsverket för en utgivare skulle ju kunna utgöra en standardiserad identitet som verkligen är betydelsebärande.

@kristine_ sa i Identifierare för utgivare på Dataportalen:

Om vi upptäcker felaktigheter i metadatan jobbar vi utifrån en process där DIGG tar kontakt med den organisation det gäller. För dataportalens perspektiv och från att ha jobbat med det här nåt år nu kan jag konstatera att det är en balansgång mellan att hålla en skördning som är strikt compliant till rekommendationerna – samtidigt som att vi vill sänka trösklarna att dela data.

Har DIGG kontaktat SLV angående deras katalogpost, eller anses den uppfylla de tekniska kraven? Vilka tekniska krav är det som utgör de största svårigheterna för leverantörerna i nuläget, och har dessa betydelse för den praktiska konsumtionen av datamängden?

Jag tror inte det fungerar med mindre än att leverantören eller DIGG tvingas publicera ett praktiskt exempel på hur man tar sig från läsning av en katalogpost till användning av datamängden och vidare information. Om jag nu förstått rätt att detta är syftet med datakatalogen. Finns det kanske rentav sådana exempel redan?

jonor

Kanske ska tillägga att jag pratar om katalogposten från SLV i föregeående inlägg, jag har inte hunnit titta på data från Arbetsförmedlingen, eller hur posterna ser ut överlag.

Kristine_

@jonor Vi har tagit oss en titt på den post du refererar till. Det finns inga rena tekniska fel i posten, den syns här: https://www.dataportal.se/sv/datasets/236_6268

Både kontakt och utgivare är beskrivna enligt specifikationen och kan tolkas, vilket betyder att informationen är maskinläsbar. Utgivaren skulle förstås kunna fylla på med mer metadata på både utgivare, kontakt och datamängd men de obligatoriska fälten är tillhandahållna och de flesta rekommenderade också.

Kanske refererar du framför allt till att länkning vidare till entiteter i andra system, t.ex. organisationsbeskrivningar hos Bolagsverket. Det är absolut en viktig utvecklingsfråga, men tyvärr inget som finns på plats idag.

jonor

@kristine_ Om posten är tekniskt korrekt har vi ett problem, nämligen att katalogen innehåller meningslös/lågkvalitativ information från leverantören och att DIGG inte har reagerat på eller ställer några krav angående detta.

Jag tänker på länkning vidare till entiteter i andra system, som t.ex. själva datamängden.
Det finns ingen väg från katalogposten till någon existerande data.

Är det tillräckligt med en e-postadress dit jag kan skicka en fråga till SLV om adressen till deras data?

Tråkigt att höra att detta är något som inte finns på plats idag.
Jag får ju inte intryck av att det är något som DIGG betraktar som särskilt viktigt eller har några konkreta planer för.

Som sagt får ni gärna rätta mig i förhoppning om att jag har missat något.

jonor

@jonass Jag provade att titta på en datapost från Arbetsförmedlingen, den första i listan.

https://admin.dataportal.se/store/180/metadata/3903?recursive=dcat

Det finns en direkt länk till själva datan via access URL/download URL
Publisher ser väl i viss mån begriplig ut, men jag vet inte hur det är tänkt att användas som en referens för Arbetsförmedlingen som organisation?
- https://arbetsformedlingen.se/result.rdf#publisher
En del id-fält ser lite märkliga ut:
- Dataset: https://www.example.se/#datasetYrkesområden_med_relationer_till_SSYK_nivå_fyra_och_Yrkesområden_med_relationer_till_SSYK_nivå_fyra_och_yrkesbenämningar
- Organization: https://www.example.se/#contactYrkesområden_med_relationer_till_SSYK_nivå_fyra_och_yrkesbenämningar

Gott och väl är ju att det går att nå datan.

Vid jämförelse med en post från SCB (47622) finns ju där något som i högre grad ser ut att kunna användas som en officiell referens för organisationen.

https://admin.dataportal.se/store/91/metadata/47622?recursive=dcat

Publisher/Organization: http://id.kb.se/organisations/SE2021000837

Posten för livsmedelsdatabas från SLV.

https://admin.dataportal.se/store/236/metadata/6268?recursive=dcat

Access URL leder till en HTML-sida där det inte ens finns någon adress till den aktuella datamängden.
- https://www.livsmedelsverket.se/om-oss/psidata/livsmedelsdatabasen
När man väl lyckats hitta till deras "API" består det av en nedladdningslänk till en XML-fil på 39 MB, som motsvarar samma innehåll som deras ursprungliga datakälla, ett Excel-dokument på 0,5 MB.
Organisationens identitet är adressen till en katalogpost med namn på svenska och e-postadress:
- http://www7.slv.se/datasets/resource/3
Publisher är adressen till en annan katalogpost med namn på engelska och svenska
- http://www7.slv.se/datasets/resource/1

Det borde ju finnas en intention med att informationen läggs ut på det här viset, inte bara att den ska uppfylla något visst format, utan att den också är användbar.

Kristine_

@jonor sa i Identifierare för utgivare på Dataportalen:

Är det tillräckligt med en e-postadress dit jag kan skicka en fråga till SLV om adressen till deras data?

I stort sett är det vad som är obligatoriskt, annat är rekommenderat. Här kan du se vilken information som är obligatoriska, rekommenderade och valfria: https://docs.dataportal.se/dcat/sv/#dcat%3ADataset
Kontaktuppgifter för enskilda datamängder framgår här: https://docs.dataportal.se/dcat/sv/#vcard%3AOrganization

@jonor sa i Identifierare för utgivare på Dataportalen:

Det borde ju finnas en intention med att informationen läggs ut på det här viset, inte bara att den ska uppfylla något visst format, utan att den också är användbar.

Absolut! Informationen ska vara användbar och det är också därför vi i samverkan tar fram olika typer av vägledningar och rekommendationer, t.ex övergripande principer för tillgängliggörande av information, om öppna licenser, API-rekommendationer m.m. Men vi ska titta lite närmare på detta exempel och se över vilka förbättringsförslag som kan vara aktuella i just detta fall.

jonor

@kristine_ En e-postadress är ju alltid något. Tack för länkarna.

Det är absolut en viktig utvecklingsfråga, men tyvärr inget som finns på plats idag.

Jag är lite fundersam över att ni verkar betrakta frågan om länkad data med en axelryckning.
Vägledningar är ju bra, men bedrivs det något tekniskt arbete i enlighet med vägledningarna och i riktning mot att utveckla datakatalogen? Finns det några konkreta steg beskrivna och en tidplan?

https://community.dataportal.se/post/346

Gällande helpdesk id:n så är det inget som vi på Sveriges dataportal har möjlighet att införa idag.
En tydligare, sammanhållen och mer öppen roadmap och prioriteringar håller jag helt med om och det är något som vi arbetar för att kunna åstadkomma!

https://community.dataportal.se/post/1003

Vi håller med om att det är bra om vi blir mer transparenta. Som vi tidigare nämnt undersöker vi just nu hur vi kan dela med oss av vår roadmap på ett bra sätt.
Vi undersöker vilken kanal som är bäst att använda, vilken detaljeringsgrad som är lämplig och vilken planeringshorisont vi vill hålla. Vi återkommer med det här.

Björn Hagström

@jonor En av de större utmaningarna för dataportalen är absolut bristande kvalitet på metadata. De som äger data förstår inte metadata och hur den kan användas. De är nöjda med att data är publicerad och är öppen, de har inte riktigt insett att det inte är målet. Målet är att data ska användas och då krävs det en hel del mer. Inom NSÖD har vi rekommenderat att man, i samband med att man tar fram en spec för hur data ska publiceras också tar fram ett exempel på hur DCAT-AP-SE-metadata ska se ut för de fält som är gemensamma (ger bättre metadata och skapar goda exempel viket kan öka kvaliteten på annan metadata också) och rekommendationer om hur man bör utforma organisationsspecifika fält om det är lämpligt.

Sedan saknas det också beständiga identifierare att hänvisa till i väldigt många fall vilket är tråkigt.

jonor

@björn-hagström Jag har ställt en del frågor om hur DIGG stöder inmatning av strukturerad metadata, men det verkar vara svårt att få återkoppling.

https://community.dataportal.se/post/542

Hej, Hur fungerar inmatningen av publisher? Görs det någon form av kvalitetssäkring? Vad refererar t.ex. Storsthlm till i detta fall?

https://community.dataportal.se/post/464

Jag stötte på ett formulärbibliotek med namnet RDForms som verkar relaterat till EntryScape. Om det är så att RDForms används för att registrera datamängder på dataportalen enligt DCAT-formatet, så kanske det kan finnas ledtrådar i konfigurationen av dessa formulär att metadatan ser ut som den gör. Åtminstone i det exempel jag stötte på nedan ser det inte ut att finnas någon stödfunktion för att ange referenser.
https://rdforms.com/editors/dcat/
Finns det några tankar kring vidareutveckling av interoperabilitet för metadatan och samordning av detta?

Sedan undrar jag om det är så svårt egentligen, t.ex. verkar ju en praxis vara att använda webbadressen och lägga till en fragment-identifierare.

Arbetsförmedlingen har väl gjort ett försök i den vägen genom att ange https://arbetsformedlingen.se/result.rdf#publisher, men jag hade kanske förväntat mig isf. arbetsformedlingen.se/#organization som identifierare. Vet inte varför det ska stå result.rdf i URI:en, det framstår som lite ad hoc?

Finns det inte något exempel på myndighetsorganisation i Sverige som har kommit underfund med hur man hanterar och tillämpar URI:er?

Björn Hagström

@jonor När det gäller hur metadata kommer till DIGG så måste varje verksamhet publicera information om sin data i en fil enligt DCAT-AP-SE och det är upp till verksamheten att bestämma hur man gör det. Det är också möjligt för privata aktörer att publicera data så det är inte bara knutet till offentlig sektor.

Många använder Entryscape, en del använder CKAN och några använder OpenDataSoft. Några enstaka stackare redigerar och skapar sin fil manuellt, det funkar sällan bra i längden.

Vad en verksamhet väljer att skriva i sin metadata är ju svårt för DIGG att styra men man kan arbeta med med uppföljning, kontroll och tips till verksamheterna som jag ser det.

Maria_Dalhage

@björn-hagström Bra sammanfattat! Som jag uppfattar pågående arbete så är det en mognadstrappa som vi befinner oss på. Steg ett är att överhuvudtaget möjliggöra att data kan göras sökbar på ett och samma ställe. Steg två är att säkerställa att det som läggs upp håller rätt kvalitet.

@jonor: Dina synpunkter är relevanta och jag funderar på hur vi kan smala ihop dina olika exempel så att det blir lätt att återfinna. (Så att vi senare kan gå tillbaka och se om vi blir bättre). Om du har möjlighet att lägga lite mer tid på detta hör gärna av dig till mig på maria.dalhage@digg.se så kan vi ha en kort avstämning.

Community på Sveriges dataportal

Identifierare för utgivare på Dataportalen