Community på Sveriges dataportal
Hjälp folk att bada i sommar med Öppna Data! (Tips och hjälp behövs)
-
@istyf sa i Hjälp folk att bada i sommar med Öppna Data! (Tips och hjälp behövs):
En metod för namngivningen kan till exempel vara någon form av namespace som se.toreboda.anlaggningar.badstrand.217
Vad syftar toreboda på, en kommun? Vad händer om kommunen slås ihop med grannkommunen, ska identifieraren ändras då? Isåfall är den inte persistent imho. Vad händer om anläggningen slutar vara kommununderhållen och istället överlåts i privat ägo, vad händer med källsystemet som håller referensen då? Är den fortfarande persistent?
Enklast är nog att försöka ha en gemensam referensdatabas över persistenta identifierare, t.ex. Wikidata
Sen kan man ha lokala persistenta identifierare också, men då behöver de kopplas ihop.
-
Jag svarar här också, svarade först på twitter: https://twitter.com/Stefan_Wallin/status/1387785992996859908
Är man gnetig så kan man nog mappa upp baden som @havochvatten (verkar inte finnas här på dataplattformen) använder i sin tjänst badplatsen.
En xml-fil med alla bad som havochvatten har koll på:
https://badplatsen.havochvatten.se/badplatsen/api/feature/Där ser baden ut såhär:
<wfs:member> <hav-miljoovervakning:badplatsen gml:id="badplatsen.fid-58b61a0b_1791e1e86d2_2165"> <hav-miljoovervakning:NUTSKOD>SE0441273000000001</hav-miljoovervakning:NUTSKOD> <hav-miljoovervakning:NAMN>Vesljungasjön</hav-miljoovervakning:NAMN> <hav-miljoovervakning:KMN_NAMN>Osby</hav-miljoovervakning:KMN_NAMN> <hav-miljoovervakning:PRTPG_GEOPOSITION> <gml:Point srsDimension="2" srsName="http://www.opengis.net/gml/srs/epsg.xml#4326"> <gml:pos>13.7674095026078 56.4212500165633</gml:pos> </gml:Point> </hav-miljoovervakning:PRTPG_GEOPOSITION> </hav-miljoovervakning:badplatsen> </wfs:member>
Den stora frågan är ju om man ska använda
gml:id
ellerNUTSKOD
som persistent identifierare. Om någon av dem nu går att lita påNUTSKOD verkar ju i alla fall användas i deras kart-tjänst badplatsen, https://badplatsen.havochvatten.se/badplatsen/karta/#/bath/SE0441273000004182, så vi kan ju hoppas att det är en semi-persistent identifierare. Sen saknas ju många bad, men det är säkert en bra början.
-
@stefan-wallin Är man lite extra gnetig kan man nog slänga in alla bad som både OSM och havochvatten har plus de som VGR har i en postgis eller liknande och hitta vilka som skapar geo-konflikter och därmed hitta överlapp. Tyvärr har jag inte riktigt tid över i livet att göra det själv, men kan gärna rådge om någon skulle vara intresserad av det.
-
@salgo60 Känns som att du bör skicka in ett mail som hamnar hos registratorn och ber de lämna ut persistenta identifierare eller kontaktuppgifter till den tekniska förvaltaren hos havochvatten snarare än att fastna i PR-maskineriet som är svenska myndigheters sociala-medie-konton.
-
@stefan-wallin jag har emailat dom men personen är sjuk ....
-
@tomasmonsen Jag är nog inte rätt person att svara på tekniska frågor kring detta, men kolla mitt svar nedan till jonor i tråden "Kategorisera API:er efter datasort"... tog upp ett antal aktörer som har lite rekommendationer kring detta där.
-
Enklast är nog att försöka ha en gemensam referensdatabas över persistenta identifierare, t.ex. Wikidata
Sen kan man ha lokala persistenta identifierare också, men då behöver de kopplas ihop.
Vad innebär det att lokala identifierare kopplas ihop, är det att definiera en mappning till ett publicerat namn?
Jag stötte på den här introduktionen till SPARQL som jag tyckte var ganska informativ.
https://www.youtube.com/watch?v=FvGndkpa4K0
SPARQL in 11 minutes
148 070 visningar•3 maj 2015
bobdc -
@jonor den där introduktionen pratar ju om RDF som är 4e nivån i 5-star data. Länkad data är när vi kopplar ihop dem.
På wikidata har du till exempel det jag kallar "lokala identifierare" om vi tittar på https://www.wikidata.org/wiki/Q10717929 längst ned där du har RAÄ-nummer t.ex.
Läs gärna mer på 5stardata.info och ställ fler frågor om det är oklart.
-
@stefan-wallin Ja men videon tar upp att han skapar egna egenskapsnamn i form av URI:er med sitt eget domännamn som bas, det var mer apropå frågeställningen om att skapa identifierare.
https://youtu.be/FvGndkpa4K0?t=142Jag förstår att Riksantikvarieämbetet håller reda på sina egna id-nummer, som refereras från Wikidata-objektet i ditt exempel, men jag förstår inte betydelsen av "lokala" i sammanhanget, innebär det att de inte är publicerade som URI:er, men kopplas till ett Q-nummer på Wikidata?
-
Har tittat på 5stardata.info också, och de exemplen de länkar till för de högre nivåerna var inte så mycket att hurra för tycker jag. Jag gissar att man får en känsla för det när man själv börjar arbeta med och söka i den typen av data i praktiken.
-
@stefan-wallin Jag valde se.toreboda eftersom OP kommer därifrån om jag inte misstar mig. Ja, det syftar alldeles riktigt på en kommun och möjliggör att skapa en unik identifierare för de informationsobjekt som de publicerar. Jag tror inte att något system är klart till badsäsongen 2021, om det skall upprättas en gemensam databas med identiteter för alla badplatser av olika typer och med olika huvudmän. Vi diskuterar ju datamängder här och det finns, lyckligtvis, inget som hindrar flera aktörer att publicera datamängder om samma fysiska entitet. Då är det i min mening själva informationsobjektets identitet som är intressant och inte det fysiska objektets.
Att kommunindelning kan ändras eller att en badplats övergår till privat ägo är förstås en möjlighet, men då följer ju ansvaret att tillhandahålla en datamängd med och sannolikheten att det görs från samma källsystem är förmodligen liten. Det blir ett nytt informationsobjekt med en ny identitet, från en ny ansvarig utgivare.
Tanken att det skall finnas en öppen databas som wikidata att referera till är god och jag stödjer den principiellt, men den är mer ideologisk än praktisk. Om vi tar Sundsvall (där vi båda bor) som exempel, så har offentligägda badplatser ofta flera identiteter eftersom de har olika egenskaper och utbredning vid olika tillfällen. Sommarbadet har en identitet, men den uppsågade vaken för vinterbad har en annan och det anordnade hundbadet i anslutning har en tredje. Wikidata eller OSM tar inte höjd för detta och kan inte vara huvudkälla för identiteter.
-
@jonor sa i Hjälp folk att bada i sommar med Öppna Data! (Tips och hjälp behövs):
@stefan-wallin [...] Jag förstår att Riksantikvarieämbetet håller reda på sina egna id-nummer, som refereras från Wikidata-objektet i ditt exempel, men jag förstår inte betydelsen av "lokala" i sammanhanget, innebär det att de inte är publicerade som URI:er, men kopplas till ett Q-nummer på Wikidata?
Med lokala så syftar jag helt enkelt på system-lokala unika persistenta identifierare. I kontrast till en global unik persistent identifierare. Med lokaliteten så syftar jag till att många olika organisationer kan ha sina egna identifierare utan att börja med någon slags sammanslagningar eller liknande då vi riskerar duplikat när andra organisationer identifierar samma objekt.
En global identifierare är en identifierare som många aktörer knyter sig till och riskerar skapa dubletter av i ett på något sätt publikt redigerbart system (inte nödvändigtvis wiki, kanske git-repo med PR eller annat system för kors-organisations-förändring). För att en global identifierare ska blir relevant krävs det att datan där håller hög kvalitet och accepteras av många organisationer inom samma bransch för kunna skaffa sig en sådan status.
Exempel på system som håller sådana globala identifierare skulle kunna vara OSM eller Wikidata.
Vi skulle även kunna resonera som så att vi i sverige vill ha ägande över en nationell persistent identifierare. En sådan skulle vi kunna kalla en regional eller nationell persistent identifierare. Där skulle t.ex. DIGG eller RAÄ sätta upp en egen wikibase-instans dit alla kommunala och regionala system knyter sina persistenta identifierare till. Denna wikibase-instans skulle sedan kunna vara en instans dit externa system som OSM eller wikidata knyter an till. Detta skulle också kunna möjliggöra korskoppling av datapunkter mellan olika myndigheter. T.ex. kanske lantmäteriet, en kommun och havochvatten vara intresserade av samma badplats. Då skulle kunna vara intressant att knyta ihop dessa system utifrån den nationella persistenta identifieraren.
-
@istyf du har en bra identitet i NUTS - Nomenklaturen för statistiska territoriella enheter (Wikidata property:P605) och det finns bra data hos Havs- och vattenmyndighetens i Sverige med API. Jag lägger nu upp dom badplatser dom definierat i Wikidata se github.com/salgo60/Svenskabadplatser
- Fundering skapar vi med Öppen Data massa data SILOS ser massa dataset om badplatser som laddas upp utan att referera NUTS --> blir massa DataSILOS känns feltänkt att dubblera det jobb som en myndighet med tydligt ansvar gör som en del av sitta uppdrag deras API har kopplingar till vattenprover etc. länk API detail request
- jag kopplar badplatserna till Open Street Map och även sociala medier, sjö ett bad finns vid, vilken landform den finns på oftast ö, om badet finns i ett Naturreservat....
Jag hade i veckan kontakt med Havs- och vattenmyndighetens i Sverige och citat
1: Ja det är unika persistenta ID som vi har, med reservation för att vi har flyttat enstaka bad från en kommun till en annan, då får badplatsen också ett nytt ID eftersom kommunens id-nr är del av ID:t. Samt om en kommun av någon anledning markerar ett bad som inaktivt och sedan registrerar ett nytt med samma namn och koordinater så kommer det ”nya” att ha ett nytt id. BORDE inte inträffa, men kan ju hända…
2: Ja vi har ett API till data:t! Tyvärr bara dokumentation i word-fil än så länge, men en API-gateway är på gång, och då även en översyn av API:t så det blir mer självdokumenterade. Jag bifogar dokumentationen, där är även URL:n. API:t är helt fritt att använda och vi har ingen licens för det. All information man kan få ut är informationsklassad och bedömd som offentligt.
-
@salgo60 sa i Hjälp folk att bada i sommar med Öppna Data! (Tips och hjälp behövs):
@istyf du har en bra identitet i NUTS - Nomenklaturen för statistiska territoriella enheter (Wikidata property:P605) och det finns bra data hos Havs- och vattenmyndighetens i Sverige med API. Jag lägger nu upp dom badplatser dom definierat i Wikidata se github.com/salgo60/Svenskabadplatser
- Fundering skapar vi med Öppen Data massa data SILOS ser massa dataset om badplatser som laddas upp utan att referera NUTS --> blir massa DataSILOS känns feltänkt att dubblera det jobb som en myndighet med tydligt ansvar gör som en del av sitta uppdrag deras API har kopplingar till vattenprover etc. länk API detail request
- jag kopplar badplatserna till Open Street Map och även sociala medier, sjö ett bad finns vid, vilken landform den finns på oftast ö, om badet finns i ett Naturreservat....
Jag hade i veckan kontakt med Havs- och vattenmyndighetens i Sverige och citat
1: Ja det är unika persistenta ID som vi har, med reservation för att vi har flyttat enstaka bad från en kommun till en annan, då får badplatsen också ett nytt ID eftersom kommunens id-nr är del av ID:t. Samt om en kommun av någon anledning markerar ett bad som inaktivt och sedan registrerar ett nytt med samma namn och koordinater så kommer det ”nya” att ha ett nytt id. BORDE inte inträffa, men kan ju hända…
Är inte nyckeln i detta problem att det finns badplatser som inte havochvatten har prickat ut och hur en större mängd distribuerade organisationer som sedan skapar nya sådana identifierare utan att skapa id-krockar?
-
@istyf sa i Hjälp folk att bada i sommar med Öppna Data! (Tips och hjälp behövs):
Tanken att det skall finnas en öppen databas som wikidata att referera till är god och jag stödjer den principiellt, men den är mer ideologisk än praktisk. Om vi tar Sundsvall (där vi båda bor) som exempel, så har offentligägda badplatser ofta flera identiteter eftersom de har olika egenskaper och utbredning vid olika tillfällen. Sommarbadet har en identitet, men den uppsågade vaken för vinterbad har en annan och det anordnade hundbadet i anslutning har en tredje. Wikidata eller OSM tar inte höjd för detta och kan inte vara huvudkälla för identiteter.
Här håller jag inte med riktigt, jag ser ett värde i att det finns en offentlig knytpunkt som binder ihop badplatser i Sundsvall t.ex., dit de olika fallen du räknar upp kunde kopplas och sökas fram om jag vill ha en lista över badinrättningar av olika typer och deras förekomst över tid. Allt man skulle vilja hitta i ett offentligt arkiv borde lämpa sig att lägga till ett övergripande register.
-
@istyf Jag missförstod kanske här förresten, du pratar om primära identiteter och jag pratar om att länka informationen, och det är väl olika saker. Jag har inte sett riktigt att det skulle vara en huvudsaklig poäng att Wikidata stod för primära identiteter, men om det redan existerar lämpliga koncept kan det ju vara en fördel att uppmärksamma och koppla till dem, annars blir det väl någon successiv process där gemensamma koncept och identiteter etableras med tid.
-
@jonor sa i Hjälp folk att bada i sommar med Öppna Data! (Tips och hjälp behövs):
inte sett riktigt att det skulle vara en huvudsaklig poäng att Wikidata stod för primära identiteter,
Wikidata är inte primär auktoritet utan refererar till auktoriteter som bekräftar det som står i Wikidata, dock är det bra om man anger samma som Wikidata.
-
Exempel på feltänk ör Kungliga biblioteket som har sedan 2012 drivit ett havererande projekt LIBRISXL där man skapat instruktionsfilmer för bibliotekarier där dom anger Wikipedia som källa vilket gör att hela ekosystemet havererar och Wikidata inte kan ha LIBRISXL som källa
-
Jag har blivit lite maniskt med detta med källor och trovärdighet så jag skickade frågan vidare till han som skapa Wikidata vilka visioner han hade
- Denny Vrandečić om källor video
-
-
Detta inlägg är raderat!
-
@salgo60 @jonor @istyf @Stefan-Wallin @josefinlassi @Dennis_Priskorn
Stort tack till er för detta enorma engagemang för datamodellen och specifikationen för badplatser. Jag trodde nog inte jag skulle få så mycket feedback.
Jag har ändrat, bytt namn, flyttat, lagt till och tagit bort attribut om vartannat. Nu hag jag en modell som är bättre än förut men inte komplett såklart.
Här finns den ifall ni missat länken hittills som jag sent lade till i mitt originalinlägg:
https://docs.google.com/document/d/1GxNucD_E_eoHnlyJAL3tjCel-BdWvwF5TB_lYl7bs94/edit?usp=sharingJag står och väger mellan att skapa en datamodell som är "perfekt" och som är "kompatibel" med allt, fångar alla aspekter och fogar sig till redan befintliga modeller och plattformar. Tyvärr hamnar jag i avväganden om ifall jag ska sträva mot det eller sträva mot en modell som jag tror att våra medlemskommuner kommer att använda. Jag måste kanske fatta några beslut som gör det senare - med kvalité på modellen som nackdel.
Det som känns som stora frågan nu, innan jag fastställer version 1 i samråd med resten av arbetsgruppen för modellen i projektet Dataportal Väst är frågan om unikt persistent ID.
Det har kommit alla möjliga förslag - stryk det helt, hitta på något eget, använd en GUID-generator på internet, fråga HoV-myndigheten ifall ni kan få tillgång till deras databas och generera nya IDn där, skapa en egen databas där alla kan hämta ut IDn som behöver, skapa upp IDn i Wikidata på förhand och låt kommunerna använda dem när de publicerar, eller skapa en nationell databas med kunskapsgraf.
En del av alternativen funkar inte för då faller modellens kvalitet under vad som är godtagbart och en del ställer krav på en infrastruktur eller ideella krafter som inte finns.
Jag behöver fastställa ett unikt ID. Det finns inga ideella krafter som kommer att skapa Wikidatakonton och på förhand inför den här badsäsongen skapa upp IDn där, jag känner iaf inga sådana krafter. Vi kommer ej att kunna driva frågan nationellt i det här skedet.
Det jag kokat ned till nu är en av två lösningar
-
GUID-generator som ger ett 128bits "unikt" ID - finns risk för krock såklart men är liten
-
Ett helt påhittat system baserat på kommunkod som badplatsen finns på samt varianter av dess namn, typ "1473-TOREBODA-SANDVIKEN01".
Hur ska jag göra för att komma framåt och för att skapa en "mall" för våra kommande/tänkta datamodeller vi försöker skapa oss? Det lär inte vara första gången det här blir ett problem, vi har många modeller på lut som vi vill börja skapa och tillgängliggöra. Jag är rådvill. Hilfe!
-
-
@tomasmonsen Är det inte så att man får en URI för datamängden när den registreras på dataportalen t.ex.? Då fungerar den kanske som ett beständigt prefix för "lokala id" som ni genererar för posterna som därigenom kan refereras universellt. (Nu spekulerar jag väl lite fritt, men det känns som något man vänder sig till en registermyndighet för.)