Community på Sveriges dataportal
Kategorisera API:er efter datasort
-
Det finns flera sorters data i öppna APIer men varje API tenderar att hålla sig inom samma sort. Exempel på datasorter:
- Statistik
- Definitionsdata
- Mätdata (realtid eller inte)
- Relationsdata mellan olika grunddata
- "Min data". Det vill säga data jag kan enligt GDPR begära ut om mig själv.
Det finns säkert någon slags datasort jag missat, men jag är ofta helt ointresserad av statistik som jag uppfattar upptar majoriteten av dataseten. Jag skulle önska en möjlighet att filtrera ut vissa av dessa kategorier när jag bläddrar igenom den oöverskådliga mängden av 7000+ API:er. Jag har exempelvis varit deltagare och organisatör på flertalet hackathons och problemet är att det är ofta helt oöverstigligt att sortera igenom denna enorma mängd av API:er för att hitta något intressant att basera en affärsidé eller verktygsidé på.
-
@stefan-wallin Det här var ett perspektiv som jag inte tänkt på tidigare, bra att du lyfter det! Jag tycker att just användbarheten, inkl sökbarheten, är otroligt viktigt, annars är det svårt att hitta och använda data. Just den filtrering som du nämner har vi inte snappat upp, men jag känner att den platsar bra att titta på det i det fortsatta utvecklingsarbetet.
En annan relaterad funktion som vi kommer att utreda inom ramen för ett "avancerat sök" är möjligheten att välja bort (inte bara lägga till ett filter), som att man ska kunna välja bort tex vissa organisationer (som SCB) som vet inte har den data man söker efter. Vet inte om du använt forskningsdatabasen Scopus nånting, men dom har en väldigt effektivt sökfunktion där man bl.a. kan välja att "include" eller "exclude" delar inom olika filter. Skulle en sån funktion förenkla för dina behov tror du?
-
Detta inlägg är raderat!
-
@stefan-wallin Hej, mycket bra poäng. Säkerligen finns det både högt-och lågt hängande frukter att hämta här som tål att utforskas. Vi tar med oss frågan i det fortsatta arbetet med filtrering/sök.
Spontant i min mening den lägsta frukten, att se över möjligheten att skapa ett filter utifrån uppdateringsfrekvens.
Just att filtrera på de olika "datasorterna" är en klurigare nöt att knäcka men en idé är att i ett första steg undersöka om det finns en stabil vokabulär, som har en klassificering som mappar mot detta behov. Någon som har vetskap om en sådan vokabulär?
-
Jag tror att med en exclude-include-lösning som @josefinlassi pratar om för de existerande parametrarna kan vi säkerligen komma riktigt långt med. Det är svårt för mig att resonera fram om det räcker eftersom mängden jag vill filtrera bland för att hitta en okänd guldnål i en höstack är så stor och jag inte vet om guldnålen finns där. Det är mer en explorativ sökning.
Angående @salgo60's lösning så känns den ganska överingenjörad och det är svårt att fylla caset "Jag vill hitta en datamängd jag kan vinna ett hackathon eller bygga en unik affärsidé på" är särdeles enkel att lösa med hjälp av ML just eftersom jag vill åt de datamängderna som inte är populärast eller nödvändigtvis har högst uppdateringsfrekvens. Det är ju inte ens så att vi optimerar för en återkommande besökare nödvändigtvis i detta fall utan bara göra datamängden mer utforskningsbar.
@salgo60 det skulle lämpa sig om du bröt ut ditt inlägg om DCAT-AP-SE till en egen tråd tror jag, det har inte riktigt med detta ämne att göra.
-
@stefan-wallin hur löser du user caset "Jag vill hitta liknande datamängd som jag har hämta hos dataportalen.se hos alla andra Europeiska dataportaler"
där måste man tänka lite större och se till att alla datamängder knyts ihop. Idag görs det 8 ggr av 10 med en kunskaps graf jmf Google, designar man bara för "svenska" lösningar så måste man snart tillbaka till ritbordet...
-
Återanvänd gärna arbetsförmedlingens lösning för Platsbanken (eller vår kompetens runt sök/filtrering). Dagligen hanteras ca 60 000 annonser och görs sökbara ur en mängd olika perspektiv. Ni hittar lösningen på github https://github.com/JobtechSwe/sokannonser-api och det är enkelt att komma igång med sökmotorer såsom elastic. (Lämpar sig väl för sök/filtrering)
-
@salgo60 Det är en separat tråd i mina ögon. Starta gärna en tråd om det. Superviktigt ämne, men det har inget att göra med "hitta ett intressant dataset i en okänd mängd av dataset". Ur ett systemförvaltarperspektiv är det såklart intressant men det ser jag inte som samma use case och det är heller inte syftet med min fråga. Att dataset är ihopkopplade över världen löser ju nämligen inte heller mitt problem.
-
@stefan-wallin jag tar bort det om det stör. Är inte säker att du ser det problem jag ser
- DCAT-AP-SE diskuteras här Issues/84
-
@stefan-wallin Tack för feedbacken, vi jobbar vidare med en ”exclude” funktionalitet och hoppas att det blir bra:) En annan sak som dykt upp i tester och som också kanske skulle bidra till enklare utforskning av data är dels om datamängder går att beskriva i ”antal datapunkter” för att man enklare ska kunna avgöra storleken och om det är nåt data som går att använda för AI eller maskininlärning. Ett stöd för samma syfte är att göra det tydligt vilka datamängder som bygger på samma specifikation (typ... en ”Tips! Dom här datamängder använder samma specifikation.) Vi har ingen aning om hur svårt eller om det ens går att realisera detta eller inte i dagsläget, men det vore intressant med din synpunkt även här.
-
@josefinlassi lite synd att ni känner att ni måste jobba vidare med en exclude-funktionalitet. I en korrekt vald arkitektur så skulle, som @salgo60 redan påtalat, det redan fungera.
T.ex. om ni skulle ha en wikibase-installation som bas så är det bara ytterligare ett attribut som ni kan lägga på och det måste inte finnas på alla API:er. Då skulle vi kunna låta våra pengar gå till exempelvis att bygga wikigames som hjälper administratörer och frivilliga att fylla i uppgifterna i schyssta gui och låta API-nyttjare filtrera med sparql-frågor, eller till och med bygga schysta sparql-filtrerings-gui:n
"antal datapunkter" är på sätt och vis ett konstigt attribut eftersom det oftast ändrar sig över tid. Även antalet kommuner har ju ändrats över tid (1952 var det över 2000 kommuner i Sverige). Det är ju även så att inte bara storleken utan även hastigheten är intressant för att uppfatta eventuella skalningsproblem eller om datan är omfattande nog.
För "dessa datamängder bygger på samma specifikation" så är du ju inne på det som @salgo60 pratar om när det gäller persistenta identifierare av specifikationen och en referens till den identifieraren bör finnas med i filtreringsurvalet och data-mängden.
-
@stefan-wallin Om jag ibland använder konstiga uttryck så är det för att jag inte är en programmerare. Mitt uppdrag är att främja en bred användning av data, alltså även för dom som inte har en lika hög teknisk kompetens som ni har:) So, "bare with me":) Begreppet 'antal datapunkter' har jag dock inte hittat på själv, det kommer från ett användartest med en person som driver ett företag inom machine learning. Och vår målsättning är att göra dataportalens datamängder enklare att använda även i detta sammanhang... och då lyftes detta upp som en väldigt viktig parameter (bland flera). Och missförstod jag dig här ovan när du skrev att en "exclude funktionalitet", som del av en mer avancerad sök, ändå skulle göra det enklare att filtrera fram intressanta datamängder?
-
@stefan-wallin appropå persistenta identifierare så har vi med det i vägledningen för att tillgängliggöra information. Men det behöver absolut utvecklas så det står redan med på vår "to do" lista.
-
@josefinlassi sa i Kategorisera API:er efter datasort:
Och missförstod jag dig här ovan när du skrev att en "exclude funktionalitet", som del av en mer avancerad sök, ändå skulle göra det enklare att filtrera fram intressanta datamängder?
Jag tycker det är bra att ha, men är inne på samma linje som @salgo60 att bygga varje sätt att filtrera en i taget är lite synd att ni ska behöva lägga tid på. Snarare är det bättre att ha eller skapa ett generellt sätt att ställa valfri filtrering av valfri metadata-punkt om api:erna.
Jämför gärna med wikidata query eller med prisjakt som har väldigt många olika flexibla sätt att filtrera en stor databas på baserat på just metadata.
-
@stefan-wallin Håller med dig om att det inte alltid blir bra om man "duttar"... Just tankarna på den här specifika "exclude" funktionen ingår i ett större arbete kring ett avancerat sök där jag hoppas att vi försöker nå det du pratar om. Jag provtryckte bara en del mot dig, går fortare än att förklara ett helt koncept som inte är klart:)
Och där tänker vi benchmarka lite, så vi kan absolut plocka in prisjakt och wikidata query också som exempel. Något jag personligen tycker är väldigt bra är också Scopus forskningsdatabas där man med enkla medel (bl.a. "limit to"/"exclude", OCH/ELLER funktionalitet , ett flertal filter/kategorier, frisök mm) ganska snabbt kan hitta ungefär det man söker efter i en databas med flera tusentals artiklar. Men jag tar med mig dina tips!