vrijdag 1 april 2016

Eerste blik op #opendata portaal van @Picturae_NL

Ook Picturae heeft voor haar klanten een open data portaal gerealiseerd. Zij hebben voor de makkelijke weg gekozen en daar ben ik erg blij mee!

Het open data portaal is namelijk een implementatie van het open-source data portal platform CKAN. Deze software wordt ook gebruikt door bijvoorbeeld data.overheid.nl, rotterdamopendata.nl en data.amsterdam.nl.
CKAN is a powerful data management system that makes data accessible – by providing tools to streamline publishing, sharing, finding and using data. CKAN is aimed at data publishers (national and regional governments, companies and organizations) wanting to make their data open and available.
Het open data portaal kan doorzocht worden, datasets kunnen per organisatie of per tag of per formaat bekeken worden, Van elke dataset is er een beschrijving, een URL, een datum van aanmaken en laatste wijziging en natuurlijk de (open) licentie. Het enige wat ik qua inrichting nog mis zijn de contactpersonen (naam en e-mail adres) bij de archieven, zodat hergebruikers eenvoudig in contact kunnen treden wanneer ze vragen hebben of juist willen melden dat ze iets moois met de data hebben gedaan.

CKAN biedt naast een website ook een API. Dit laatste betekent dat ontwikkelaars niet de informatie van de website hoeven te scrapen maar dat de informatie eenvoudig opgevraagd kan worden en als JSON wordt geretourneerd. Het in elkaar zetten van een script die alle nieuwe en aangepaste bestanden download is dan ook zeer simpel (veel eenvoudiger dan bij het "open data portaal" van De Ree waar ik eerder een eerste blik en tweede blik op wierp).

Op het moment van schrijven worden er genealogische open datasets aangeboden van 6 organisaties:
Per organisatie wordt er voor elk registertype een bestand aangeboden. Dit zijn alle gecomprimeerde XML bestanden die voldoen aan het (open) A2A datamodel. De hierboven genoemde organisaties hebben allemaal voor CC0 als licentie gekozen, mooi!

Het downloaden van de 74 bestanden duurde nog geen 2 minuten! Na nog eens enkele minuten was 2,1GB aan bestanden lokaal gedecomprimeerd en was er 37GB aan open data (=machineleesbare data die voldoet aan open standaard en hergebruikt mag worden)! Deze genealogische datasets worden nu al door Open Archieven verwerkt zodat deze zijn doorzoekbaar op Open Archieven

Het open data portaal geeft overigens nog 6 "datasets" weer. Dit zijn adressen van de OAI-PMH data providers van de 6 organisaties waarmee dezelfde data kan worden geharvest. Waar downloadbare datasets - die op een frequente basis bijgewerkt worden door Picturae - een download van het type "alles in een keer" mogelijk maken, kun je via OAI-PMH ook alleen de records opvragen die sinds een bepaalde datum zijn gewijzigd. Voor wie deze OAI-PMH data providers wil bekijken: ze zijn opgenomen in de OAI-PMH Browser.

Ik hoop dat de andere Picturae klanten ook deze wijze van publiceren van open data gaan gebruiken!