In een reeks blogposts wordt er gekeken naar de stand van zaken van open data in de archiefsector. De open data wordt op verschillende wijzen aangeboden, dit is in grote mate afhankelijk van de software (en dus leverancier) die de archiefinstelling gebruikt. In deze blogpost staat de open data centraal die wordt geboden door archiefinstellingen die de “open data portal” van De Ree gebruiken.
Aggregator
Open Archieven maakt de historische persoonsvermeldingen in akten van Nederlandse en Belgische archiefinstellingen doorzoekbaar. Met 219 miljoen historische persoonsvermeldingen is Open Archieven de grootste doorzoekbare database.
Open Archieven draait op de door archiefinstellingen (of vrijwilligers) beschikbaar gestelde open data. Open Archieven is hiermee ook een van de grotere (particuliere) aggregatoren.
Er is voor het “open data portaal” van De Ree een specifieke crawler en processor gemaakt. Dit was nodig omdat De Ree geen API biedt en er dus HTML gescraped moet worden en custom AJAX requests moeten worden gedaan. De crawler identificeert zich (qua user agent) als OA-ANL-Harvester en kent twee fasen. Allereerst wordt alle metadata van de open data bestanden opgehaald. Er wordt hiermee een lokale data catalogus opgebouwd per archiefinstelling. In een tweede fase worden – op basis van de data catalogus – nieuwe en bijgewerkte bestanden daadwerkelijk gedownload zodat deze verwerkt kunnen worden door Open Archieven.
Door de opzet van het “open data portaal” van De Ree moeten er een groot aantal requests worden gedaan om de gewenste metadata (zoals datum laatste wijziging van het bestand) te verkrijgen. Eén request per 20 bestanden en één request voor elke bestand. Om de infrastructuur van De Ree niet te veel te belasten, wordt er na elke request een halve seconde gewacht. Het opbouwen van de complete datacatalogus voor de ruim 127 duizend bestanden van 22 archiefinstellingen (wat dus nodig is om te controleren of er nieuwe of bijgewerkte bestanden zijn) duurt ruim 17 uur!
Kwantiteit
Archiefinstelling | Aantal | Megabytes | Deel |
Gelders Archief | 10.372 | 25.406 | 20,5% |
Stadsarchief Rotterdam | 6.808 | 23.717 | 19,1% |
Het Utrechts Archief | 33.400 | 19.125 | 15,4% |
Zeeuws Archief | 42.606 | 13.130 | 10,6% |
RHC Eindhoven | 5.154 | 8.919 | 7,2% |
Haags Gemeentetarchief | 2.975 | 7.787 | 6,3% |
Noord-Hollands Archief | 6.005 | 4.478 | 3,6% |
Regionaal Archief Dordrecht | 2.574 | 4.110 | 3,3% |
Regionaal Archief Rivierenland | 4.048 | 3.642 | 2,9% |
Erfgoedcentrum Achterhoek Liemers | 2.427 | 3.525 | 2,8% |
Westfries Archief | 2.803 | 2.699 | 2,2% |
Streefarchief Voorne-Putten | 918 | 1.858 | 1,5% |
Gemeentearchief Zaanstad | 1.704 | 1.400 | 1,1% |
Regionaal Historisch Centrum Vecht en Venen | 1.072 | 1.369 | 1,1% |
Groninger Archieven | 2.560 | 561 | 0,5% |
Rijckheyt | 409 | 522 | 0,4% |
Gemeentearchief Roermond | 181 | 517 | 0,4% |
Gemeente Steenwijkerland | 259 | 364 | 0,3% |
Het Flevolands Archief | 638 | 336 | 0,3% |
Gemeentearchief Alphen aan den Rijn | 196 | 216 | 0,2% |
Gemeente Kerkrade | 135 | 186 | 0,2% |
Archief De Domijnen Sittard-Geleen | 21 | 18 | 0,0% |
127.265 | 123.885 |
Het achterhalen welke van de 87 op archieven.nl publicerende archiefinstellingen ook open data bieden is niet eenvoudig op te vragen. Ook hier geen auto-discovery maar hand- en giswerk.
Van deze 87 archiefinstellingen zijn er 22 die open data bieden, dat is krap een kwart. Als je naar genealogische data kijkt dan zijn er nog 15 archiefinstellingen die wel historische persoonsgegevens via archieven.nl bieden maar dit niet als open data beschikbaar stellen. Hiervan bieden 4 archieforganisaties hun data aan via de oplossing van Picturae. De overige 11 gebruiken geen open data portal:Gemeentearchief Hardenberg, Gemeentearchief Hulst, Gemeentearchief Zeist, Historisch Centrum Leeuwarden, Regionaal Historisch Centrum Limburg, Stadsarchief Deventer, Stadsarchief Kampen, Streekarchief Noordwest-Veluwe, het Nederlands Instituut voor Militaire Historie en Historisch Centrum Overijssel.
Als je ook naar de andere datasoorten kijkt, zoals inventarissen en beeldbanken dan is er een nog groter aantal archiefinstellingen die wel data heeft maar dit niet via het “open data portal” van De Ree beschikbaar stelt voor hergebruik.
In totaal is er 123,9 GB aan open data bestanden gedownload. Helaas wordt er door De Ree geen compressie toegepast. Vreemd, want als er compressie wordt toegepast – bijvoorbeeld Gzip of Brotli – hetgeen een zeer eenvoudige configuratie in een webserver betreft, dan zou er slechts 4,42 GB aan open data bestanden hoeven worden gedownload. Een besparing (en snelheidsverbetering) die voor alle gebruikers van archieven.nl zou gelden.
De 22 archiefinstellingen bieden samen 127.265 open data bestanden aan. Helaas is de toegang hierop vooral op mensen gericht (veel klikken…). Hopelijk komt ook de machine in beeld als gebruiker. Wanneer de bestanden en metadata (datasets en dataset beschrijvingen) een meer gestandaardiseerde toegang krijgen verlaagd dit de drempel tot hergebruik.
Beschikbaarheid | Aantal | Deel |
Bestand beschikbaar | 126.407 | 99,3% |
Nog niet beschikbaar | 858 | 0,7% |
Een klein deel van de bestanden in de open data portals van de archiefinstellingen hebben als status “nog niet beschikbaar”. Veelal worden de open data bestanden door De Ree in het weekend gegenereerd. Er kan dus wat tijd zitten tussen het aanwijzen van een open data bestand door de archiefmedewerker en het daadwerkelijk beschikbaar komen van het bestand. De vraag dringt zich op het er genoeg tijd in het weekend is om bestanden te genereren (nieuw of update). Ook doordeweeks is er genoeg tijd dat het gebruik van de website gepaard kan gaan met de verwerking van de bestanden. Archiefinstellingen wordt aangeraden om deze “nog niet beschikbaar” bestanden geregeld te controleren. Het kan ook een teken zijn dat er iets mis is gegaan bij het genereren van het open data bestand.
Kwaliteit
Licentie | Aantal | Deel |
CC0 1.0 | 107.581 | 84,5% |
CC BY-SA 4.0 | 17.557 | 13,8% |
CC BY 4.0 | 2.123 | 1,7% |
PDM 1.0 | 4 | 0,0% |
We hebben het hier over open data. Dit betekent dat de data voor hergebruik beschikbaar wordt gesteld onder een vrij licentie. Het overgrote deel van de bestanden is door archiefinstellingen beschikbaar gesteld onder een CC0 publiek domein verklaring. Ook worden CC BY-SA en CC BY gebruikt, hieraan worden wat meer voorwaarden gesteld bij hergebruik (waaronder naamsvermelding en gelijk delen).
Formaat | Aantal | Deel |
A2A | 101.988 | 80,7% |
MI | 12.789 | 10,1% |
EAD | 11.559 | 9,1% |
DC | 69 | 0,1% |
Binnen de beschikbaar gestelde bestanden worden verschillende dataformaten gebruikt. Opmerkelijk is dat bij 1 op de 10 bestanden niet gebruik is gemaakt van een open standaard (als A2A en EAD) maar een proprietary formaat. Het ‘MI’ formaat, gemaakt door De Ree, is niet beschreven en open. Hergebruik van deze bestanden vereist reverse-engineering en een boel giswerk wat niet veel hergebruikers zullen opbrengen.
Soort | Aantal | Deel |
genealogie | 113.311 | 89,0% |
inventaris | 12.240 | 9,6% |
archief | 990 | 0,8% |
sys_ovr | 703 | 0,6% |
beeldmateriaal | 13 | 0,0% |
museum | 4 | 0,0% |
bibliotheek | 2 | 0,0% |
diversen | 1 | 0,0% |
bouwdossiers | 1 | 0,0% |
Er worden verschillende soorten data ter beschikking gesteld. Het grootste gedeelte betreft nadere toegangen op akten, oftewel genealogie, gevolgd door inventarissen. Ik verwacht dat de groei de komende jaren vooral in de andere data soorten zal zitten.
Status | Aantal | Deel |
Valide inhoud | 125.823 | 99,5% |
Invalide A2A inhoud | 522 | 0,4% |
Bestand niet gevonden | 63 | 0,0% |
Genealogie bestand aangeboden in verkeerd formaat (EAD i.p.v. A2A) | 5 | 0,0% |
Als aggregator is Open Archieven gebaat bij beschikbare én valide bestanden. De validiteit van bestanden wordt in twee stappen gecontroleerd. Een eerste controle vindt plaats direct na download: hier wordt gecontroleerd of het bestand daadwerkelijk beschikbaar is en (bij A2A bestanden) of er überhaupt A2A in voorkomt of dat het bestand alleen waarschuwingen bevat. Dit laatste gebeurd als er voor een brontype geen mapping is gedefinieerd naar A2A.
Gevonden problemen – bestand niet gevonden / nog niet beschikbaar / ongeldige A2A – worden via het openbare dashboard op Open Archieven getoond. Elke archiefinstelling krijgt hier een een overzicht van bestanden met problemen waarmee ze aan de slag kunnen. Zo nu en dan worden archiefinstellingen hier via e-mail nog eens op gewezen.
Bij het inlezen van de data door Open Archieven vindt de tweede controle plaats, dan wordt de syntax van elk A2A record gecontroleerd (op basis van de A2A XSD). Dit geldt ook voor de MI-bestanden, die door Open Archieven worden omgezet in A2A formaat.
Jaar | Aantal | Deel |
2016 | 12.555 | 9,9% |
2017 | 27.189 | 21,5% |
2018 | 51.639 | 40,8% |
2019 | 20.164 | 15,9% |
2020 | 14.861 | 11,8% |
De actualiteit van de bestanden valt moeilijk te beoordelen. Zo’n 31% van de bestanden is voor het laatst bijgewerkt in vóór 2018. Gezien het aantal foutmeldingen dat via Open Archieven aan de archiefinstellingen wordt gestuurd lijkt het toch wel aannemelijk dat er vaker bijgewerkte bestanden beschikbaar moeten komen. In hoeverre de software van De Ree hiervoor zorgt of dat er een handeling van een archiefmedewerker nodig is, is onbekend.
Conclusie
Het “open data portaal” van De Ree is een softwarecomponent dat niet is gericht op hergebruikers en machines (=de doelgroep van open data). Doordat open data portalen per archiefinstelling en daarbinnen de metadata per bestand niet volgens semantische standaarden zijn opgezet, blijft het harvesten van de (ongecomprimeerde) open data een grote, tijdrovende uitdaging. Dit vormt een zeer hoge drempel, waardoor de open data van de archiefinstellingen veel minder hergebruikt zullen worden.
Via het “open data portaal” bieden 22 archiefinstellingen samen 127.265 open data bestanden aan, mooi! Het overgrote deel hiervan is volgens een open standaard, beschikbaar en zonder problemen. Aandacht blijft nodig om de laatste 10% aan gesloten MI formaat data om te zetten in een open standaard. Archiefinstellingen worden aangemoedigd om de problemen met hun open data bestanden op te lossen.
Het “open data portaal” is nog niet bij alle archiefinstellingen die De Ree als haar klant mag rekenen in gebruik. Een deel van de archiefinstellingen stelt haar data op andere wijze beschikbaar, zoals het open data portaal van Picturae of door het exporteren vanuit MAIS-Flexis en e-mail van de data. Blijft toch een groot aantal archiefinstellingen over die nog niet open zijn.