Downloaden

In Eerste blik op #opendata portaal van @geldersarchief / @deree_groningen beschreef ik de moeizame procedure om de bestanden te downloaden. Sinds gisteren is men er in Groningen achter dat de rate limit (hoe vaak je binnen een bepaald tijdsbestek mag downloaden) stond ingesteld op maximaal 100 bestanden per uur. Dit is gelukkig nu hersteld, er geldt nu een rate limit van 100 per minuut, waardoor het downloaden sneller gaat (met sporadisch nog een bestand van 0 bytes of een HTTP 500 foutmelding).

Helaas zijn de bestanden, waarvan het de bedoeling is dat mensen deze makkelijk kunnen downloaden, nog steeds met een key (die elke dag anders is!) in de URL “beveiligd” tegen downloaden…

Verwerking

Nu de bijna 9 duizend bestanden zijn gedownload kan ik over gaan tot controle en verwerking van de bestanden. De bestanden zijn conform de XSD van A2A, oftewel, de syntax klopt. Dit betekent echter niet dat alle bestanden goed zijn!

Hieronder een voorbeeld:

<a2a:A2A xmlns:a2a=”http://Mindbus.nl/A2A” xmlns:xsi=”http://www.w3.org/2001/XMLSchema-instance” Version=”1.7″ xsi:schemaLocation=”http://Mindbus.nl/A2A http://Mindbus.nl/A2A/A2AAllInOne_v.1.7.xsd”><a2a:Event eid=”Event1″><a2a:EventType>Trouwen</a2a:EventType><a2a:EventDate><a2a:LiteralDate>21-10-1731</a2a:LiteralDate><a2a:Year>1731</a2a:Year><a2a:Month>10</a2a:Month><a2a:Day>21</a2a:Day></a2a:EventDate><a2a:EventPlace><a2a:Place>Zutphen</a2a:Place></a2a:EventPlace></a2a:Event><a2a:Source><a2a:SourcePlace><a2a:Country>Nederland</a2a:Country><a2a:Place>Zutphen</a2a:Place></a2a:SourcePlace><a2a:SourceIndexDate><a2a:From>1731-10-21</a2a:From><a2a:To>1731-10-21</a2a:To></a2a:SourceIndexDate><a2a:SourceDate><a2a:LiteralDate>21-10-1731</a2a:LiteralDate><a2a:Year>1731</a2a:Year><a2a:Month>10</a2a:Month><a2a:Day>21</a2a:Day></a2a:SourceDate><a2a:SourceType>DTB Trouwen</a2a:SourceType><a2a:SourceReference><a2a:Place>Arnhem</a2a:Place><a2a:InstitutionName>Gelders Archief</a2a:InstitutionName><a2a:Archive>0176</a2a:Archive><a2a:RegistryNumber>1912.18</a2a:RegistryNumber><a2a:DocumentNumber/></a2a:SourceReference><a2a:SourceAvailableScans><a2a:Scan><a2a:OrderSequenceNumber>1</a2a:OrderSequenceNumber><a2a:UriViewer>http://www.geldersarchief.nl/zoeken/?mivast=37&amp;miadt=37&amp;miaet=18&amp;micode=0176_1912.18&amp;minr=24643340&amp;miview=ldt</a2a:UriViewer><a2a:UriPreview>http://files.archieven.nl/php/get_thumb.php?adt_id=37&amp;toegang=0176&amp;file=1912.181912.18-0001.pdf</a2a:UriPreview></a2a:Scan></a2a:SourceAvailableScans><a2a:SourceLastChangeDate>2011-06-15</a2a:SourceLastChangeDate><a2a:RecordIdentifier>102821035</a2a:RecordIdentifier><a2a:RecordGUID>{A0881A04-6ADA-47A3-9F3D-9388F00DE11A}</a2a:RecordGUID></a2a:Source></a2a:A2A>

Opdracht: zoek in bovenstaand stuk XML de persoonsnamen op…

Helaas, bovenstaand A2A record bevat geen persoonsnamen. Oftewel een incompleet stuk data, waar ik niets mee kan.

Geen link naar website archief

Als je de akte die in bovenstaand stuk XML wordt beschreven wilt bekijken op de website van het Gelders Archief of archieven.nl, dan heb je ook een uitdaging, of beter gezegd, ook daar heb je niet genoeg informatie voor. 

Vaak zie je dat de URL van de akte op de website van het archief wordt weergegeven in het element SourceDigitalOriginal, deze wordt echter niet geleverd. Vaak is het ook mogelijk om een link te construeren op basis van de waarde in de element RecordGUID of RecordIdentifier. Of dit hier mogelijk is weet ik niet, het is niet gedocumenteerd. 
Afbeeldingen beschikbaar?
Gelukkig bevat de data set ook A2A records met persoonsnamen, deze stromen nu Open Archieven binnen. En daar wordt het volgende euvel zichtbaar… (en dan doel ik niet op personen die #### heten).
De A2A records bevatten ook links naar de scans (en viewer). Een voorbeeld van zo’n URL is:

http://files.archieven.nl/php/get_thumb.php?adt_id=37&toegang=0207A&file=1410-0304525767_00168.jpg

En deze scan ziet er als volgt uit:

Waarom links naar dit soort “afbeelding nog niet beschikbaar” afbeeldingen opnemen als de afbeelding nog niet beschikbaar is !?!?!

Conclusie
De kwaliteit van de open data en het open data portaal is nog niet zoals je mag verwachten. Deze ondermaatse kwaliteit straalt wel af op leverancier en archief! Dat is jammer en niet nodig.