Downloaden
In Eerste blik op #opendata portaal van @geldersarchief / @deree_groningen beschreef ik de moeizame procedure om de bestanden te downloaden. Sinds gisteren is men er in Groningen achter dat de rate limit (hoe vaak je binnen een bepaald tijdsbestek mag downloaden) stond ingesteld op maximaal 100 bestanden per uur. Dit is gelukkig nu hersteld, er geldt nu een rate limit van 100 per minuut, waardoor het downloaden sneller gaat (met sporadisch nog een bestand van 0 bytes of een HTTP 500 foutmelding).
Helaas zijn de bestanden, waarvan het de bedoeling is dat mensen deze makkelijk kunnen downloaden, nog steeds met een key (die elke dag anders is!) in de URL “beveiligd” tegen downloaden…
Verwerking
Nu de bijna 9 duizend bestanden zijn gedownload kan ik over gaan tot controle en verwerking van de bestanden. De bestanden zijn conform de XSD van A2A, oftewel, de syntax klopt. Dit betekent echter niet dat alle bestanden goed zijn!
Hieronder een voorbeeld:
<a2a:A2A xmlns:a2a=”http://Mindbus.nl/A2A” xmlns:xsi=”http://www.w3.org/2001/XMLSchema-instance” Version=”1.7″ xsi:schemaLocation=”http://Mindbus.nl/A2A http://Mindbus.nl/A2A/A2AAllInOne_v.1.7.xsd”><a2a:Event eid=”Event1″><a2a:EventType>Trouwen</a2a:EventType><a2a:EventDate><a2a:LiteralDate>21-10-1731</a2a:LiteralDate><a2a:Year>1731</a2a:Year><a2a:Month>10</a2a:Month><a2a:Day>21</a2a:Day></a2a:EventDate><a2a:EventPlace><a2a:Place>Zutphen</a2a:Place></a2a:EventPlace></a2a:Event><a2a:Source><a2a:SourcePlace><a2a:Country>Nederland</a2a:Country><a2a:Place>Zutphen</a2a:Place></a2a:SourcePlace><a2a:SourceIndexDate><a2a:From>1731-10-21</a2a:From><a2a:To>1731-10-21</a2a:To></a2a:SourceIndexDate><a2a:SourceDate><a2a:LiteralDate>21-10-1731</a2a:LiteralDate><a2a:Year>1731</a2a:Year><a2a:Month>10</a2a:Month><a2a:Day>21</a2a:Day></a2a:SourceDate><a2a:SourceType>DTB Trouwen</a2a:SourceType><a2a:SourceReference><a2a:Place>Arnhem</a2a:Place><a2a:InstitutionName>Gelders Archief</a2a:InstitutionName><a2a:Archive>0176</a2a:Archive><a2a:RegistryNumber>1912.18</a2a:RegistryNumber><a2a:DocumentNumber/></a2a:SourceReference><a2a:SourceAvailableScans><a2a:Scan><a2a:OrderSequenceNumber>1</a2a:OrderSequenceNumber><a2a:UriViewer>http://www.geldersarchief.nl/zoeken/?mivast=37&miadt=37&miaet=18&micode=0176_1912.18&minr=24643340&miview=ldt</a2a:UriViewer><a2a:UriPreview>http://files.archieven.nl/php/get_thumb.php?adt_id=37&toegang=0176&file=1912.181912.18-0001.pdf</a2a:UriPreview></a2a:Scan></a2a:SourceAvailableScans><a2a:SourceLastChangeDate>2011-06-15</a2a:SourceLastChangeDate><a2a:RecordIdentifier>102821035</a2a:RecordIdentifier><a2a:RecordGUID>{A0881A04-6ADA-47A3-9F3D-9388F00DE11A}</a2a:RecordGUID></a2a:Source></a2a:A2A>
Opdracht: zoek in bovenstaand stuk XML de persoonsnamen op…
Helaas, bovenstaand A2A record bevat geen persoonsnamen. Oftewel een incompleet stuk data, waar ik niets mee kan.
Geen link naar website archief
Als je de akte die in bovenstaand stuk XML wordt beschreven wilt bekijken op de website van het Gelders Archief of archieven.nl, dan heb je ook een uitdaging, of beter gezegd, ook daar heb je niet genoeg informatie voor.
Gelukkig bevat de data set ook A2A records met persoonsnamen, deze stromen nu Open Archieven binnen. En daar wordt het volgende euvel zichtbaar… (en dan doel ik niet op personen die #### heten).
En deze scan ziet er als volgt uit:
Waarom links naar dit soort “afbeelding nog niet beschikbaar” afbeeldingen opnemen als de afbeelding nog niet beschikbaar is !?!?!