zaterdag 8 april 2017

Open data wel en wee #1


Eén van de datasets die op Open Archieven wordt gepresenteerd is de VOC Opvarenden collectie, bij het Nationaal Archief bekend als Nadere Toegang 344 op archief 1.04.02. Toen de dataset in het voorjaar van 2014 werd verwerkt door Open Archieven, waren er nog geen koppelingen tussen de personen en de scans. Bij toeval kwam ik er deze week achter dat er op de GaHetNa website nu wel scans worden getoond!

De nadere toegang, inclusief de namen van de scans, was en is ook downloadbaar. Dat er nu een rijker data bestand beschikbaar was, is naar mijn weten nergens aangekondigd. Ik heb als hergebruiker van de dataset (dat is bekend bij het Nationaal Archief) ook geen persoonlijk bericht ontvangen.

Nergens op de GaHetNa website is er een overzicht van downloadbare indexen met daarbij een laatste wijzigingsdatum. Er is wel een overzicht van indexen die beschikbaar zijn als open data, helaas is er in dit document ook geen datum of versie nummer opgenomen. Niet dat de VOC Opvarenden voorkomt in dit document, dat staat in het overzicht van indexen die niet beschikbaar zijn als open data, ook hier weer geen datum/versienummer. De technische metadata van de PDF documenten geven overigens wel informatie over creatiedatum (19-01-2016) en auteur. Dat het VOC Opvarenden bestand geen open data is maar wel te downloaden is blijf ik vreemd vinden. Voor het presenteren van de data op Open Archieven heb ik overigens toestemming.

De nieuwe VOC Opvarenden dataset is volgens de bijgeleverde metadata gemaakt op 10 februari 2017. Waarschijnlijk een uitvloeisel van de VOC tentoonstelling die nu bij het Nationaal Archief is te bekijken. Wat direct opvalt is dat het bestand niet betrekking heeft op Nadere Toegang 344 is maar 444. Blijkbaar kunnen bestaande nadere toegangen niet aangepast worden en is er een nieuwe nadere toegang gemaakt. De nieuwe beschrijving mist overigens de introductie en melding dat er geen CC0 geldt, zoals wel bij de NT00344 was opgenomen.

Benieuwd naar de inhoudelijke data, heb ik een persoon waarvan ik weet dat deze voorkomt in VOC Opvarenden, opgezocht in het nieuwe (NT00444) en oude bestand (NT00344).

NT00444_OPVARENDEN.csv:"Erris Danglisoe","Erris","","","Danglisoe","Arbeek","Matroos","Sailor","Matrose","waak- en roergang; laden en lossen; reinigen, teren en kalfaten van het schip; af- en aanslaan van de zeilen; helpers van de onderofficieren. Ook wel bootsgezel.","(Dutch: matroos) watch and helmansman duties; loading and unloading; cleaning, taring and caulking the ship; hoisting and pulling in the sails; assisting the NCOs.","(niederländisch: matroos) vgl. Bootsgeselle (niederländisch: bootsgezel)","1761-04-19","1762-03-13","Azie","Asia","Asien","Overleden","Deceased","Gestorben","","","","Schagen","Nee","Ja","","","","","","","0","","","","","","","3076","","NL-HaNA/1.04.02/14471//108//","d110ccf0-c864-11e6-9d8b-00505693001d","NL-HaNA_1.04.02_14471_0122.jpg","http://hdl.handle.net/10648/9337d26a-7e22-5f35-8f58-65546ba8f995","1130647"

NT00344_opvarenden.csv:"1130647","Erris Danglisoe","Erris","","","Danglisoe","Arbeek","Matroos","Sailor","Matrose","waak- en roergang; laden en lossen; reinigen, teren en kalfaten van het schip; af- en aanslaan van de zeilen; helpers van de onderofficieren. Ook wel bootsgezel.","(Dutch: matroos) watch and helmansman duties; loading and unloading; cleaning, taring and caulking the ship; hoisting and pulling in the sails; assisting the NCOs.","(niederländisch: matroos) vgl. Bootsgeselle (niederländisch: bootsgezel)","1761-04-19","1762-03-13","Azie","Asia","Asien","Overleden","Deceased","Gestorben","","","","Schagen","Nee","Ja","","","","","","","","","","","","","","3076","0","NL-HaNA/1.04.02/14471//108//","bd85f0c8-b77c-4ce3-b4b7-d8b30843ce7d"

De verschillen in structuur van beide bestanden is met kleur aangegeven, één verplaatst veld (van begin naar eind) en 2 extra velden achteraan voor de informatie over de scan. Dat het nieuwe bestand verschilt van het oude bestand is overigens ook nergens gedocumenteerd.

Even tussendoor over de scans: via de consoles in de tentoonstellingsruimte van het Nationaal Archief kun je de VOC Opvarenden ook doorzoeken en volgens mij zag ik daar dat er meerdere scans waren gekoppeld aan een persoon, op GaHetNa en in dit bestand staat er maar één scan?

Maar waar ik meer van schrik is dat het "prs_id" veld (identificatie-nummer van de persoon) is gewijzigd. Waar het Internet adres van testsubject Eris Danglisoe voorheen dus http://www.gahetna.nl/collectie/index/nt00344/bd85f0c8-b77c-4ce3-b4b7-d8b30843ce7d was, is dit nu http://www.gahetna.nl/collectie/index/nt00444/d110ccf0-c864-11e6-9d8b-00505693001d. De oude URL levert een lege zoekpagina op, geen foutmelding en al helemaal geen doorverwijzing naar het nieuwe adres. Dit is erg jammer! Een ieder die dus links had gelegd naar personen binnen de VOC Opvarenden collectie op GaHetNa heeft nu dus een boel broken links, zowel particulieren als zoekmachines als Google en websites als Open Archieven!

Voor Open Archieven nu maar aan de slag om de scans weer te geven en om weer werkende links te krijgen naar GaHetNa ...

[update 9-4-2017] De VOC Opvarenden collectie op Open Archieven toont nu ook de scans en linkt naar de gewijzigde adressen op GaHetNa. Bekijk als voorbeeld de inschrijving van testsubject Erris Danglisoe (waarbij de Open Archieven URL's van de VOC Opvarenden pagina ongewijzigd zijn gebleven).