woensdag 17 mei 2017

Nieuw archiefsysteem en bestaande data? Grondige controle vereist!


Archiefinstellingen beheren heel wat data, waaronder nadere toegangen / indexen, die voor genealogen van grote waarde zijn. Als archiefinstellingen overstappen op software van een nieuwe leveranciers is het altijd maar hopen dat alle data goed overkomt. Ook wanneer een archiefinstelling overstapt op een nieuwe versie van hetzelfde systeem is het van groot belang dit grondig te controleren. In dit artikel een voorbeeld van wat er kan misgaan.

Bevolkingsregister Leiden

Onderstaande afbeelding komt uit een presentatie over Open Archieven uit mei 2015. Het toont een registratie uit het bevolkingsregister van Leiden (archiefnummer 516, inventarisnummer 1309). 


Reden dat deze pagina was opgenomen in de presentatie was het feit dat Open Archieven de straat toon op een historische kaart. De kaart was in dit geval beschikbaar gesteld door Erfgoed Leiden, de straat informatie is afkomstig van OpenStreetsMaps. Met één klik op de straatnaam krijgt de Open Archieven gebruiker een beeld waar de straat in Leiden lag (en hoogstwaarschijnlijk nog ligt).


Wie nu, twee jaar later, naar dezelfde pagina uit het bevolkingsregister gaat, ziet de volgende pagina:

De huidige versie heeft geen straatnaam en een andere datum?!?!

Controle van de bron data (het A2A record met GUID f885100e-9c88-f0b2-8c34-9232ee10b2f0), leert dat het niet aan de weergave door Open Archieven ligt. De straatnaam maakt geen onderdeel meer uit van de beschikbaar gestelde data.

<?xml version="1.0" encoding="UTF-8"?>
<OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">
  <responseDate>2017-05-16T14:40:13Z</responseDate>
  <request verb="GetRecord" metadataPrefix="oai_a2a" identifier="3f630667-c793-46e9-61d4-45f0970b50ba">http://webservices-a2a.picturae.pro/20a181d4-c896-489f-9d16-20a3b7306b15/</request>
  <GetRecord xmlns:a2a="http://Mindbus.nl/A2A">
    <record xmlns:a2a="http://Mindbus.nl/A2A">
      <header>
        <identifier>3f630667-c793-46e9-61d4-45f0970b50ba</identifier>
        <datestamp>2017-04-12T10:54:15Z</datestamp>
      </header>
      <metadata xmlns:a2a="http://Mindbus.nl/A2A">
        <a2a:A2A xmlns:a2a="http://Mindbus.nl/A2A" Version="1.7">
          <a2a:Person pid="Person:6b269db5-29fd-6fe2-b6ce-1a554ab8cd22">
            <a2a:PersonName>
              <a2a:PersonNameFirstName>Johanna Maria</a2a:PersonNameFirstName>
              <a2a:PersonNameLastName>Coret</a2a:PersonNameLastName>
            </a2a:PersonName>
            <a2a:Gender>Onbekend</a2a:Gender>
            <a2a:BirthDate>
              <a2a:Year>1879</a2a:Year>
              <a2a:Month>3</a2a:Month>
              <a2a:Day>15</a2a:Day>
            </a2a:BirthDate>
            <a2a:BirthPlace>
              <a2a:Place>Leiden</a2a:Place>
            </a2a:BirthPlace>
          </a2a:Person>
          <a2a:Event eid="Event1">
            <a2a:EventType>Registratie</a2a:EventType>
            <a2a:EventDate>
              <a2a:Year>1879</a2a:Year>
              <a2a:Month>3</a2a:Month>
              <a2a:Day>15</a2a:Day>
            </a2a:EventDate>
          </a2a:Event>
          <a2a:RelationEP>
            <a2a:PersonKeyRef>Person:6b269db5-29fd-6fe2-b6ce-1a554ab8cd22</a2a:PersonKeyRef>
            <a2a:EventKeyRef>Event1</a2a:EventKeyRef>
            <a2a:RelationType>other:Persoon</a2a:RelationType>
          </a2a:RelationEP>
          <a2a:Source>
            <a2a:SourcePlace>
              <a2a:Place>Leiden</a2a:Place>
            </a2a:SourcePlace>
            <a2a:SourceIndexDate>
              <a2a:From>1890-01-01</a2a:From>
              <a2a:To>1924-12-31</a2a:To>
            </a2a:SourceIndexDate>
            <a2a:SourceType>Bevolkingsregister</a2a:SourceType>
            <a2a:SourceReference>
              <a2a:Place>Leiden</a2a:Place>
              <a2a:InstitutionName>Erfgoed Leiden</a2a:InstitutionName>
              <a2a:Archive>516</a2a:Archive>
              <a2a:Collection>Archiefnaam: Archief van het algemeen en dagelijks bestuur, (1545) 1816-1929 (1963); Bevolkingsbo...</a2a:Collection>
              <a2a:Book>48. supplement I. (1 - 415)</a2a:Book>
              <a2a:Folio>45</a2a:Folio>
              <a2a:RegistryNumber>1350</a2a:RegistryNumber>
            </a2a:SourceReference>
            <a2a:SourceLastChangeDate>2012-01-06</a2a:SourceLastChangeDate>
            <a2a:SourceDigitalOriginal>https://www.erfgoedleiden.nl/collecties/personen/zoek-op-personen/deeds/3f630667-c793-46e9-61d4-45f0970b50ba</a2a:SourceDigitalOriginal>
            <a2a:RecordGUID>{3f630667-c793-46e9-61d4-45f0970b50ba}</a2a:RecordGUID>
            <a2a:SourceRemark Key="Opmerking">
              <a2a:Value>
<br/><a href="/collecties/archieven/archievenoverzicht/inventaris/index/eadid/0516/inventarisnr/1350">Inventarisnummer 1350 van archiefnummer 516 in Archieven</a></a2a:Value>
            </a2a:SourceRemark>
          </a2a:Source>
        </a2a:A2A>
      </metadata>
    </record>
  </GetRecord>
</OAI-PMH>


Ook op de website van Erfgoed Leiden wordt de straatnaam niet getoond:


Missende data

Is de straatnaam informatie verloren gegaan? Of wordt deze alleen niet gepresenteerd? Ik hoop natuurlijk op het laatste, dan is het een kwestie van presentatie aanpassen en de A2A mapping corrigeren. 

Wat betreft de datum van de registratie, deze wordt op de website van Erfgoed Leiden niet getoond. In het A2A record is er wel een EventDate aanwezig. Maar, laat dit nu steeds de geboortedatum van de persoon zijn... Ook hier weer de vraag: zijn de originele gegevens verloren of worden ze nu niet goed getoond?

Werk aan de winkel voor Erfgoed Leiden en hun leverancier.

zaterdag 8 april 2017

Open data wel en wee #1


Eén van de datasets die op Open Archieven wordt gepresenteerd is de VOC Opvarenden collectie, bij het Nationaal Archief bekend als Nadere Toegang 344 op archief 1.04.02. Toen de dataset in het voorjaar van 2014 werd verwerkt door Open Archieven, waren er nog geen koppelingen tussen de personen en de scans. Bij toeval kwam ik er deze week achter dat er op de GaHetNa website nu wel scans worden getoond!

De nadere toegang, inclusief de namen van de scans, was en is ook downloadbaar. Dat er nu een rijker data bestand beschikbaar was, is naar mijn weten nergens aangekondigd. Ik heb als hergebruiker van de dataset (dat is bekend bij het Nationaal Archief) ook geen persoonlijk bericht ontvangen.

Nergens op de GaHetNa website is er een overzicht van downloadbare indexen met daarbij een laatste wijzigingsdatum. Er is wel een overzicht van indexen die beschikbaar zijn als open data, helaas is er in dit document ook geen datum of versie nummer opgenomen. Niet dat de VOC Opvarenden voorkomt in dit document, dat staat in het overzicht van indexen die niet beschikbaar zijn als open data, ook hier weer geen datum/versienummer. De technische metadata van de PDF documenten geven overigens wel informatie over creatiedatum (19-01-2016) en auteur. Dat het VOC Opvarenden bestand geen open data is maar wel te downloaden is blijf ik vreemd vinden. Voor het presenteren van de data op Open Archieven heb ik overigens toestemming.

De nieuwe VOC Opvarenden dataset is volgens de bijgeleverde metadata gemaakt op 10 februari 2017. Waarschijnlijk een uitvloeisel van de VOC tentoonstelling die nu bij het Nationaal Archief is te bekijken. Wat direct opvalt is dat het bestand niet betrekking heeft op Nadere Toegang 344 is maar 444. Blijkbaar kunnen bestaande nadere toegangen niet aangepast worden en is er een nieuwe nadere toegang gemaakt. De nieuwe beschrijving mist overigens de introductie en melding dat er geen CC0 geldt, zoals wel bij de NT00344 was opgenomen.

Benieuwd naar de inhoudelijke data, heb ik een persoon waarvan ik weet dat deze voorkomt in VOC Opvarenden, opgezocht in het nieuwe (NT00444) en oude bestand (NT00344).

NT00444_OPVARENDEN.csv:"Erris Danglisoe","Erris","","","Danglisoe","Arbeek","Matroos","Sailor","Matrose","waak- en roergang; laden en lossen; reinigen, teren en kalfaten van het schip; af- en aanslaan van de zeilen; helpers van de onderofficieren. Ook wel bootsgezel.","(Dutch: matroos) watch and helmansman duties; loading and unloading; cleaning, taring and caulking the ship; hoisting and pulling in the sails; assisting the NCOs.","(niederländisch: matroos) vgl. Bootsgeselle (niederländisch: bootsgezel)","1761-04-19","1762-03-13","Azie","Asia","Asien","Overleden","Deceased","Gestorben","","","","Schagen","Nee","Ja","","","","","","","0","","","","","","","3076","","NL-HaNA/1.04.02/14471//108//","d110ccf0-c864-11e6-9d8b-00505693001d","NL-HaNA_1.04.02_14471_0122.jpg","http://hdl.handle.net/10648/9337d26a-7e22-5f35-8f58-65546ba8f995","1130647"

NT00344_opvarenden.csv:"1130647","Erris Danglisoe","Erris","","","Danglisoe","Arbeek","Matroos","Sailor","Matrose","waak- en roergang; laden en lossen; reinigen, teren en kalfaten van het schip; af- en aanslaan van de zeilen; helpers van de onderofficieren. Ook wel bootsgezel.","(Dutch: matroos) watch and helmansman duties; loading and unloading; cleaning, taring and caulking the ship; hoisting and pulling in the sails; assisting the NCOs.","(niederländisch: matroos) vgl. Bootsgeselle (niederländisch: bootsgezel)","1761-04-19","1762-03-13","Azie","Asia","Asien","Overleden","Deceased","Gestorben","","","","Schagen","Nee","Ja","","","","","","","","","","","","","","3076","0","NL-HaNA/1.04.02/14471//108//","bd85f0c8-b77c-4ce3-b4b7-d8b30843ce7d"

De verschillen in structuur van beide bestanden is met kleur aangegeven, één verplaatst veld (van begin naar eind) en 2 extra velden achteraan voor de informatie over de scan. Dat het nieuwe bestand verschilt van het oude bestand is overigens ook nergens gedocumenteerd.

Even tussendoor over de scans: via de consoles in de tentoonstellingsruimte van het Nationaal Archief kun je de VOC Opvarenden ook doorzoeken en volgens mij zag ik daar dat er meerdere scans waren gekoppeld aan een persoon, op GaHetNa en in dit bestand staat er maar één scan?

Maar waar ik meer van schrik is dat het "prs_id" veld (identificatie-nummer van de persoon) is gewijzigd. Waar het Internet adres van testsubject Eris Danglisoe voorheen dus http://www.gahetna.nl/collectie/index/nt00344/bd85f0c8-b77c-4ce3-b4b7-d8b30843ce7d was, is dit nu http://www.gahetna.nl/collectie/index/nt00444/d110ccf0-c864-11e6-9d8b-00505693001d. De oude URL levert een lege zoekpagina op, geen foutmelding en al helemaal geen doorverwijzing naar het nieuwe adres. Dit is erg jammer! Een ieder die dus links had gelegd naar personen binnen de VOC Opvarenden collectie op GaHetNa heeft nu dus een boel broken links, zowel particulieren als zoekmachines als Google en websites als Open Archieven!

Voor Open Archieven nu maar aan de slag om de scans weer te geven en om weer werkende links te krijgen naar GaHetNa ...

[update 9-4-2017] De VOC Opvarenden collectie op Open Archieven toont nu ook de scans en linkt naar de gewijzigde adressen op GaHetNa. Bekijk als voorbeeld de inschrijving van testsubject Erris Danglisoe (waarbij de Open Archieven URL's van de VOC Opvarenden pagina ongewijzigd zijn gebleven).