zondag 8 maart 2015

Hoe het CBG gegevensverlies veroorzaakt

Tijdens het schrijven van het artikel Het gezwalk van WieWasWie werkte de “verbeterde GEDCOM export” niet. Een nieuwe poging vandaag geeft geen foutmelding maar een bestand dat gedownload wordt. Tijd om naar de “verbeterde GEDCOM export” te kijken!

Er is geen overzicht van aangebrachte verbeteringen in de GEDCOM export. Dus enerzijds zal ik de GEDCOM vergelijken met een GEDCOM zoals Tamura Jones deze in zijn review van 10-02-2013 heeft opgenomen in WieWasWie GEDCOM, anderzijds zal ik de GEDCOM tegen de GEDCOM specificatie houden.

Geen GEDCOM!

Wat allereerst opvalt is dat het “verbeterde GEDCOM bestand” nog steeds geen header bevat, dit is verplicht volgens de GEDCOM specificatie, en dus is het bestand geen geldig GEDCOM bestand. Een programma die dit bestand probeert in te lezen weet bijvoorbeeld niet welke versie GEDCOM dit is en welke character encoding wordt gebruikt. Dit vergroot dus de kans dat de import faalt.

Betere datums

Waar in het oude bestand datums in de vorm dd-mm-yyyy werden genoteerd wordt er nu het juiste GEDCOM formaat gebruikt.

Compleetheid bestand

Ik heb een kleine stamboom gemaakt waarbij ik alle velden heb ingevuld om te kijken of alle gegevens in het export bestand terecht komen. Het scheelt dat je in de stamboombouwfunctionaliteit van WieWasWie niet veel kan invullen, dus wat er ingaat komt er bijna ook allemaal weer uit, met één uitzondering: de afbeeldingen.

GEDCOM staat op zich toe dat er binaire objecten in worden opgenomen, dit is echter niet gangbaar. Wat wel gangbaar is, is dat het GEDCOM bestand referenties bevat naar de bestanden. De WieWasWie gebruiker heeft geen mogelijkheid om de foto’s te downloaden en er zijn dus geen referenties naar foto’s. Deze informatie gaat dus verloren.

What’s in a NAME?

Niet alle informatie van de naam komt helaas om de juiste plek. Zo wordt de naam Alida Helena (Alie) van Buuren als volgt “vertaald”:

1 NAME Alida Helena/Buuren/
2 NICK Alie
2 SPFX van


De waarde bij NAME is incorrect, deze dient compleet te zijn, het tussenvoegsel moet er dus ook in zitten. Het is nu sterk afhankelijk van de GEDCOM import van het programma waar de gegevens in worden gelezen.

Laten we eens kijken hoe bovenstaande persoon in het door WieWasWie aanbevolen StamboomNederland terecht komt:
image

Zoals ik al had verwacht komt het tussenvoegsel niet goed over in StamboomNederland, maar ook de roepnaam blijkt verloren te zijn gegaan. Je zou toch denken dat het CBG dit zou hebben getest, te meer daar zij, als eigenaar van StamboomNederland en exploitatiepartij van WieWasWie, de overstap van WieWasWie naar StamboomNederland promoten.

Bronvermeldingen

Een mogelijk sterk punt van de stamboombouwfunctionaliteit van WieWasWie was het feit dat bronnen gekoppeld worden aan personen in de stamboom. Ik zeg mogelijk, omdat de implementatie van deze functionaliteit op WieWasWie zich beperkte tot het koppelen van een document aan een persoon. Het koppelen van de geboorteakte aan de geboorte, of de huwelijksakte aan het huwelijk was niet mogelijk. Met interesse keek ik dus ook uit naar hoe de bronnen in het export bestand terecht zouden komen.

0 @I2@ INDI
1 NAME Catharina/Brizée/
1 SEX F
1 SOUR f2729761-670e-4e92-82d4-23932372dad3
1 SOUR
https://www.wiewaswie.nl/personen-zoeken/zoeken/document/srcid/1872790

Bovenstaand stukje is valide volgens de GEDCOM specificatie, tenminste als het hier daadwerkelijk om 2 bronvermeldingen gaat. Wat de eerste “SOUR” (=source/bron) is weet ik niet, één of ander intern technisch nummer waar ik niets mee kan.

De tweede “SOUR” linkt naar de meta-data van de overlijdensakte uit de Burgerlijke Stand op WieWasWie. Het opnemen van de URL is echt de meest minimale bronvermelding die je kunt bieden, waarbij deze ook niet echt toekomst vast is (het is geen persistente URL) en eigenlijk ook onjuist is. Immers, de originele bron van het overlijden is een BS Overlijden akte uit 1812 uit Amersfoort (SOUR) die zich bevindt bij Archief Eemland in Amersfoort (REPO). De digitale afbeelding hiervan is slechts een afgeleide, welke uiteraard wel bij de SOUR opgenomen kan worden (in FILE of NOTE).

Juist op het punt van bronvermeldingen had ik verwacht dat het Centraal Bureau van Genealogie het goede voorbeeld zou geven, wellicht aangevuld met de kennis en kunde van de deelnemende archieven in WieWasWie die ook graag bronvermeldingen zien. Helaas, weer te optimistisch gedacht.

Voor gebruikers die overstappen naar StamboomNederland is de minimale bronvermelding niet zo erg. Immers, StamboomNederland kan helemaal niet omgaan met bronnen uit GEDCOM bestanden. StamboomNederland neemt het GEDCOM en noemt dat de bron. Erg kwalijk!
image


Conclusie

Het bestand dat via de exportfunctie van de stamboombouwfunctionaliteit kan worden gedownload voldoet niet aan de GEDCOM specificatie (welke dan ook…) en mag dus geen GEDCOM bestand heten. Noem je het wel een GEDCOM bestand dan werk je moedwillig mee aan de onterecht negatieve beeldvorming van GEDCOM en bewijs je je gebruikers een slechte dienst.

In plaats van een handleiding hoe deze bestanden in StamboomNederland zijn te importeren zou het het CBG sieren om stamboomonderzoekers te waarschuwen voor mogelijk gegevensverlies door hun ondermaatse GEDCOM export (WieWasWie) en ondermaatse GEDCOM import (StamboomNederland).