donderdag 25 september 2014

#opendata verrijken met #opendata

De gemeente Enschede heeft een eigen Open Data portal waar ze diverse open data sets ten toon en beschikbaar stellen. Naar aanleiding van een WOB verzoek mijnerzijds hebben zij ook datasets van het Stadsarchief Enschede toegevoegd. De historische gegevens van de Burgerlijke Stand van Lonneker en Enschede zijn nu ook beschikbaar voor hergebruik.

De dataset is opgedeeld in 6 delen:

  • Geboorteakten Enschede (1811-1910)
  • Geboorteakten Lonneker (1811-1910)
  • Huwelijksakten Enschede (1811-1935)
  • Huwelijksakten Lonneker (1811-1934)
  • Overlijdensakten Enschede (1811-1960)
  • Overlijdensakten Lonneker (1811-1934)

Het verwerken van de geboorte- en overlijdensakten – beschikbaar gesteld in HTML, JSON, XML, CSV, TSV, TAG, maar niet A2A – voor opname in Open Archieven ging redelijk voorspoedig.

De datasets bevatten helaas niet alle meta-data van de akten. Zo ontbreken het opmerkingen veld èn is er geen link naar een thumbnail of viewer van de scan van de akte. Met wat kunst- en vliegwerk kan er wel een link worden gelegd naar de akte op de website van het Stadsarchief Enschede (behalve bij de geboorteakten van Enschede lukt dit nog niet).

Ambigue data

Bij de huwelijksakten liep ik tegen een probleem aan. Men heeft er voor gekozen om de ouders van de bruid en bruidegom met de rol ‘Vader’ en ‘Moeder’ aan te duiden. Zie hieronder een voorbeeld van deze data:

image

Voor de presentatie en de slimme zoekfunctionaliteit op Open Archieven en ook voor de OAI-PMH data provider (waarmee alle open data voor harvesting beschikbaar is volgens A2A model) is het van belang te weten wie de ouders van wie zijn.

image
De uitdaging was dus om de juiste vader en moeder bij bruid en bruidegom te krijgen. Eén deel is makkelijk, daar de familienaam van de vader in deze tijd (1811-1935) werd doorgegeven aan het kind. Het probleem was hiermee gehalveerd, nu alleen nog de juiste moeders bij bruid en bruidegom krijgen!

Om dit te bereiken worden de geboorte- en overlijdensakten gebruikt. Deze akten bevatten immers ook relatiegegevens (kind-vader-moeder en overledene-vader-moeder). Door nu binnen deze geboorte- en overlijdensakten (fonetisch) te zoeken naar bruidegom+vader van de bruidegom+moeder 1 of moeder 2 en bruid+vader van de bruid+moeder 1 of moeder 2 valt de juiste combinatie te achterhalen. Overigens hoeven in veel gevallen niet alle combinaties getest te worden.

image

Het is geen perfecte oplossing. Immers bruid of bruidegom kan geboren zijn voor 1811 of na 1910, zijn overleden voor 1811 of na 1960, maar nog waarschijnlijker ze zijn geboren of overleden buiten Lonneker en Enschede, in al deze gevallen zullen er dus geen geboorte- of overlijdensakten gevonden worden voor het ‘afleiden van ouderschap’. Onderstaande tabel toont de resultaten van deze “verrijkingsaanpak”:

Huwelijksakten Ouderparen gevonden Ouderparen niet gevonden
Enschede 10.879 (61%) 7.042 (39%)
Lonneker 8.258 (77%) 2.502 (23%)
Totaal 19.137 (67%) 9.544 (33%)

Dat 2 op de 3 huwelijksakten “verrijkt” kon worden met behulp van (als open data beschikbaar gestelde) geboorte- en huwelijksakten is toch leuk!
 
image

dinsdag 23 september 2014

Kennisgevingen van verwijdering uit Google Zoeken, een eerste analyse

De uitspraak van het Europe Hof dat iedereen het recht heeft om vergeten te worden op Internet heeft Google en andere zoekmachines genoodzaakt om het mogelijk te maken voor inwoners van de Europese Unie om een verzoek in te dienen om bepaalde links met persoonlijke informatie te laten verwijderen.

De uitspraak vereist dat Google en andere zoekmachines afwegingen maken tussen het recht van een individu om vergeten te worden en het recht van het publiek op informatie.

Inmiddels zijn er voor websites van Coret Genealogie de eerste kennisgevingen binnengekomen, tijd voor een eerste analyse.

image

URL: http://www.genealogieonline.nl/genealogie-beernaert-corneillie/I21942.php

Op Genealogie Online staat de publicatie Genealogie Beernaert - Corneillie met daarin een pagina over Michiel Delanghe. De goede man is in 1713 overleden, dus ik denk niet dat hij degene is die het verzoek heeft ingediend. Het vreemde is dat er op deze pagina helemaal geen informatie staat over levende personen. Geldt het recht op vergeten te worden ook voor overleden personen?

URL: http://www.genealogieonline.nl/over-de-familienaam/knuijver

Op Genealogie Online staan pagina’s met verzamelde informatie over familienamen. Op de “Over de familienaam Knuijver” pagina komen een tweetal namen voor van levende personen, onderzoekers die de familienaam (onder)zoeken. Is puur het noemen van namen van onderzoekers al reden om te laten vergeten?

Of één van de twee onderzoekers het verzoek heeft ingediend weet ik niet. Google geeft alleen een algemene kennisgeving waar je zeer weinig uithaalt, alleen de uit de zoekresultaten verwijderde URL(‘s). De drempel om een verzoek tot verwijdering in te dienen is best hoog, zo moet er bijvoorbeeld een kopie identificatiebewijs worden aangeleverd. Als onderzoekers de gegevens weg willen hebben is het makkelijker om zelf de door hen zelf ingevoerde profielgegevens aan te passen op het Stamboom Forum! Dan had het verwijderingsverzoek voor http://www.stamboomforum.nl/wiezoektwie/zoeken.php?q=knuijver ook achterwege kunnen blijven.

URL: http://www.genealogieonline.nl/stamboom-van-rijn/I68353.php
URL: http://www.genealogieonline.nl/stamboom-van-rijn/I68636.php

De Genealogie Online publicatie Stamboom Van Rijn bevat pagina’s over Nicolaas Petrus Kerssens en Martha Maria van Berkel, beide overleden. Genealogie Online heeft ingebouwde privacy bescherming: als van personen niet kan worden bepaald (door te kijken naar beschikbare data van de persoon, zijn gezin en voorouders) dat hij of zij is overleden dan wordt aangenomen dat de personen leven en dus worden de gegevens niet gepubliceerd. Bij deze twee personen (een echtpaar) zat er in een notitieveld (=vrije tekst) informatie over nog levende personen (hun kinderen). Gegronde reden voor een verzoek vergeten te worden.

Maar, met zo’n verzoek aan zoekmachines verdwijnt de informatie niet! Het lijkt dat door het recht om vergeten te worden mensen zijn vergeten dat je bij de bron de informatie moet (laten) aanpassen of verwijderen. Is de bron weg of aangepast dan wordt de index van Google automatisch aangepast. In dit geval heb ik wel de auteur van de publicatie ingelicht die de notitie heeft verwijderd, maar dat is nu net weer geen automatisme.