donderdag 25 september 2014

#opendata verrijken met #opendata

De gemeente Enschede heeft een eigen Open Data portal waar ze diverse open data sets ten toon en beschikbaar stellen. Naar aanleiding van een WOB verzoek mijnerzijds hebben zij ook datasets van het Stadsarchief Enschede toegevoegd. De historische gegevens van de Burgerlijke Stand van Lonneker en Enschede zijn nu ook beschikbaar voor hergebruik.

De dataset is opgedeeld in 6 delen:

  • Geboorteakten Enschede (1811-1910)
  • Geboorteakten Lonneker (1811-1910)
  • Huwelijksakten Enschede (1811-1935)
  • Huwelijksakten Lonneker (1811-1934)
  • Overlijdensakten Enschede (1811-1960)
  • Overlijdensakten Lonneker (1811-1934)

Het verwerken van de geboorte- en overlijdensakten – beschikbaar gesteld in HTML, JSON, XML, CSV, TSV, TAG, maar niet A2A – voor opname in Open Archieven ging redelijk voorspoedig.

De datasets bevatten helaas niet alle meta-data van de akten. Zo ontbreken het opmerkingen veld èn is er geen link naar een thumbnail of viewer van de scan van de akte. Met wat kunst- en vliegwerk kan er wel een link worden gelegd naar de akte op de website van het Stadsarchief Enschede (behalve bij de geboorteakten van Enschede lukt dit nog niet).

Ambigue data

Bij de huwelijksakten liep ik tegen een probleem aan. Men heeft er voor gekozen om de ouders van de bruid en bruidegom met de rol ‘Vader’ en ‘Moeder’ aan te duiden. Zie hieronder een voorbeeld van deze data:

image

Voor de presentatie en de slimme zoekfunctionaliteit op Open Archieven en ook voor de OAI-PMH data provider (waarmee alle open data voor harvesting beschikbaar is volgens A2A model) is het van belang te weten wie de ouders van wie zijn.

image
De uitdaging was dus om de juiste vader en moeder bij bruid en bruidegom te krijgen. Eén deel is makkelijk, daar de familienaam van de vader in deze tijd (1811-1935) werd doorgegeven aan het kind. Het probleem was hiermee gehalveerd, nu alleen nog de juiste moeders bij bruid en bruidegom krijgen!

Om dit te bereiken worden de geboorte- en overlijdensakten gebruikt. Deze akten bevatten immers ook relatiegegevens (kind-vader-moeder en overledene-vader-moeder). Door nu binnen deze geboorte- en overlijdensakten (fonetisch) te zoeken naar bruidegom+vader van de bruidegom+moeder 1 of moeder 2 en bruid+vader van de bruid+moeder 1 of moeder 2 valt de juiste combinatie te achterhalen. Overigens hoeven in veel gevallen niet alle combinaties getest te worden.

image

Het is geen perfecte oplossing. Immers bruid of bruidegom kan geboren zijn voor 1811 of na 1910, zijn overleden voor 1811 of na 1960, maar nog waarschijnlijker ze zijn geboren of overleden buiten Lonneker en Enschede, in al deze gevallen zullen er dus geen geboorte- of overlijdensakten gevonden worden voor het ‘afleiden van ouderschap’. Onderstaande tabel toont de resultaten van deze “verrijkingsaanpak”:

Huwelijksakten Ouderparen gevonden Ouderparen niet gevonden
Enschede 10.879 (61%) 7.042 (39%)
Lonneker 8.258 (77%) 2.502 (23%)
Totaal 19.137 (67%) 9.544 (33%)

Dat 2 op de 3 huwelijksakten “verrijkt” kon worden met behulp van (als open data beschikbaar gestelde) geboorte- en huwelijksakten is toch leuk!
 
image

Geen opmerkingen:

Een reactie plaatsen