woensdag 23 oktober 2013

Uitdagingen bij geocoderen historische straten

Op Open Archieven wil ik graag een historische kaart tonen met plaats indicator als er in de akte een straatnaam voorkomt.

image

Proof of concept

Deel 1 van deze uitdaging is nu (in tweevoud) te zien als proof of concept. Deze PoC's tonen een onderstreepte straatnaam die linkt naar een historische kaart. Hiervoor moest ik allereerst een goede historische kaart vinden en deze georefereren zodat deze netjes op Google Maps kan worden geprojecteerd (dit vanwege de handige toolset die je dan als ontwikkelaar ter beschikking hebt). Voor zowel Leiden als Noordwijk heb ik dit nu voor elkaar.

Deel 2 is de volgende uitdaging is om de marker op de juiste plaats te plaatsen, in de PoC's was dit "hard gecodeerd".

Deze uitdaging valt uiteen in twee onderdelen:

  • het verkrijgen van de breedte- en lengtegraad van de historische straat (uitgangspunt: ik neem genoegen met het midden van de straat, dus één punt)
  • het herkennen van de (bekende) straatnamen in de akte

Geocoding

Voor het verkrijgen van de geo-info van alle historische kaarten zou ik voor Leiden en Noordwijk zelf kunnen gaan “prikken”. Dit is echter niet echt een schaalbare  oplossing. Als er straks informatie van andere archieven op Open Archieven worden gepresenteerd komt er een boel handwerk bij.

Qua oplossing denk ik aan een combinatie van automatisch geocoden (dus een adres aanbieden aan bijvoorbeeld de Google Maps API om zo de coördinaten te verkrijgen) gecombineerd met een crowdsourcing oplossing (dus de crowd hulp vragen om punten te zetten en te controleren).

Het automatisch geocoden zal maar een beperkte set adressen herkennen, deels omdat sommige straatnamen hernoemd zullen zijn en deels omdat er nogal wat schrijfwijzen voorkomen. Een voorbeeld, de huidige Clarensteeg in Leiden op de Google Maps:

image

Op de kaart van Leiden uit 1897 is het de Klaresteeg.

image

Maar als ik de alle plaatsaanduidingen in de Leidse gegevensset bekijken dan kom ik op de volgende schrijfwijzen:

  • Claaresteeg
  • Claaresteegh
  • Clarasteeg
  • Clareasteegh
  • Clarensteeg
  • Claresteeg
  • Claresteegh
  • Klaaresteeg
  • Klarasteeg
  • Klarensteeg
  • Klarestaag
  • Klaresteeg
  • Klarsteeg
  • Klasesteeg om de hoek van de Coddesteeg

Er zal naast het 'zetten van punten' dus ook een 'herken de verschillende schrijfwijzen' functie moeten komen.

Straatnaam herkenning

Dit brengt mij ook bij de volgende uitdaging: herkennen van de straatnamen. Want in de genealogische dataset (gebaseerd op het Archive 2 All model) is er een plaatsaanduiding (Place) die een plaatsnaam kan bevatten, een plaatsnaam en straatnaam, straatnaam en huisnummer, en nog wat combinaties. Enkele voorbeelden (waarin de Clarensteeg voorkomt):

  • Klaresteeg, wijk 6 no.1026, Leyden
  • Klaresteeg, wijk 6, no 1035
  • Leiden, Klaresteeg wijk 6 no. 1029
  • Klaresteeg, kanton 2, wijk 6, no 1030
  • Klaresteeg, wijk 6 no. 1014, Leyden
  • Leiden Clarensteeg
  • Leiden, Clarensteeg
  • Clarensteeg wijk 6 nr 1026
  • Clarensteeg
  • Clarensteeg wijk 6 nr 1114

(uitgangspunt: een straatnaam is uniek in een plaats, kanton/wijk informatie hoeft niet gebruikt te worden)

Het herkennen van een straatnaam in de plaats indicatie is vooral een kwestie van een efficiënte oplossing vinden die niet te veel tijd in beslag neemt. Want stel, de akte komt uit Leiden, er zijn zo'n 300 straatnamen bekend met nog eens 3000 bekende alternatieve schrijfwijzen, dan betekent dit dus 3300 tests... Er is altijd nog de mogelijkheid om deze tests uit te voeren bij het importeren van de gegevensset en niet pas bij het opvragen van de akte (en dat elke keer weer), maar toch.

De oplossing

Leuke uitdagingen. Wellicht dat Erfgoed & Locatie hierin wat kan betekenen. Maar ik hoor ook graag van andere ontwikkelaars, geo-kenners, archivarissen en historici over de juiste aanpak bij het geocoden van historische straten!

2 opmerkingen:

  1. Gerelateerd: Historische straatnamen Amsterdam door @mmmenno (ook hier veel handwerk, beter gestructureerde A'damse straatnamen, met API)

    BeantwoordenVerwijderen
  2. Gerelateerd: Lancering van interactieve website HISGIS Amsterdam (1832/1851) - Een stedelijke samenleving in kaart op huisniveau, via het oudste kadaster - woensdag 13 november 2013

    BeantwoordenVerwijderen