In het artikel Op zoek naar overlijdensakten van Tweede Wereldoorlog slachtoffers beschreef ik hoe de WO2-thesaurus van het NIOD werd gebruikt om overlijdensakten op Open Archieven te zoeken. Het zoeken op plaatsnaam op Open Archieven is exact. Hierdoor worden een boel overlijdensakten niet gevonden omdat schrijfwijzen in de geïndexeerde data afwijken van de schrijfwijze in de thesaurus.

Zoekterm expansie

Het proces van zoeken naar overlijdensakten op Open Archieven is aangepast om meer zoekresultaten te krijgen. Naast het zoeken naar de exacte plaatnaam uit de thesaurus in de geïndexeerde data van de overlijdensakten, worden nu twee extra zoekacties uitgevoerd:

  • zoeken met wildcards, dus bijv. naast Neuengamme wordt er ook gezocht op *Neuengamme*
  • zoeken naar termen met een Levenshtein-Damerau-afstand van 1

Extra resultaten (voorbeeld 1)

Bij het kamp Theresienstadt staan de volgende plaatsnamen in de thesaurus:

  • Ghetto Theresienstadt
  • Getto Theresienstadt
  • Theresienstadt
  • Terezín
  • Terezin (term zonder diacritisch teken door thesaurus beheerder toegevoegd aan thesaurus op basis van mijn feedback uit het overlijdensakten onderzoek)

De zoekterm expansie levert de volgende extra zoektermen (waarmee 8 extra overlijdensakten werden gevonden):

Extra resultaten (voorbeeld 2)

Bij het kamp Sobibor staan de volgende plaatsnamen in de thesaurus:

De zoekterm expansie levert de volgende extra zoektermen (waarmee 158 extra overlijdensakten werden gevonden):

Thesaurus als Super Search Tool

De “exact match” zoektocht leverde in totaal 26.040 (kandidaat) overlijdensakten in 56 kampen op. Met “zoekterm expansie” was het resultaat 31.560 (kandidaat) overlijdensakten in 92 kampen. Ruim 5 duizend extra (kandidaat) overlijdensakten. In de tweede filterslag (op basis van groot verschil in aktedatum en datumoverlijden) leverde dit 10.275 overlijdensakten uit de “exact match” set en 11.986 overlijdensakten uit de “zoekterm expansie” set. De extra zoektermen op basis van de thesaurus hebben dus ook extra waardevolle resultaten opgeleverd.

Rijst de vraag, zouden deze termen – in SKOS termen als altLabel – toegevoegd moeten worden aan de WO2-thesaurus van het NIOD? Als je een thesaurus ziet als middel om bronnen te koppelen of als “Super Search Tool” dan lijkt dit voor de hand te liggen. Maar hoe ver ga je in alternatieve schrijfwijzen? De toevoegen van Terezin aan Terezín lijkt nuttig, maar de landtoevoegingen in allerlei schrijfwijzen? Enige terughoudendheid lijkt op z’n plaats hier…

Ik denk dat een gebruiker van een thesaurus bij het gebruik hiervan bij zoeken/matchen ervan bewust moet zijn, dat de thesaurus een gecontroleerde lijst is en de doorzochte bron veelal niet is gebaseerd op gecontroleerde lijsten. Gebruik van fuzzy matching of zoekterm expansie onder deze omstandigheden is een vereiste.