In het artikel Op zoek naar overlijdensakten van Tweede Wereldoorlog slachtoffers beschreef ik hoe de WO2-thesaurus van het NIOD werd gebruikt om overlijdensakten op Open Archieven te zoeken. Het zoeken op plaatsnaam op Open Archieven is exact. Hierdoor worden een boel overlijdensakten niet gevonden omdat schrijfwijzen in de geïndexeerde data afwijken van de schrijfwijze in de thesaurus.
Zoekterm expansie
Het proces van zoeken naar overlijdensakten op Open Archieven is aangepast om meer zoekresultaten te krijgen. Naast het zoeken naar de exacte plaatnaam uit de thesaurus in de geïndexeerde data van de overlijdensakten, worden nu twee extra zoekacties uitgevoerd:
- zoeken met wildcards, dus bijv. naast Neuengamme wordt er ook gezocht op *Neuengamme*
- zoeken naar termen met een Levenshtein-Damerau-afstand van 1
Extra resultaten (voorbeeld 1)
Bij het kamp Theresienstadt staan de volgende plaatsnamen in de thesaurus:
- Ghetto Theresienstadt
- Getto Theresienstadt
- Theresienstadt
- Terezín
- Terezin (term zonder diacritisch teken door thesaurus beheerder toegevoegd aan thesaurus op basis van mijn feedback uit het overlijdensakten onderzoek)
De zoekterm expansie levert de volgende extra zoektermen (waarmee 8 extra overlijdensakten werden gevonden):
- Terezin (Tsjechoslowakije)
- Terezin (Litomerice)
- Terezin, Tsjechoslowakije
- Terezin (Tsjecho-Slowakije)
- Terezin ( Tsjecho-Slowakije)
Extra resultaten (voorbeeld 2)
Bij het kamp Sobibor staan de volgende plaatsnamen in de thesaurus:
- Sobibór
- Sobibor
De zoekterm expansie levert de volgende extra zoektermen (waarmee 158 extra overlijdensakten werden gevonden):
- Sobidor
- Kamp Sobibor
- Kamp Sobibor, Polen
- Sobibor (polen)
- Sobibor (Polen
- Sobibor, Polen
- Sobibor Polen
- Sobibor – Polen
- Sobibor Poken
- Sobibór (Polen)
- Sobibor,Polen
- Sobibor (P)
- Sobibor, Polen.
- Sobibor (Polen )
- Sobibor in Polen
- Sobibor (D)
- Sobibor Dld.
- Sobibor, Duitsland
Thesaurus als Super Search Tool
De “exact match” zoektocht leverde in totaal 26.040 (kandidaat) overlijdensakten in 56 kampen op. Met “zoekterm expansie” was het resultaat 31.560 (kandidaat) overlijdensakten in 92 kampen. Ruim 5 duizend extra (kandidaat) overlijdensakten. In de tweede filterslag (op basis van groot verschil in aktedatum en datumoverlijden) leverde dit 10.275 overlijdensakten uit de “exact match” set en 11.986 overlijdensakten uit de “zoekterm expansie” set. De extra zoektermen op basis van de thesaurus hebben dus ook extra waardevolle resultaten opgeleverd.
Rijst de vraag, zouden deze termen – in SKOS termen als altLabel – toegevoegd moeten worden aan de WO2-thesaurus van het NIOD? Als je een thesaurus ziet als middel om bronnen te koppelen of als “Super Search Tool” dan lijkt dit voor de hand te liggen. Maar hoe ver ga je in alternatieve schrijfwijzen? De toevoegen van Terezin aan Terezín lijkt nuttig, maar de landtoevoegingen in allerlei schrijfwijzen? Enige terughoudendheid lijkt op z’n plaats hier…
Ik denk dat een gebruiker van een thesaurus bij het gebruik hiervan bij zoeken/matchen ervan bewust moet zijn, dat de thesaurus een gecontroleerde lijst is en de doorzochte bron veelal niet is gebaseerd op gecontroleerde lijsten. Gebruik van fuzzy matching of zoekterm expansie onder deze omstandigheden is een vereiste.
Ha Bob,
Dank je wel voor al je werk en heldere uitleg. Ik ben hier uiteraard heel erg blij mee!
Je laatste vraag: of alle schrijfvariaties, opgenomen dienen te worden in de thesaurus kan ik niet eenduidig beantwoorden. Het is verrassend hoeveel manieren van spellen je in grote datasets tegen kunt komen. Je kunt nooit iedere variatie afvangen. Bij matching gebruiken we al allerlei algoritmes zoals de door jou beschreven Levenshtein. Ik probeer ook diacrieten af te vangen, alles naar kleine letters om te zetten enz.
De toevoeging van een land aan een overlijdensakte snap ik (hoewel Sobibor niet in Duitsland ligt!) wel en eigenlijk is de toevoeging dat iemand in Kamp Sobibor overleden is ook niet heel vreemd. Onze thesaurus impliceert al dat Sobibor een kamp is. Ik ben ook aan het overwegen om de namen van landen aan de thesaurus toe te voegen, want lang niet iedereen weet waar een bepaald kamp gelegen heeft. Waar ik naar zou willen streven is naar manier om deze geïmpliceerde kennis vanuit de thesaurus mee te nemen in het zoeken in bronnen. Helaas heb ik nog niet bedacht hoe dit uit te voeren…
Ha Bob,
Nog even een dingetje: ik heb even naar Kamp Erika/Ommen gekeken. Er zijn overlijdensaktes van mensen in de periode 1940-1945 in Ommen gevonden, maar ik kan geen bewijs vinden dat deze mensen in kamp Erika overleden zijn. Als vastgelegd is dat mensen in Sobibor, Teresin etc overleden zijn dan lijkt het mij aannemelijk dat zij in kampen overleden zijn, maar voor Nederlandse plaatsen (Ommen, maar ook Amersfoort) vraag ik mij af of je aanvullende criteria gebruikt hebt om te wegen of deze mensen per ongeluk in die plaats in die periode zijn overleden of ook echt als oorlogsslachtoffer aangemerkt kunnen worden?!
Voor het komen tot de lijst met overlijdensakten is het aanvullende criterium gebruikt: meer dan 2 maanden tussen aktedatum en overlijdensdatum. Als je in de lijst met overlijdensakten zoekt naar Amersfoort dan zijn er van de 11.016 hits op Amersfoort maar 639 door dit tweede filter gekomen. Voor Ommen zijn van 596 kandidaat akten maar 16 in de uiteindelijke lijst gekomen.