Erfgoedinstellingen complementeren de meta-data over objecten en collecties meer en meer met termen uit gemeenschappelijke termenlijsten. Voorbeelden hiervan zijn RKD Artists, de Gemeenschappelijke Thesaurus voor Audiovisuele Archieven (GTAA), de Erfgoedthesaurus, Iconclass en Geonames.

Bij het verwerken van de open data van Stadsarchief Rotterdam (een export vanuit MAIS-Flexis) liep Open Archieven aan tegen een nieuw data-element aan dat Open Archieven nog niet eerder verwerkte: thesaurusterm.

De bron waar Open Archieven dit data-element tegen kwam betrof arrestantenkaarten uit de periode 1940-1944 (Stadsarchief Rotterdam, archief 63 Archief van de Gemeentepolitie Rotterdam, inventarisnummer 3470). Deze nadere toegang is tot stand gekomen in samenwerking met de crowd en Netwerk Oorlogsbronnen. De laatste heeft hier onder andere de verrijking met thesaurustermen uit de WO2-thesaurus voor haar rekening genomen.

Martin Kapfer, Gearresteerd op: 13-11-1940

In deze blogpost wil ik kijken naar het resultaat van het termen koppelen en de presentatie van termen. Het is een weerslag van het gedachtenproces om te bepalen wat Open Archieven als hergebruiker met deze termen doet.


De records met meta-data over de arrestantenkaarten bevatten in 13 van de 139 gevallen (=9%) een veld ‘Thesaurusterm’ met daarin een URI als waarde. De URI’s verwijzen naar termen uit de – door het NIOD beheerde – WO2-thesaurus:

De WO2-thesaurus is een gevalideerde, hiërarchisch georganiseerde trefwoordenlijst voor de thematische ontsluiting van (digitale) bronnen uit en over de Tweede Wereldoorlog. De thesaurus bevat bijna 2300 termen over gebeurtenissen, plaatsen, begrippen en objecten.

Als je het XML bestand bekijkt, dan lijkt het er sterk op dat de matching heeft plaatsgevonden op waardes in het veld ‘In bewaring voor’. Dat de thesaurusterm op dit veld slaat, wordt overigens verder nergens gedocumenteerd (jammer, is een belangrijk stukje provenance informatie).

Andere velden die voorzien zouden kunnen worden van termen – uit de WO2-thesaurus of andere thesauri – omvatten de plaatsnamen (in velden ‘Geboorteplaats’, ‘Overlijdensplaats’, ‘Adres’ en ‘Getransporteerd naar’) en beroep (in veld ‘Beroep’). Daar is klaarblijkelijk niet voor gekozen, ben benieuwd naar de overwegingen in deze.

De XML laat wel zien, dat elke arrestantenkaart ook trefwoorden heeft: voor plaatsnaam en straatnaam (en de WO2-thesaurus term in tekstvorm). Deze trefwoorden zijn vermoedelijk geëxtraheerd uit specifieke velden, ze komen niet uit een gemeenschappelijk termenlijsten en hebben geen URI. Dit zijn strings, geen links. Voor het verbinden van data, over instellingen heen, is dit een drempel.

Wat opvalt bij het plaatsnaam trefwoord is dat hier een keuze gemaakt is: niet de geboorteplaats of plaats waarheen getransporteerd (waar af en toe een kampnaam voorkomt), maar (alleen) de woonplaats wordt als plaats trefwoord gezien. Ook hier ben ik benieuwd naar de overwegingen.

<record type=”Arrestantenkaart”>
    <recorditems>
      <item label=””>Rients Kamstra, Gearresteerd op: 16-05-1940</item>
      <item label=”beginjaar”>1940</item>
      <item label=”eindjaar”>1940</item>
      <item label=”GUID”>{B27A24E2-5242-4F38-9D35-21802CC9DF4C}</item>
      <item label=”Inventarisnummer”>3470</item>
      <item label=”Toegangsnummer”>63</item>
      <item label=”Voornaam”>Rients</item>
      <item label=”Achternaam”>Kamstra</item>
      <item label=”Geboortedatum”>24-9-1882</item>
      <item label=”Geboorteplaats”>Franeker</item>
      <item label=”Beroep”>koopman</item>
      <item label=”Nationaliteit”>Nederlandse</item>
      <item label=”Datum in bewaring”>16-05-1940</item>
      <item label=”In bewaring voor”>Duitse militairen</item>
      <item label=”Datum getransporteerd”>16-05-1940</item>
      <item label=”Getransporteerd naar”>Münster, Duitsland</item>
      <item label=”Reden in bewaring”>Spionnage</item>
      <item label=”Registratienummer”>1</item>
      <item label=”Thesaurusterm”>https://data.niod.nl/WO2_Thesaurus/1880</item>
      <item label=”Adres”>Rotterdam, Prinses Julianalaan 96</item>
      <trefwoord label=”Trefwoorden”>Militairen</trefwoord>
      <trefwoord label=”PLAATSNAAM”>Rotterdam</trefwoord>
      <trefwoord label=”STRAATNAAM”>Prinses Julianalaan</trefwoord>
      <bron label=””>https://stadsarchief.rotterdam.nl/zoek-en-ontdek/archieven/zoekrestultaat-archieven/?mivast=184&miadt=184&miaet=54&micode=63.3470&minr=45122298&miview=ldt</bron>
    </recorditems>
</record>

Wat bovenstaand stuk XML wel mooi laat zien is, dat de ingevoerde (of geïmporteerde) thesaurusterm URI ook in de export aanwezig is. Het ‘label’ van de thesaurusterm lijkt opgenomen als trefwoord (als string). De aanwezigheid van de thesaurusterm URI betekent dat hergebruikers deze waarde ook kunnen gebruiken als ze willen. Een keuze waar dus ook Open Archieven voor staat.

Hieronder staan de 13 voorkomens van ‘In bewaring voor’ in het bekeken XML bestand en de toegevoegde match in de vorm van URI en thesaurusterm:

‘In bewaring voor’ waardeAantal voorkomensThesaurusterm URITerm
1.Justitie Dienst I2https://data.niod.nl/WO2_Thesaurus/2601Justitie
2.Geheim Feld Politie3https://data.niod.nl/WO2_Thesaurus/2715Politie
3.Marine Havenabteilung6https://data.niod.nl/WO2_Thesaurus/3509Havens
4.Wehrmacht1https://data.niod.nl/WO2_Thesaurus/3585Wehrmacht
5.Duitse militairen1https://data.niod.nl/WO2_Thesaurus/1880Militairen

De matches zijn “zijn geautomatiseerde matches dmv linkstrategie met concepten uit de WO2-thesaurus“. Als je naar de 5 matches kijkt in bovenstaande tabel kijkt, dan lijkt alleen nummer 4 te gaan over exact hetzelfde begrip. Bij de 4 anderen is er een match, puur omdat de karakters waar de term (waarschijnlijk het prefLabel) uit is opgebouwd, voorkomen in het ‘In bewaring voor’ veld. Een substring match, als een proxy voor een semantische match? Bij nummers 2 en 5 zou je kunnen zeggen dat het een algemenere term is. Maar bij nummer 1 wordt een organisatorische eenheid gelijk gesteld met het concept justitie (als rechterlijke macht). En bij nummer 3 wordt een organisatorisch eenheid gekoppeld aan het concept havens.

Als je kijkt naar andere ‘In bewaring voor’ waarden dan zijn er 2 die wel nuttig gekoppeld hadden kunnen worden (maar: ik ben geen specialist op dit terrein), maar door de gebruikte strategie niet zijn gevonden:

Dit leidt bij mij tot vragen als:

  • is substring matching de juiste strategie om overeenkomsten te vinden van begrippen?
  • kan de matching niet beter plaatsvinden op een specifieke ‘tak’ uit de hiërarchische termenlijst die beter aansluit bij het veld waarop wordt gematched (in dit geval bijvoorbeeld corporaties)?
  • worden ook alternatieve labels betrokken in de matching?
  • kan het matchen van thesaurustermen wel volledig geautomatiseerd worden, oftewel is de kwaliteit en kwantiteit hoog genoeg?

We zien hier overigens een voorbeeld waar een erfgoedinstelling de eigen meta-data verrijkt met behulp van derden. Goed! Of dit nu een overheidsorganisatie is, de crowd of een ZZP-er die met data kan toveren, de erfgoedinstelling moet wel altijd alert blijven op de kwaliteit. Deels door zicht te hebben op het proces waarmee de verrijking tot stand is gekomen (bijvoorbeeld dubbele invoer bij crowdsourcing, informatie over wijze van matching, opschoning van data, gemaakte keuzes) en deels door steeksproefsgewijs de kwaliteit te controleren.

Voor Open Archieven heeft bovenstaande beschouwing geleid tot de beslissing om de thesaurustermen in deze bron nog even niet te gebruiken of te tonen.

In het algemeen gesproken kunnen thesaurustermen die zijn toegevoegd aan de objecten ook van waarde zijn voor eindgebruikers. Op de website van het Stadsarchief Rotterdam wordt nu echter alleen de URI van de thesaurusterm getoond:

Gebruikers die weten wat een ‘Thesaurusterm’ inhoudt (zal maar een klein deel zijn) en de link volgen, komen terecht in de WO2-thesaurus. Deze is opgezet met behulp van PoolParty. Een goede tool voor thesauri beheerders, maar niet echt gericht op eindgebruikers…

Bovenstaande afbeelding toont ook dat de trefwoorden op de website getoond worden. Wanneer er op het trefwoord geklikt wordt, dan wordt de gehele archiefcollectie doorzocht op objecten die ook zijn voorzien van het betreffende trefwoord. Een functie die, als het kwalitatieve trefwoorden zijn, zeker nut heeft.

Om nog even terug te komen bij de Thesaurusterm. Stel je eens voor dat de ‘In bewaring voor’ waarde (waar de thesaurusterm immers op slaat in dit record) wordt voorzien van een (i) symbool, die, wanneer je deze aanklikt, de beschrijving van de term (uit de thesaurus) toont:

Daar help je de eindgebruiker mee! Dan zet je de gebruiker centraal.

NB: bovenstaande presentatie gaat er wel vanuit dat er een definitie is van de term. Helaas hebben niet alle termen in de WO2-thesaurus een definitie of scopeNote. Van de 5 termen in bovenstaande tabel hebben er maar 2 een scopeNote.

Tenslotte, bovenstaande moet niet gelezen worden als kritiek op het gebruik van thesauri. Ik zie bovenstaande als een experiment dat het Stadsarchief Rotterdam heeft uitgevoerd waar lessen uit getrokken kunnen worden. Het gebruik van thesaurustermen en URI’s kunnen van grote waarde zijn voor eindgebruikers en om objecten en collecties te koppelen in het tijdperk van linked open data.