Blog Bob

Het gevecht met AI-bots

Bob Coret — Wed, 11 Mar 2026 21:46:15 +0000

Wie een website beheert die veel data bevat, merkt dat het internet de afgelopen jaren sterk veranderd is. Waar je vroeger moeite moest doen om zoekmachines naar je website te laten komen, moet je tegenwoordig juist moeite doen om sommige automatische systemen buiten de deur te houden. Vooral systemen die worden gebruikt voor kunstmatige intelligentie (AI) kunnen een enorme belasting vormen.

In dit artikel leg ik uit hoe dat werkt en welke maatregelen nodig zijn om websites zoals Open Archieven en Genealogie Online bereikbaar te houden voor gebruikers (zowel mensen als machines).

Van zoekmachines aantrekken naar bots afremmen

Vroeger probeerde je juist zoekmachines naar je website te lokken. Hoe beter je website werd geïndexeerd, hoe makkelijker mensen je konden vinden via bijvoorbeeld Google of Bing.

Daarvoor bestaat een mechanisme dat robots.txt heet. Dat is een klein tekstbestand op een website waarin staat welke delen van de site automatisch bezocht mogen worden door zoekmachines en welke niet. Ook kun je daarin verwijzen naar een sitemap: een overzicht van alle pagina’s op een website zodat zoekmachines ze efficiënt kunnen indexeren.

Zo verwijst het robots.txt bestand van Open Archieven naar een zeer groot aantal sitemaps (met daarbinnen weer 2.371 sitemaps) om meer dan 118 miljoen pagina’s te laten indexeren.

De bekende zoekmachines houden zich netjes aan deze afspraken. Hun zogenaamde spiders (programma’s die websites automatisch bezoeken) volgen de instructies uit robots.txt en maken duidelijk wie ze zijn via een zogenaamde User Agent. Dat is een stukje tekst zoals Googlebot/2.1; +http://www.google.com/bot.html) dat een programma meestuurt bij elk verzoek aan een website, zodat de server weet met welk programma hij communiceert.

Veel AI-bots doen dat helaas niet.

Wanneer bots feitelijk een DDoS veroorzaken

Wanneer bots in grote aantallen en met hoge snelheid pagina’s opvragen, kan dat dezelfde gevolgen hebben als een DDoS-aanval. DDoS staat voor Distributed Denial of Service: een situatie waarin een website zoveel verzoeken ontvangt dat hij voor normale bezoekers traag wordt of zelfs helemaal onbereikbaar raakt.

Het verschil is dat een klassieke DDoS-aanval meestal bewust bedoeld is om een website uit de lucht te halen, terwijl AI-bots vaak “alleen maar” data willen verzamelen. In de praktijk kan het effect echter hetzelfde zijn: servers raken overbelast door de enorme hoeveelheid verzoeken. Zeker wanneer honderden verzoeken per seconde binnenkomen vanaf meerdere adressen tegelijk, kan een website daar ernstig onder lijden.

Daarom is het noodzakelijk om het gedrag van bots actief te monitoren en in te grijpen wanneer de belasting te hoog wordt.

AI-bots die zich voordoen als gewone bezoekers

Steeds vaker zie ik automatische systemen die:

zich voordoen als een gewone webbrowser
de regels in robots.txt negeren
enorme aantallen pagina’s opvragen

Sommige van deze bots sturen honderden verzoeken per seconde naar een website, vaak afkomstig van verschillende internetadressen tegelijk. Zo proberen ze in korte tijd complete websites te kopiëren om de inhoud te gebruiken voor het trainen van AI-modellen.

Voor websites met veel data kan dat grote gevolgen hebben, tot en met niet meer bruikbaar worden. Het in de lucht houden van diensten zoals Open Archieven en Genealogie Online vraagt daardoor steeds meer inspanning. Daarom heb ik verschillende maatregelen genomen.

Bots en spiders herkennen

Voor bepaalde verzoeken die veel rekenkracht kosten, wordt eerst gekeken of het verzoek afkomstig is van een bekende bot of spider. Dat is niet altijd eenvoudig. Je kunt bots wel gedeeltelijk via robots.txt weren, maar niet elke bot houdt zich aan die regels. Daarom wordt ook gekeken naar andere kenmerken, zoals:

de User Agent
het gedrag van het programma
de snelheid waarmee pagina’s worden opgevraagd

Op basis daarvan kan een server bepalen of een verzoek waarschijnlijk van een mens of van een geautomatiseerd systeem komt. Van een bekende entiteit of onbekende speler. Zo staan de IP-adressen van de zich identificerende GoogleBot, GPTbot (OpenAi) en zelfs Meta’s externalagent op de lijst van toegestane spiders.

Zwaardere functies achter een login

Een tweede maatregel is het plaatsen van sommige functies achter een gebruikersaccount.

Voor een mens is registreren en inloggen meestal maar een kleine stap. Voor veel bots is dat een stuk lastiger. Daardoor blijven zware functies – bijvoorbeeld uitgebreide zoekopdrachten – beschikbaar voor echte gebruikers, terwijl automatische systemen er moeilijker bij kunnen.

Dit helpt om de website snel en stabiel te houden.

Het beperken van het aantal verzoeken

Open Archieven biedt ook een API aan. Dat is een programmeerinterface waarmee andere software automatisch gegevens kan opvragen. De API wordt onder andere door Open Archieven zelf gebruikt, maar ook door onderzoekers en ontwikkelaars. Helaas maken ook AI-agents en bots er soms intensief gebruik van.

Daarom geldt er een snelheidslimiet: per internetadres mogen maximaal vier verzoeken per seconde worden gedaan. Komt er sneller verkeer binnen, dan geeft de server de foutmelding 429 – Too Many Requests terug (dit betekent letterlijk: “je doet te veel verzoeken”).

Onderzoekers die legitiem meer capaciteit nodig hebben, kunnen dat aanvragen. Dan wordt bekeken of een hogere limiet mogelijk is. In veel gevallen kunnen onderzoekers ook geholpen worden met de open data die Open Archieven ook beschikbaar stelt.

Het blokkeren van IP-adressen

Een laatste maatregel is het blokkeren van bepaalde internetadressen. Elke computer op internet heeft een IP-adres: een uniek nummer waarmee het apparaat te bereiken is. Vaak worden bots niet vanaf één adres gestuurd, maar vanuit hele reeksen adressen van over heel de wereld.

Daarom worden voortdurend de serverlogboeken bekeken. Daarin staat onder andere:

hoeveel verzoeken per seconde een adres doet
uit welk netwerk het verkeer komt
welke User Agent wordt gebruikt

Wanneer een adres een bepaalde drempel overschrijdt, verschijnt het in een rapport. Daarbij wordt ook gekeken naar extra informatie, bijvoorbeeld via diensten zoals ipinfo.io of AbuseIPDB, die bijhouden of andere websites ook problemen hebben met hetzelfde adres.

Als blijkt dat een adres structureel misbruik maakt van de site, wordt niet alleen dat ene adres geblokkeerd, maar vaak meteen een hele reeks adressen. Dat gebeurt bijvoorbeeld door een netwerk zoals 104.248.112.0/20 op de firewall te blokkeren. Het analyseren van logboeken en het blokkeren van verdachte adressen gebeurt grotendeels automatisch.

EU dienstverlening

Sommige website rennen naar de dienstverlener Cloudflare om bescherming in te kopen.

Ik maak liever geen gebruik van Amerikaanse dienstverleners, ook ter bescherming van de privacy van mijn gebruikers. Een Europees alternatief is OVHcloud, maar ik heb geen behoefte aan hun dienstverlening door bovengenoemde maatregelen die ik zelf kon implementeren (en elke technische onderlegde organisatie zelf ook kan nemen).

Een nieuw evenwicht op het web

Het web is gebouwd om informatie toegankelijk te maken. Dat principe staat nog steeds overeind. Maar de opkomst van grootschalige AI-systemen zorgt ervoor dat websites steeds vaker moeten balanceren tussen openheid en bescherming.

Het doel blijft hetzelfde: informatie en diensten beschikbaar houden voor mensen. Alleen vraagt dat tegenwoordig meer technische maatregelen dan vroeger.

Werklijst “afhankelijkheid Amerikaanse dienstverleners afbouwen”

Bob Coret — Wed, 21 Jan 2026 10:09:47 +0000

Voor de dienstverlening van Coret Genealogie en aanverwante projecten is nu toch echt de tijd aangekomen om de afhankelijkheid van Amerikaanse dienstverleners in z’n gehaal af te bouwen en over te stappen op Europese alternatieven of self hosted oplossingen. Want die zijn er gewoon! Nu moet ik toegeven dat de uitgangspositie al redelijk niet-Amerikaans was, ook omdat ik niet in de cloudfuik ben getrapt en veel open source & self hosting (zoals WordPress) kan toepassen. Het is vooral een mindset waar je bij elk onderdeel bewust nadenkt over waar het vandaan komt en niet-Amerikaanse oplossingen de voorkeur geeft.

In deze posting wordt de stand van zaken bijgehouden, het is een proces. Het gaat nadrukkelijk niet om privé en werkgevers/opdrachtgevers, waar het gebruik van Google (Gmail, Photos, Documenten, Drive) en Microsoft (Windows, Office, Outlook, OneDrive) nog veel lastiger is af te bouwen vanwege gewoonte en gemak.

21 januari 2026

Diverse diensten van Coret Genealogie zijn meertalig. Om de vertaling van strings in de applicaties en mailberichten te verzorgen van NL/EN naar DE en FR werd de Google Translate API gebruikt. Dit is nu omgezet naar de Translate API van het Duitse Deepl.

20 januari 2026

Voor enkele taken wordt “AI” ingezet, denk hierbij aan het classificeren van afbeeldingen en het inkleuren van zwart/wit foto’s (beide op Genealogie Online). Voor beide taken werd er vanaf het begin van de inzet al self hosted modellen gebruikt. Voor de meertalige samenvattingen van transcripties van historische documenten (op Open Archieven) werd er gebruik gemaakt van het Amerikaanse Anthropic, specifiek het claude-sonnet-4-5 model (en het Amerikaanse OpenAI’s als backup, specifiek het gpt-3.5-turbo model). De overgestap naar het Franse Mistral AI, specifiek het mistral-medium-latest model, is nu geïmplementeerd.

Registratieformulieren werden beschermd met ReCaptcha van het Amerikaanse Google, in 2025 ben ik grotendeels overgestapt naar het Amerikaanse Cloudflare Turnstile. Dit is nu grotendeels vervangen door een self hosted ALTCHA oplossing.

18 januari 2026

Ik had nog een tweetal domeinnamen die ooit geregistreerd waren via Google Domains, wat Google in 2023 heeft overgedaan naar Squarespace, ook een Amerikaanse leverancier. De twee domeinnamen zijn nu verhuist naar de Nederlandse leverancier TransIP (onderdeel van het Belgische team.blue), waar ik de overige domeinnamen al sinds 2015 had ondergebracht.

Voor het monitoren van de websites werd er onder andere gebruik gemaakt van het Amerikaanse UptimeRobot. Ik ben nu geheel overgestapt naar het Franse updown.io. De CNAME van status.coret.org is ook gewijzigd, zodat je nu de openbare statuspagina van updown.io krijgt.

Voor DNS met ad-blocking op de ontwikkel- en privé infrastructuur werd er gebruik gemaakt van het Amerikaanse NextDNS. Ik ben nu overgestapt naar de “Protective resolution with Ad blocking” oplossing van het Tjechische DNS4EU project.

De mailserviceprovider is sinds 2013 Gmail. Het verzenden van mail (in 2025 zo’n 3,4 miljoen stuks) vindt plaats op een self hosted manier (inclusief SPF, DKIM, DMARC, bounces), maar ontvangen mail kwamen uit in Gmail. Ik ben nu overgestapt (of beter: aan het overstappen) naar het Belgische MailFence.com. Dit was de grootste stap waar ik lang tegenaan heb gehikt. Gewoonte en gemak. Gmail zal niet worden afgesloten omdat ik het @gmail.com adres in de loop van de jaren heb gebruikt (oa. inloggen via Google) voor een veelheid aan diensten in plaats van @coret.org adressen.

29 maart 2025

Voor webstatistieken werd tot 30 december 2022 gebruik gemaakt van het Amerikaanse Google Analytics. Sindsdien is er gebruik gemaakt van het open source AWStats, maar: deze oplossing schaalt niet en kan de vele miljoenen bezoeken die Open Archieven en Genealogie Online krijgen niet aan! Reden om gewoon af te stappen van webstatistieken (waar ik toch zeer weinig mee deed). Voor kleinere projecten als de Gouda Tijdmachine is er nu een self hosted versie van het, van oorsprong Britse, Matomo ingericht.

Reeds veel langer goed geregeld

Qua infrastructuur wordt gebruik gemaakt van dedicated servers en backup-faciliteit in Duitsland van Hetzner. De servers maken dan wel weer gebruik van processors van het Amerikaanse AMD, overige onderdelen onbekend. De servers draaien op de Linux distributie Debian (wat is ontstaan aan de Amerikaanse Purdue universiteit). Belangrijkste self hosted & open source software componenten op deze servers omvatten Apache, Redis, MariaDB, MongoDB, RabbitMQ, Grafana, Prometheus, Qlever, Solr en ElasticSearch.

Als payment provider wordt er gebruik gemaakt van het Nederlandse Mollie. Binnen deze oplossing zijn naast Europese betalingsmogelijkheden wel Amerikaanse betalingsmogelijkheden als PayPal ingeschakeld (en daar 4,2% van de omzet via PayPal loopt schakel ik deze mogelijkheid toch niet uit).

Voor objectstorage en (en zo nu en dan GPU servers) wordt er gebruik gemaakt van het Franse Scaleway.

Nog te doen

Voor enkele kleinere projecten – zoals de Gouda Tijdmachine – wordt er gebruik gemaakt van het Amerikaanse Vercel (dat gebruik maakt van het Amerikaanse AWS) – overwogen wordt over te stappen naar het Duitse IONOS Cloud.

Idem voor het Amerikaanse Github (van het Amerikaanse Microsoft) – overwogen wordt over te stappen naar het Duitse Codeberg.

Een virtuele bronnenzaal voor onderzoek (op basis van IIIF)

Bob Coret — Sun, 16 Jun 2024 17:14:11 +0000

Binnen de Gouda Tijdmachine loopt het project Wijdstraat. Met dit project willen de vrijwilligers van de Gouda Tijdmachine informatie vinden over de 13 (ooit 14) panden aan de oostzijde van de Wijdstraat in Gouda. Doel is om relevante (archief)bronnen te identificeren en van hieruit een reconstructie te maken van deze panden en hun eigenaren/bewoners door de tijd heen. Wat in dit project geleerd wordt kan hopelijk worden ‘opgeschaald’ naar heel historisch Gouda.

De (huidige) 13 panden aan de Wijdstraat (oostzijde) in Gouda, met perceelnummers, plaatselijke aanduidingen, verpondingsnummers en hedendaagse adressen.

De (archief)bronnen zijn heel belangrijk: alle (linked open) data binnen de Gouda Tijdmachine moet gebaseerd zijn op (archief)bronnen. De toegankelijkheid van de (archief)bronnen voor de vrijwilligers van de Gouda Tijdmachine om onderzoek te doen is dus van groot belang. Een deel van de bronnen is nog niet online beschikbaar; dit is dan ook de taak van één van de werkgroepen van de Gouda Tijdmachine om materiaal te fotograferen (met de mobiele telefoon + scantent) of te scannen (op apparatuur van het Streekarchief Midden-Holland)..

Een deel van de foto’s/scans (dat niet aan de kwaliteitseisen van het streekarchief voldoet) wordt opgeslagen in het collectiebeheersysteem van de Gouda Tijdmachine: Omeka S. Het streekarchief heeft zelf al een aanzienlijk deel van de voor dit project relevante bronnen gescand. Scans van aktes staan in (het DAM van) het collectiebeheersysteem van het streekarchief: Vitec Memorix. Kranten en adresboeken komen in de krantenviewer van het streekarchief: Vitec Periodiekenviewer. Foto’s (waaronder ook bouwvergunningen) staan in de beeldbank van het streekarchief: Vitec Beeldbank. NB: Vitec heette voorheen Picturae.

Voor wat betreft kranten gaat er binnenkort een vrijwilliger aan de slag om – binnen het crowdsourcingsplatform van de Gouda Tijdmachine: Vele Panden – digitaal krantenknipsels te knippen die relevant zijn voor de Wijdstraat in Gouda. Waar het bij de bronnen in de vorige paragraaf dus vooral gaat om scans/foto’s van de hele pagina, gaat het bij de krantenknipsels om uitsnedes van scans! Voor een belangrijk deel gaat het om de Goudsche Courant die via de krantenviewer van het streekarchief beschikbaar wordt gemaakt.

Krantenknipsels annoteren via Vele Panden

Maar wie historische kranten zegt, denkt natuurlijk gelijk ook aan Delpher. De krantenknipsel tool (die technisch gezien annotaties maakt op basis van het W3C Web Annotation Model van een uitsnede, inclusief tags voor type artikel en adres en de automatisch via Tesseract herkende tekst) is daarom geschikt gemaakt om artikels van kranten zowel Vitec Periodiekenviewer als Delpher te ‘knippen’.

Bronnen / bronsystemen

De tot nu toe verzamelde bronnen, veelal specifieke pagina’s/folio’s uit één of soms 2 bronnen, zijn gegroepeerd voor de onderzoeker op brontype:

Brontype	Bronsysteem	Bronorganisatie
Apparaat Matthijs	Omeka S	Gouda Tijdmachine
Oorsponkelijke Aanwijzende Tafels	Vitec Beeldbank	Rijksdienst voor het Cultureel Erfgoed
Volkstellingen	Vitec Memorix	Streekarchief Midden-Holland
Bevolkingsregisters	Vitec Memorix	Streekarchief Midden-Holland
Adresboeken	Vitec Periodiekenviewer	Streekarchief Midden-Holland
Adresboeken	Omeka S	Gouda Tijdmachine
Beeldbank	Vitec Beeldbank	Streekarchief Midden-Holland
Bouwvergunningen	Vitec Beeldbank	Streekarchief Midden-Holland
Verpondingen	Omeka S	Gouda Tijdmachine
Krantenknipsels	Vitec Periodiekenviewer	Streekarchief Midden-Holland
Krantenknipsels	Delpher.nl	KB, nationale bibliotheek

Samenbrengen van afbeeldingen

De manier om de foto’s en scans vanuit verschillende plekken samen te brengen, zonder afbeeldingen te kopiëren, is natuurlijk IIIF! IIIF is een internationaal raakwerk van standaarden die de interoperabiliteit van afbeeldingen bevordert..

In de IIIF Presentation API staan afspraken hoe je de (technische en inhoudelijke) metadata van afbeeldingen specificeert in een Manifest (in JSON-LD) en samenbrengt in collectie’s. Dus voor bijvoorbeeld de Adresboeken (specifiek die pagina’s over de Wijdstraat, over meerdere jaargangen heen) moest er een Manifest worden gemaakt. Eén van de onderdelen van het Manifest is de link naar de afbeelding – bij de bron. Hiervoor is de IIIF Image API die specificeert hoe je (delen) van een afbeelding kunt opvragen via een vastgestelde URL.

Bijna alle systemen in bovenstaande tabel bieden de afbeeldingen aan via een IIIF Image API! Bij Omeka S is dit redelijk beschreven, bij de producten van Vitec (voorheen Picturae) moet je het maar weten dat de afbeeldingen gewoon via een IIIF URL zijn op te vragen… hoera!

[voor de techneuten]

Via het netwerk tabje van de developer console van je favoriete browser zie je bij archiefwebsites op basis van Vitec (voorheen Picturae) de verzoeken langskomen naar de afbeeldingen, zoals bijvoorbeeld:

de bijbehorende IIIF Image API info.json adressen kun je eenvoudig hieruit afleiden:

[/voor de techneuten]

Voor het maken van de manifesten gebruikte ik de IIIF Manifest Editor van de Bodleian Libraries (Univerisity of Oxford). Niet echt de meest gebruikersvriendelijke tool voor leken, maar ik verwacht dat ontwikkelaars (van dienstverleners / IT leveranciers) hiervoor eenvoudigere tools gaan ontwikkelen.

Het verzamelen van alle IIIF Image URL’s was een heel karwei met veel handwerk. Ik zou er dan ook graag voor willen pleiten dat leveranciers een IIIF Manifest / info.json link gaan tonen bij hun Deel functionaliteit. Tevens zou ik leveranciers van stamboomprogramma’s willen oproepen om IIIF te ondersteunen.

Screenshot van de deelfunctionaliteit in de Vitec Periodiekenviewer. Dat Google+ in 2019 is opgehouden te bestaan en Twitter sinds 2023 liever als X aangesproken wil worden is Vitec zo te zien ontgaan. Hopelijk ligt de ontwikkeling van de periodiekenviewer niet stil en komen er IIIF links bij!

De oplettende lezer zal zich afvragen hoe de (uitsnedes van) kranten van Delpher via IIIF beschikbaar zijn gekomen. Ik weet dat de KB, nationale bibliotheek de implementatie van IIIF op het netvlies heeft staan. Maar sorry collega’s, ik ben ongeduldig (ik hoop dat deze use case bijdraagt aan de business case voor IIIF). Dus voor de krantenknipsels tool van de Gouda Tijdmachine heb ik specifiek voor Delpher een IIIF Image Server (op basis van Cantaloupe) ingericht die gedownloade hoge resolutie downloads van Delpher beschikbaar maakt via de IIIF Image API op de Gouda Tijdmachine. Op termijn kan hopelijk de IIIF infrastructuur van de KB hiervoor worden gebruikt.

Ondersteuning van onderzoeker

Het resultaat van dit IIIF klusje zijn meerdere IIIF Manifesten met materiaal over de Wijdstraat in Gouda die via een IIIF collectie zijn samengebracht: https://www.goudatijdmachine.nl/omeka/files/iiif/wijdstraat/collectie.json Dit online JSON-LD bestand kun je vervolgens bekijken in een open-source IIIF viewer als Universal Viewer, Mirador of Clover.

Voor de vrijwilligers van de Gouda Tijdmachine heb ik de Universal Viewer met link naar de collectie.json opgenomen op de projectpagina van de Wijdstraat, in de herkenbare look-and-feel en met de mogelijkheid om te wijzen op de ‘index’ en de ‘fullscreen’ opties.

De Virtuele bronnenzaal Wijdstraat in actie

Met deze “virtuele bronnenzaal Wijdstraat” kan ik – als vrijwilliger van de Gouda Tijdmachine – aan de slag met één van die andere klusjes: bepalen wat de adressen van die 13 (ooit 14) panden waren van begin 19de eeuw tot en met heden. Want helaas heeft de gemeente de verschillende hernummeringen nooit goed vastgelegd (of die bronnen zijn niet bewaard gebleven of nog niet gevonden), dus moeten we de plaatselijke aanduidingen en adressen – op basis van bronnen die we wél hebben – reconstrueren door de tijd heen. Deze IIIF toepassing maakt dat klusje weer iets eenvoudiger!

Open Archieven Transcripties

Bob Coret — Sun, 19 May 2024 20:26:05 +0000

Een pipeline en viewer voor een transcriptieportal

Nu er meer en meer archiefinstellingen aan de slag gaan met handschriftherkenning, de logische stap in het digitaliseringsproces, was het tijd voor Open Archieven om naast (historische) persoonsvermeldingen ook transcripties integraal doorzoekbaar te maken en te presenteren: een transcriptieportal, hoe moeilijk kan dat zijn?

De logische ingrediënten voor een transcriptieportal zijn transcripties, afbeeldingen en voor de bronvermeldingen/navigatie natuurlijk ook archiefbeschrijvingen. Alle drie de bronnen zijn in een toenemend aantal online te vinden. Tenminste als je goed zoekt, enige tijd reserveert voor de nodige transformaties én tenslotte geduld hebt om de nodige aanvullingen te verkrijgen. De pipeline die nu staat, maakt dat niet transcripties relatief snel toegevoegd kunnen worden aan Open Archieven.

Transcripties

De eerste grote bron van transcripties was project IJsberg, waar Regionale Historische Centra een (klein) deel van hun gescande notariële akten en het Nationaal Archief grote delen van de VOC archieven ingebracht hebben om via Transkribus voorzien te worden van transcripties met een lage Character Error Rate (dus redelijke hoge kwaliteit) te verkrijgen. Via de projectwebsite kunnen deze transcripties doorzocht worden. Onlangs heeft het Nationaal Archief deze dataset uitgebreid (versie 8.1) met transcripties die “in house” zijn gemaakt met het door het KNAW Humanities Cluster ontwikkelde Loghi. Er is ook een viewer ontwikkeld door het Nationaal Archief, deze is beschikbaar als open source (hierover later meer).

Twee andere grote bronnen van transcripties zijn in projecten van KNAW Huygens Instituut gerealiseerd: REPUBLIC en GLOBALISE. Beide projecten werken op materiaal dat het Nationaal Archief reeds heeft gescand; de Huygens projecten maken de transcripties met Loghi en passen ook technieken als Named Entity Recognition (NRE) toe om namen, data en plaatsen te herkennen in de transcripties. Beide projecten hebben een eigen projectwebsite en elke eigen viewer ontwikkeld om de transcripties en NER te tonen.

Enthousiast gemaakt door de goede HTR resultaten zijn er diverse archieven die gebruik maken van Transkribus om de tekst in handgeschreven documenten te lezen en deze transcripties ook in de Transkribus omgeving te tonen (want uitdaging voor menig archief: hoe krijg ik al dit materiaal in mijn archiefbeheersysteem en kan ik het in mijn eigen omgeving tonen?).

Hieronder een overzicht van de bronnen die de ingest pipeline van Open Archieven in gaan:

Tabel 1: Transcripties en archiefbewaarplaatsen per bron

Het leek voor de pipeline handig om te werken met de ISIL-codes van de archiefbewaarplaatsen (=de “leveranciers van de scans”), te meer omdat deze in veel projecten worden gebruikt in de naamgeving van de scans en/of transcripties. Tot je dan weer een Kronieken uit de Nederlanden initiatief van de Universiteit Leiden en de Vrije Universiteit bij Transkribus tegenkomt. Dit samenwerkingsverband heeft geen ISIL. Maar nog lastiger, de bronnen komen vanuit een groot aantal archiefbewaarplaatsen in Nederland en België (later meer hierover).

Het is goed te zien dat meer en meer initiatieven open data bieden (op verzoek en zelfs pro-actief), ook qua transcripties! Zo heeft project IJsberg datadumps op Zenodo geplaats (link) en GLOBALISE biedt haar datadumps aan via Dataverse (link). GLOBALISE heeft hiervan ook een nette datasetbeschrijving gemaakt die is aangemeld bij het Datasetregister!

Voor het wat oudere REPUBLIC moesten de transcripties “geharvest” worden via de API van het project. Hopelijk binnenkort ook op Zenodo of Dataverse (te meer daar er een een nog grotere hoeveelheid transcripties is aangekondigd).

Transkribus is een platform voor HTR die ook een “voorkant” biedt én een API. Deze (ongedocumenteerde) Search & Read API geeft de Transkribus webapplicatie en dus alle hergebruikers open toegang tot de transcripties van een collectie (de identifiers van deze collecties kun je uit de netwerk requests van de “voorkant” halen of navragen bij de collectie beheerder). Via de API kunnen deze transcripties dus zeer eenvoudig geharvest worden (en omdat de “Transkribus archieven” nog steeds scans toevoegen wordt deze bron dikwijls gecontroleerd op nieuwe transcripties).

Maar, de transcripties komen wel in verschillende vormen! In PageXML en/of platte tekst. De voorkeur gaat uit naar PageXML omdat deze bestanden de locatie van woorden/zinnen op de scan bevat, iets wat natuurlijk van belang is in de viewer van een transcriptieportal. Zoals in de 2e kolom van tabel 1 valt af te lezen is een gedeelte van de transcripties in PageXML beschikbaar, dus kan in een “scans naast transcriptie” viewer worden getoond, van de rest kunnen de transcripties alleen “los” van de scan getoond worden.

Figuur 1: Scans – transcriptie Gemeentearchief Schiedam, archieftoegang 269, Archief van notaris Josua Willem Hoekwater, 1781-1816, inventarisnummer 995, 1788 januari 5-december 31

Afbeeldingen

In een transcriptieportal wil je afbeeldingen tonen, een thumbnail in de zoekresultaten en de mogelijkheid om de scan in “al haar glorie” te bekijken. Ook bij de afbeeldingen dient er weer rekening gehouden te worden met diverse “aanvliegroutes”: IIIF of niet.

Figuur 2: (Deel van de) zoekresultaten met documenten die “zilver” bevatten

IIIF is een framework met diverse standaarden omtrent afbeeldingen, waar twee belangrijke de IIIF Image API en de IIIF Presentation API zijn. De Image API standaardiseert de wijze waarop je (een deel van) een afbeelding aan een IIIF resource aan de provider kunt vragen. Een reeks producten kan afbeeldingen volgens de IIIF Image API bieden. De grote spelers in deze context – het Nationaal Archief en Transkribus – bieden alle afbeeldingen via IIIF aan. Deze standaard maakt het voor dienstverleners als Open Archieven een stuk makkelijker om de scans (vanuit de bron!) te tonen in een viewer.

IIIF is dan ook een must / no-brainer bij de ontwikkeling van een viewer. De transcripties vormen een laag met annotaties die (simpel gezegd) gekoppeld wordt aan de scan en je beide in één keer kunt bekijken (zie figuur 1). Open Archieven maakt dankbaar gebruik van de binnen project IJsberg ontwikkelde viewer, waarbij de look-and-feel meer in Open Archieven stijl is veranderd.

De benodigde koppeling tussen scan en transcripties is helaas nog niet zo eenvoudig. Deze data wordt nog niet gezien als iets dat je als dataset of via een API beschikbaar kan/moet stellen aan de wereld. De GLOBALISE PageXML deed het hier goed, deze bevatte per transcriptie een deel van de koppeling met de scan, het andere deel kon uit de EAD’s van het Nationaal Archief worden gehaald (bedankt Leon voor dit inzicht!).

Voor de andere Nationaal Archief bronnen, zoals project IJsberg, ontbrak de koppeling. De transcripties zijn systematisch van een naam voorzien, zoals NL-HaNA_1.05.11.14_582_0214 (= ISIL _ archieftoegang _ inventarisnummer _ volgnummer). Dit voorbeeld heeft betrekking op een scan waarvan de IIIF info.json de volgende URL heeft:
https://service.archief.nl/iip/fb/ac/02/db/5f/39/43/5a/b7/bf/0e/b5/41/86/7c/1c/c5f7fb4a-0ff2-45d4-a966-3126470c0aca.jp2/info.json

Een vraag aan het Nationaal Archief (d.d. 26 maart 2024) hoe ik grote aantallen (1M+) scannamen kan omzetten in het juiste IIIF info.json adres is nog onbeantwoord. Op dit moment “peuter” ik deze informatie uit de website, wat met ongeveer 100.000 per dag, enig geduld vereist (op moment van schrijven staan er nog zo’n 350.000 in de queue om losgepeuterd te worden).

Transkribus geeft via de API de juiste informatie om de transcriptie aan de scan te koppelen en biedt de scans aan via IIIF!

Maar de afbeeldingen worden op meer manier door archiefinstellingen getoond aan het publiek: via archieven.nl en de Memorix beeldbank. Om met de laatste te beginnen: de Memorix beeldbank ondersteunt al lange tijd – stilzwijgend – de IIIF Image API. Memorix-gebruikers bieden de transcripties alleen in tekstvorm aan, dus de Open Archieven viewer kan alleen de scan “inzoombaar” tonen, zonder transcriptie. Archieven.nl biedt afbeeldingen nog niet via de IIIF Image API aan. Via een custom harvester worden de URL’s van de thumbnails (en links naar viewer) bemachtigd, zodat deze in de zoekresultaten op Open Archieven getoond kunnen worden. Voor de afbeeldingen die via archieven.nl worden ontsloten kan er (door ontbreken IIIF Image API ondersteuning) dus alleen een link worden geboden op Open Archieven naar de custom viewer op archieven.nl (zonder transcripties).

Tabel 2: Thumbnails, afbeeldingen en viewer per bron / archiefbewaarplaats

Archiefbeschrijvingen

Op Open Archieven wordt alle informatie voorzien van een “rijke” archiefbeschrijving. Zo wordt er een logo van de archiefbewaarplaats getoond, een beschrijving van de archieftoegang en het inventaris, waar mogelijk voorzien van links naar archieftoegang en inventaris op de bronwebsite.

Archiefbeschrijvingen worden gepubliceerd in het EAD (XML) formaat, althans door sommige archiefinstellingen, zoals het Nationaal Archief en archieven die gebruik maken van Memorix. Dit maakt het vergaren van informatie voor de bronvermelding redelijk eenvoudig.

Een enkele archieven.nl gebruiker heeft mij op verzoek via e-mail een EAD bestand toegestuurd, daar deze nog niet als “open” gemarkeerd was en dus ook niet op opendata.archieven.nl beschikbaar was. Andere archieven.nl gebruikers reageerde dat zij geen EAD konden aanleveren?! Voor deze archiefinstellingen, alsook instellingen die nog een ander archiefbeheersysteem gebruiken, is de tekst van de beschrijving per inventaris per archieftoegang (deels handmatig) “gescraped”. Een deel van deze gescrapte beschrijvingen mist de URL naar de beschrijving bij de bron. Voor het transcriptieportal betekent dat niet alle inventarissen van een link naar de bron konden worden voorzien.

Tabel 3: archiefbeschrijvingen per bron

Voor de eerdere genoemde Kronieken uit de Nederlanden waren er bronvermeldingen op Transkribus, sommige met link naar de bron opgenomen op Transkribus. Helaas in vrij tekst vorm, dus niet machineleesbaar. En dat is lastig, daar in deze “virtuele collectie” bronnen voorkomen van Athenaeum Bibliotheek Deventer, Collectie Overijssel, DBNL.org, Fryske Akademie, GA Zaanstad, Gelders Archief, Gemeentearchief Schouwen-Duiveland, Gemeentearchief van ’s-Gravenhage, Historisch Centrum Limburg, Huijgens Instituut, KB Brussel, KB Den Haag, Noord-Hollands Archief, Privébezit, Regionaal Archief Alkmaar, Rijksarchief Hasselt, Rijksarchief te Kortrijk, Stadsarchief Amsterdam, Stadsarchief Antwerpen, Stadsarchief Breda, Stadsarchief Brugge, Stadsarchief Brussel, Stadsarchief Dordrecht, Stadsarchief Gent, Stadsarchief Kampen, Stadsarchief Leuven, Stadsarchief Mechelen, Stadsarchief Rotterdam, Streekarchief Voorne-Putten Rozenburg, Tresoar, Twentse Taalbank, UB Gent, UB Tilburg, Ugent, Universiteit Leiden en Westfries Archief. Voor de navigatie door bronnen op Open Archieven (dus archiefbewaarplaatsen, archieftoegangen en inventarissen), gooien de ‘kronieken” wat roet door het gestructureerde eten.

Figuur 3: Lijst bronnen van getranscribeerde documenten

Conclusie

Meer en meer data en afbeeldingen worden op een machineleesbare wijze gepubliceerd voor hergebruik. Open Archieven kan hiermee voor haar doelgroep – met name stamboomonderzoekers – weer een mooie functionaliteit bieden: het integraal doorzoeken van (op dit moment) 8,8 miljoen getranscribeerde documenten en deze op een aantrekkelijke wijze presenteren. De onderliggende pipeline is klaar voor de groei van door HTR gemaakte transcripties.

Wat mij bij transcripties altijd tegenvalt is dat ik ze vaak niet begrijp. De juridische taal, het oud-Hollands en de HTR-foutjes maken het begrijpen van documenten uit de 16de – 18de eeuw best lastig. Als experiment kunnen Open Archieven abonnees de hulp inroepen van kunstmatige intelligentie! Taalmodellen (LLM) lijken goed in staat om begrijpelijke samenvattingen te maken van de transcripties in hedendaags Nederlands (en Engels, Duits en Frans, want Open Archieven wordt in 4 talen aangeboden). Op deze wijze helpt de computer ons niet alleen via HTR met het lezen van de transcriptie maar met het beter begrijpen! Zie ook de aankondiging van deze nieuwe functionaliteit in de Open Archieven Nieuwsbrief 2024-05.

Figuur 4: samenvatting van de in figuur 1 getoonde Schiedamse notariële akte

Spelen met ChatGPT vanuit SPARQL (GraphDB)

Bob Coret — Thu, 27 Jul 2023 16:45:56 +0000

De nieuwste versie van triplestore GraphDB (10.3) heeft nu ook een integratie met ChatGPT. Na installatie van deze nieuwe versie, met een (betaalde) API key van OpenAI en de documentatie kon ik snel aan de slag om te kijken wat “harnass the power of ChatGTP” betekent. NB: Bijna alle tests hebben betrekking op de Gouda Tijdmachine Knowledge Graph.

SPARQL query uitleg

Wanneer je een SPARQL query uitvoert in GraphDB door op de Run knop én de Alt toets te drukken, dan zal in de resultaten een _gpt kolom verschijnen met de uitleg van de query:

ChatGTP inzetten voor reconcilitatie?

Naar aanleiding van een gesprek eerder op de dag, in hoeverre AI erfgoedinstellingen kan helpen bij het reconciliëren van termen (dus termen zoals plaatsnamen, kunstenaars, schrijvers, ed. koppelen aan URI’s in terminologiebronnen) een test waarop ik al wist dat het antwoord niet goed zou zijn (maar toont wel een manier aan waarop je ChatGPT aangesproken kan worden in GraphDB’s SPARQL):

Maak iets van mijn data (1)

De SPARQL functie DESCRIBE geeft alle triples van een bepaald subject, in dit voorbeeld van een pen en perceeltekening getiteld “Gezicht op de Gouwe”. In dit voorbeeld geef ik de instructie via een tweetal “commentaar-commando’s” om een kort gedicht te maken over het werk (mijn verzoek is in het Nederlands, dus is het antwoord ook in het Nederlands).

Stel vragen aan mijn data in natuurlijke taal, sort-of

Je kan ook via helper functies triples verzamelen (in dit geval de sem:hasEarliestBeginTimeStamp waarden van de Goudse straten) om daar dan een een vraag over te stellen. Helaas, de verzamelde triples waren te veel “tokens” voor het gebruikte model. (een LIMIT 20 in de query had enige uitkomst geboden, maar toont nog wel de zwakte, liever had je, in plaats dat je alle RDF-kennis in je ChatGTP query moet stoppen, dat de vraag werd omgeschreven in SPARQL)

Data van ChatGTP in tabel vorm

Je kunt ook een vraag stellen aan ChatGPT waarbij de antwoorden in “tabel vorm” beschikbaar komen binnen je SPARQL query. In dit voorbeeld wordt er niets met het resultaat gedaan, alleen getoond. En de kenners zullen glimlachen van het antwoord (lees: hallucinaties).

Maak iets van mijn data (2)

OK, mijn bijdrage om archieven populairder te krijgen bij de jeugd (of: hoe krijg je archivarissen op de kast 😉

Conclusie

Het speelkwartier is weer voorbij. Nuttige toepassingen heb ik nog niet zo 1,2,3 gevonden voor deze integratie, het is meer in de categorie “leuk” zoals we van een Large Language Model mogen verwachten.

Ik denk dat ik had gehoopt dat ik een vraag in natuurlijke taal kon stellen die dan op basis van de Gouda Tijdmachine Ontologie werd omgeschreven in SPARQL en uitgevoerd en resulteert in een antwoord in natuurlijke taal zou opleveren. Benieuwd wat de vorderingen van Kadaster & Friends zijn naar aanleiding van hun publieksprijswinnende Hackalod 2022 project…

IIIF stroomlijnt crowdsourcingsprojecten

Bob Coret — Wed, 12 Jul 2023 15:41:55 +0000

Bij het door de crowd laten indexeren van archiefbronnen, geo-positioneren van afbeeldingen of het geo-refereren van kaartmateriaal wordt er veelal binnen een crowdsource platform een project ingericht. Hiervoor is enerzijds informatie nodig over de bron(nen), zoals naam, plaats, jaartal/periode en toegangsnummer/inventarisnummer(s). Anderzijds moeten de scans vanuit de bron geselecteerd worden en gekopieerd naar het crowdsource platform. Veel werk, waar ook een prijskaartje aan hangt. Kan dit niet efficiënter? Was het digitaal efgoed mantra niet “data bij de bron”?

Als we het hebben over metadata van beeldmateriaal en het presenteren van beeldmateriaal, dan hebben we het over IIIF.

IIIF, een afkorting van de International Image Interoperability Framework, is een verzameling standaarden die zijn ontworpen om afbeeldingen en andere visuele materialen gemakkelijker toegankelijk te maken op het internet. Deze standaarden zijn vooral nuttig voor bibliotheken, musea en andere instellingen die grote collecties digitale afbeeldingen beheren. Ze helpen bij het samenstellen, delen en inzoomen op hoge-resolutie afbeeldingen, en het aanmaken van annotaties.

Eén deel van IIIF is gericht op de interactie met de afbeeldingen zelf (IIIF Image API). Deze functionaliteit stelt gebruikers in staat om afbeeldingen op verschillende manieren te bekijken. Je kunt bijvoorbeeld inzoomen op een klein deel van een hoge-resolutie afbeelding zonder de hele afbeelding te moeten laden, wat nuttig kan zijn als je bijvoorbeeld een gedetailleerd kunstwerk of historisch document bekijkt. Je kunt ook afbeeldingen draaien, de kleur aanpassen, of een specifiek deel van een afbeelding selecteren.

Het andere deel van IIIF gaat over hoe deze afbeeldingen worden gepresenteerd (IIIF Presentation API), dit wordt vastgelegd in een manifest. Dit geeft onder andere een beschrijving van een collectie van afbeeldingen, de organisatie hiervan qua volgorde en een indicatie waar de afbeeldingen te vinden zijn. Het kan ook gaan om het combineren van afbeeldingen met andere soorten media, zoals tekst, audio of video, om een complexer verhaal of uitleg te creëren.

Stel, je wilt een crowdsourcingsplatform opzetten specifiek voor één type archiefbron: doodsbriefjes (overlijdensverklaringen waarop ook de doodsoorzaak staat vermeld). Als een archiefinstelling deze doodsoorzaakbronnen heeft gescand en als ‘registers met scans’ beschikbaar heeft gesteld dan kan de beschrijving (=metadata) uit het IIIF Manifest worden gehaald. In dit manifest staan ook de links naar de afbeeldingen, natuurlijk via een IIIF Image server. Doordat de archiefinstelling deze informatie over het beeldmateriaal op een standaard wijze toegankelijk maakt, kan het crowdsourcingsplatform deze doodsoorzaakbronnen zo als projecten aanbieden, waarbij de scans dus ‘geserveerd’ worden door de archiefinstelling, vanuit de bron (lees: het crowdsourcingsplatform heeft geen grote hoeveelheden storage nodig voor opslag van beeldmateriaal)!

En dan nu de praktijk. Bij welke systemen van archiefinstellingen die gescande doodsoorzakenbronnen hebben kan er een IIIF Manifest opgevraagd worden? Op dit moment komt Picturae’s Memorix als enige dicht in de buurt. Dit systeem biedt diverse API’s om data te ontsluiten. Helaas heb ik nog geen API documentatie gevonden, maar doordat de website van archiefinstellingen van Picturae klanten de API’s gebruiken, valt er snel te achterhalen welke API bevraagd moet worden om bijvoorbeeld informatie te krijgen over een register met scans. Dit komt in de buurt komt van een IIIF Manifest.

PS: onlangs is er in een Pica Verbonden Erfgoed project voor de beeldbank van de Atheneum Collecties door Picturae een mogelijk ingebouwd om een IIIF Manifest op te vragen, klik bijv. op het IIIF ikoontje in de linker balk bij de Hieronymusbrieven.

Zo levert een aanroep naar https://webservices.picturae.com/genealogy/register/d0e05ef2-bd60-86a9-0284-1ef349bed01d?apiKey=b80c5aec-ef5e-11e5-9ce9-5e5517507c66 (van het West-Brabants Archief) onder andere de volgende machine leesbare informatie (JSON):

register: [
  {
	id: "d0e05ef2-bd60-86a9-0284-1ef349bed01d",
	tenant: "wba",
	....
	metadata: {
		modified_time: "2022-11-23T11:06:38.566707",
		type_title: "overlijdensoorzaken",
		naam: "Gemeentebestuur Klundert 1811-1940 3096. (Medische) Verklaringen van overlijden, 1911.",
		archiefnummer: "raw - 0451",
		inventarisnummer: "3096",
		brontype: "origineel",
		gemeente: "Klundert",
		periode: [ 1911 ],
		has_assets: "register"
	},
	....
  }
]

En daarna kan Memorix bevraagd worden naar de scans binnen dit register, de zog. assets, via bijvoorbeeld het request https://webservices.picturae.com/genealogy/asset?apiKey=b80c5aec-ef5e-11e5-9ce9-5e5517507c66&page=1&q=register_id:%22d0e05ef2-bd60-86a9-0284-1ef349bed01d%22

asset: [
  {
	id: "9fa41342-159c-53f2-80e3-00376050b5c1",
	file_id: "6eb5a89b-b76c-5039-3999-aabfd7a0c7c9",
	....
	title: "RAW04513096_00000",
	metadata: {
		....
	},
	thumb.small: "https://images.memorix.nl/wba/thumb/100x100/6eb5a89b-b76c-5039-3999-aabfd7a0c7c9.jpg",
	thumb.medium: "https://images.memorix.nl/wba/thumb/250x250/6eb5a89b-b76c-5039-3999-aabfd7a0c7c9.jpg",
	thumb.large: "https://images.memorix.nl/wba/thumb/640x480/6eb5a89b-b76c-5039-3999-aabfd7a0c7c9.jpg",
	topview: "https://images.memorix.nl/wba/topviewjson/memorix/6eb5a89b-b76c-5039-3999-aabfd7a0c7c9",
	download: "https://images.memorix.nl/wba/download/large/6eb5a89b-b76c-5039-3999-aabfd7a0c7c9.jpg",
	deepzoom: "https://images.memorix.nl/wba/deepzoom/6eb5a89b-b76c-5039-3999-aabfd7a0c7c9.dzi"
},

Via de assets krijgen we informatie over de directe links naar de plaatjes zodat deze als thumbnail of via een viewer die TopView of DeepZoom ‘spreekt’ kunnen laten zien, vanuit de bron. Liever nog had ik een link naar de IIIF info.json (IIIF Image API) geizen. Hoewel dit niet geadverteerd wordt, wordt de IIIF Image API wel ondersteund door Memorix. Je moet even weten hoe de URL wordt opgebouwd… Voor de hierboven genoemde asset is de (basis) URL voor de IIIF Image API https://images.memorix.nl/wba/iiif/6eb5a89b-b76c-5039-3999-aabfd7a0c7c9

Voor het in oprichting zijnde crowdsourcingsplatform doodsoorzaken.nl is de informatie over de registers met ‘doodsbriefjes’ opgehaald bij het West-Brabants Archief via de API en worden er binnen dit platform scans getoond vanuit de bron (via de IIIF Image server). Een archiefinstelling die haar data en scans zo toegankelijk maakt kan je als platform toch geen kosten meer in rekening brengen?

Open Archieven als plugin voor ChatGPT

Bob Coret — Sat, 17 Jun 2023 14:18:31 +0000

Diegenen die de OpenAI’s ChatGPT tool gebruiken cq. aan het uit proberen zijn én een abonnement hebben kunnen gebruik maken van plug-ins van derden. Als dienstaanbieder is het natuurlijk interessant om te kijken of je voor jou dienst een plugin kunt realiseren zodat ChatGPT deze kan gebruiken. Als experiment heb ik Open Archieven gekoppeld.

Als je platform open is en gebruik maakt van standaarden dan is de realisatie van de plugin zeer eenvoudig. Open Archieven, biedt diverse API‘s. Deze zijn beschreven op basis van de Open API specificatie in een online YAML bestand. Een ai-plugin.json bestand op je domein bevat de configuratie van je plugin, waarin het meest belangrijke de url van de Open API url is. Dit JSON bestand moet onder die naam geplaatst worden in de .well-known directory op je website zodat je aan ChatGPT alleen het domeinnaam hoeft op te geven (hier dus www.openarch.nl) en je kunt aan de slag (nu nog als developer, ik heb de plugin nog niet aangeboden om in de plugin-store te komen).

Door de YAML beschrijving van je API ‘weet’ de AI wanneer het welke vraag moet stellen. Hieronder enkele voorbeelden met hier en daar wat observaties.

Bij de eerste vraag heeft ChatGPT op de achtergrond het volgende request gedaan: https://api.openarch.nl/1.1/records/getBirths.json?name=Wilhelmus%20Coret De gestuctureerde JSON resultaten zijn dus in mooi Nederlands (want ik stelde de vraag in het Nederlands) omzet mét links naar de akten. Onverwacht werden er ook afbeeldingen en titels getoond van de aktes. Hiervoor zorgt een andere door Open Archieven gehanteerde standaard: Open Graph.

Het is een chat, dus je kunt doorvragen, bijvoorbeeld naar de bronnen. Alle akten uit de vorige vraag komen inderdaad van het Streekarchief Midden-Holland. Maar de uitleg over dit archief komt niet van de Open Archieven plugin, dat verzint ChatGPT er zelf aardig bij. Hetzelfde zie je gebeuren bij de vraag naar het brontype.

De weergave varieert, hieronder zijn de namen niet gelinkt maar bevat elke regel een “Link naar de akte”. Doordat ik in de prompt ook vroeg naar het archief, zie je dit netjes in het antwoord terug.

Bij Open Archieven (en dus ook via de API) kun je zoeken met wildcards. ChatGPT snapt dit en geeft aan de API “Hendr* Coret” mee via de name-parameter!

In de volgende vraag heeft ChatGPT goed gezien dat ik de getMarriages methode van de API wil aanroepen en dus twee namen als losse parameters (name1 en name2) meegegeven moeten worden in de API aanroep.

In de volgende vraag hebben de resultaten allemaal betrekking op Hendricus Wilhelmus Coret en is het dus logisch om de brontype (en archiefinstelling) op te sommen. Toch knap van ChatGPT.

Dat ChatGPT de volgende vraag heeft beantwoord vind ik erg knap. ChatGPT weet dat het geboorteakten kan opvragen en overlijdensakten. ChatGPT heeft begrepen dat het de leeftijd van de persoon moest berekenen (om de “hoe oud” vraag te beantwoorden) en daarvoor de (metadata van de) geboorteakte en de (metadata van de) overlijdensaktes moet ophalen (je ziet in de GUI dat er 2 requests naar Open Archieven zijn gedaan!!!) van de persoon en dan de twee datums van elkaar moet halen. ChatGPT is niet helemaal zeker van de zaak, het verwacht een hogere leeftijd. Het gaat hier echter om een jong overleden kind, dat inderdaad maar enkele maanden oud is geworden.

De resultaten van de API worden standaard gesorteerd op naam (en ik heb ChatGPT nog niet via de Open API YAML vertelt dat hier een parameter voor is). Maar in je prompt kun je natuurlijk iets over de volgorde opnemen. Ook kun je vragen de gegevens te “verrijken”, in dit geval met de weekdag (op basis van de datum). Van de 10 weekdagen is er (door handmatige controle via de Kalender omzetter) één incorrecte weekdag: 14 juni 1834 was een zaterdag (niet een vrijdag). Ook de sortering is niet perfect, 7. en 8. hadden omgekeerd moeten worden.

Bij de volgende vraag gaat ChatGPT de mist in. Ik vraag om de leeftijden van Goudse Coretten, dus ChatGPT gaat voor alle Coretten geboren in Gouda ook de overlijdensakten opvragen, maar zoals elke genealoog weet is puur ‘matchen’ echt niet genoeg. Vandaar in de tabel enkele personen ouder dan 100 jaar (en dat vindt ChatGPT niet raar?). De gevraagde gemiddelde leeftijd wordt niet geleverd.

Sommige van de API methodes vereisen dat er een specifieke GUID (en archive_code) van wordt opgegeven, normaliter uit een eerdere vraag. Ook dit lijkt ChatGPT te snappen, waardoor de vervolgvraag naar kinderen van een echtpaar ook (de goede request en) goede antwoord geeft.

Zou het ook in een diagram getoond kunnen worden?

Weer een vrij eenvoudige vraag, maar net weergegeven antwoord.

De resultaten kunnen ook in de genealogische defacto standaard GEDCOM gepresenteerd worden (niet geheel valide door ontbrekende header, 1 SOUR zou beter 2 SOUR moeten zijn):

De Open Archives plugin is zaterdagmiddag (17-6-2023) aangeboden aan ChatGPT. Op maandagmiddag is de plugin goedgekeurd en beschikbaar in de ChatGPT plugin store!

Real-world Face Restoration with GFPGAN, some examples

Bob Coret — Tue, 14 Dec 2021 20:19:56 +0000

GFPGAN aims at developing a Practical Algorithm for Real-world Face Restoration. It leverages rich and diverse priors encapsulated in a pretrained face GAN (e.g., StyleGAN2) for blind face restoration.

I ran some photo’s from my personal collection thru this GFPGAN (CVPR 2021) algorithm. Below are the inputs and outputs can be compared.

MAIS-MDWS probleem: links naar niet gekoppelde scans

Bob Coret — Wed, 16 Dec 2020 00:21:43 +0000

Onderstaand bericht is op 10 december 2020 aan Regionaal Archief Rivierenland en haar leverancier DE REE gestuurd:

Ik constateer als gebruiker van de open data (A2A) bestanden van het RAR dat sommige records aan de verkeerde scan zijn gekoppeld. Het gaat dan om records die nog niet aan een scan zijn gekoppeld maar aan een gescand register, zoals bijvoorbeeld https://hdl.handle.net/21.12108/CA6781621885418C847F81645ED7831C
In het voor dit record gegenereerde A2A (zie hieronder) wordt er in blok een link gelegd naar de eerste scan in het register, in dit geval de kaft van het register… Dit is niet goed. Gebruikers van deze data, waaronder Open Archieven, sturen hun bezoekers nu dus naar de verkeerde scan!
Bij records die niet zijn gekoppeld aan specifieke scans, maar een geheel register van scans is het beter om geen link naar https://proxy.archieven.nl/embed/102/.. te maken maar naar de “viewer met strip” (in dit voorbeeld https://regionaalarchiefrivierenland.nl/maisi_ajax_proxy.php?…).
Ook kunnen de (de link om de scan te downloaden) en (een kleine weergave van de scan) denk ik beter achterwege blijven (zijn geen verplicht op te namen waarden!).
Uit NL-TlRAR:0010-1851:54:A2A.xml :
[...] 1 https://proxy.archieven.nl/download/102/41662F0A1A98430AA6D75B300D175FEC https://proxy.archieven.nl/embed/102/41662F0A1A98430AA6D75B300D175FEC https://proxy.archieven.nl/thumb/102/41662F0A1A98430AA6D75B300D175FEC https://hdl.handle.net/21.12108/CA6781621885418C847F81645ED7831C 1982461304 {CA678162-1885-418C-847F-81645ED7831C}

Het antwoord van de leverancier:

Archieven.nl is een verzameling van verschillende archiefdiensten en collectiebeherende instellingen. Wij hosten de database en zorgen ervoor dat de aangeboden informatie beschikbaar is en gevonden kan worden door u.
De inhoud van de database wordt gevuld en beheerd door de archiefdiensten en collectiebeherende instellingen.
Vragen met betrekking tot bepaalde collecties kunnen daarom alleen beantwoord worden door de organisatie welke de informatie aanbiedt.
Het Regionaal Archief Rivierenland (http://www.regionaalarchiefrivierenland.nl/ ) kan u waarschijnlijk verder helpen.

Jammer!

Niet alleen hoe DE REE de website archieven.nl presenteert (als verzameling van organisaties?) maar vooral hun beperkte rol hierin. Niet alleen wordt het probleem niet begrepen, ze verwijzen doodleuk door naar hun klant.

Onterecht. Ik hoop dat deze blogpost de leverancier aanzet om meer hun verantwoordelijkheid te nemen. Ik hoop dat DE REE het probleem gaat begrijpen (hieronder nog extra voorbeelden) en hun product zal verbeteren.

Want het issue ligt toch echt meer bij MAIS-MDWS dan bij hun klanten: wanneer een record niet aan scan van een akte is gekoppeld maar aan een gescand register, dan moet de data in A2A XML niet koppelen aan de eerste scan uit het gescande register! Hooguit koppel je aan de viewer die het gehele gescande register toont (en dus niet de viewer die alleen één scan toont zoals in de voorbeelden, want dat is onjuist).

De A2A XML is een weerslag van de data van archiefinstellingen. Er is een mapping van data in het gesloten, niet-standaard MAIS formaat naar de open standaard A2A. Of de leverancier of de archiefinstelling deze mapping maakt is niet belangrijk, een systeem moet niet de mogelijkheid bieden om een mapping te definiëren er koppelingen naar scans worden opgeleverd die niet bestaan (omdat er (nog) geen koppeling is).

Nog wat voorbeelden bij andere archieforganisaties…

Een doopinschrijving (op Open Archieven) waarbij in het open data bestand van Regionaal Archief Dordrecht in het blok staat:

https://proxy.archieven.nl/46/6C38CD4707394F469F4BFED8349E5D81 https://proxy.archieven.nl/46/6C38CD4707394F469F4BFED8349E5D81 https://proxy.archieven.nl/thumb/46/6C38CD4707394F469F4BFED8349E5D81

Bekijk je deze doopinschrijving (op de website van de archiefinstelling) dan zie je dat deze akte niet is gekoppeld aan een scan, maar een gescand register. Je kunt dan dus niet de doopinschrijving aan de eerste scan uit de reeks koppelen!

Op bovenstaande scan moet een doopinschrijving (op Open Archieven) staan volgens de A2A afkomstig van het Stadsarchief Rotterdam:

https://hdl.handle.net/21.12133/B54B52BFAFA747099AF03A5FEA17744Ehttps://hdl.handle.net/21.12133/B54B52BFAFA747099AF03A5FEA17744Ehttps://proxy.archieven.nl/thumb/184/B54B52BFAFA747099AF03A5FEA17744E

Op de website van Stadsarchief Rotterdam wordt er bij deze doopinschrijving een reeks scans getoond. Niet omdat de doopinschrijving meerdere pagina’s beslaat, maar omdat de scan is gekoppeld aan de gehele reeks scans van het betreffende doopboek.

Valt er op bovenstaande scan een huwelijksakte (op Open Archieven) te ontdekken? De XML in A2A formaat, ontvangen van Streekarchief Voorne-Putten, suggereert dit:

https://proxy.archieven.nl/126/6B4EA98A5D6AE3C8E053600410AC5B3Ehttps://proxy.archieven.nl/126/6B4EA98A5D6AE3C8E053600410AC5B3Ehttps://proxy.archieven.nl/thumb/126/6B4EA98A5D6AE3C8E053600410AC5B3E

Helaas, ook deze huwelijksakte (op website archiefinstelling) is door het Streekarchief (nog) niet gekoppeld aan een scan maar een register. Toch geeft het XML record een link naar een scan, inderdaad de eerste pagina…

Hierboven een mooie scan (als lezer begint u wellicht een patroon te zien) van een doopinschrijving (op Open Archieven) uit het Doop-, trouw- en begraafboek van Mierlo. In de door Regionaal Historisch Centrum Eindhoven beschikbare open data bestanden lezen we:

http://www.archieven.nl/mi/48/?mivast=48&miadt=48&miaet=54&micode=DTB_Mierlo_10225_65.1&minr=17591801&miview=ldthttp://www.archieven.nl/mi/48/?mivast=48&miadt=48&miaet=54&micode=DTB_Mierlo_10225_65.1&minr=17591801&miview=ldthttp://files.archieven.nl/php/get_thumb.php?adt_id=48&toegang=10225&file=65.1\00000_D_Mierlo_65.1_00t1.jpg

Inderdaad, de doopinschrijving (op website archiefinstelling) is ook hier gekoppeld aan de eerste scan uit een reeks scans van het doopboek.

Bonus

Een voorbeeld waar het ook andersom mis kan gaan (NB: dit betreft dus ander MDWS probleem!). Hieronder een scan uit de bevolkingsregistratie Waverveen en Waveren, archief 1202, inventarisnummer 408.

De door Regionaal Historisch Centrum Vecht en Venen geleverde A2A van de registratie (op Open Archieven) ziet er als volgt uit:

http://www.rhcvechtenvenen.nl/collectie?mivast=386&miadt=386&miaet=54&micode=1202-408&minr=970705&miview=ldthttp://www.rhcvechtenvenen.nl/collectie?mivast=386&miadt=386&miaet=54&micode=1202-408&minr=970705&miview=ldthttp://files.archieven.nl/php/get_thumb.php?adt_id=386&toegang=1202&file=408\1202_0408_0012.jpg

Wordt de registratie bekeken op de website van de archiefinstelling dan zien we een strip van scans, maar is niet zichtbaar welke scan de juiste is (blijkt nummer 14 te zijn)?!

Dit is dus een voorbeeld van een “record” dat wel is gekoppeld aan een scan, de juiste scan, en dit ook in A2A XML correct wordt weergegeven, maar op de eigen website (en dus ook archieven.nl) wordt de gekoppelde scan niet getoond…

Ik kan aankloppen bij het RHC, maar ook hier lijkt mij DE REE aan zet.

Koppelen en gebruiken van thesaurustermen bij de Rotterdamse arrestantenkaarten

Bob Coret — Wed, 03 Jun 2020 22:46:37 +0000

Erfgoedinstellingen complementeren de meta-data over objecten en collecties meer en meer met termen uit gemeenschappelijke termenlijsten. Voorbeelden hiervan zijn RKD Artists, de Gemeenschappelijke Thesaurus voor Audiovisuele Archieven (GTAA), de Erfgoedthesaurus, Iconclass en Geonames.

Bij het verwerken van de open data van Stadsarchief Rotterdam (een export vanuit MAIS-Flexis) liep Open Archieven aan tegen een nieuw data-element aan dat Open Archieven nog niet eerder verwerkte: thesaurusterm.

De bron waar Open Archieven dit data-element tegen kwam betrof arrestantenkaarten uit de periode 1940-1944 (Stadsarchief Rotterdam, archief 63 Archief van de Gemeentepolitie Rotterdam, inventarisnummer 3470). Deze nadere toegang is tot stand gekomen in samenwerking met de crowd en Netwerk Oorlogsbronnen. De laatste heeft hier onder andere de verrijking met thesaurustermen uit de WO2-thesaurus voor haar rekening genomen.

Martin Kapfer, Gearresteerd op: 13-11-1940

In deze blogpost wil ik kijken naar het resultaat van het termen koppelen en de presentatie van termen. Het is een weerslag van het gedachtenproces om te bepalen wat Open Archieven als hergebruiker met deze termen doet.

De records met meta-data over de arrestantenkaarten bevatten in 13 van de 139 gevallen (=9%) een veld ‘Thesaurusterm’ met daarin een URI als waarde. De URI’s verwijzen naar termen uit de – door het NIOD beheerde – WO2-thesaurus:

De WO2-thesaurus is een gevalideerde, hiërarchisch georganiseerde trefwoordenlijst voor de thematische ontsluiting van (digitale) bronnen uit en over de Tweede Wereldoorlog. De thesaurus bevat bijna 2300 termen over gebeurtenissen, plaatsen, begrippen en objecten.

Als je het XML bestand bekijkt, dan lijkt het er sterk op dat de matching heeft plaatsgevonden op waardes in het veld ‘In bewaring voor’. Dat de thesaurusterm op dit veld slaat, wordt overigens verder nergens gedocumenteerd (jammer, is een belangrijk stukje provenance informatie).

Andere velden die voorzien zouden kunnen worden van termen – uit de WO2-thesaurus of andere thesauri – omvatten de plaatsnamen (in velden ‘Geboorteplaats’, ‘Overlijdensplaats’, ‘Adres’ en ‘Getransporteerd naar’) en beroep (in veld ‘Beroep’). Daar is klaarblijkelijk niet voor gekozen, ben benieuwd naar de overwegingen in deze.

De XML laat wel zien, dat elke arrestantenkaart ook trefwoorden heeft: voor plaatsnaam en straatnaam (en de WO2-thesaurus term in tekstvorm). Deze trefwoorden zijn vermoedelijk geëxtraheerd uit specifieke velden, ze komen niet uit een gemeenschappelijk termenlijsten en hebben geen URI. Dit zijn strings, geen links. Voor het verbinden van data, over instellingen heen, is dit een drempel.

Wat opvalt bij het plaatsnaam trefwoord is dat hier een keuze gemaakt is: niet de geboorteplaats of plaats waarheen getransporteerd (waar af en toe een kampnaam voorkomt), maar (alleen) de woonplaats wordt als plaats trefwoord gezien. Ook hier ben ik benieuwd naar de overwegingen.

	Rients Kamstra, Gearresteerd op: 16-05-1940

	1940

		1940

		{B27A24E2-5242-4F38-9D35-21802CC9DF4C}

		3470

		63

		Rients

		Kamstra

		24-9-1882

		Franeker

		koopman

		Nederlandse

		16-05-1940

		Duitse militairen

		16-05-1940

		Münster, Duitsland

		Spionnage

		1

		https://data.niod.nl/WO2_Thesaurus/1880

		Rotterdam, Prinses Julianalaan 96

		Militairen

		Rotterdam

		Prinses Julianalaan

		https://stadsarchief.rotterdam.nl/zoek-en-ontdek/archieven/zoekrestultaat-archieven/?mivast=184&miadt=184&miaet=54&micode=63.3470&minr=45122298&miview=ldt
	
	…

Wat bovenstaand stuk XML wel mooi laat zien is, dat de ingevoerde (of geïmporteerde) thesaurusterm URI ook in de export aanwezig is. Het ‘label’ van de thesaurusterm lijkt opgenomen als trefwoord (als string). De aanwezigheid van de thesaurusterm URI betekent dat hergebruikers deze waarde ook kunnen gebruiken als ze willen. Een keuze waar dus ook Open Archieven voor staat.

Hieronder staan de 13 voorkomens van ‘In bewaring voor’ in het bekeken XML bestand en de toegevoegde match in de vorm van URI en thesaurusterm:

	‘In bewaring voor’ waarde	Aantal voorkomens	Thesaurusterm URI	Term
1.	Justitie Dienst I	2	https://data.niod.nl/WO2_Thesaurus/2601	Justitie
2.	Geheim Feld Politie	3	https://data.niod.nl/WO2_Thesaurus/2715	Politie
3.	Marine Havenabteilung	6	https://data.niod.nl/WO2_Thesaurus/3509	Havens
4.	Wehrmacht	1	https://data.niod.nl/WO2_Thesaurus/3585	Wehrmacht
5.	Duitse militairen	1	https://data.niod.nl/WO2_Thesaurus/1880	Militairen

De matches zijn “zijn geautomatiseerde matches dmv linkstrategie met concepten uit de WO2-thesaurus“. Als je naar de 5 matches kijkt in bovenstaande tabel kijkt, dan lijkt alleen nummer 4 te gaan over exact hetzelfde begrip. Bij de 4 anderen is er een match, puur omdat de karakters waar de term (waarschijnlijk het prefLabel) uit is opgebouwd, voorkomen in het ‘In bewaring voor’ veld. Een substring match, als een proxy voor een semantische match? Bij nummers 2 en 5 zou je kunnen zeggen dat het een algemenere term is. Maar bij nummer 1 wordt een organisatorische eenheid gelijk gesteld met het concept justitie (als rechterlijke macht). En bij nummer 3 wordt een organisatorisch eenheid gekoppeld aan het concept havens.

Als je kijkt naar andere ‘In bewaring voor’ waarden dan zijn er 2 die wel nuttig gekoppeld hadden kunnen worden (maar: ik ben geen specialist op dit terrein), maar door de gebruikte strategie niet zijn gevonden:

“Sicherheitspolizei / Sipo” in thesaurus als “SiPo en SD Rotterdam” (https://data.niod.nl/WO2_Thesaurus/corporaties/8783)
“Luftgau” > in thesaurus als “Luftgaugericht” (https://data.niod.nl/WO2_Thesaurus/corporaties/6093)

Dit leidt bij mij tot vragen als:

is substring matching de juiste strategie om overeenkomsten te vinden van begrippen?
kan de matching niet beter plaatsvinden op een specifieke ’tak’ uit de hiërarchische termenlijst die beter aansluit bij het veld waarop wordt gematched (in dit geval bijvoorbeeld corporaties)?
worden ook alternatieve labels betrokken in de matching?
kan het matchen van thesaurustermen wel volledig geautomatiseerd worden, oftewel is de kwaliteit en kwantiteit hoog genoeg?

We zien hier overigens een voorbeeld waar een erfgoedinstelling de eigen meta-data verrijkt met behulp van derden. Goed! Of dit nu een overheidsorganisatie is, de crowd of een ZZP-er die met data kan toveren, de erfgoedinstelling moet wel altijd alert blijven op de kwaliteit. Deels door zicht te hebben op het proces waarmee de verrijking tot stand is gekomen (bijvoorbeeld dubbele invoer bij crowdsourcing, informatie over wijze van matching, opschoning van data, gemaakte keuzes) en deels door steeksproefsgewijs de kwaliteit te controleren.

Voor Open Archieven heeft bovenstaande beschouwing geleid tot de beslissing om de thesaurustermen in deze bron nog even niet te gebruiken of te tonen.

In het algemeen gesproken kunnen thesaurustermen die zijn toegevoegd aan de objecten ook van waarde zijn voor eindgebruikers. Op de website van het Stadsarchief Rotterdam wordt nu echter alleen de URI van de thesaurusterm getoond:

Gebruikers die weten wat een ‘Thesaurusterm’ inhoudt (zal maar een klein deel zijn) en de link volgen, komen terecht in de WO2-thesaurus. Deze is opgezet met behulp van PoolParty. Een goede tool voor thesauri beheerders, maar niet echt gericht op eindgebruikers…

Bovenstaande afbeelding toont ook dat de trefwoorden op de website getoond worden. Wanneer er op het trefwoord geklikt wordt, dan wordt de gehele archiefcollectie doorzocht op objecten die ook zijn voorzien van het betreffende trefwoord. Een functie die, als het kwalitatieve trefwoorden zijn, zeker nut heeft.

Om nog even terug te komen bij de Thesaurusterm. Stel je eens voor dat de ‘In bewaring voor’ waarde (waar de thesaurusterm immers op slaat in dit record) wordt voorzien van een (i) symbool, die, wanneer je deze aanklikt, de beschrijving van de term (uit de thesaurus) toont:

Daar help je de eindgebruiker mee! Dan zet je de gebruiker centraal.

NB: bovenstaande presentatie gaat er wel vanuit dat er een definitie is van de term. Helaas hebben niet alle termen in de WO2-thesaurus een definitie of scopeNote. Van de 5 termen in bovenstaande tabel hebben er maar 2 een scopeNote.

Tenslotte, bovenstaande moet niet gelezen worden als kritiek op het gebruik van thesauri. Ik zie bovenstaande als een experiment dat het Stadsarchief Rotterdam heeft uitgevoerd waar lessen uit getrokken kunnen worden. Het gebruik van thesaurustermen en URI’s kunnen van grote waarde zijn voor eindgebruikers en om objecten en collecties te koppelen in het tijdperk van linked open data.