Niet meer werkende links op het web: ze vormen een ergernis voor gebruikers en een bedreiging voor de vindbaarheid van online informatie. Een groot aantal archiefinstellingen werkt sinds 2015 samen in het project Persistent identifiers onder de vlag van de Nationale Coalitie Digitale Duurzaamheid en het Netwerk Digitaal Erfgoed. Het doel is om de digitale collecties blijvend vindbaar te houden en de strijd aan te gaan tegen de toenemende linkrot door de invoering van persistent identifiers (PID’s).

Handle systeem

Eén van de technologieën die ingezet kan worden om vaste URL’s te implementeren is het Handle systeem:

The Handle System is a technology specification for assigning, managing, and resolving persistent identifiers for digital objects and other resources on the Internet.

In simpele termen: je registreert het adres van een digitaal object bij het Handle systeem, dit resulteert in een uniek adres dat via handle.net beschikbaar wordt gesteld en dat doorverwijst naar het geregistreerde adres. Wanneer nu het digitale object verhuist (nieuwe domeinnaam, nieuwe website technologie, enz.) dan kun je het nieuwe adres doorgeven aan het Handle systeem. Het handle.net adres (de persistent identifier) blijft ongewijzigd, maar verwijst door naar het vernieuwde adres. Zo lang je – als gebruiker – de handle.net adressen gebruikt èn de organisatie zorgt dat de verwijzingen blijven kloppen, heb je vaste URL’s, die werken.

 

Handle.net als PID lijkt de keuze van de Nederlandse archiefsector. Echter, je ziet deze handle.net adressen nog steeds maar mondjesmaat:

Gebruiken al meer archieven PID’s? Ik hoor het graag in de comments.

 

Techniek lost niet alles op

In Archieven: geef ons vaste URL’s, die werken! schreef ik al over een probleem van de PID’s. Niet een technische maar een procesmatige. Het idee is dat als de URL van een object wijzigt (andere domeinnaam, ander CMS, enz.) de organisatie dat moet doorgeven aan aan het Handle systeem. Het ongewijzigde handle.net adres (de PID) blijft dan verwijzen naar het juiste (werkende adres). Het werkend houden van de PID’s is dus een belangrijke activiteit van archiefinstellingen die met PID’s gaan werken, eentje die qua proces goed ingeregeld moet worden.

 

Onlangs werd ik geconfronteerd met een werkwijze bij archiefinstellingen die mijns inziens werkende PID’s in de weg staan.

 

Op Open Archieven wordt de open data van 60 archiefinstellingen gepresenteerd. Het gaat hierbij dus vooral om de nadere toegangen op aktes. Bij veel aktes wordt naast een bronvermelding (met logo van het archief) ook een knop getoond om de akte op de website van het archief te bekijken. Helaas bleken sommige links niet meer te werken, jawel, de linkrot had al weer toegeslagen. Om een beter beeld van het probleem te krijgen van het probleem worden sinds enige tijd steeksproefgewijs de links naar archiefwebsites van opgevraagde aktes op de achtergrond gecontroleerd (technisch: er wordt een HEAD request uitgevoerd). Het blijkt dat aktes van het Gelders Archief, het Utrechts Archief en RHC Eindhoven vooral te maken hebben met linkrot.  Bij deze 3 archiefinstellingen werken nu 0,5 tot 3,0 van de 10.000 niet meer!

 

Voor de goede orde, de 3 genoemde archiefinstellingen gebruiken nog geen PID’s. Maar ik denk dat PID’s dit probleem niet gaat oplossen.

 

Analyse van de niet meer werkende links leerde dat de aktes nog wel aanwezig waren maar een ander adres hadden gekregen. Een voorbeeld, was het overlijden van Egbertus Brunt (20-07-1917) eerst te vinden op:

op dit moment is het te vinden op:

Bovenstaande URL’s tonen dat hetzelfde object nu een ander nummer in het archiefbeheersysteem heeft gekregen (en een ander beheersnummer, daarover later meer). Navraag leerde dat “het echter kán voorkomen dat een beschrijving met een GUID verwijderd wordt om al dan niet – na kortere of langere termijn – vervangen te worden door een andere beschrijving” en daarmee dus een nieuw nummer krijgt, want systeemtechnisch is het natuurlijk een nieuw object en het oude is verwijderd. Het is niet zo zeer de techniek maar de werkwijze die hier opbreekt.

 

Wijzigen is niet verwijderen en opnieuw invoeren

Had het Gelders Archief in bovenstaand voorbeeld gebruik gemaakt van PID’s dan hadden we nog linkrot. Immers, de “oude” overlijdensakte zou dan een PID hebben gehad. Maar deze akte wordt verwijderd. Later wordt de akte weer opgevoerd, een nieuw object en dus nieuw PID. Een PID die anders is dan het “oude”!!!

 

Ik weet niet hoe wijd verspreid deze wijze van wijzigen van beschrijvingen is maar deze moet verbannen worden. Een beschrijving wijzigingen is niet de oude beschrijving verwijderen en nieuwe beschrijving opvoeren! Dit moet tussen de oren van de archivarissen komen en de archiefbeheersysteem moeten dit ondersteunen.

 

Gewijzigde meta-data leidt tot andere URL

Wat ik ook zie is dat archieven beheerseenheden een andere code geven (voor klanten van De Ree: ik heb het over de MI-code). Een voorbeeld van het Zeeuws Archief:

In dit geval is het object zelf niet verwijderd uit het archiefbeheersysteem (het MI-nummer is ongewijzigd). Echter, omdat de MI-code onderdeel uitmaakt van de gehele URL van de akte werkt de 1e URL niet meer (de oude) en de 2e wel (de nieuwe). Voor een ieder die een link had gelegd naar de betreffende akte via de “oude” link heeft door de gewijzigde MI-code dus weer niet werkende links. Dat zijn onderzoekers die netjes de Delen of insluiten Inline afbeelding 1 functie gebruiken om een link te leggen. Ook zoekmachines als Google die veel moeite doen om websites te indexeren bevatten hierdoor nu links naar niet meer bestaande pagina’s.  Ik hoop dat als archieven over gaan op PID’s hun systemen dit soort wijzigen aan kan, dat de PID’s ongewijzigd blijven en de gewijzigde URL’s (liefst automatisch) gemeld worden aan het Handle systeem.

 

NB 1. Ik ga er hierbij voor het gemak vanuit dat gebruikers de PID’s gaan adopteren. Dat is ook nog wel een dingetje. Veelal is de PID in de gebruikersinterface van de archiefwebsites ergens verstopt, de “normale” URL staat in de adresbalk van de browser, die zal dus veelal gebruikt worden (ook door de zoekmachine spiders). Een campagne om gebruikers vertrouwd te maken met https://hdl.handle.net/ adressen zou geen overbodige luxe zijn.

 

NB 2. Ik ga er hierbij voor het gemak vanuit dat archieven de PID’s ook meer gaan gebruiken. Volgens mij ben ik de handles in nog geen enkel open data bestand tegen gekomen (behalve bij Nationaal Archief)?!

 

“Gebruik de laatste versie van de open data bestanden”

Opvallend vond ik ook de reactie van een archief dat gewoon de laatste versie van de open data bestanden gebruikt moest worden. Alsof dat het probleem oplost voor al die niet werkende links van onderzoekers en de Googles van deze wereld… Maar ook blijkt hieruit dat de gevolgen van het bieden van open data ook nog niet helemaal zijn doorgedrongen. De open data staat bij Open Archieven, MyHeritage, FamilySearch, WieWasWie, Ancestry.com, enz. Al deze partijen zouden dus alle data frequent (hoe vaak wijzigt er iets, worden er nieuwe bestanden geplaatst?) gewoon moeten verwijderen en alles opnieuw downloaden en inladen??? Dat is onrealistisch, onpraktisch. In de praktijk worden de gewijzigde en nieuwe records gedownload en toegevoegd. Het feit dat er records zijn verwijderd (en zijn vervangen door een andere) wordt niet gemeld op de open data portals van de archieven. Wat dit betekent is dat aktes dubbel gaan voorkomen in de portals die vertrouwen op de open data. Waarbij de “oude” aktes een niet-werkende link hebben en de “nieuwe” aktes een werkende link. Zucht.

 

Om linkrot te voorkomen dient er dus ook / vooral gewerkt te worden aan het bewustzijn en processen.