Niet meer werkende links op het web: ze vormen een ergernis voor gebruikers en een bedreiging voor de vindbaarheid van online informatie. Een groot aantal archiefinstellingen werkt sinds 2015 samen in het project Persistent identifiers onder de vlag van de Nationale Coalitie Digitale Duurzaamheid en het Netwerk Digitaal Erfgoed. Het doel is om de digitale collecties blijvend vindbaar te houden en de strijd aan te gaan tegen de toenemende linkrot door de invoering van persistent identifiers (PID’s).
Handle systeem
Eén van de technologieën die ingezet kan worden om vaste URL’s te implementeren is het Handle systeem:
The Handle System is a technology specification for assigning, managing, and resolving persistent identifiers for digital objects and other resources on the Internet.
In simpele termen: je registreert het adres van een digitaal object bij het Handle systeem, dit resulteert in een uniek adres dat via handle.net beschikbaar wordt gesteld en dat doorverwijst naar het geregistreerde adres. Wanneer nu het digitale object verhuist (nieuwe domeinnaam, nieuwe website technologie, enz.) dan kun je het nieuwe adres doorgeven aan het Handle systeem. Het handle.net adres (de persistent identifier) blijft ongewijzigd, maar verwijst door naar het vernieuwde adres. Zo lang je – als gebruiker – de handle.net adressen gebruikt èn de organisatie zorgt dat de verwijzingen blijven kloppen, heb je vaste URL’s, die werken.
Handle.net als PID lijkt de keuze van de Nederlandse archiefsector. Echter, je ziet deze handle.net adressen nog steeds maar mondjesmaat:
- Nationaal Archief (GaHetNa), bijv. http://proxy.handle.net/10648/1b516d96-71be-102d-a0ea-005056a23d00
- Regionaal Archief Tilburg, bijv. https://hdl.handle.net/21.12103/2f842671-b2df-f9d5-47cc-8c3be9f7e733
- Regionaal Archief Rivierenland, bijv. https://hdl.handle.net/21.12108/C8AED0AB3D934565B7838596C3D88994
- Archief Eemland, bijv. https://hdl.handle.net/21.12101/4c0543d2-7836-11e3-aace-8b66d6c38587
- Regionaal Archief Zutphen, bijv. https://hdl.handle.net/21.12104/00245e48-0e7b-9bf4-ad2e-64c5b7d1f92a
Gebruiken al meer archieven PID’s? Ik hoor het graag in de comments.
Techniek lost niet alles op
In Archieven: geef ons vaste URL’s, die werken! schreef ik al over een probleem van de PID’s. Niet een technische maar een procesmatige. Het idee is dat als de URL van een object wijzigt (andere domeinnaam, ander CMS, enz.) de organisatie dat moet doorgeven aan aan het Handle systeem. Het ongewijzigde handle.net adres (de PID) blijft dan verwijzen naar het juiste (werkende adres). Het werkend houden van de PID’s is dus een belangrijke activiteit van archiefinstellingen die met PID’s gaan werken, eentje die qua proces goed ingeregeld moet worden.
Onlangs werd ik geconfronteerd met een werkwijze bij archiefinstellingen die mijns inziens werkende PID’s in de weg staan.
Op Open Archieven wordt de open data van 60 archiefinstellingen gepresenteerd. Het gaat hierbij dus vooral om de nadere toegangen op aktes. Bij veel aktes wordt naast een bronvermelding (met logo van het archief) ook een knop getoond om de akte op de website van het archief te bekijken. Helaas bleken sommige links niet meer te werken, jawel, de linkrot had al weer toegeslagen. Om een beter beeld van het probleem te krijgen van het probleem worden sinds enige tijd steeksproefgewijs de links naar archiefwebsites van opgevraagde aktes op de achtergrond gecontroleerd (technisch: er wordt een HEAD request uitgevoerd). Het blijkt dat aktes van het Gelders Archief, het Utrechts Archief en RHC Eindhoven vooral te maken hebben met linkrot. Bij deze 3 archiefinstellingen werken nu 0,5 tot 3,0 van de 10.000 niet meer!
Voor de goede orde, de 3 genoemde archiefinstellingen gebruiken nog geen PID’s. Maar ik denk dat PID’s dit probleem niet gaat oplossen.
Analyse van de niet meer werkende links leerde dat de aktes nog wel aanwezig waren maar een ander adres hadden gekregen. Een voorbeeld, was het overlijden van Egbertus Brunt (20-07-1917) eerst te vinden op:
op dit moment is het te vinden op:
Bovenstaande URL’s tonen dat hetzelfde object nu een ander nummer in het archiefbeheersysteem heeft gekregen (en een ander beheersnummer, daarover later meer). Navraag leerde dat “het echter kán voorkomen dat een beschrijving met een GUID verwijderd wordt om al dan niet – na kortere of langere termijn – vervangen te worden door een andere beschrijving” en daarmee dus een nieuw nummer krijgt, want systeemtechnisch is het natuurlijk een nieuw object en het oude is verwijderd. Het is niet zo zeer de techniek maar de werkwijze die hier opbreekt.
Wijzigen is niet verwijderen en opnieuw invoeren
Had het Gelders Archief in bovenstaand voorbeeld gebruik gemaakt van PID’s dan hadden we nog linkrot. Immers, de “oude” overlijdensakte zou dan een PID hebben gehad. Maar deze akte wordt verwijderd. Later wordt de akte weer opgevoerd, een nieuw object en dus nieuw PID. Een PID die anders is dan het “oude”!!!
Ik weet niet hoe wijd verspreid deze wijze van wijzigen van beschrijvingen is maar deze moet verbannen worden. Een beschrijving wijzigingen is niet de oude beschrijving verwijderen en nieuwe beschrijving opvoeren! Dit moet tussen de oren van de archivarissen komen en de archiefbeheersysteem moeten dit ondersteunen.
Gewijzigde meta-data leidt tot andere URL
Wat ik ook zie is dat archieven beheerseenheden een andere code geven (voor klanten van De Ree: ik heb het over de MI-code). Een voorbeeld van het Zeeuws Archief:
- http://www.zeeuwengezocht.nl/
nl/zoeken?mivast=1539&mizig= 862&miadt=239&miaet=54&micode= 25.MDB-O-1812&minr=5765581& miview=ldt - http://www.zeeuwengezocht.nl/nl/zoeken?mivast=1539&mizig=862&miadt=239&miaet=54&micode=25.MDB-O-1812.1&minr=5765581&miview=ldt
In dit geval is het object zelf niet verwijderd uit het archiefbeheersysteem (het MI-nummer is ongewijzigd). Echter, omdat de MI-code onderdeel uitmaakt van de gehele URL van de akte werkt de 1e URL niet meer (de oude) en de 2e wel (de nieuwe). Voor een ieder die een link had gelegd naar de betreffende akte via de “oude” link heeft door de gewijzigde MI-code dus weer niet werkende links. Dat zijn onderzoekers die netjes de Delen of insluiten functie gebruiken om een link te leggen. Ook zoekmachines als Google die veel moeite doen om websites te indexeren bevatten hierdoor nu links naar niet meer bestaande pagina’s. Ik hoop dat als archieven over gaan op PID’s hun systemen dit soort wijzigen aan kan, dat de PID’s ongewijzigd blijven en de gewijzigde URL’s (liefst automatisch) gemeld worden aan het Handle systeem.
NB 1. Ik ga er hierbij voor het gemak vanuit dat gebruikers de PID’s gaan adopteren. Dat is ook nog wel een dingetje. Veelal is de PID in de gebruikersinterface van de archiefwebsites ergens verstopt, de “normale” URL staat in de adresbalk van de browser, die zal dus veelal gebruikt worden (ook door de zoekmachine spiders). Een campagne om gebruikers vertrouwd te maken met https://hdl.handle.net/ adressen zou geen overbodige luxe zijn.
NB 2. Ik ga er hierbij voor het gemak vanuit dat archieven de PID’s ook meer gaan gebruiken. Volgens mij ben ik de handles in nog geen enkel open data bestand tegen gekomen (behalve bij Nationaal Archief)?!
“Gebruik de laatste versie van de open data bestanden”
Hallo Bob,
Wij hebben sinds de livegang van onze nieuwe website in april ook PID via Handle zitten op onze beelden https://hdl.handle.net/21.12106/4a66cb5c-3873-48a2-962a-b1dc50413ff7 en genealogie https://hdl.handle.net/21.12106/00000805-d33b-4aeb-8036-3ec4b63915c7
Groeten
Mark
Regionaal Archief Alkmaar
Dank je Bob voor deze mooie blog over nut en noodzaak van het gebruik van PID’s. En uiteraard, met alleen technische oplossingen zijn we er niet. Zoals je in je blog helder uiteenzet, is het gebruik van PID’s om te beginnen iets wat tussen de oren van collectiebeherende instellingen moet gaan zitten. Het is van belang dat hiervoor een policy is waarbij de juiste keuzes gemaakt worden. Zeker in de wereld van open data. Open data is mooi, zeker voor de gebruikers, maar hoe open is open data wanneer de links naar deze data verdwijnen!
Het Netwerk Digitaal Erfgoed de NCDD hebben in de afgelopen twee jaar hard gewerkt aan de implementatie van Handle binnen de erfgoedsector. We hebben er daarbij heel bewust voor gekozen om dit te doen via de leveranciers van collectiebeheersystemen. Deze worden immers al gebruikt door deze instellingen waardoor ze geen nieuwe diensten of systemen aan hoeven te schaffen of zelf te ontwikkelen. Uiteraard valt daar best wel wat op af te dingen, je legt een deel van de verantwoordelijkheid immers bij commerciële partijen neer. Het is ons echter gelukt om daar goede afspraken over te maken met Devent-it, Ci-it, DeRee en Picturae (met Axiel zijn we in gesprek). Deze leveranciers hebben Handle geïmplementeerd in hun systemen en rollen dat uit bij hun klanten. Overigens hebben zij dit meestal samen met hun klanten gedaan. Het Regionaal archief Rivierenland is daar een mooi voorbeeld van: http://www.ncdd.nl/news/collectie-rar-duurzaam-toegankelijk-pids/
We zien nu dat na de eerste implementatie, die door de genoemde leveranciers met een beperkte groep klanten is gedaan, nu steeds meer instellingen aanhaken bij de geïmplementeerde oplossingen.
Daarmee zijn we er uiteraard niet. Het NDE-project richt zich daarom niet alleen op (technische) implementatie, maar heel nadrukkelijk ook op bewustwording en het vergroten van de kennis met betrekking tot PID’s. Eigenlijk is het een drietrapsraket. Vanuit bewustwording, naar meer kennis, naar gebruik. Bewustwording werken we aan via drie filmpjes die we gepubliceerd hebben op YouTube en een FAQ. We geven regelmatig workshops en we hebben een PID-wijzer ontwikkeld (een online tool). Deze tool helpt instellingen bij het maken van een keuze voor een specifieke PID-oplossing. Aan de hand van 25 vragen wordt men door de PID-wijzer geleid. Het gaat daarbij niet alleen om de techniek, maar juist en vooral om hoe je dit moet organiseren en over de duurzaamheid van de gekozen oplossing en je eigen organisatie. De PID-wijzer toont ook duidelijk aan, dat je eerst moet nadenken over wat je wilt, en dat daar vervolgens een (technische) oplossing uit rolt. Niet andersom.
Meer informatie over de aanpak van het PID-project is te vinden via: http://www.ncdd.nl/pid/. Hier zijn ook de links naar de films en de PID-wijzer te vinden.
Hoe we tot deze aanpak zijn gekomen en wat de resultaten tot nu toe zijn is te lezen in de paper die we geschreven hebben voor de internationale conferentie iPRES: https://ipres2017.jp/wp-content/uploads/61Remco-van-Veenendaal.pdf
Marcel Ras
Programmamanager NCDD
Coördinator Digitaal Erfgoed Houdbaar, Netwerk Digitaal Erfgoed (NDE)
Aanvulling van archieven die PID’s gebruiken, in deze gevallen allemaal voor hun beeldbank:
Aanvullende opmerking, de eerste twee archieven noemen het een permalink, het NHA benoemt de link niet (=gemiste kans). Geen van alle geven ze een uitleg van een permalink (=gemiste kans).