Persistent Identifiers en implementaties hiervan via bijvoorbeeld Handles worden als gedoodverfde oplossing gezien voor linkrot. In Met alleen PID’s los je linkrot niet op beschreef ik al het fenomeen dat er, aan aanbieder-zijde, niet alleen techniek ingezet moet worden, maar vooral ook gewerkt moet worden aan het bewustzijn en processen. In Linkrot aanpakken in kleine stappen ging ik al in op de noodzaak (en ontbreken) van communicatie naar de gebruikers. Mij bekruipt echter het gevoel dat Handles lastig tussen de “oren” van de gebruikers gaan komen. Het maakt dat ik me afvraag of Handles überhaupt een goede oplossing vormen tegen linkrot.
Oplossing van welk probleem?
Op archiefwebsites worden foto’s, inventarissen en akten getoond. Onderzoekers kunnen van een dergelijk object het Internet adres opnemen in het eigen onderzoek/publicatie. Wanneer een archiefinstelling van naam (en veelal dus van domeinnaam) wijzigt of de website aanbiedt met software van een andere leverancier, dan werken de links die gebruikers hadden opgenomen niet meer (404 Page Not Found).
Met het Handle systeem registreer je bij een onafhankelijk organisatie je digitale objecten met betreffende URL op de eigen website. Als er een wijziging optreedt in het adres van het digitale object dan werk je de bijbehorende Handle bij. Als de gebruiker de Handle heeft opgenomen in zijn eigen onderzoek/publicatie dan gaat het goed, het ongewijzigde Handle adres wijst naar de nieuwe locatie van het digitale object.
Toegevoegde waarde van de handle
Dat de handle een toegevoegde waarde heeft voor de gebruiker moet de aanbieder dus duidelijk maken. Bij veel archieven heeft de handle, of vaste url, of permalink (hoe gaan we het noemen?) niet echt een prominente plek in de user-interface. Hieronder een voorbeeld van het Nationaal Archief. Onderaan de pagina (geel gemarkeerd) staat de “URL”.
Los van het feit dat de term “URL” (zonder verdere uitleg) niet echt handig is, kun je je ook afvragen of gebruikers enig vertrouwen hebben in een http://proxy.handle.net/ adres. Deze adressen stralen minder “gezag” uit dan een adres met de organisatienaam. Ook kun je uit een URL als http://proxy.handle.net/10648/e6e6fd4d-b315-5f5f-c63b-07b3277ebd1f niet veel informatie halen: je ziet de organisatie niet, maar ook niet om wat voor type digitaal object het gaat. Een URL als http://www.gahetna.nl/collectie/archief/inventaris/gahetnascan/eadid/2.10.50/inventarisnr/353/afbeelding/NL-HaNA_2.10.50_353_0081 (waar het eerder genoemde Handle adres naar verwijst) is een stuk leesbaarder!
Wat ook een groot probleem is, is het feit dat webbrowsers als sinds de eerste populaire webbrowser (NCSA Mosaic in 1993) een adresbalk hebben waar het adres van de pagina is te vinden. Dus 25 jaar van instructie moet nu bijgestuurd worden: “nee, niet het adres gebruiken dat je in de adresbalk ziet staan maar deze (minder informatieve, minder gezaghebbende, raar ogende) URL moet je gebruiken”. Yeah right.
Het Handle adres heeft sowieso een wat onzichtbaar bestaan. Niet alleen in de webpagina’s is deze vaak wat weggestopt. Ook het feit dat een Handle een “redirect” doet naar de uiteindelijke pagina, maakt dat de Handle niet zichtbaar is in de adresbalk van de browser.
Verhuisoperatie
De keuze van bovenstaand voorbeeld komt niet uit het niets. Het Nationaal Archief is bezig met het realiseren van een nieuwe website, waarbij onder andere gahetna.nl wordt ingeruild voor het (oude en vertrouwde) nationaalarchief.nl. Het Nationaal Archief maakt gebruik van Handles, dus zij staan voor de uitdaging om voor al hun Handles de nieuwe adressen te registreren.
Mooi, geen linkrot. Of toch wel.
Dat de Handle adressen ongewijzigd blijven (maar naar nieuwe locatie verwijzen) betekent helaas niet dat straks alle URL’s die zijn opgenomen in onderzoeken/publicaties blijven werken. Het zijn immers de http://www.gahetna.nl/ adressen die onderzoekers hebben opgenomen. Ik ben benieuwd of het Nationaal Archief statistieken heeft omtrent het gebruik van permalinks, ik verwacht dat dat minder dan minimaal is. Als het Nationaal Archief dus straks alle content van gahetna.nl naar nationaalarchief.nl heeft verhuisd en gahetna.nl uit de lucht haalt, hebben gebruikers toch weer te maken met niet werkende links!
Dit geldt ook voor zoekmachines als Google. Deze hebben een adres als http://www.gahetna.nl/collectie/archief/inventaris/gahetnascan/eadid/2.10.50/inventarisnr/353/afbeelding/NL-HaNA_2.10.50_353_0081 geïndexeerd, een link die straks dus niet meer werkt. Helaas, dat de pagina een Handle adres heeft die naar een nieuwe locatie wijst, ontgaat de spiders van de zoekmachines. Het Nationaal Archief staat dan dus weer op het beginpunt om al haar content bij Google et al. geïndexeerd te krijgen (dit wordt ook wel een SEO-fail genoemd).
Waarom outsourcen?
Het Handle systeem is eigenlijk een soort outsourcing van “voorzien van werkende links naar digitale objecten”. Gezien de communicatie problemen die Handles met zich meebrengen moet wellicht overwogen worden om zelf de verantwoordelijkheid te houden voor werkende links!
Waarom stelt het Nationaal Archief niet in haar eigen infrastructuur (lees: op haar webserver) in dat een pagina als http://www.gahetna.nl/collectie/archief/inventaris/gahetnascan/eadid/2.10.50/inventarisnr/353/afbeelding/NL-HaNA_2.10.50_353_0081 straks op https://www.nationaalarchief.nl/collectie/archief/inventaris/gahetnascan/eadid/2.10.50/inventarisnr/353/afbeelding/NL-HaNA_2.10.50_353_0081 (of iets dergelijks) staat? Technisch betekent dit het gahetna.nl domein een 301 Permanent redirect moet geven naar de nieuwe locatie. Dit is standaard webserver functionaliteit!
Het voordeel van deze aanpak:
- gebruikers die “oude” URL’s in hun onderzoek/publicatie hebben opgenomen zien zich niet geconfronteerd met dode links, ze komen gewoon bij de nieuwe locatie uit;
- je hoeft gebruikers niet meer uit te leggen wat Handles/permalinks/vaste urls zijn, het adres in de adresbalk werkt nu en in de toekomst (mits het digitale object een eigen URL heeft en niet een “zoekresultaat URL”…);
- door de “301 Permanent redirect” weten de zoekmachines ook de nieuwe locatie van bestaande content, dus goed voor SEO;
- puur een gevoel, maar deze aanpak is waarschijnlijk goedkoper dan implementatie van Handles.
Dus mijn oproep: hou “werkende links” in eigen hand, daar help je je gebruikers mee!
Een belangrijke rol van permanent identifiers is ook voor interne verwijzingen, bijvoorbeeld tussen een nadere toegang/index en de bijbehorende scan. Die scans hebben lang nog niet altijd een URL als de indexen gemaakt worden, bijvoorbeeld omdat de bron pas online komt als die samen met de index gepresenteerd kan worden, maar al wel een PID die later gemakkelijk omgezet kan worden in een handle.
Handles worden misschien niet veel gebruikt door bezoekers (ik heb geen cijfers daarover maar gebruik ze zelf wel in mijn bronvermeldingen), maar wel door de archieven zelf om de onderlinge verwijzingen tussen collectieonderdelen en vanuit aggregatoren werkend te houden.
De overgang van gahetNA naar Nationaalarchief geeft wel aan hoe weinig “perma” een domein hoeft te zijn. Door een handle te gebruiken hoeven de bronbestanden die verwijzen naar andere bronnen niet te worden aangepast.
> Een belangrijke rol van permanent identifiers is ook voor interne verwijzingen, bijvoorbeeld tussen een nadere toegang/index en de bijbehorende scan.
Absoluut, PID’s (en GUIDs) zijn van groot belang, maar die kunnen ook zonder Handles ingezet worden.
> Handles worden misschien niet veel gebruikt door bezoekers (ik heb geen cijfers daarover maar gebruik ze zelf wel in mijn bronvermeldingen), maar wel door de archieven zelf om de onderlinge verwijzingen tussen collectieonderdelen en vanuit aggregatoren werkend te houden.
In de data die ik aangeleverd krijg van archiefinstellingen voor Open Archieven zie ik nog niet veel Handles voorbij komen… Het Nationaal Archief is hierin een uitzondering, alhoewel ook nog niet consequent: in de laatste open data sets als Verkaufsbücher en Surinaamse slavenregisters missen Handles.
> De overgang van gahetNA naar Nationaalarchief geeft wel aan hoe weinig “perma” een domein hoeft te zijn. Door een handle te gebruiken hoeven de bronbestanden die verwijzen naar andere bronnen niet te worden aangepast.
Maar als het NA de gahetNA adressen in de lucht houdt en voorziet van redirects na nieuwe locatie hoeven de bronbestanden ook niet aangepast te worden.
Het probleem dat je signaleert is er zeker. Als je een adres url kopieert, heb je niet de handle, maar de mogelijk later gewijzigde url. Je idee om de permanente url’s binnen de eigen infrastructuur op te nemen, heeft als nadeel dat deze vaak in een bestaande applicatie worden gemaakt. Verandert men van applicatie dan zijn die permanente links ook weg. Het lijkt daarnaast niet handig als iedereen zijn eigen resolvers gaat inrichten. Domeinnamen en instellingen verdwijnen ook. Herbert van de Sompel heeft hier met zijn Memento project nog meer over nagedacht en oplossingen voorgesteld. In het algemeen vergt de oplossing veel meer historisch bewustzijn dan bij het management van de meeste instellingen aanwezig is.