maandag 4 januari 2016

Archieven: geef ons vaste URL’s, die werken!

Op 1 juli 2015 schreef ik het artikel Archieven: geef ons vaste URL’s!. Bij nader inzien, had ik de titel moet uitbreiden met "die werken", hieronder het waarom.

Handle systeem

Eén van de technologieën die ingezet kan worden om vaste URL's te implementeren is het Handle systeem:
The Handle System is a technology specification for assigning, managing, and resolving persistent identifiers for digital objects and other resources on the Internet.
In simpele termen: je registreert het adres van een digitaal object bij het Handle systeem, dit resulteert in een uniek adres dat via handle.net beschikbaar wordt gesteld en dat doorverwijst naar het geregistreerde adres. Wanneer nu het digitale object verhuist (nieuwe domeinnaam, nieuwe website technologie, enz.) dan kun je het nieuwe adres doorgeven aan het Handle systeem. Het handle.net adres (de persistent identifier) blijft ongewijzigd, maar verwijst door naar het vernieuwde adres. Zo lang je - als gebruiker - de handle.net adressen gebruikt èn de organisatie zorgt dat de verwijzingen blijven kloppen, heb je vaste URL's, die werken.

Vind de vaste URL's

Het Nationaal Archief biedt al heel wat open data aan, waaronder nadere toegangen met historische persoonsgegevens. Interessant materiaal dus om op te nemen op Open Archieven! In Archieven: geef ons vaste URL’s! noemde ik GaHetNa, de website van het Nationaal Archief, als voorbeeld van een website die vaste URL's biedt. Elk pagina behorend bij een record (als rij in een database tabel) in de nadere toegang toont ook weer de vaste URL (zie voorbeeld):


PS 1. Waarom wordt de vaste URL in een te klein invoerveld getoond?

PS 2. Waarom gebruikt het Nationaal Archief proxy.handle.net en de rest van de wereld (de canonical name) hdl.handle.net?

PS 3. Als hdl.handle.net als domeinnaam wordt gebruikt dan kan er ook https gebruikt worden (https://hdl.handle.net/), wat de betrouwbaarheid verhoogd! Alleen jammer dat gahetna.nl nog geen https is...


Je zou verwachten dat de open nadere toegangen, die beschikbaar wordt gesteld in CSV bestanden (en beschrijvende XML bestanden), ook de vaste URL's bevatten. Helaas, niet helemaal...

Bij records waar ook een afbeelding (scan of foto) beschikbaar is, wordt er in het CSV bestand wel een vaste URL opgenomen naar de afbeelding, niet naar het record. Het aparte is trouwens dat op pagina's op GaHetNa waar een afbeelding wordt getoond geen vaste URL wordt getoond (vergelijk pagina zonder afbeelding en pagina met afbeelding).

Elk record in het CSV bevat altijd wel een UUID. Door deze UUID achter het adres http://proxy.handle.net/10648/ (of beter: https://hdl.handle.net/10648/) te plakken blijk je de vaste URL te krijgen (is helaas ongedocumenteerd).

Bij het inlezen van de open data van het Nationaal Archief op Open Archieven besloot ik om voor de links terug naar GaHetNa de vaste URL's te gebruiken. Dus op bijv. de registratie van gevangene Arnoldus Hermanus Pastoor (met foto!) een link naar http://proxy.handle.net/10648/bc95b636-a2cc-102e-9b80-0050569c51dd in plaats van http://www.gahetna.nl/collectie/index/nt00422/bc95b636-a2cc-102e-9b80-0050569c51dd. Althans dat was het idee...

Vind de niet-werkende vast URL's

Bij het verwerken van de open data viel het mij op dat sommige vaste URL's niet naar de gewenste pagina's leiden! De verwijzing leidt hierbij niet naar een herkenbare "404 Page not found" maar naar de index van alle indexen. Analyse van 47 nadere toegangen met 632.315 (afgeleide) vaste URL's leerde dat 167.942 (27%) vaste URL's niet naar de juiste URL doorverwijzen. Hieronder een weergave per nadere toegang.


Correctie niet-werkende vaste URL's

Alle niet-werkende vaste URL's hebben last van hetzelfde probleem. Een voorbeeld: de vaste URL
http://proxy.handle.net/10648/964aeb04-ff17-102c-aa81-005056a23d00 leidt de gebruiker naar http://www.gahetna.nl/collectie/index#/nt00212/964aeb04-ff17-102c-aa81-005056a23d00 in plaats van http://www.gahetna.nl/collectie/index/nt00212/964aeb04-ff17-102c-aa81-005056a23d00 (voor diegenen die het verschil niet zien, hieronder een hint).

Westerdam. Publiek wacht voor hek (18 juli 1947), door D. Moedrik / Anefo, CC-BY licentie Nationaal Archief

Dit euvel is vrij eenvoudig op te lossen. Het Nationaal Archief dient van alle niet-werkende vaste URL's (download overzicht) bij het Handle systeem het correcte adres van het digitale object door te geven. Maar ook adviseer ik hen (en andere organisaties die met vaste URL's werken of gaan werken) om een controle proces rondom vaste URL's in te richten. Dan hebben we vaste URL's, die blijven werken!

PS 4. weer een mooi voorbeeld dat laat zien dat open data kan leiden tot kwaliteitsverbetering!