Het gevecht met AI-bots

Wie een website beheert die veel data bevat, merkt dat het internet de afgelopen jaren sterk veranderd is. Waar je vroeger moeite moest doen om zoekmachines naar je website te laten komen, moet je tegenwoordig juist moeite doen om sommige automatische systemen buiten de deur te houden. Vooral systemen die worden gebruikt voor kunstmatige intelligentie (AI) kunnen een enorme belasting vormen.

In dit artikel leg ik uit hoe dat werkt en welke maatregelen nodig zijn om websites zoals Open Archieven en Genealogie Online bereikbaar te houden voor gebruikers (zowel mensen als machines).

Van zoekmachines aantrekken naar bots afremmen

Vroeger probeerde je juist zoekmachines naar je website te lokken. Hoe beter je website werd geïndexeerd, hoe makkelijker mensen je konden vinden via bijvoorbeeld Google of Bing.

Daarvoor bestaat een mechanisme dat robots.txt heet. Dat is een klein tekstbestand op een website waarin staat welke delen van de site automatisch bezocht mogen worden door zoekmachines en welke niet. Ook kun je daarin verwijzen naar een sitemap: een overzicht van alle pagina’s op een website zodat zoekmachines ze efficiënt kunnen indexeren.

Zo verwijst het robots.txt bestand van Open Archieven naar een zeer groot aantal sitemaps (met daarbinnen weer 2.371 sitemaps) om meer dan 118 miljoen pagina’s te laten indexeren.

De bekende zoekmachines houden zich netjes aan deze afspraken. Hun zogenaamde spiders (programma’s die websites automatisch bezoeken) volgen de instructies uit robots.txt en maken duidelijk wie ze zijn via een zogenaamde User Agent. Dat is een stukje tekst zoals Googlebot/2.1; +http://www.google.com/bot.html) dat een programma meestuurt bij elk verzoek aan een website, zodat de server weet met welk programma hij communiceert.

Veel AI-bots doen dat helaas niet.

Wanneer bots feitelijk een DDoS veroorzaken

Wanneer bots in grote aantallen en met hoge snelheid pagina’s opvragen, kan dat dezelfde gevolgen hebben als een DDoS-aanval. DDoS staat voor Distributed Denial of Service: een situatie waarin een website zoveel verzoeken ontvangt dat hij voor normale bezoekers traag wordt of zelfs helemaal onbereikbaar raakt.

Het verschil is dat een klassieke DDoS-aanval meestal bewust bedoeld is om een website uit de lucht te halen, terwijl AI-bots vaak “alleen maar” data willen verzamelen. In de praktijk kan het effect echter hetzelfde zijn: servers raken overbelast door de enorme hoeveelheid verzoeken. Zeker wanneer honderden verzoeken per seconde binnenkomen vanaf meerdere adressen tegelijk, kan een website daar ernstig onder lijden.

Daarom is het noodzakelijk om het gedrag van bots actief te monitoren en in te grijpen wanneer de belasting te hoog wordt.

AI-bots die zich voordoen als gewone bezoekers

Steeds vaker zie ik automatische systemen die:

zich voordoen als een gewone webbrowser
de regels in robots.txt negeren
enorme aantallen pagina’s opvragen

Sommige van deze bots sturen honderden verzoeken per seconde naar een website, vaak afkomstig van verschillende internetadressen tegelijk. Zo proberen ze in korte tijd complete websites te kopiëren om de inhoud te gebruiken voor het trainen van AI-modellen.

Voor websites met veel data kan dat grote gevolgen hebben, tot en met niet meer bruikbaar worden. Het in de lucht houden van diensten zoals Open Archieven en Genealogie Online vraagt daardoor steeds meer inspanning. Daarom heb ik verschillende maatregelen genomen.

Bots en spiders herkennen

Voor bepaalde verzoeken die veel rekenkracht kosten, wordt eerst gekeken of het verzoek afkomstig is van een bekende bot of spider. Dat is niet altijd eenvoudig. Je kunt bots wel gedeeltelijk via robots.txt weren, maar niet elke bot houdt zich aan die regels. Daarom wordt ook gekeken naar andere kenmerken, zoals:

de User Agent
het gedrag van het programma
de snelheid waarmee pagina’s worden opgevraagd

Op basis daarvan kan een server bepalen of een verzoek waarschijnlijk van een mens of van een geautomatiseerd systeem komt. Van een bekende entiteit of onbekende speler. Zo staan de IP-adressen van de zich identificerende GoogleBot, GPTbot (OpenAi) en zelfs Meta’s externalagent op de lijst van toegestane spiders.

Zwaardere functies achter een login

Een tweede maatregel is het plaatsen van sommige functies achter een gebruikersaccount.

Voor een mens is registreren en inloggen meestal maar een kleine stap. Voor veel bots is dat een stuk lastiger. Daardoor blijven zware functies – bijvoorbeeld uitgebreide zoekopdrachten – beschikbaar voor echte gebruikers, terwijl automatische systemen er moeilijker bij kunnen.

Dit helpt om de website snel en stabiel te houden.

Het beperken van het aantal verzoeken

Open Archieven biedt ook een API aan. Dat is een programmeerinterface waarmee andere software automatisch gegevens kan opvragen. De API wordt onder andere door Open Archieven zelf gebruikt, maar ook door onderzoekers en ontwikkelaars. Helaas maken ook AI-agents en bots er soms intensief gebruik van.

Daarom geldt er een snelheidslimiet: per internetadres mogen maximaal vier verzoeken per seconde worden gedaan. Komt er sneller verkeer binnen, dan geeft de server de foutmelding 429 – Too Many Requests terug (dit betekent letterlijk: “je doet te veel verzoeken”).

Onderzoekers die legitiem meer capaciteit nodig hebben, kunnen dat aanvragen. Dan wordt bekeken of een hogere limiet mogelijk is. In veel gevallen kunnen onderzoekers ook geholpen worden met de open data die Open Archieven ook beschikbaar stelt.

Het blokkeren van IP-adressen

Een laatste maatregel is het blokkeren van bepaalde internetadressen. Elke computer op internet heeft een IP-adres: een uniek nummer waarmee het apparaat te bereiken is. Vaak worden bots niet vanaf één adres gestuurd, maar vanuit hele reeksen adressen van over heel de wereld.

Daarom worden voortdurend de serverlogboeken bekeken. Daarin staat onder andere:

hoeveel verzoeken per seconde een adres doet
uit welk netwerk het verkeer komt
welke User Agent wordt gebruikt

Wanneer een adres een bepaalde drempel overschrijdt, verschijnt het in een rapport. Daarbij wordt ook gekeken naar extra informatie, bijvoorbeeld via diensten zoals ipinfo.io of AbuseIPDB, die bijhouden of andere websites ook problemen hebben met hetzelfde adres.

Als blijkt dat een adres structureel misbruik maakt van de site, wordt niet alleen dat ene adres geblokkeerd, maar vaak meteen een hele reeks adressen. Dat gebeurt bijvoorbeeld door een netwerk zoals 104.248.112.0/20 op de firewall te blokkeren. Het analyseren van logboeken en het blokkeren van verdachte adressen gebeurt grotendeels automatisch.

EU dienstverlening

Sommige website rennen naar de dienstverlener Cloudflare om bescherming in te kopen.

Ik maak liever geen gebruik van Amerikaanse dienstverleners, ook ter bescherming van de privacy van mijn gebruikers. Een Europees alternatief is OVHcloud, maar ik heb geen behoefte aan hun dienstverlening door bovengenoemde maatregelen die ik zelf kon implementeren (en elke technische onderlegde organisatie zelf ook kan nemen).

Een nieuw evenwicht op het web

Het web is gebouwd om informatie toegankelijk te maken. Dat principe staat nog steeds overeind. Maar de opkomst van grootschalige AI-systemen zorgt ervoor dat websites steeds vaker moeten balanceren tussen openheid en bescherming.

Het doel blijft hetzelfde: informatie en diensten beschikbaar houden voor mensen. Alleen vraagt dat tegenwoordig meer technische maatregelen dan vroeger.

Doorzoek alle artikels

Doorzoek alle stambomen

Doorzoek Open Archieven

Doorzoek Wie (onder)zoekt wie?

Doorzoek discussies

Het gevecht met AI-bots

Van zoekmachines aantrekken naar bots afremmen

Wanneer bots feitelijk een DDoS veroorzaken

AI-bots die zich voordoen als gewone bezoekers

Bots en spiders herkennen

Zwaardere functies achter een login

Het beperken van het aantal verzoeken

Het blokkeren van IP-adressen

EU dienstverlening

Een nieuw evenwicht op het web

Geef een reactie Reactie annuleren

Over de auteur

Recente berichten

Recente reacties

Archieven