Crawler

Wat is een crawler?

Een crawler is een robot van een zoekmachine die door je website gaat om hem te indexeren. Andere namen voor een crawler zijn bot, robot of spider. Ze gaan door je hele website en vormen een beeld van hoe je website gestructureerd is, welke pagina’s er zijn en wat er op die pagina’s te vinden is.

Crawler Googlebot

Wat is crawlen?

Crawlen is het doorzoeken of verkennen van een website om de inhoud te kunnen indexeren. Je kan het een beetje vergelijken met analyseren. Dat gebeurt door een robot die alle relevante informatie opneemt in de zoekmachine. Crawlen is belangrijk voor het bepalen van de juiste positie van een website in de Google zoekresultaten.

Google’s crawler: Googlebot

De robot van Google heet Googlebot. Die bestaat uit twee types crawlers: Googlebot Desktop en Googlebot Smartphone. Zoals de naam zelf zegt, simuleert de ene een deskstopgebruiker en de andere een smartphonegebruiker. Naast deze twee grote types, zijn er nog andere soorten. Zo kennen we ook: Adsbot, Googlebot Image, Googlebot News, … en vele anderen.

Andere zoekmachines hebben ook elk hun eigen crawlers.

 

Hoe werkt een crawler?

Een crawler gebruikt sitemaps en databases van links vanuit zijn vorige zoektochten om te bepalen waar hij als volgende naartoe gaat. Komt de robot een nieuwe link tegen op een website? Dan zet hij die op zijn lijst van pagina’s om als volgende te bezoeken. Als hij een gewijzigde of foutieve link tegenkomt, maakt hij daar een notitie van zodat de index geüpdatet kan worden. Om ervoor te zorgen dat Googlebot je website correct kan indexeren, moet je de crawlability van je site checken.

 

Crawlability

Crawlability zegt iets over de mogelijkheden die Google heeft om je website te crawlen. Het is namelijk mogelijk om crawlers van je website te blokkeren. Dat kan op de volgende manieren:

 

  • Een robots.txt file blokkeert de crawler;
  • De HTTP header bevat een status code. Als die code zegt dat je website niet bestaat, zal Google je website niet crawlen;
  • Als de robots meta tag op een pagina de zoekmachine verhindert om de pagina te indexeren. De Googlebot kan de pagina dan nog steeds crawlen, maar hij zal die pagina niet toevoegen aan zijn index.

 

Crawlbudget

Het crawlbudget van een website is het aantal pagina’s op je website dat Google dagelijks kan en wil crawlen. Dat aantal kan dagelijks licht variëren maar op lange termijn blijven deze afwijkingen vaak in lijn. Je crawlbudget is afhankelijk van de crawl rate limiet en de crawl demand.

De crawl rate limiet zorgt ervoor dat de gebruikerservaring niet in het gedrang komt wanneer spiders je website gaan crawlen. Je website zal dus niet trager worden omdat Google op jouw website aan het rondneuzen is.

Ook als de crawl rate limiet niet bereikt wordt en er geen vraag is naar indexatie (crawl demand), zullen er toch crawlers op je website langskomen, maar met een héél lage activiteit. Door regelmatig nieuwe content te plaatsen, komen spiders regelmatig terug naar jouw website en verhoog je de crawl demand.

Ook de populariteit van je website heeft een invloed. Een populaire website wordt vaker gecrawled dan een minder populaire website.

Is jouw website goed toegankelijk voor de spiders? Dan komen ze vaker langs. Kijk dus zeker goed na of je website niet onbedoeld de crawlers blokkeert. Crawlers geven je immers de mogelijkheid om goed te worden gevonden in Google.

Inhoudsopgave