Robots.txt maken

Wat is een robots.txt?

Een robots.txt gebruik je om delen van je website af te schermen voor spiders van zoekmachines. Zo vermijd je dat die onbelangrijke, gelijkaardige of verboden pagina’s indexeren. Met een robots.txt tekstbestand hou je dus het crawlverkeer op je website onder controle.

Voor jouw website in de zoekresultaten verschijnt, moet hij eerst geïndexeerd worden. Dat doen zoekmachines op basis van gegevens die verzameld worden door hun crawlers, spiders of robots. Met een robots.txt zeg je tegen de crawlers: “Deze URL’s mag je wel bezoeken en deze niet”. Het wordt daarom ook wel een Robots Exclusion Protocol (REP) of Robots Exclusion Standard (RES) genoemd. Zonder zo’n bestand mogen alle spiders al je pagina’s crawlen, indexeren en ranken.

Een robots.txt maken is relatief eenvoudig maar niet zonder risico. Je wilt niet per ongeluk Googlebot overal blokkeren. In deze technische SEO gids ontdek je of je een robots.txt nodig hebt en hoe je het zelf schrijft én test.

Waar bewaar je de robots.txt?

Een robots.txt hoort in de hoofddirectory of root van je website. Daar belandt een crawler normaal gezien als eerste. Als hij een robots.txt ontdekt, leest hij het onmiddellijk uit. Zo weet hij welke actie hij zeker wel of net niet mag ondernemen.

In de hoofddirectory vind je trouwens ook de XML sitemap. Die wordt soms ook vermeld in de robots.txt.

Hoe ziet een robots.txt eruit?

Meestal bevat een robots.txt slechts enkele lijnen. Een duidelijk voorbeeld vind je op www.digital-climax.be/robots.txt. Wil je controleren of je zelf een robots.txt hebt? Geef dan de home page van je website in met daarachter /robots.txt.

Wat staat er in een robots.txt?

Een robots.txt bevat doorgaans enkele verschillende termen.

  • User-agent: duidt de crawler of crawlers aan waarvoor de volgende regel geldt
  • Allow: deze pagina of pagina’s mag de robot in de regel erboven crawlen
  • Disallow: op deze pagina of pagina’s is de robot in de regel erboven niet welkom
  • Crawl-budget: geeft spiders een wachttijd na elke actie, bijvoorbeeld 5 seconden
  • Sitemap: voeg hier nog eens de URL naar je sitemap toe

De drie eerste commando’s combineer je op verschillende manieren.

Voorbeelden van robots.txt

User-agent: *
Allow: /

Alle spiders mogen alles crawlen. Fijn dat je het aangeeft, maar dit is de standaardinstelling. Bespaar je de moeite en laat het bestand leeg. Of voeg er simpelweg gewoon geen toe.

User-agent: spambot
Disallow: /

De spider van ‘spambot’ mag geen enkele pagina crawlen. Stel dat ‘spambot’ rondcrawlt zodat ‘spamsearch’ websites indexeert en rankt. Wie dan naar jouw bedrijf gaat zoeken op ‘spamsearch’, vindt jouw website niet in de zoekresultaten.

User-agent: Googlebot
Disallow: /secret.html

De robot van Google mag alles crawlen, behalve de pagina ‘secret’.

User-agent: Baiduspider
Disallow: /secret/

De spider van Baidu mag alles crawlen, behalve de submap ‘secret’.

User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /

De crawler van Google heet je hartelijk welkom op je website. Alle andere spiders worden vriendelijk verzocht jouw pagina’s links te laten liggen.

Zelf een robots.txt maken

Eenmaal je de regels door hebt, is een robots.txt maken is niet heel moeilijk. Je volgt deze vier stappen.

1) Open je robots.txt

Je kladblok is de ideale tool om een robots.txt te maken. Let op de juiste naam:

  • Gebruik zeker het meervoud ‘robots’, het bestand robot.txt gaan crawlers niet vinden.
  • Gebruik kleine letters, geen hoofdletters.
  • Gebruik het juiste formaat, het is belangrijk dat het een .txt-bestand is.

2) Schrijf je robots.txt

Een robots.txt bestaat uit meerdere regels, in twee betekenissen van het woord: elk commando staat op een aparte lijn. Je begint telkens met het aanduiden van de ‘user-agent’, gevolgd door ‘allow’ of ‘disallow’. Zo weet die spider welke pagina’s hij wel en niet mag indexeren.

Tip

Een klassieker: vergeet niet je bestand op te slaan. Dat moet gebeuren in een UTF-8 gecodeerd tekstbestand.

3) Upload je robots.txt

Hoe je je bestand aan je website toevoegt, hangt af van je site, server en host. Een online zoektocht vertelt je waarschijnlijk al meer. Speel je vraag anders door aan je host. Of neem contact op met ons, we helpen je graag verder.

Tip

Je robots.txt is alleen geldig voor het domein waar je hem aan toevoegt. Deze drie domeinen hebben drie aparte robots.txt-bestanden nodig:

  • https://www.voorbeeld.be
  • http://www.voorbeeld.be
  • https://voorbeeld.be

De verschillen tussen deze drie ontdek je in onze domeinen gids.

4) Test je robots.txt

Een eerste test is natuurlijk even surfen naar www.jouwdomeinnaam.jouwextensie/robots.txt. Als je bestand daar verschijnt, ben je klaar voor de tweede ronde.

De robots.txt Tester van Google geeft eventuele fouten aan. Bovendien heb je de mogelijkheid om te testen of specifieke URL’s correct geblokkeerd of net niet worden.

Een andere handige tool hiervoor is de robots.txt Validator and Testing Tool. Voer je URL en de agent in en bewerk je tekstbestand indien nodig. 

Is alles in orde? Dan hoef je verder geen actie te ondernemen. De crawlers ontdekken en gebruiken vanzelf jouw robots.txt.

Waarvoor werkt een robots.txt niet?

Een robots.txt is absoluut geen slot op de deur dat ongewenste bezoekers buiten houdt. Het gaat om een set richtlijnen, geen harde wetten. De meeste malwarebots negeren dan ook met veel plezier deze bestanden.

Bovendien is je robots.txt voor iedereen toegankelijk. Door simpelweg het adres in te geven ontdekt jouw bezoeker welke delen van je website jij liever niet in de zoekresultaten ziet verschijnen. Gevoelige informatie beveilig je dus beter met een wachtwoord of zet je simpelweg niet online.

De aanwezigheid van een robots.txt vormt geen garantie dat de onderdelen die je ‘disallowt’ niet in de zoekresultaten verschijnen. Dat gebeurt bijvoorbeeld wel wanneer Google een backlink naar die pagina’s vindt. De URL’s staan dan wel in de SERP zonder beschrijving. Wil je toch enkele pagina’s uit de zoekresultaten halen? Dan zijn meta tags zoals noindex een betere optie.

Heb jij een robots.txt nodig?

Het antwoord op die vraag hangt af van verschillende factoren. Wat voor website heb je, welke pagina’s staan daarop, welke bezoekers wil je naar welke pagina halen en waar wil je ze liever niet zien?

Over het algemeen is het antwoord: ja, je hebt een robots.txt bestand nodig. Het helpt je crawlers te sturen en heeft dus een impact op je algemene zoekmachine optimalisatie.

Vraag je je af of je een robots.txt nodig hebt? Contacteer ons gerust, dan bekijken we het samen.

Inhoudsopgave