Page content

article content

Robots.txt inzetten voor een betere website kwaliteit en indexatie

Door de jaren heen is duidelijk geworden dat de algemene kwaliteit waar je website over beschikt voor Google stelselmatig belangrijker is geworden. Niet alleen content met een slechte kwaliteit, maar ook duplicate content wordt genadeloos afgestraft. In het bijzonder de impact die dergelijke content heeft op de ranking van je website is door de jaren heen sterk veranderd. Plaatste je vroeger één pagina met duplicate content op je website? Dan bleef de schade veelal beperkt tot die specifieke pagina. Tegenwoordig zal je echter kunnen vaststellen dat je volledige website daaronder te lijden heeft. De verhouding tussen goede en foutieve content is dan ook iets waar je tegenwoordig absoluut de nodige aandacht aan dient te spenderen. Wat veel mensen (nog) niet weten is dat ook de zogenaamde ‘robots.txt’ daar een niet onbelangrijke factor in kan vormen. Ben jij benieuwd naar de manier waarop je de kwaliteitsverhouding van jouw website kan verbeteren met behulp van de robots.txt? In dat geval is het zeker de moeite waard om dit blogartikel even uitgebreid door te nemen.

Kennismaking met Robots.txt

Iedereen die een eigen website heeft of beheerder is van een website moet vandaag de dag echt wel weten wat een robots.txt bestand nu precies is. Voor zij die het nog niet weten hebben we even een korte uitleg geformuleerd. Het gebruik van een robots.txt bestand zorgt er in de praktijk voor dat je de mogelijkheid hebt om de toegang tot je website of bepaalde delen daarvan te beperken voor de zoekmachine robots die het internet crawlen. Dergelijke robots zijn volledig geautomatiseerd waardoor ze voordat ze een website te bezoeken telkens controleren of deze beschikt over een robots.txt bestand of niet. Is dat geval? Dan wordt er meteen gecontroleerd welke pagina’s er mogelijks over een beperking op crawling beschikken.

Door gebruik te maken van een robots.txt bestand beschik je dus met andere woorden over de mogelijkheid om duidelijk te maken aan de zoekmachinerobots welke pagina’s ze wel mogen crawlen en welke niet. Dit bestand moet altijd in de zogenaamde ‘root’ van de website staan. Dit moet er voor zorgen dat ze kan worden opgevraagd door middel van de volgende url: ‘https://www.jouwwebsite.nl/robots.txt’. Heb jij een website waarbij er sprake is van één of mogelijks zelfs meerdere subdomeinen? In dat geval dient elke subdomein over diens eigen robots.txt bestand te beschikken.

De ‘User-agent’ instructie

Een robots.txt bestand is in principe opgebouwd uit tal van verschillende instructies die aan de bot gegeven worden. Een eerste belangrijke instructie die je moet kennen is de ‘user-agent’ instructie. Hiermee kan je de regels instellen die per user-agent kunnen verschillen. Een user-agent kan het best worden omschreven als het programma welke toebehoort aan een bepaalde netwerkfunctie of een specifiek protocol. De user-agent van Google voor het crawlen van webpagina’s heeft de naam ‘Googlebot’ gekregen. Er wordt door Google gebruik gemaakt van verschillende user-agents. Voor Google Afbeeldingen noemt deze namelijk niet ‘Googlebot’, maar wel ‘Googlebot-Images’. Wil jij graag alle bots die je website bezoeken dezelfde instructies geven? In dat geval kan dat zeer eenvoudig als volgt: User-agent: *

De ‘Allow’ instructie

Een tweede instructie waar je gebruik van kan maken in je robots.txt bestand is de zogenaamde ‘Allow’ instructie. Door gebruik te maken van deze instructie is het mogelijk om zowel folders als pagina’s toe te staan voor een bot. Standaard worden alle pagina’s toegestaan. Toch, voor de volledigheid wordt er vaak voor gekozen om deze instructie als volgt te vermelden in de robots.txt: Allow: /

De ‘Disallow’ instructie

Zou je er graag voor willen zorgen dat bepaalde, specifieke pagina’s worden uitgesloten voor Google? In dat geval is het mogelijk om daarvoor gebruik te maken van de ‘disallow’ instructie. Het kan hierbij gaan om pagina’s die je omwille van diens inhoud bij voorkeur niet in de index wil opgenomen zien worden. Echter wordt de disallow instructie ook vaak gegeven aan pagina’s die over een beperkte kwaliteit beschikken of die bijvoorbeeld (deels) bestaan uit duplicate content. Het gebruik van de disallow functie kan er in de praktijk als volgt uitzien:

Disallow: /folder/

Disallow: /pagina.html

Filters, een meerwaarde voor je bezoekers

Gebruikmaken van zogenaamde ‘filters’ brengt vooral een meerwaarde met zich mee voor je bezoekers. Door gebruik te maken van filters beschikken bezoekers namelijk over de mogelijkheid om een zeer ruime selectie terug te dringen tot een veel beknoptere uitvoering. Zo wordt een selectie van honderden producten al snel herleid tot bijvoorbeeld 10 producten. De resterende producten kunnen dan perfect in lijn liggen met de selectiecriteria welke door de bezoeker in kwestie zijn ingesteld. Dit gezegd zijnde is er ook een niet onbelangrijk nadeel verbonden aan filters. Ze kunnen er namelijk voor zorgen dat er heel wat verschillende pagina’s zullen komen te ontstaan. Dit heeft alles te maken met het feit dat er diverse filters actief kunnen zijn waardoor er meerdere URL’s worden gecreëerd. Dergelijke URL’s zijn eveneens beschikbaar voor zoekmachines en beschikken in de praktijk in principe over nauwelijks of zelfs helemaal geen (unieke) content.

Bovenstaande is een belangrijke factor om rekening mee te houden bij het bepalen van de kwaliteit van je website. Filters zorgen er namelijk voor dat er heel wat low-quality content ontstaat en bovendien slurpen ze het beschikbare crawl budget behoorlijk op. Het mag dan ook duidelijk zijn dat het altijd een goed idee kan zijn om er voor te kiezen om deze uit te sluiten. Sluit overigens niet zomaar alle filters uit. Het is belangrijk dat je alleen die filters gaat uitsluiten welke niet over een toegevoegde waarde beschikken op vlak van content. Ook filters waar mensen niet naar zoeken kunnen worden uitgesloten. Dit laatste wordt duidelijk op het ogenblik dat je er bij het bouwen van je website voor kiest om een grondige keyword analyse uit te voeren. Wil je graag bepaalde filters uitsluiten? Dan kan dat er in de praktijk als volgt uit komen te zien:

# Filters

Disallow: /*kleur=

Disallow: /*maat=

Disallow: /*materiaal=

Paginering

Paginering staat eigenlijk voor het opdelen van content over verschillende pagina’s. Wat veel mensen niet weten is dat er op deze manier ook low-quality content evenals duplicate content kan ontstaan. In principe is het mogelijk om het robots.txt bestand op dit vlak de perfecte oplossing te laten bieden, maar vaak is het in de praktijk interessanter om te kiezen voor een correcte, technische implementatie die wordt gecombineerd met de robots meta tag.

Bovenstaande klinkt natuurlijk vrij complex, maar in de praktijk valt dat best wel mee. We geven je een concreet voorbeeld. Neem nu bijvoorbeeld dat je over een categorie beschikt ‘dames kleding’. Deze categorie is opgedeeld over vijf verschillende pagina’s. De URL van de eerste pagina is https://www.jouwwebsite.nl/dames/kleding en de URL van de tweede pagina is https://www.jouwwebsite.nl/dames/kleding?p=1. Het spreekt voor zich dat dit absoluut niet de meest ideale situatie is, in tegendeel. Door de correcte instructie op te nemen in jouw robots.txt bestand is het mogelijk om dit uit te sluiten:

# Paginering

Disallow: /*p=1$

Let op! Het is zeer belangrijk om aandachtig te zijn voor het $ teken welke op het einde wordt weergegeven. Zonder dit teken zal je namelijk eveneens pagina 10, 11, 12, etc. gaan uitsluiten omdat deze allemaal overeenkomen met de disallow instructie. Zoals eerder reeds aangegeven is het in principe beter om een technische implementatie te voorzien. In dit geval wordt er namelijk voor gezorgd dat er niet zoiets kan bestaan als ?p=1.

In principe is het zo dat de pagina’s van pagina twee op vlak van content niet zoveel zullen toevoegen voor wat de waarde van je website betreft. Het spreekt evenwel voor zich dat je wel graag zal willen dat een zoekmachine alle producten kan vinden. Bovendien is het ook vanzelfsprekend dat je mogelijke waarde van inkomende links zal willen doorgeven. Dit betekent evenwel niet dat de pagina’s daarvoor moeten voorkomen in de index van Google.

Sortering

Een beetje in lijn met paginering ligt ook sortering. Op heel wat e-commerce websites kom je dan ook een optie tegen zoals bijvoorbeeld ‘sorteer op prijs’. Een andere optie kan zijn ‘toon 20 producten per pagina’. Op het ogenblik dat je een dergelijke optie hebt geselecteerd kan je vaak vaststellen dat er bepaalde parameters aan een URL worden toegevoegd. Het kan daarbij gaan om bijvoorbeeld ‘dir=asc’ of ‘order=price’. Op het ogenblik dat er voor wordt gekozen om parameters aan een URL toe te voegen wordt er in principe telkens een unieke URL gecreëerd. Echter geeft deze wel telkens (hetzij in een andere volgorde) dezelfde content weer. Het spreekt voor zich dat er ook in dit geval aldus sprake is van een bepaalde vorm van duplicate content. Het uitsluiten van sortering kan als volgt worden gerealiseerd:

# Sorting

Disallow: /*dir=

Disallow: /*order=

Disallow: /*limit=

Zoekresultaten

Het merendeel van de websites maken het tegenwoordig mogelijk voor hun bezoekers om te zoeken naar bepaalde content of producten. Ook bij een open source systeem zoals bijvoorbeeld Magento wordt deze mogelijkheid aangeboden. Echter valt het vaak al snel op dat deze zoekopdrachten eveneens verschijnen in de index van Google. Ook dit is een doorn in het oog van elke website beheerder omdat het ook hierbij gaat om pagina’s die eigenlijk weinig tot niets toevoegen aan de waarde van je website. Omwille van deze reden doe je er goed aan om preventief alle zoekresultaten op een website uit te sluiten voor een zoekmachine zoals bijvoorbeeld Google. Dit kan je realiseren op de volgende manier:

#Search

Disallow: /catalogsearch/

Disallow: /*s=

Let wel, in het laatst aangegeven voorbeeld is het belangrijk dat de ‘S’ moet worden vervangen door de parameter welke aan een URL wordt toegevoegd op het ogenblik dat er op de website in kwestie een zoekopdracht wordt uitgevoerd.

Session ID’s

Het is iedereen die al wel eens aan online shopping heeft gedaan ongetwijfeld opgevallen dat het mogelijk is dat een webwinkel bepaalde artikelen die je aan je winkelmandje hebt toegevoegd weet te onthouden. Dit wordt mogelijk gemaakt door een unieke identifier aan jouw bezoeksessie te koppelen. Het onthouden van dergelijke ID’s wordt mogelijk gemaakt door ze op te slaan in een cookie. Anderzijds kunnen ze eveneens worden opgenomen als een parameter in de URL.

Deze laatste methode zorgt er in de praktijk voor dat er telkens een nieuwe ID per sessie wordt toegekend. Dit betekent concreet dat er per sessie allemaal nieuwe URL’s worden aangemaakt met steeds dezelfde content. Ook in dit geval is het voor de hand liggend dat dit in de praktijk steeds zorgt voor de nodige problemen op vlak van duplicate content. Bovendien zal het op deze manier ook erg lang duren voordat jouw producten in de index van Google te zien zullen zijn. Verschillende open source systemen maken gebruik van herkenbare session ID’s, namelijk:

  • Magento maakt gebruik van SID;
  • osCommerce maakt gebruik van osCsid;
  • Zen Cart maakt gebruik van zenid;

Er voor kiezen om deze parameters uit te sluiten is een eerste stap in de juiste richting. Echter bieden verschillende systemen je ook de mogelijkheid om gebruik te maken van session ID’s door middel van cookies of URL’s. In dat geval is het uiteraard het interessantst om voor het eerste te kiezen.

# Session ID’s

Disallow: /*SID=

Disallow: /*osCsid=

Disallow: /*zenid=

XML Sitemap

Gebruikmaken van een HTML of een XML sitemap is doorgaans erg handig voor een zoekmachine. Op deze manier is er namelijk op één enkele (grote) pagina een overzicht terug te vinden van alle URL’s die deel uitmaken van jouw website. In het merendeel van de gevallen is een XML sitemap aan te raden. Dit is in het bijzonder het geval wanneer er sprake is van een grote hoeveelheid aan URL’s zoals bijvoorbeeld in een webshop vaak het geval is. De locatie van de XML sitemap kan echter niet rechtstreeks door een zoekmachine worden achterhaald. Omwille van deze reden moet je er voor zorgen dat je deze zelf bekend gaat maken. Dit kan gebeuren door ze te uploaden in Google Webmaster Tools. Anderzijds is het ook mogelijk om de locatie als regel toe te voegen aan het robots.txt bestand. Op deze manier zal elke bot zonder probleem de locatie van je XML sitemap weten te achterhalen. Het opnemen van deze locatie in je sitemap dient als volgt te gebeuren:

# Sitemap

Sitemap: https://www.domein.nl/sitemap.xml

Het ontdekken van parameters in Google Search Console

Heb je, je website volledig nagelopen en bijgevolg ook gecontroleerd op niet alleen duplicate content, maar ook low-quality issues? In dat geval kan je gebruikmaken van Google Search Console om na te gaan of je robots.txt echt compleet is of niet. Via Site configuratie > URL-parameters > URL-parameters configureren is het mogelijk om een overzicht aan parameters terug te vinden die door Google tijdens het crawlen zijn ontdekt. Rechts van elke parameter bevindt zich een link ‘bewerken’. Deze maakt het mogelijk voor jou als beheerder van de website om zelf regels in te stellen via Webmaster Tools. Bovendien kan je op deze manier eveneens voorbeeld URL’s bekijken. Controleer dus zeker of je alle belangrijke parameters hebt uitgesloten die mogelijks voor problemen zouden kunnen zorgen.

Het testen van je robots.txt bestand in Google Search Console

Is je robots.txt bestand volledig klaar? In dat geval kan je deze online plaatsen. Het is evenwel verstandiger om de regels eerst te testen. Het spreekt namelijk voor zich dat je niet zomaar per ongeluk alle belangrijke content voor je website wil gaan uitsluiten. Google Search Console maakt het gelukkig voor jou mogelijk om je robots.txt bestand te testen aan een bepaalde hoeveelheid aan URL’s. Wil je er bijvoorbeeld zeker van zijn dat je niet per ongeluk iets gaat uitsluiten? In dat geval kopieer je in Google Analytics de top 50 of top 100 bestemmings-URL’s door middel van organisch verkeer. Vervolgens kunnen deze worden getest. Het testen is mogelijk door te surfen naar Site configuratie > Crawler toegang.

In eerste instantie dien je, je robots.txt te kopiëren en te plakken in de eerste tekstbox. Vervolgens kan je de top 50 of 100 (naar jouw keuze) bestemmings-URL’s in de tweede tekstbox plakken. Klik vervolgens op ‘testen’ en je zal meteen per regel kunnen vaststellen of een bot de mogelijkheid heeft om de URL in kwestie te crawlen of niet.

Comment Section

0 reacties op “Robots.txt inzetten voor een betere website kwaliteit en indexatie

Plaats een reactie


*


This site uses Akismet to reduce spam. Learn how your comment data is processed.