Robots.txt inzetten voor betere kwaliteit en indexatie

De afgelopen jaren is het steeds duidelijker geworden dat Google meer waarde is gaan hechten aan de algemene kwaliteit van je website. Niet alleen content met een slechte kwaliteit, maar ook duplicate content wordt genadeloos afgestraft. Vooral de invloed die slechte content heeft op de ranking van je website hebben we de afgelopen jaren sterk zien veranderen. Plaatste je vroeger bijvoorbeeld één pagina met duplicate content op je website? Dan werd alleen de ranking van deze specifieke pagina negatief beïnvloed. Tegenwoordig zal echter je gehele website lijden onder deze foutieve content. Hierdoor is het tegenwoordig dan ook van groot belang om aandacht te besteden aan de verhouding tussen goede en foutieve content. Door gebruik te maken van de zogenaamde ‘robots.txt’ is het mogelijk om deze verhouding in goede banen te leiden. Wil jij meer weten over het gebruik van robots.txt en hoe dit de ranking van jouw website op een positieve manier kan beïnvloeden? Lees dan verder voor meer informatie.

Kennismaking met robots.txt

Wij zijn van mening dat iedereen die vandaag de dag een eigen website of webshop heeft echt wel moet weten wat een robots.txt bestand nu precies is. Voor de mensen die hier nog niet bekend mee zijn zullen we dit even kort toelichten. Het gebruik van een robots.txt zorgt er in de praktijk voor dat je de mogelijkheid hebt om de toegang tot je website of bepaalde delen van je website te beperken voor de robot van de zoekmachine. Deze robots worden ook wel ‘crawlers’ genoemd en zijn volledig geautomatiseerd. Voordat een crawler dan ook een website bezoekt zal deze eerst controleren of de website over een robots.txt bestand beschikt. Wanneer dit het geval is dan zal er meteen worden gecontroleerd welke pagina’s er niet gecrawld mogen worden. Heeft de website echter geen robots.txt bestand? Dan zal de gehele website gecrawld worden en dus misschien ook de pagina’s die je buiten de zoekmachine wilt houden.

Door gebruik te maken van een robots.txt bestand beschik je dus met andere woorden over de mogelijkheid om duidelijk te maken aan de zoekmachine welke pagina’s wel gecrawld mogen worden en welke niet. Zorg er altijd voor dat het robots.txt bestand in de root van de website staat. Dit zorgt ervoor dat het bestand opgevraagd kan worden door middel van de volgende url: ‘https://www.jouwwebsite.nl/robots.txt’. Indien je een website hebt met één of meerdere subdomeinen dan dien je ervoor te zorgen dat ieder subdomein over een eigen robots.txt bestand beschikt.

De ‘User-agent’ instructie

In principe doet een robots.txt bestand niets meer dan een tal van verschillende instructies geven aan de crawl-bot van de zoekmachine. De eerste belangrijke instructie die je moet kennen is de ‘user-agent’ instructie. Via de ‘user-agent’ is het mogelijk om verschillende regels in te stellen die per user-agent kunnen verschillen. Een user-agent kan het beste omschreven worden als het programma welke toebehoort aan een bepaalde netwerkfunctie of specifiek protocol. De user-agent van de Google zoekmachine heet ‘Googlebot’, maar Google maakt gebruik van meerdere user-agents. De user-agent voor het crawlen van afbeeldingen heet namelijk ‘Googlebot-Images’. Wanneer je alle bots dezelfde instructies wilt geven kant daar zeer eenvoudig door gebruik te maken van de volgende instelling: User-agent: *

De ‘Allow’ instructie

Een tweede instructie die je mee kunt geven in het robots.txt bestand is de zogenaamde ‘Allow’ instructie. Door gebruik te maken van deze instructie is het mogelijk om zowel folders als pagina’s toe te staan voor een bot. Standaard worden alle pagina’s toegestaan, toch wordt er voor de volledigheid vaak gekozen om deze instructie alsnog in het robots.txt bestand te vermelden. Dit doe je als volgt in het robots.txt bestand: Allow: /

De ‘Disallow’ instructie

Wanneer je ervoor wilt zorgen dat specifieke pagina’s uitgesloten worden in Google is het mogelijk om gebruik te maken van de ‘disallow’ instructie. Het is dus mogelijk om deze instructie te gebruiken bij pagina’s die je liever niet opgenomen ziet worden in Google, maar daarnaast is het ook mogelijk om deze instructie te gebruiken bij pagina’s de beschikken over duplicate content of van lage kwaliteit zijn. Het gebruik van de ‘disallow’ functie ziet er in de praktijk als volgt uit:

Disallow: /folder/

Disallow: /pagina.html

Filters, een meerwaarde voor je bezoekers

Gebruikmaken van zogenaamde ‘filters’ kan voor een meerwaarde zorgen voor je bezoekers. Door gebruik te maken van filters is het mogelijk om bezoekers te voorzien van een selectiemogelijkheid. Hierdoor kunnen bezoekers een brede selectie aan producten terug brengen tot een veel kleinere selectie. De producten die overblijven liggen dan in lijn met de selectiecriteria die door de bezoeker zijn opgegeven.

Hoewel het instellen van filters verschillende voordelen kan bieden voor je bezoekers kan het instellen van filters echter ook nadelen met zich meebrengen. Het instellen van filters kan er namelijk voor zorgen dat veel verschillende pagina’s ontstaan. Dit heeft te maken met het feit dat er diverse filters actief kunnen zijn waardoor er meerdere URL’s worden gecreëerd. Dergelijke URL’s worden ook in de resultaten van de zoekmachine opgenomen, maar beschikken in de meeste gevallen niet of nauwelijks over (unieke) content.

Filters kunnen er dus voor zorgen dat er veel verschillende pagina’s ontstaan die van lage kwaliteit zijn. En dit is dan ook een belangrijk onderdeel om rekening mee te houden bij het bepalen van de kwaliteit van de website. Daarnaast zorgen deze vele verschillende pagina’s ervoor dat het ‘crawl budget’ van Google voor jouw website snel opraakt. Wil je dit voorkomen? Dan is het mogelijk om deze filters uit te sluiten voor Google. Denk echter wel goed na over welke filters je precies wilt uitsluiten, want het is belangrijk dat je enkel en alleen de filters uitsluit welke geen toegevoegde waarde bieden op vlak van content. Ook filters waar mensen niet naar zoeken kunnen worden uitgesloten. Het is mogelijk om via een grondig zoekwoordenonderzoek te bepalen naar welke filters niet of nauwelijks gezocht wordt. Wanneer je bepaalde filters wilt uitsluiten ziet dat er in de praktijk als volgt uit:

# Filters

Disallow: /*kleur=

Disallow: /*maat=

Disallow: /*materiaal=

Paginering

Paginering is het opdelen van content over verschillende pagina’s. Wat veel mensen niet weten is dat er door gebruik te maken van paginering content van lage kwaliteit of duplicate content kan ontstaan. In principe is het mogelijk om het robots.txt bestand op dit vlak de perfecte oplossing te laten bieden, maar vaak is het in de praktijk interessanter om te kiezen voor een correcte, technische implementatie gecombineerd met de robots meta tag.

Hoe zorg je nou voor zo’n correcte, technische implementatie gecombineerd met de robots meta tag? We zullen je even een concreet voorbeeld geven. Stel dat je in je webshop een categorie genaamd ‘dames kleding’ hebt. Deze categorie is opgedeeld over vijf verschillende pagina’s. De URL van de eerste pagina is https://www.jouwwebsite.nl/dames/kleding en de URL van de tweede pagina is https://www.jouwwebsite.nl/dames/kleding?p=1. Het spreekt voor zich dat dit absoluut niet de meest ideale situatie is, in tegendeel. Door de correcte instructie op te nemen in jouw robots.txt bestand is het mogelijk om dit uit te sluiten:

# Paginering

Disallow: /*p=1$

Let goed op dat je instructie altijd afsluit met een ‘$’! Doe je dit niet dan zal je namelijk ook de pagina’s 10, 11, 12 etc. gaan uitsluiten, omdat deze allemaal overeenkomen met de bovenstaande disallow instructie. Echter raden wij het in principe aan om gebruik te maken van een technische implementatie. In dit geval wordt er namelijk voor gezorgd dat er niet zoiets kan bestaan als ?p=1

Eigenlijk is het zo dat de ‘pagina twee’ pagina’s in principe niet zoveel toe zullen voegen aan de waarde van je website op basis van content. Toch kan het zo zijn dat je deze pagina’s wil wilt laten indexeren door Google. Deze pagina’s kunnen bijvoorbeeld wel handig zijn voor het doorgeven van inkomende links (lees: waarde).

Sortering

Naast paginering, bestaat er ook nog zoiets als sortering. Een optie tot sortering kom je op veel verschillende e-commerce websites tegen, zoals bijvoorbeeld ‘sorteer op prijs’ of ‘toon 20 producten per pagina’. Zodra je deze sortering hebt aangevinkt zie je dat er bepaalde parameters aan de URL worden toegevoegd. Dit kan er als volgt uitzien: ‘dir=asc’ of ‘order=price’. Wanneer er parameters aan een URL worden toegevoegd betekent dit in principe dat er steeds een nieuwe unieke URL wordt gecreëerd. Echter geeft deze URL wel telkens dezelfde content weer, zij het in andere volgorde. Het spreekt voor zich dat er in dus geval ook sprake is van bepaalde vorm van duplicate content. Het uitsluiten van deze duplicate content doe je als volgt:

# Sorting

Disallow: /*dir=

Disallow: /*order=

Disallow: /*limit=

Zoekresultaten

De meeste websites van tegenwoordig maken het mogelijk om hun bezoekers te laten zoeken naar bepaalde content of producten. Ook bij een open source systeem zoals bijvoorbeeld Magento wordt deze mogelijkheid aangeboden. Het probleem echter bij deze zoekfunctie is dat de pagina’s van de zoekopdrachten verschijnen in de index van Google. Deze pagina’s voegen niets toe aan de waarde van je website en daardoor raden wij je aan om deze pagina’s uit te sluiten van de zoekmachine. Dit doe je op de volgende manier:

#Search

Disallow: /catalogsearch/

Disallow: /*s=

Let op, in het voorbeeld is het belangrijk om te weten dat de ‘S’ moet worden vervangen door de parameter welke aan een URL wordt toegevoegd op het ogenblik dat er op jouw specifieke website een zoekopdracht wordt uitgevoerd.

Session ID’sWanneer je een webwinkel hebt bezocht en producten in je winkelwagen hebt gedaan, zal dit winkelwagentje tijdens je volgende bezoek vaak nog dezelfde producten bevatten. Dit is mogelijk doordat deze websites gebruik maken van een unieke identifier en die koppelen aan jouw bezoeksessie. Het onthouden van deze ID’s wordt mogelijk gemaakt door de ID’s op te slaan in een cookie. Echter is het ook mogelijk dat deze als parameter in URL worden opgenomen.

Wanneer de ID’s in de parameter van de URL worden opgenomen wordt er telkens een nieuwe ID per sessie toegekend. Dit betekent dat er per sessie allemaal nieuwe URL’s worden aangemaakt met steeds dezelfde content. Ook dit kan weer zorgen voor duplicate content en daarnaast zal het erg lang duren voordat jouw producten uiteindelijk zichtbaar zullen zijn in de index van Google. Verschillende open source systemen maken gebruik van herkenbare session ID’s, namelijk:

  • Magento maakt gebruik van SID;
  • osCommerce maakt gebruik van osCsid;
  • Zen Cart maakt gebruik van zenid;

Je kunt ervoor kiezen om deze parameters uit te sluiten. Echter bieden verschillende systemen je ook de mogelijkheid om gebruik te maken van session ID’s door middel van cookies of URL’s. In dat geval is het uiteraard het interessantst om voor het eerste te kiezen. Het uitsluiten van de parameters doe je als volgt:

# Session ID’s

Disallow: /*SID=

Disallow: /*osCsid=

Disallow: /*zenid=

XML Sitemap

Door gebruik te maken van een XML of HTML sitemap is het mogelijk om Google een overzicht te bieden van alle bestaande URL’s van jouw website of webshop. Over het algemeen raden wij aan om voor een XML sitemap te kiezen, vooral wanneer jouw webshop beschikt over een groot aantal URL’s. De locatie van een XML sitemap kan echter niet rechtstreeks door Google worden achterhaald en dus moet je ervoor zorgen dat deze informatie bij Google terecht komt. Dit kan je doen door de sitemap te uploaden in Google Webmaster Tools óf door de locatie als regel toe te voegen in het robots.txt bestand. Op deze manier zal elke bot zonder probleem de locatie van je XML sitemap weten te achterhalen. Het opnemen van deze locatie in je sitemap doe je als volgt:

# Sitemap

Sitemap: https://www.domein.nl/sitemap.xml

Het ontdekken van parameters in Google Search Console

Heb je je website volledig nagelopen op basis van duplicate content, maar ook op content van lage kwaliteit? Dan kan gebruik maken van Google Search Console om na te gaan of je robots.txt bestand echt compleet is of niet. Via Site configuratie > URL-parameters > URL-parameters configureren is het mogelijk om een overzicht aan parameters terug te vinden die door Google tijdens het crawlen zijn ontdekt. Rechts van elke parameter bevindt zich een link ‘bewerken’. Deze link maakt het mogelijk voor jou als beheerder om zelf regels in te stellen via Webmaster Tools. Bovendien kan je op deze manier eveneens voorbeeld URL’s bekijken. Controleer dus zeker of je alle belangrijke parameters hebt uitgesloten die mogelijks voor problemen zouden kunnen zorgen.

Het testen van je robots.txt bestand in Google Search Console

Is je robots.txt bestand af? Dan kan je deze online zetten. Echter raden wij het altijd aan om het bestand eerst goed te testen, je wilt natuurlijk niet de verkeerde pagina’s uitsluiten van de index van Google. Het testen van het bestand is mogelijk via Google Search Console. Wil je er bijvoorbeeld zeker van zijn dat je niet per ongeluk iets gaat uitsluiten? Kopieer dan je in Google Analytics top 50 of top 100 bestemmings-URL’s door middel van organisch verkeer. Vervolgens kunnen deze worden getest. Het testen is mogelijk door te surfen naar Site configuratie > Crawler toegang.

Kopieer het robots.txt bestand in de eerste tekstbox. Plak vervolgens de top 50 of top 100 bestemmings-URL’s in de tweede tekstbox. Klik vervolgens op testen en je zal meteen per regel kunne vaststellen of de bot de mogelijkheid heeft om de URL te crawlen of niet.

Dit vind je vast ook leuk

Robots.txt inzetten voor betere kwaliteit en indexatie

Door de jaren heen is duidelijk geworden dat de algemene kwaliteit waar je website...

Het inzetten van filters; waar rekening mee houden?

Om het voor gebruikers eenvoudig mogelijk te maken om snel te vinden...

Paginering; cruciaal voor begrijpen van pagina’s

De kans bestaat dat je nog niet eerder hebt gehoord over ‘paginering attributen’...

Klaar om hoger in Google te komen?

Neem contact met ons op.