Als je met een SEO’er praat dan gaan deze twee woorden ongetwijfeld een keer vallen: duplicate content. Maar wat is dat nou eigenlijk en waarom is dit een probleem voor Google? Deze vragen en de oplossingen voor duplicate content zal ik behandelen in dit blog.

Wat is duplicate content?

Een goede omschrijving voor duplicate content is volgens mij: exact, of grotendeels, dezelfde teksten op verschillende pagina’s. Het zal niet iedere bezoeker opvallen, maar voor zoekmachine geldt dat een url een pagina is. Dat wil zeggen dat Google deze twee voorbeelden als twee afzonderlijke pagina’s beschouwt, ongeacht wat er qua content opstaat: www.abc.nl/pagina-a én : www.abc.nl/pagina-b. Als de pagina’s qua content vrijwel of geheel identiek zijn dan is er sprake van duplicate content.

Mogelijke oorzaken

Filterfunctie WehkampDuplicate content kan door veel verschillende oorzaken voorkomen. Hieronder zal ik kort per oorzaak beschrijven waarom dit tot duplicate content kan leiden.

Filter functies – Met name bij webshops zie je vaak dat een filter- of sorteerfunctie een nieuwe url genereert. De content en het thema op deze pagina is in veel gevallen vrijwel identiek. Denk hierbij bijvoorbeeld aan het toevoegen van een kledingmaat of een prijsfilter.

Archieven – Archief overzichten met daarop eerder geschreven artikelen kunnen in sommige gevallen ook duplicate content opleveren. Als het volledige artikel te lezen is op deze overzichtspagina, dan heb je al snel te maken met duplicate content.

Sessie id’s – Sommige CMS systemen maken per gebruiker een nieuwe sessie ID aan en tonen deze in de url. Het kan hierbij voorkomen dat er bijzonder veel url’s worden gegenereerd waarop exact hetzelfde staat. In theorie kan het zo zijn dat bij elk bezoek van de Google robots er een nieuwe url (en dus pagina) wordt geïndexeerd door Google.

Subdomeinen – Gebruik van subdomeinen kan ook leiden tot exact dezelfde content op verschillende url’s. Hierbij kun je alleen al denken aan een http://mijnwebsite.nl en http://www.mijnwebsite.nl situatie. Ook in de loop der jaren kan een dergelijk probleem opkomen, doordat er bijvoorbeeld wordt geswitcht van http://mijnwebsite.nl/blog naar http://blog.mijnwebsite.nl.

Copycats – Zolang het internet bestaat is er al sprake van copycats. Websites die jouw zorgvuldig geschreven teksten overnemen en gebruiken op een eigen pagina.

Productfeeds – Als je gebruik maakt van productfeeds dan kan het gebeuren dat productpagina’s erg op elkaar gaan lijken. Waarschijnlijk ben je niet de enige die gebruik maakt van deze feeds en de informatie die erin staat. Laat staan wanneer je een productomschrijving uit de feed letterlijk overneemt.

Meerdere talen – Stel je richt je op zowel de UK als de VS en je hebt hiervoor twee domeinen, subdomeinen of subfolders. In dat geval is het niet onwaarschijnlijk dat bepaalde url’s exact dezelfde content hebben.

Wat is nou het probleem?

Zoekmachines hebben de taak een zo goed mogelijk antwoord op een vraag te geven. Als ik zoek op “uitleg duplicate content” dan kan Google het niet maken om 10 exact dezelfde antwoorden te geven. Hierdoor gaan zoekmachines selectief te werk, van de duplicaten zal slechts één worden aangewezen als het origineel en vertoont worden bij een zoekopdracht. Om te bepalen welke het origineel is kijkt Google naar een x-aantal factoren, waaronder de tijd van publicatie of de autoriteit van het domein. Een tweede nadelig punt is het feit dat zoekmachines gaan twijfelen over het verdelen van (link)kracht over verschillende url’s. Moeten beide url’s nou evenveel waarde krijgen of niet? SEO is voor een groot deel het wegnemen van mogelijke twijfel bij zoekmachines, ofwel deze situatie is niet wenselijk. In het ergste geval wordt er link kracht verdeelt over twee url’s, terwijl er eigenlijk maar eentje moet gaan ranken.

Opsporen van duplicate content?

Er kan zowel sprake zijn van interne als externe duplicate content. Bij de eerste is het binnen hetzelfde domein en bij extern kan het zijn dat dezelfde content op een ander domein te vinden is. Om duplicate content op te sporen kun je het gemakkelijkst Google gebruiken. Kopieer eenvoudigweg een deel van de tekst en gebruik dat als zoekopdracht in Google. De zoekmachine zal je dan vertellen of het andere pagina’s in de index heeft met dezelfde tekst. Er zijn ook genoeg tools beschikbaar die je kunnen helpen, zoals bijvoorbeeld Copyscape.

Oplossingen voor duplicate content

Bewust of onbewust, duplicate content kan voorkomen. Hoe los je dit probleem nou op? Hiervoor zijn vier opties mogelijk;

Redirecten – De beste optie voor het permanent oplossen van ongewenste duplicate content is het redirecten van de ongewenste pagina’s naar de gewenste pagina. Door een 301 redirect door te voeren zal de linkkracht (voor een groot deel) doorgegeven worden aan de nieuwe url. Maar ook zal voor Google duidelijk worden welke pagina het moet ranken. Deze optie is natuurlijk enkel van toepassing als de ongewenste url’s nergens voor gebruikt worden, dus niet voor een filterfunctie of een archief pagina.

Canonical – Mocht je nou een probleem hebben met filterfuncties, dan is het toepassen van een canonical nuttig. Hierbij laat je weten aan Google wat het originele adres is van de gefilterde pagina, en help je Google dus een keuze maken.

Noindex, follow – In sommige gevallen, zoals een archief pagina, kan je de keuze maken voor het uitsluiten van indexatie van de betreffende pagina. Hiermee maak je het zoekmachines heel gemakkelijk, want je vertelt ze simpelweg: deze pagina niet indexeren.

Herschrijven – Dubbele content is er omdat het dubbel is. Als dat het geval is, dan is het natuurlijk altijd nog mogelijk om de content te herschrijven naar waardevolle unieke content. Zorg er wel voor dat het een nuttige pagina blijft die wel degelijk een andere insteek heeft ten opzichte van de duplicate versie.