Une étude de 2015 de Raven Tools révélait qu’environ 29% des pages indexées contenaient du duplicate content. Le duplicate content (littéralement « contenu dupliqué ») désigne le fait pour un même contenu d’être accessible via plusieurs URL. Au sens strict, il s’agit d’une duplication à l’identique (code html + textes) d’une page web, mais on considère aussi comme du duplicate content le fait que des fragments de textes substantiels soient dupliqués (« near duplicate »).
Quel que soit le type de contenu en double, il est particulièrement redouté dans le monde du référencement. En effet, bien qu’il ne soit pas techniquement une pénalité, le copié-collé peut parfois avoir un impact sur le classement des moteurs de recherche, d’autant plus que sa volumétrie est importante : lorsqu’il existe plusieurs éléments de contenu sensiblement similaire à plusieurs emplacements sur Internet, il peut en effet être difficile pour les moteurs de recherche de décider quelle version est la plus pertinente pour une requête de recherche donnée.
Au pire des cas, ne sachant pas quel contenu offre un classement plus élevé, le moteur de recherche pourrait décider de ne classer aucune de ces pages présentant le même contenu. Ne pas apparaître sur la première page d’une recherche peut être préjudiciable mais vous comprendrez que n’apparaître nulle part peut être véritablement problématique.
Les autres problèmes posés par le duplicate content sont la dilution de la popularité (pagerank) et l’épuisement du budget crawl. En effet, les moteurs de recherche allouent un certain temps à l’indexation d’un site. Le temps passé à crawler de multiples fois les mêmes pages sous des URL différentes est du temps perdu qui n’est pas passé à crawler d’autres pages plus utiles pour le référencement.
La majorité des cas de contenus en double ne sont pas intentionnels et il est très probable que vous ayez des doublons sur votre site Internet.
Les sources courantes de contenu dupliqué sont :
Enfin, le duplicate content se produit souvent avec les descriptions de produits sur les boutiques en ligne. Face à des déclinaisons couleurs ou tailles, les e-commerçants ne se donnent en effet pas la peine d’écrire des descriptions de produits pour chaque produit.
Il existe de nombreux outils pour identifier les contenus en double.
L’un des vérificateurs de duplicate content les plus connus est probablement CopyScape.com. Cet outil gratuit a une prise en main facile : insérez un lien dans le champ recherche de la page d’accueil et CopyScape renverra un certain nombre de résultats, présentant des parties dupliquées, ainsi qu’un pourcentage de doublonnage (ce qui donne une idée de la gravité du duplicate content). CopyScape n’affiche pas l’intégralité des résultats pour une page. Si vous souhaitez approfondir l’analyse de votre duplicate content, CopyScape propose également une version premium.
Siteliner est un outil qui, lui, recherche le duplicate content interne (sur votre propre site). Du contenu interne dupliqué ? Cela se produit très fréquemment lorsqu’un blog WordPress n’utilise pas d’extraits mais affiche l’intégralité de l’article de blog sur la page d’accueil du blog. L’article en question est dont disponible sur au moins deux pages : la page d’accueil et la page article elle-même. Et c’est probablement aussi le cas sur les pages de présentation des catégories et des balises : c’est donc déjà 4 versions du même article sur votre site Web.
Si vous souhaitez approfondir l’analyse de votre contenu dupliqué, Duplichecker, Plagspotter ou encore Smallseotools offrent de nombreuses fonctionnalités gratuites.
Des outils premium payants proposent de vérifier les contenus copiés-collés à l’aide d’algorithmes avancés : Grammarly, Plagiarismcheck et Plagium.
Il existe de nombreuses options pour résoudre les problèmes de duplicate content.
Elles tiennent fondamentalement en 4 scénarios :
Si vous être responsable du contenu dupliqué (de manière consciente ou accidentelle), vous n’aurez en fait des ennuis avec le moteur de recherche que si vous êtes engagé dans des « pratiques trompeuses ». Si elles sont signalées, cela pourrait cependant entraîner la suppression complète de votre site des résultats du moteur de recherche.
Si, réciproquement, vous pensez que quelqu’un d’autre a volé vos contenus, contactez le propriétaire du site web qui a publié ces contenus et indiquez-lui que vous avez trouvé vos contenus sur son site. Celui-ci peut ne pas être conscient que du contenu volé a été ajouté à son site alors accordez-lui le bénéfice du doute et laissez-le supprimer ce contenu. Si malgré vos demandes le contenu n’est pas supprimé, vous pouvez demander à Google de le supprimer de ses résultats de recherche pour violation du droit d’auteur.
S’il s’agit d’un site de haute qualité, donnez-leur la possibilité de conserver votre contenu en vous donnant crédit en tant qu’auteur et en intégrant un lien vers votre site. Une autre option consiste à proposer d’écrire un article révisé, lui aussi en échange d’un lien.
En vous inscrivant à notre newsletter, vous allez recevoir nos dernières actualités et nos meilleures publications. Nous ne vous spammerons pas, c'est promis :-) Vos données ne seront en aucun cas vendues, transmises ou divulguées à des tiers.
Gozem accueille Othmane Bouhlal, le co-fondateur de Chauffeur-Privé en tant que conseiller stratégique. La startup…
Les entreprises Fintech du monde entier sont invitées à participer à un concours afin de…
Le fabricant d'emballages de thé SITI utilise la technologie HP Indigo pour produire des cartes…
Marketing Digital, Growth Hacking et Growth Marketing sont des concepts qui portent souvent à confusion.
Realme, la marque destinée aux jeunes, fête la Saint-Valentin en offrant des promotions sur ses…
La plateforme numérique Grohe X permettra aux visiteurs de créer leur propre expérience grâce à…