El contenido duplicado es uno de los problemas sobre el que toda persona que quiera tener un negocio o blog debe saber pero, curiosamente, uno de los menos famosos a la hora de la tertulia. Como problema que es. es perseguido por webmasters, autores y propietarios de páginas web de todo el mundo. De hecho, sorprende  ver como, a menudo, se nos llena la boca hablando de cómo posicionar nuestra página web en los motores de búsqueda, de qué estrategia de linkbuilding vamos a seguir, o de que redes sociales vamos a usar para difundir nuestro contenido, pero apenas mencionamos el tema de los contenidos duplicados. La cuestión es que, si tu página web esta enferma y tiene contenido duplicado, es difícil que los buscadores le den la autoridad y la relevancia que seguramente merezca. De ahí que sea crucial solucionar el problema sin más dilación.En SEO se puede heblar de dos tipos de contenido duplicado, el contenido duplicado “dentro de la página” y el contenido duplicado “dentro de varias páginas”. Vamos a ver cada uno por separado:

  1. El contenido duplicado “dentro de la página” es aquel contenido que, por problemas en el control de edición  del contenido o por errores del CMS o del servidor, se genera idénticamente más de una vez en la misma página web, alojándose en páginas o URLs diferentes.
  2. El contenido duplicado “dentro de varias páginas” es aquel contenido idéntico en varias páginas web. Es en esencia contenido copiado, contenido sindicado o contenido extraído de bases de datos, publicado en varias páginas web diferentes. Con la herramienta Copyscape podemos detectarlo.

En este artículo vamos a ver en profundidad TODO lo que necesitas saber sobre el Contenido Duplicado: Qué es, cómo encontrarlo y, sobretodo, cómo librarte de él. Ha sido de gran ayuda un artículo que he encontrado en deteresa en donde habla, de forma magistral, del contenido duplicado.

Qué es el contenido duplicado

Contenido duplicado es cualquier texto, aunque sean pocas palabras, que sea el mismo en más de una página web, ya sea en tu propia página web o una cualquiera. Suele ocurrir cuando ciertos contenidos de una misma página de tu web aparecen con distintas URLs. Pero, no nos olvidemos, también cuando alguien copia texto(s) de tu página web y lo pega en la suya.

A simple vista, puede parecer que no hay que alarmarse por los contenidos duplicados que tenga tu página web, o pensar que todas las páginas de tu web son únicas y atraen visitas, pero nada más lejos de la verdad. El contenido duplicado es un un serio problema.

La razón es fácil, pero tienes que salir de tu persona y plantearte la visita a tu página web desde la perspectiva de un motor de búsqueda. Piensa en un término de búsqueda, realiza esa búsqueda en miles de páginas web que estén hablando o traten sobre eso. Ya has encontrado las páginas web, ahora tienes que elegir, de entre esas miles de posibilidades, a de 10 a 15 para mostrar por orden de relevancia en tus resultados de búsqueda… ¿No es fácil eh? Pues imagínate que tienes que hacer, o haber, hecho, un análisis de cada página web antes de incluso empezar a pensar que sacabas en los resultados.

Vuelve a ser persona: Imagínate que tu página web devuelve para un mismo término de búsqueda varios resultados, y que todos ellos tienen el mismo contenido… ¿Crees que el motor de búsqueda te dará permiso para salir en los resultados de búsqueda? Si lo hiciera… ¿Cuál de todas esas páginas que tienen el mismo contenido muestra?

Si es este fuera el caso, y estuvieras devolviendo páginas con contendido duplicado ,estarías perdiendo capacidad de aparecer en los resultados de búsqueda ahora mismo, sin saberlo.

Consecuencias del contenido duplicado

Ahora que sabes por qué es tan importante evitar la duplicidad de contenidos, conviene que sepas los problemas que puede ocasionar a tu página web. Algunos de los más importantes son:

  • Páginas incorrectas: Tener diferentes páginas para un mismo contenido significa dejar en manos del buscador la elección de la página correcta. Esto no es buena idea ya que el buscador puede escoger una versión distinta a la que tu quieres.
  • Peor visibilidad: Como consecuencia de lo anterior, el buscador puede acabar mostrando una copia con menor peso que la página que quieres, y por tanto, posicionarla peor de lo que estaría la versión buena.
  • Indexación deficiente: La indexación de tus páginas puede verse afectada debido a que el buscador invierte su tiempo rastreando páginas duplicadas, en lugar de las páginas que importan. En muchos casos el contenido duplicado llega a suponer una porción importante de páginas.
  • Desperdicio de enlaces: Las páginas duplicadas pueden recibir enlaces y diluir la fuerza de tus contenidos, ya que todos esos enlaces podrían (y deberían) estar sumando fuerzas en una única página.
  • Atribución equivocada: El buscador puede decidir que tu contenido es originario de un dominio que no es el tuyo, por lo que a la hora de confeccionar su página de resultados tendría en cuenta a ese otro dominio, mientras que el tuyo quedaría excluido. Es el peor de los casos, pero pasa.

Por otra parte debes saber que, aunque Google rechaza el contenido duplicado, no lo penaliza; tan sólo lo filtra para que no se muestre, lo cual es suficiente castigo.

Causas del contenido duplicado

Cuando la gente piensa en contenido duplicado lo primero que le viene la cabeza es la imagen de un spammer que aterriza en su página web, copia unos cuantos artículos y los pega en otro dominio. La verdad es que casi nunca es así.

La mayor fuente de contenido duplicado es tu propia página web, y no importa lo bien optimizado que la tengas en materia de SEO. Como vas a comprobar ahora, hay muchas razones por las que puedes estar inundado internet de copias, sin saberlo.

Causas principales dentro de la página web

  • Dominio preferido (con o sin www): El dominio preferido es aquel que te gustaría utilizar para indexar las páginas de tu página web; en ocasiones se hace referencia a él como el “dominio canónico”. Los enlaces pueden dirigir a tu página web mediante las versiones con o sin www de la URL (por ejemplo, http://www.example.com y http://example.com). El dominio preferido es la versión que quieres que se use para tu página web en los resultados de búsqueda. Si a tu página web se puede acceder con el nombre del dominio por ejemplo http://www.ignaciosantiago.com y http://ignaciosantiago.com tienes un problema de contenido duplicado. La versión buena es la canónica y no establecerla correctamente hace que tu página web esté repetida en ambas variantes. Haz la prueba con mi dominio, escríbelo con www, y verás como se autoredirecciona al dominio sin www. De todas maneras, para asegurarte, escribe en google “site:tu_dominio -www” y mira si sale algún resultado. Lo normal es que salga esto:

contenido duplicado dominio www sin www

  • Páginas https: De forma similar a como ocurre con el dominio canónico, si tu página web usa encriptación SSL, puedes acabar con una copia exacta de tu página web en la versión segura (la que empieza por https://).
  • IDs de sesión: Muchas páginas web manejan las sesiones de usuario introduciendo un código al final de la URL de cada página. Estos parámetros, diferentes para cada sesión de usuario, hacen que el buscador crea que se trata de páginas separadas, aunque en realidad sean la misma.
  • Contenido dinámico: Igualmente, hay páginas web que asignan parámetros a las URLs para controlar el contenido que muestran las páginas al usuario. De la misma manera que ocurre con los IDs de sesión, los buscadores interpretan muchas de estas páginas como copias. Puedes detectar si las URLs con parámetros están indexadas por Google añadiendo al comando “site:tu_dominio inurl:”nombre_del_parámetro“.
  • Archivos: Un problema típico de los blogs es que el mismo contenido puede aparecer en páginas diferentes, como ocurre en los archivos de categorías y etiquetas.
  • Paginación: Cualquier página web que utilice paginación puede tener este problema, especialmente si las diferentes páginas comparten el mismo título y la misma descripción. Lo mejor es capar la indexación de la paginación, y te evitarás muchos problemas.

Causas del contenido duplicado fuera de la página web

  • Sindicación: Consiste en enviar tus contenidos a otras página web para atraer tráfico, como por ejemplo mediante RSS. El problema puede surgir cuando estas páginas web publican una copia completa de tu contenido, en lugar de un fragmento.
  • Localización: Para dirigirte a varios países puedes haber utilizado el mismo contenido (o prácticamente) en varios dominios a la vez, como por ejemplo en un .es y en un .mx.
  • Scrapers: Los scapers son gente que mediante un software robot copia tu página web para publicarla en otro dominio, tal cual.
  • Plagios: Puntualmente, alguien puede copiar un texto de tu página web y publicarlo en el suyo. A veces ocurre intencionadamente pero otras no. Es lo que pasa cuando un alguien copia un texto sin darse cuenta de que está haciendo algo mal (la mentalidad del todo gratis en Internet).

Cómo encontrar el contenido duplicado

Principalmente, Google identifica al contenido duplicado a través de páginas que tienen títulos, descripciones, encabezados y textos idénticos o muy similares. Por tanto, si quieres encontrar contenido duplicado en tu página web debes empezar por ahí.

A continuación te muestro los métodos más efectivos:

  • Google Webmaster Tools: Si has dado de alta tu página web en las herramientas para webmasters de Google, este es sin duda el mejor punto de partida. Accede a Aspectos de Búsqueda > Mejoras HTML y presta atención a las etiquetas de título duplicadas y metadescripciones duplicadas. La herramienta te dice la cantidad de réplicas existente y en qué páginas se han encontrado, para que puedas revisarlas.

contenido duplicado google webmaster tools

  • Comando “site” de Google: Es un método muy efectivo pero requiere bastante trabajo. Consiste en buscar dentro de tu página web ciertas palabras o frases clave, como por ejemplo productos en el caso de una tienda online (site:tu_dominio.com “este es un producto de la tienda”). En el resultado puedes ver si los títulos y descripciones están duplicados. Este método también te permite saber si ciertas páginas han sido trasladadas al índice secundario mediante un mensaje en la última página de resultados (“repetir la búsqueda e incluir los resultados que se han omitido”), lo cual es síntoma de contenido duplicado.
  • WebConfs: Se trata de una página web donde nos piden 2 URLs. Las introducimos, y nos devolverá el grado de similitud entre las dos URLs con un porcentaje.
  • Screaming Frog: Esta poderosa herramienta te permite rastrear tu página web en busca de contenidos duplicados, entre otras cosas. Las pestañas que te interesan son Page Titles, Meta Description y H1, con el filtro Duplicate. Esta herramienta es gratuita hasta 500 URLs, asi que si tu página web tiene menos de 500 URLs, o simplemente quieres echarle un vistazo, adelante. Funciona en Mac.

15 factores criticos para mejorar el SEO de tu pagina web screaming frog

  • Xenu: Es una herramienta que todo especialista SEO debería conocer rastrea una página web y nos proporciona, entre otros muchos datos,  información sobre posible URL con títulos duplicados. Funciona sólo con windows.
  • Google Analytics: También puedes encontrar páginas duplicadas en Google Analytics mediante el informe Contenido > Contenido del sitio > Páginas de destino. La clave está en buscar URLs sospechosas y páginas que reciben menos tráfico orgánico del que debieran. Otra manera es ir a ver el Diagrama de Flujo de visitantes, e ir viendo las páginas más visitadas, porque lo normal es que tengan contenido duplicado. Si no sabes manejar Google Analytics, hecha una vistazo a “Lista de los mejores trucos de Google Analytics“.
  • Advanced Web Ranking: La auditoría SEO incluida en la versión Enterprise te permite identificar contenido duplicado en la página web, además de enlaces rotos, páginas no indexadas por Google, y otros problemas difíciles de detectar a simple vista.
  • CopyScape: Es una herramienta muy buena para detectar contenido duplicado. Basta con poner un texto, y ver cuantas veces está repetido ese texto en internet.

contenido duplicado copyscape

Cómo librarse del contenido duplicado

Queda claro que a los buscadores no les gusta el contenido duplicado, ya que conduce a una experiencia de usuario pobre. De modo que si tu página web tiene contenido duplicado, debes hacer todo lo posible por eliminarlo.

Cómo librarse del contenido duplicado dentro de la página web

  • Etiqueta “rel=canonical”: La etiqueta rel canonical se ideó precisamente para tratar este problema, por lo que es la mejor solución. Consiste en una línea de código dentro de la sección <head> del código HTML de la página, la cual le dice al buscador qué versión de la página es la buena (la canónica). Este mismo artículo puede tener muchas URLs distintas: http://ignaciosantiago.com/blog/contenido-duplicado/, http://www.ignaciosantiago.com/blog/contenido-duplicado/, etc…
  • Redirecciones 301: Una redirección 301 es lo más recomendable cuando no puedes usar la etiqueta canónica, cuando mueves el contenido de una página a otra y cuando estableces el dominio canónico. Las redirecciones 301 son comandos incluidos dentro del archivo .htaccess, en el directorio raíz de tu dominio.
  • Desindexación: Para evitar que los buscadores encuentren páginas duplicadas en tu página web, puedes servirte de la etiqueta meta robots “<meta name=”robots” content=”noindex, nofollow”>” o del archivo robots.txt. En este caso:
    • Indicamos a los robots que no queremos que indexe la página, ni que tenga en cuenta los enlaces que haya en ella: <meta name=”robots” content=”noindex, nofollow”>
    • No indexamos la página pero sí permitimos que los robots sigan y tengan en cuenta sus enlaces: <meta name=”robots” content=”noindex, follow”>
    • Permitimos la indexación de la página, pero excluimos  a los robots de seguir los enlaces: <meta name=”robots” content=”index, nofollow”>
  • Gestiona los parámetros de URL: En el caso de que el contenido duplicado esté provocado por parámetros, puedes indicar a Google cuáles debe ignorar en Configuración > Parámetros de URL, en sus herramientas para webmasters.
  • Unifica páginas o reescribe contenidos: Tanto la una como la otra son las soluciones más sensatas cuando los contenidos de varias páginas de tu página web son muy parecidos o iguales.

Cómo librarse del contenido duplicado fuera de la página web

En el caso de contenido duplicado alojado en la página de un tercero, lo mejor que puedes hacer es solicitar educadamente que lo eliminen mediante email. Si esto no funciona, pide que al menos pongan un enlace a la página que han copiado en tu página web, puesto que ayudará al buscador a identificar la fuente original. De todas maneras ante esto de recomiendo que eches un vistazo a la “Guía para identificar y eliminar enlaces tóxicos: Herramientas y Disavow Tool“.

Como última opción, puedes solicitar a Google que elimine la página infractora de sus resultados presentando un recurso basado en la ley estadounidense de protección de los derechos de autor (DMCA, Digital Millennium Copyright Act).

Conclusión

Esta claro que después de leer este artículo no te quedas tranquilo ¿verdad?. Lo más seguro es que ya hayas hecho alguna búsqueda comando “site”, y haces bien, ya que lo más probable es que tengas contenidos duplicados. Por lo yo empezaría es mirando mi cuenta de Google Webmaster Tools, en Aspectos de Rastreo > Parámetros de URL , te vas a sorprender de todo lo que te vas a encontrar.

Si tienes una tienda online, no se a que esperas, porque suelen ser las más problemáticas. Además os dejo el artículo “5 ejemplos de contenido duplicado y sus soluciones“, donde podréis ver varios ejemplos muy buenos de contenido duplicado.

Y tu… ¿Tienes problemas de contenido duplicado?