Google sobre el porcentaje que representa contenido duplicado

John Mueller de Google respondió recientemente a la pregunta de si existe un umbral de porcentaje de contenido duplicado que Google utiliza para identificar y filtrar el contenido duplicado.

¿Qué porcentaje equivale a contenido duplicado?

De hecho, la conversación comenzó en Facebook cuando Duane Forrester (@DuaneForrester) preguntó si alguien sabe si un motor de búsqueda ha publicado un porcentaje de superposición de contenido en el que el contenido se considera duplicado.

Bill Hartzer (bhartzer) recurrió a Twitter para preguntarle a John Mueller y recibió una respuesta casi inmediata.

Bill tuiteó:

«Hola @johnmu, ¿hay algún porcentaje que represente contenido duplicado?

Por ejemplo, ¿deberíamos tratar de asegurarnos de que las páginas sean al menos un 72,6 % únicas de otras páginas de nuestro sitio?

¿Google siquiera lo mide?»

John Mueller de Google respondió:

No hay número (por cierto, ¿cómo se mide de todos modos?)

— 〈enlace href=//johnmu.com rel=canonical〉 (@JohnMu) 23 de septiembre de 2022

¿Cómo detecta Google el contenido duplicado?

La metodología de Google para detectar contenido duplicado se ha mantenido notablemente similar durante muchos años.

En 2013, Matt Cutts (@mattcutts), un ingeniero de software de Google en ese momento publicó un video oficial de Google que describe cómo Google detecta contenido duplicado.

Comenzó el video afirmando que mucho contenido de Internet está duplicado y eso es algo normal.

“Es importante no darse cuenta de que si ve contenido en la web, alrededor del 25 % o el 30 % de todo el contenido en la web es contenido duplicado.

… La gente cita un párrafo de un blog y luego un enlace al blog, ese tipo de cosas.

Continuó diciendo que debido a que gran parte del contenido duplicado es inocente y sin intención de spam, Google no penalizará este contenido.

Según él, penalizar las páginas web por tener contenido duplicado tendría un efecto negativo en la calidad de los resultados de búsqueda.

Qué hace Google cuando encuentra contenido duplicado:

«… intente agrupar todo y tratarlo como una sola pieza de contenido».

Matt continuó:

«Simplemente se trata como algo que tenemos que agrupar adecuadamente. Y tenemos que asegurarnos de que se clasifica correctamente.

Explicó que Google luego elige qué página mostrar en los resultados de búsqueda y filtra las páginas duplicadas para mejorar la experiencia del usuario.

Cómo maneja Google el contenido duplicado – Versión 2020

Avance rápido hasta 2020 y Google lanzó un episodio de podcast Search Off the Record en el que se describe el mismo tema en un lenguaje notablemente similar.

Aquí está la sección relevante de este podcast desde el minuto 06:44 del episodio:

“Gary Illyes: Y ahora hemos terminado con el siguiente paso, que en realidad es la canonización y la detección de duplicados.

Martin Splitt: ¿No es lo mismo, detección de incautos y canonización, en cierto modo?

Gary Illyes: [00:06:56] Bueno, no lo es, ¿verdad? Debido a que primero debe detectar los duplicados, agrúpelos aproximadamente, diciendo que todas estas páginas son duplicados entre sí,
y luego básicamente tienes que encontrar un líder de página para cada uno de ellos.

…Y eso es canonización.

Así que tienes la duplicación, que es el término completo, pero dentro de eso tienes la creación de clústeres, como la creación de clústeres duplicados y la canonicalización. «

Gary luego explica en términos técnicos exactamente cómo lo hacen. Básicamente, Google no mira los porcentajes exactamente, sino que compara las sumas de verificación.

Se puede pensar en una suma de verificación como una representación del contenido como una serie de números o letras. Entonces, si el contenido está duplicado, la secuencia de números de suma de verificación será similar.

Así es como Gary lo explicó:

“Entonces, para la detección de duplicados, lo que hacemos, bueno, tratamos de detectar duplicados.

Y la forma en que lo hacemos es quizás la forma en que lo hacen la mayoría de los usuarios de otros motores de búsqueda, que es básicamente reducir el contenido a un hash o suma de verificación y luego comparar sumas de verificación.

Gary dijo que Google lo hace de esta manera porque es más fácil (y obviamente preciso).

Google detecta contenido duplicado con sumas de verificación

Entonces, cuando se habla de contenido duplicado, probablemente no se trate de un problema de umbral de porcentaje, donde hay un número en el que se dice que el contenido está duplicado.

Más bien, el contenido duplicado se detecta con una representación del contenido en forma de suma de verificación y luego se comparan esas sumas de verificación.

Otro punto para recordar es que parece haber una distinción entre cuando algún contenido está duplicado y todo el contenido está duplicado.

Imagen destacada de Shutterstock/Ezume Images

window.addEventListener( 'load', function() { setTimeout(function(){ striggerEvent( 'load2' ); }, 2000); });

window.addEventListener( 'load2', function() {

if( sopp != 'yes' && addtl_consent != '1~' && !ss_u ){

!function(f,b,e,v,n,t,s) {if(f.fbq)return;n=f.fbq=function(){n.callMethod? n.callMethod.apply(n,arguments):n.queue.push(arguments)}; if(!f._fbq)f._fbq=n;n.push=n;n.loaded=!0;n.version='2.0'; n.queue=[];t=b.createElement(e);t.async=!0; t.src=v;s=b.getElementsByTagName(e)[0]; s.parentNode.insertBefore(t,s)}(window,document,'script', 'https://connect.facebook.net/en_US/fbevents.js');

if( typeof sopp !== "undefined" && sopp === 'yes' ){ fbq('dataProcessingOptions', ['LDU'], 1, 1000); }else{ fbq('dataProcessingOptions', []); }

fbq('init', '1321385257908563');

fbq('track', 'PageView');

fbq('trackSingle', '1321385257908563', 'ViewContent', { content_name: 'google-on-percentage-that-represents-duplicate-content', content_category: 'news seo' }); } });

La entrada Google sobre el porcentaje que representa contenido duplicado se publicó primero en Seo Con SEM.

source https://seoconsem.es/2022/09/23/google-sobre-el-porcentaje-que-representa-contenido-duplicado/

Buscar este blog

Moborobo