- Google will jedem Nutzer die bestmöglichen Suchergebnisse liefern und es unbedingt vermeiden doppelten Inhalt anzuzeigen. Schließlich sind Platz und Geduld knapp.
- Das Crawlen und Identifizieren von Duplicate Content erfordert einen hohen Ressourcenaufwand.
- Für Google ist es eine große Herausforderung algorithmisch zu analysieren und zu entscheiden, welche Seite einer Domain den relevantesten Content zur Suchanfrage liefert, um diese dann zu ranken.
Duplicate Content meint zudem nicht nur das Klauen von fremdem Content, wie viele oft annehmen. Es geht dabei auch und vor allem um deine eigene Website. Du hast ein Problem mit Duplicate Content, sobald Google sich nicht entscheiden kann, welche deiner Seiten zu einer Suchanfrage relevanter ist und platziert werden soll. Google wird in diesem Fall nicht alle Seiten platzieren, sondern eher keine, oder zumindest keine der Versionen in den Top 10.
Google ist mittlerweile sehr gut darin Duplicate Content zu erkennen. Gary Illyes, ein Webmaster Trends Analyst von Google, hat vor einiger Zeit sehr detailliert geschildert, wie die Suchmaschine vorgeht, um doppelte Inhalte zu finden und zu bewerten.
Google vergleicht Texte nicht in ihrer gesamten Länge, sondern reduziert sie auf eine Prüfsumme. Das spart Ressourcen und macht sie leicht vergleichbar. Insgesamt sind an dem Prozess mehrere Algorithmen beteiligt. Einer kann zum Beispiel sogenannte Boilerplate Content erkennen und entfernen. Darunter fallen zum Beispiel Navigation und Footer, die auf allen Seiten gleich sind.
Alle Inhalte, die Google als Duplicate Content identifiziert hat, werden zu einem Dupe Cluster zusammengefasst. Aus diesem Cluster wird anhand von mehr als 20 Signalen ein Dokument ausgewählt, das letztlich rankt. Diesen Prozess nennt man Kanonisierung.
Mit einem Canonical Tag kannst du Suchmaschinen übrigens selbst mitteilen, welche Seite sie nehmen sollen. Das Canonical Tag ist eins dieser Auswahlsignale. Die Qualität des Inhalts, der PageRank, die HTTPS-Verschlüsselung und die Präsenz in einer Sitemap wären weitere.
Das bedeutet, dass du durchaus einen gewissen Einfluss darauf hast, welche deiner Seiten Google für die Suchergebnisse auswählt.
Ein weiteres Learning aus diesen Informationen ist, dass Google Duplicate Content anhand der Wörter und nicht anhand der Bedeutung bewertet. Das heißt, dass umgeschriebene oder übersetzte Texte nicht als doppelter Inhalt klassifiziert werden.
Duplicate Content führt eigentlich selten zur Abstrafung und wenn doch, dann man schon vieles falsch machen. Meist führt Duplicate Content schlicht zu dem Problem, dass Google nicht erkennt, welche Version die relevantere ist und infolgedessen keine der Versionen gut in den Suchergebnissen platziert. Genau aus diesem Grund solltest du darauf achten, dass du nicht mehr "Kopien" anbietest, als unbedingt nötig.
Ich wünsche allen Mitglieder/innen ein frohes neues Jahr uns alles Gute für 2021.
Liebe Grüße, Eren.