Duplicate content. Blokować, przekierowywać czy stosować tagi?

Wyszukiwarka inaczej traktuje strony zawierające zduplikowane treści. Podstrony te zostają przeniesione do indeksu pobocznego (supplemental index). Wyniki z supplemental index są najczęściej niewidoczne dla użytkownika wyszukiwarki.

Zjawisko powielenia treści (duplicate content) odnosi się do treści w blokach lub w całych stronach, które są identyczne z innymi treściami lub w dużym stopniu podobne. Najczęściej jest to zjawisko niezamierzone i dotyczy treści, która została przygotowana z myślą o użytkownikach. Przykładem może wersja dokumentu do druku lub wersja strony przeznaczona dla urządzeń mobilnych. Często powielona treść jest efektem specyfiki zastosowanego systemu CMS, np. kiedy element (np. towar w sklepie internetowym) powiązany jest z wieloma różnymi adresami URL zawierającymi dodatkowo znacznik sesji.

Wyszukiwarka inaczej traktuje strony zawierające zduplikowane treści. Podstrony te zostają przeniesione do indeksu pobocznego (supplemental index). Wyniki z supplemental index są najczęściej niewidoczne dla użytkownika wyszukiwarki. Udostępniane jedynie wtedy, kiedy wyszukiwarka biorąc pod uwagę jedynie indeks główny nie jest w stanie wyświetlić zadowalających wyników lub kiedy liczba wyników jest niewystarczająca. Internauta może także zdecydować czy interesują go pominięte wyniki za pomocą opcji „powtórzenia szukania we wszystkich stronach wraz z pominiętymi wcześniej.”

Zapobieganie duplikowaniu treści

Istnieje wiele sposobów na zapobieganiu zjawiska duplikowania treści.

Blokowanie robotów wyszukiwarek
Podstawową możliwością zapobieganiu zjawiska powielonej treści jest blokowanie dostępu robotom wyszukiwarek do określonych podstron.

Roboty wyszukiwarek w pierwszej kolejności biorą od uwagę zawartość pliku robots.txt, a ustawienia w nim zawarte są nadrzędne wobec innych dostępnych sposobów zapobiegania indeksacji. Utworzenie pliku robots.txt nie jest obowiązkowe. W przypadku utworzenia pliku robots.txt należy umieścić go w katalogu głównym domeny na serwerze.

Ze względu na wysoki priorytet dyrektyw zawartych w pliku robots.txt należy upewnić się, że zawartość tego pliku umożliwia użytkownikom wyszukiwanie treści, na które serwis powinien być widoczny w Internecie.

W pliku robots.txt należy podać katalog lub stronę, do której dostęp ma być zablokowany dla robotów wyszukiwarek. Plik robots.txt oprócz możliwości zablokowania indeksacji (Disallow) pozwala na udzielenie zgody na indeksację (Allow). Dyrektywa Allow działa w ten sam sposób jak dyrektywa Disallow - można stosować dyrektywy Allow i Disallow jednocześnie, przy czym o ważności dyrektywy decyduje jej kolejność.

Na przykład, aby zablokować dostęp do wszystkich stron w podkatalogu oprócz jednej, należy w pliku umieścić wpisy:
User-Agent: *
Allow: /folder1/strona.html
Disallow: /folder1/

Wykorzystywanie pliku robots.txt nie jest zalecane do blokowania powielonych treści, a jedynie do blokowania treści, które w ogóle nie powinny być indeksowane.

Przykłady stosowania robots.txt
Cała witryna będzie indeksowana przez roboty (tak jakby nie było pliku robots.txt):
User-agent: *
Allow:

Cała witryna nie będzie indeksowana:
User-agent: *
Disallow: /

Indeksowane nie będą tylko foldery \"obrazy\" i \"prywatne\" w katalogu głównym strony:
User-agent: *
Disallow: /obrazy/
Disallow: /prywatne/

Indeksowana nie będzie tylko podstrona \"podstrona\" w katalogu \"katalog\":
User-agent: *
Disallow: /katalog/podstrona.html

Metatag noindex
Aby zapobiec indeksacji określonej podstrony można umieścić metatag „noindex” w nagłówku dokumentu HTML.
Metatag „noindex” sprawia, że robot nie zaindeksuje strony, pomimo tego, że zostanie ona przeanalizowana i umieszczona w pamięci podręcznej wyszukiwarki.

Wykorzystywanie metatagu noindex zalecane jest w sytuacjach kiedy nie ma możliwości zastosowania przekierowania 301 lub tagu rel=canonical. Przykładem mogą być podstrony, na których poszczególne treści serwisu prezentowane są w listingach posortowanych - lista postów na blogu według daty czy autora wpisu.

Przykład zastosowania metatagu noindex

Tytuł strony

Akapit

Przekierowania 301
Przekierowanie 301 oznacza dla wyszukiwarki informację o przeniesieniu treści na inny adres url, czego efektem jest wyindeksowanie i przeniesienie większości mocy podstrony na nowy adres. Efektem widocznym dla użytkownika jest przeniesienie użytkownika na inny adres url. Przekierowanie 301 zaleca się stosować w sytuacjach, kiedy zastosowanie przekierowania nie przeszkadza użytkownikowi. Aby przekierować użytkowników witryny na inny adres należy dokonać odpowiednich wpisów w pliku .htaccess.

Przykładowe sytuacje, kiedy zaleca się stosowanie przekierowania 301:

•    Wskazanie preferowanej domeny

Przykład:
http://domena.pl/
http://www.domena.pl

•    Przekierowanie starej domeny na nową

Przykład:
http://www.staradomena.pl/
http://www.nowadomena.pl/

•    Wykluczenie indeksowania dodatkowych adresów url.

Przykład:
http://www.domena.pl/podstrona/
http://www.domena.pl/podstrona.html
http://www.domena.pl/podstrona

•    Przekierowanie starych adresów url.
Przykład:
http://www.domena.pl/stary-adres
http://www.domena.pl/nowy-adres

•    Przekierowanie nieaktywnych adresów url.

Przykład:
http://www.domena.pl/nieaktywny-adres
http://www.domena.pl/

Tag rel=canonical
Założeniem tagu rel=canonical jest traktowanie go przez wyszukiwarkę jako przekierowania 301, przy czym użytkownik nie zostanie przekierowany na stronę docelową. Tag rel=canonical jest przydatny w sytuacjach, kiedy występuje zjawisko powielania treści, a pomimo tego nie chcemy, aby użytkownik został przekierowany na adres docelowy.

Przykładowe sytuacje, kiedy zaleca się stosowanie tagu rel=canonical:

•    Kiedy CMS daje użytkownikowi możliwość tworzenia nowych ścieżek adresów url podczas nawigowania po serwisie.
Przykład:
http://www.domena.pl/agd/pralki/firma/
http://www.domena.pl/agd/firma/pralki/

•    W przypadku kiedy CMS umożliwia zmianę kolejności zmiennych w adresach url:
Przykład:
http://www.domena.pl/agd/pralki.php?firma=x&cena=y
http://www.domena.pl/agd/pralki.php?cena=y&firma=x

•    W przypadku kiedy CMS umożliwia zawężanie wyników wyszukiwania przez użytkowników:
Przykład:
http://www.domena.pl/agd/pralki.php?firma=x&cena=y&available=z http://www.domena.pl/agd/pralki.php?firma=x&cena=y

•    W przypadku kiedy wykorzystujemy dodatkowe zmienne służące do pomiaru statystyk lub kiedy CMS tworzy ID sesji
Przykład:
http://www.domena.pl/agd/pralki.php?SID=ojf4pwrzht492a1iuwp5psf614
http://www.domena.pl/agd/pralki.php?utm_source=newsletter
http://www.domena.pl/agd/pralki.php

Miłosz Woźniak

Pobierz ebook "Ebook z raportem: Jak wybrać software house dla działań marketingowych i e-commerce"

Napisz komentarz

Zaloguj się, a jeśli nie masz jeszcze konta w Interaktywnie.com - możesz się zarejestrować albo zalogować przez Facebooka.

× Trwa zapisywanie komentarza...

× Twój komentarz został dodany!

Komentarze (8)

naswoim2011- tanie kredyty zgłoś nadużycie
05.10.2011 / 08:10

Czytelnicy Interaktywnie raczej po takie szczegóły pójdą na specjalistyczne fora. Niemniej jednak treść ciekawa. Co do 301 to zależy... jak strona dostała B za ostre blackseo to ban przejść może dalej, jeśli jakiś lekki filterek to na bank nowy site zyska moc starego.
graff zgłoś nadużycie
03.07.2011 / 16:07

Można zablokować możliwość kopiowanie treści, bo blokowanie robota G jest trudne. Jeśli to będzie 5-10 kopi to nic groźnego, ale jak tekst pójdzie w świat to siła wpisu spada
artecki zgłoś nadużycie
07.04.2011 / 22:04

Najłatwiej zablokować robota Y z robotem G jest trudniej
Jubiler i biżuteria zgłoś nadużycie
21.02.2011 / 18:02

A ja słyszałem o sytuacjach, gdzie po zablokowaniu robotowi G dostępu do niektórych podstron, strona została potraktowana brutalnie :(
Tomasz Czechowski zgłoś nadużycie
08.02.2011 / 11:02

Jeżeli zastosujemy się do w/w wskazówek to G nie da bana stronie bo nie wystąpiło powielanie treści. Btw. artykuł ciekawy jednakże nic nowego się z niego nie dowiedziałem :)
lampy sufitowe zgłoś nadużycie
07.02.2011 / 18:02

Jak G zrobi bana to można postawić nową domenę i przekierować ruch ze starej ale istnieje ryzyko że ban też przejdzie na nową stronę
Bartosz Borkowski zgłoś nadużycie
06.02.2011 / 11:02

Dodatkowym sposobem na radzenie sobie z takim problemem (duplikowana treść na innej domenie) może być umieszczanie odnośnika pod tekstem kopiowanym do źródła z opisowym anchor tekstem. Opisowy anchor teks, np.: tytuł artykułu działa również na plus źródła. Zastosowanie kanonikalizacji w obrębie domeny jest fajnym rozwiązaniem i działa poprawnie. Dobre info. Pozdrawiam
Arek zgłoś nadużycie
02.02.2011 / 21:02

nie wiem czy komenda 301 coś da, najgorsze jak G zrobi babna strony, wtedy mamy prawdziwy kłopot

wizytówki firm: szukasz klientów dla firmy?

cyber_Folks S.A

W 1999 roku stworzyliśmy jedną z pierwszych firm hostingowych w Polsce. Od tego czasu …
Zobacz profil w katalogu firm »

Zarejestruj domenę w bardzo dobrej cenie

Skorzystaj z kodu rabatowego redakcji Interaktywnie.com i zarejestruj taniej w Nazwa.pl swoją domenę. Aby …
Zobacz profil w katalogu firm »

TBMS Digital Marketing Agency

Projektujemy i wdrażamy strony internetowe - m.in. sklepy, landing page, firmowe. Świadczymy usługi związane …
Zobacz profil w katalogu firm »

Ideo Force Sp. z o.o.

Pomagamy markom odnosić sukces w Internecie. Specjalizujemy się w pozycjonowaniu stron, performance marketingu, social …
Zobacz profil w katalogu firm »

Zamów hosting lub serwer w dobrej cenie

Interaktywnie.com jako partner Cyber_Folks, jednego z wiodących dostawców rozwiań hostingowych w Polsce może zaoferować …
Zobacz profil w katalogu firm »