,

Niewłaściwe stosowanie pliku robots.txt i dobre rozwiązania

Twoje strony mogą nadal pojawiać się w wynikach wyszukiwania

Roboty wyszukiwarek przestrzegające instrukcji zawartych w pliku robots.txt nie zindeksują zawartości strony, ale nadal mogą dodać ją do swojego indeksu. Poniżej dwa przykłady stron, które zostały zablokowane w robots.txt i nadal są wyświetlane w Google.

Strona logowania Cisco jest zablokowana w pliku robots.txt, ale pojawia się w Google na zapytanie „login”. W wynikach wyświetlany jest tytuł i URL, brak natomiast opisu strony.

[singlepic id=89 w=320 h=240 float=none]

Jedną z najpopularniejszych stron WordPress.com (pod względem liczby domen linkujących) jest www.wordpress.com/next/. Jest ona zablokowana w pliku robots.txt, ale nadal pojawia się na wysokiej pozycji w Google dla zapytania „next blog”.

[singlepic id=90 w=320 h=240 float=none]

Jak widać dodanie wpisu w pliku robots.txt nie jest efektywnym sposobem utrzymania strony poza wynikami wyszukiwania Google.

Stosowanie robots.txt może zablokować moc linków przychodzących

Problemem związanym ze stosowanie wpisów w robots.txt do blokowania indeksowania przez wyszukiwarki jest nie tylko nieefektywność tego rozwiązania, ale także odcięcie przepływu mocy z linków przychodzących. Kiedy strona zostaje zablokowana w robots.txt wyszukiwarka nie indeksuje zawartości (i linków!) na stronie. Oznacza to, że jeśli strona posiada linki przychodzące, ich moc nie może przepływać do innych stron. W ten sposób powstaje ślepa uliczka.

[singlepic id=91 w=320 h=240 float=none]

Mimo, że linki przychodzące do zablokowanej strony mogą przynosić pewne korzyści dla całej domeny, to ich wartość nie zostaje w pełni wykorzystana. W ten sposób blokowana jest bowiem możliwość przekazania pewnej mocy linkami wewnętrznymi z zablokowanej strony do ważniejszych podstron.

3 duże serwisy z możliwościami zablokowanymi w pliku robots.txt

Digg.com użył robots.txt w najgorszy możliwy sposób, blokując stronę ze zdumiewającą liczbą 425000 unikalnych domen linkujących, a dokładniej stronę: „Submit to Digg”.

Blogger i Blogspot będące własnością Google pokazują, że każdy ma coś do poprawienia, www.blogspot.co jest całkowicie zablokowane w robots.txt. Mało tego, próbując odwiedzić stronę główną Blogspot, natrafimy na przekierowanie 302 do Blogger.com. Lepszym rozwiązaniem byłoby przekierowanie 301, a wpis w pliku robots.txt powinien zostać usunięty. Ta mała zmiana odblokowała by siłę ponad 4600 unikalnych domen linkujących.

IBM posiada stronę z 1001 unikalnymi domenami linkującymi zablokowaną w robots.txt. Poza tym strona powoduje trzykrotne przekierowanie 302. Kiedy popularna strona zostaje usunięta lub przeniesiona, najlepszym rozwiązanie jest przekierowanie 301 do najbardziej odpowiedniej strony.

Rozwiązania lepsze niż robots.txt

Poniżej zaprezentowano listę efektywnych rozwiązań blokujących dodanie zawartości strony do indeksu bez utraty wartości linków.

Noindex

W większości przypadków najlepszym rozwiązaniem zamiast blokowania stron w robots.txt jest użycie znacznika meta „robots”. Nadanie mu wartości „noindex” i upewnienie się, że nie została dodana wartość ‘nofollow‘ spowoduje, że strony nie będą wyświetlane w wynikach wyszukiwania, jednocześnie ciągle przekazując moc za pomocą linków.

Przekierowanie 301

Plik robots.txt nie jest miejscem dla starych, usuniętych stron. Jeśli strona została usunięta lub przeniesiona, to nie należy jej blokować, ale zastosować przekierowanie 301 do najbardziej powiązanej lokalizacji.

Znacznik canonical

Nie należy blokować duplikatów zawartości w pliku robots.txt. Znacznik canonical pozwala wyeliminować dodatkowe wersje strony z indeksu i skonsolidować moc linków.

Ochrona hasłem

Plik robots.txt nie jest dobry sposobem na ukrywanie poufnych informacji. Jeśli udostępniane są poufne informacje w sieci, to powinny być chronione hasłem. Jeśli występuje ekran logowania, należy dodać do niego znacznik meta ‘noindex‘. Jeśli istnieje szansa, że do strony logowania będą prowadzić linki z zewnątrz, należy upewnić się, że umieszczone są na niej linki do kluczowych podstron serwisu. Dzięki temu moc linków zewnętrznych zostanie przekazana dalej.

Efektywne używanie pliku robots.txt

Najlepszym sposobem używania pliku robots.txt jest najczęściej nie używanie go wcale. Powinien być używany, aby wskazać robotom, że mają dostęp do wszystkich plików w serwisie i aby wskazać plik sitemap.xml. Plik robots.txt powinien mieć postać:

User-agent: *
Disallow:
Sitemap: http://www.example.com/sitemap.xml

Złe roboty

Reguły w pliku robots.txt mają zastosowanie do robotów, które ich przestrzegają. Blokowanie stron w robots.txt nie daje więc pewności, że wszystkie roboty wyszukiwarek zastosują się do instrukcji.

Konkurencja

Konkurencja może wykorzystać plik robots.txt, aby zobaczyć ukryte strony. Np. kiedy pracujesz nad nowym designem, czy linią produktów, to sam wpis w pliku robots.txt blokujący go przed indeksowaniem, może być wskazówką, gdzie szukać ukrytej treści.

Obsługa zawartości innej niż HTML

  • Nie jest konieczne blokowanie plików .js i .css w pliku robots.txt. Wyszukiwarki nie indeksują ich, ale czasem analizują dlatego dobrze jest pozostawić otwarty dostęp.
  • Nie ma lepszego sposobu blokowania plików „nie” HTML (np. PDF) niż za pomocą pliku robots.txt.
  • Każdy serwis posiada obrazy tła i elementy layoutu, które nie powinny być indeksowane. Należy upewnić się, że są wyświetlane za pomocą reguł CSS, a nie w znaczniku <img>. Jest to dużo lepsze rozwiązanie zapobiegające ich indeksowaniu, niż blokowania folderu z plikami graficznymi w robots.txt.
  • Dobry sposobem na odkrycie czy wyszukiwarki próbują uzyskać dostęp do plików innych niż HTML jest sprawdzenie aktywności robotów w logach serwera.

Zalecane czynności

  1. Sprawdź plik robots.txt dla swojego serwisu. Jeśli cokolwiek jest zablokowane, czytaj dalej.
  2. Sprawdź raport „Top Pages” w narzędziu OSE, aby zobaczyć jak bardzo tracony jest potencjał.
  3. Dodaj znacznik meta „noindex” do stron, które chcesz wyłączyć z indeksu wyszukiwarek.
  4. Przekieruj (301) strony, które nie powinny dłużej istnieć, a były wcześniej zablokowane w robots.txt.
  5. Dodaj tag canonical do stron duplikujących zawartość, zamiast blokowania ich w robots.txt.
  6. Czekaj na zwiększenie ruchu
Dodatkowo poniżej prezentujemy tabelę, która przedstawia jaki wpływ na parametry SEO mają różne sposoby blokowania stron przed dostępem robotów wyszukiwarek internetowych.
[singlepic id=104 w=320 h=240 float=none]

(Źródło: http://www.seomoz.org/blog/serious-robotstxt-misuse-high-impact-solutions)