Roboty wyszukiwarek to potężne narzędzia pomagające w przeszukiwaniu i indeksowaniu treści umieszczonych w Internecie. Bardzo często zdarza się tak, że webmasterzy chcą, aby roboty miały dostęp tylko do niektórych (np. najbardziej użytecznych) treści. Nie zawsze jednak posiadają odpowiednią wiedzę na temat ich działania. Błędy w rozumieniu tej kwestii mogą prowadzić do tego, że konkretna strona (przeciwnie do przyjętego założenia) pojawia się lub nie w wynikach wyszukiwania.

Poradnik ma na celu przybliżenie najważniejszych informacji na temat pliku robots.txt, metatagu robots oraz dyrektyw nagłówka HTTP X-Robots-Tag, a także sposobu ich wykorzystania w celu określenia i kontrolowania indeksowanych stron.

Przeszukiwanie a indeksowanie

Zacznijmy jednak od wyjaśnienia, co to takiego robot wyszukiwarki i jak działa? Wyszukiwarki internetowe do swojego działania potrzebują narzędzia, które jest zdolne odwiedzać strony www, nawigować po nich, wydobywać informacje, decydować o tematyce, podążać za linkami oraz dodawać wyodrębnione w ten sposób dane do indeksu. Wyszukiwarki w głównej mierze opierają się na zautomatyzowanym oprogramowaniu, potocznie nazywanym robotami, pająkami sieciowymi lub botami. Roboty wyszukiwarek poszukują głównie treści oraz linków tekstowych, które pozwalają im oceniać tematykę dokumentów i poruszać się zarówno po witrynie, jak i całym Internecie, a w dalszym etapie udostępniać te treść użytkownikom w wynikach wyszukiwania.

Cały ten proces dzieli się na dwa etapy, których rozróżnienie jest bardzo istotne: przeszukiwanie (ang. crawling) i indeksowanie (ang. indexing). Przeszukiwanie ma miejsce wówczas, kiedy roboty wyszukiwarek przemierzają strony internetowej w poszukiwaniu linków na nich umieszczonych.

Indeksowanie natomiast polega na gromadzeniu informacji o poszczególnych stronach tak, aby można je było potem udostępniać za pośrednictwem wyników wyszukiwania.

Rozróżnienie między przeszukiwaniem, a indeksowaniem jest bardzo ważne. Pomieszanie tych kwestii może bowiem powodować problemy z pojawianiem się w wynikach wyszukiwania wartościowych stron. Jednocześnie warto podkreślić, że strony mogą być przeszukiwane, ale nie indeksowane lub też (chociaż rzadziej) indeksowane, nawet wówczas kiedy nie są przeszukiwane.

Zagadnienia opisane w poradniku pomogą kontrolować elementy związane zarówno z przeszukiwaniem jak i indeksowaniem stron.

Przeszukiwanie

Plik robots.txt

Plik robots.txt jest plikiem tekstowym, który pozwala określić, które strony mają być przeszukiwane. Roboty wyszukiwarek zanim przeszukają konkretną witrynę zawsze najpierw sprawdzają zawartość pliku robots.txt, o ile oczywiście jest on umieszczony na serwerze. W pliku robots.txt, można dodawać sekcje dla określonych (lub wszystkich) robotów z instrukcjami (dyrektywami) określającymi które elementy mają lub nie mają być indeksowane.

Plik robots.txt musi być umieszczony w katalogu głównym strony internetowej, dla której reguły zawiera. Na przykład wówczas, kiedy roboty mają przeglądać wszystkie adresy znajdujące się poniżej http://www.example.com/, plik robots.txt musi znajdować się pod adresem http://www.example.com/robots.txt. Plik robots.txt może być umieszczony w obrębie subdomeny (np. http://website.example.com/robots.txt) lub na niestandardowym porcie (), ale nie może być umieszczone w podkatalogu (http://example.com/pages/robots.txt).

Kod zaprezentowany poniżej zawiera przykładową zawartość pliku robots.txt:

    User-agent: Googlebot
    Disallow: /nogooglebot/
    User-agent: *
    Disallow: /onlygooglebot/
    Sitemap: http://www.example.com/sitemap.xml

Znaczenie poszczególnych dyrektyw jest następujące:

  • Żaden z robotów Google nie powinien przeszukiwać zawartości folderu /nogooglebot/. Linia User-agent: Googlebot rozpoczyna sekcję z dyrektywami dla robotów Google.
  • Żaden robot nie powinien indeksować zawartości folderu /onlygooglebot/. Linia User-agent: * rozpoczyna sekcję z dyrektywami dla wszystkich robotów.
  • Plik Sitemapy znajduje się pod adresem http://www.example.com/sitemap.xml.

Indeksowanie

Indeksowanie może być kontrolowane przy użyciu prostych informacji, które są wysyłane ze strony internetowej, podczas jej przeszukiwania. Do kontroli indeksowania, można użyć:

  • metatagu robots, który może być osadzony w górnej części strony HTML,
  • elementu nagłówka HTTP, który może być wysyłany razem z zawartością strony internetowej.

Metatag robots

Znacznik meta robots można dodać na górze strony HTML, w sekcji , na przykład:

    <!DOCTYPE html>
    <html><head>
    <meta name="robots" value="noindex" />

W przykładzie metatag robots określa, że wyszukiwarki internetowe nie powinny indeksować strony (noindex). Nazwa robots odnosi się do wszystkich wyszukiwarek.

Nagłówek HTTP X-Robots-Tag

W niektórych sytuacjach, indeksowane przez wyszukiwarki mogą być również nie-HTMLowe dokumenty (takie jak dokumenty .doc czy .pdf). W takich przypadkach nie ma możliwości dodania do strony metatagu robots. Zamiast tego można odpowiednio ustawić zawartość nagłówka HTTP.

    $ curl -I "http://www.google.com/support/forum/p/Webmasters/search?hl=en&q=test"
    HTTP/1.1 200 OK
    X-Robots-Tag: noindex
    Content-Type: text/html; charset=UTF-8

Więcej na temat sposobu działania pliku robots.txt oraz tego w jaki sposób wykorzystywać informacje zawarte w metatagu robots i nagłówku HTTP X-Robots-Tag do kontrolowania indeksowania strony będzie można dowiedzieć z kolejnej części poradnika, który opublikujemy wkrótce.

Źródło: http://code.google.com/web/controlcrawlindex/docs/getting_started.html