Poradnik: Co o indeksowaniu stron przez roboty wyszukiwarek wiedzieć powinien każdy webmaster. cz I
Roboty wyszukiwarek to potężne narzędzia pomagające w przeszukiwaniu i indeksowaniu treści umieszczonych w Internecie. Bardzo często zdarza się tak, że webmasterzy chcą, aby roboty miały dostęp tylko do niektórych (np. najbardziej użytecznych) treści. Nie zawsze jednak posiadają odpowiednią wiedzę na temat ich działania. Błędy w rozumieniu tej kwestii mogą prowadzić do tego, że konkretna strona (przeciwnie do przyjętego założenia) pojawia się lub nie w wynikach wyszukiwania.
Poradnik ma na celu przybliżenie najważniejszych informacji na temat pliku robots.txt, metatagu robots oraz dyrektyw nagłówka HTTP X-Robots-Tag, a także sposobu ich wykorzystania w celu określenia i kontrolowania indeksowanych stron.
Przeszukiwanie a indeksowanie
Zacznijmy jednak od wyjaśnienia, co to takiego robot wyszukiwarki i jak działa? Wyszukiwarki internetowe do swojego działania potrzebują narzędzia, które jest zdolne odwiedzać strony www, nawigować po nich, wydobywać informacje, decydować o tematyce, podążać za linkami oraz dodawać wyodrębnione w ten sposób dane do indeksu. Wyszukiwarki w głównej mierze opierają się na zautomatyzowanym oprogramowaniu, potocznie nazywanym robotami, pająkami sieciowymi lub botami. Roboty wyszukiwarek poszukują głównie treści oraz linków tekstowych, które pozwalają im oceniać tematykę dokumentów i poruszać się zarówno po witrynie, jak i całym Internecie, a w dalszym etapie udostępniać te treść użytkownikom w wynikach wyszukiwania.
Cały ten proces dzieli się na dwa etapy, których rozróżnienie jest bardzo istotne: przeszukiwanie (ang. crawling) i indeksowanie (ang. indexing). Przeszukiwanie ma miejsce wówczas, kiedy roboty wyszukiwarek przemierzają strony internetowej w poszukiwaniu linków na nich umieszczonych.
Indeksowanie natomiast polega na gromadzeniu informacji o poszczególnych stronach tak, aby można je było potem udostępniać za pośrednictwem wyników wyszukiwania.
Rozróżnienie między przeszukiwaniem, a indeksowaniem jest bardzo ważne. Pomieszanie tych kwestii może bowiem powodować problemy z pojawianiem się w wynikach wyszukiwania wartościowych stron. Jednocześnie warto podkreślić, że strony mogą być przeszukiwane, ale nie indeksowane lub też (chociaż rzadziej) indeksowane, nawet wówczas kiedy nie są przeszukiwane.
Zagadnienia opisane w poradniku pomogą kontrolować elementy związane zarówno z przeszukiwaniem jak i indeksowaniem stron.
Przeszukiwanie
Plik robots.txt
Plik robots.txt jest plikiem tekstowym, który pozwala określić, które strony mają być przeszukiwane. Roboty wyszukiwarek zanim przeszukają konkretną witrynę zawsze najpierw sprawdzają zawartość pliku robots.txt, o ile oczywiście jest on umieszczony na serwerze. W pliku robots.txt, można dodawać sekcje dla określonych (lub wszystkich) robotów z instrukcjami (dyrektywami) określającymi które elementy mają lub nie mają być indeksowane.
Plik robots.txt musi być umieszczony w katalogu głównym strony internetowej, dla której reguły zawiera. Na przykład wówczas, kiedy roboty mają przeglądać wszystkie adresy znajdujące się poniżej http://www.example.com/, plik robots.txt musi znajdować się pod adresem http://www.example.com/robots.txt. Plik robots.txt może być umieszczony w obrębie subdomeny (np. http://website.example.com/robots.txt) lub na niestandardowym porcie (), ale nie może być umieszczone w podkatalogu (http://example.com/pages/robots.txt).
Kod zaprezentowany poniżej zawiera przykładową zawartość pliku robots.txt:
User-agent: Googlebot Disallow: /nogooglebot/
User-agent: * Disallow: /onlygooglebot/
Sitemap: http://www.example.com/sitemap.xml
Znaczenie poszczególnych dyrektyw jest następujące:
- Żaden z robotów Google nie powinien przeszukiwać zawartości folderu
/nogooglebot/
. LiniaUser-agent: Googlebot
rozpoczyna sekcję z dyrektywami dla robotów Google. - Żaden robot nie powinien indeksować zawartości folderu
/onlygooglebot/
. LiniaUser-agent: *
rozpoczyna sekcję z dyrektywami dla wszystkich robotów. - Plik Sitemapy znajduje się pod adresem
http://www.example.com/sitemap.xml
.
Indeksowanie
Indeksowanie może być kontrolowane przy użyciu prostych informacji, które są wysyłane ze strony internetowej, podczas jej przeszukiwania. Do kontroli indeksowania, można użyć:
- metatagu robots, który może być osadzony w górnej części strony HTML,
- elementu nagłówka HTTP, który może być wysyłany razem z zawartością strony internetowej.
Metatag robots
Znacznik meta robots można dodać na górze strony HTML, w sekcji , na przykład:
<!DOCTYPE html> <html><head> <meta name="robots" value="noindex" />
W przykładzie metatag robots określa, że wyszukiwarki internetowe nie powinny indeksować strony (noindex). Nazwa robots odnosi się do wszystkich wyszukiwarek.
Nagłówek HTTP X-Robots-Tag
W niektórych sytuacjach, indeksowane przez wyszukiwarki mogą być również nie-HTMLowe dokumenty (takie jak dokumenty .doc czy .pdf). W takich przypadkach nie ma możliwości dodania do strony metatagu robots. Zamiast tego można odpowiednio ustawić zawartość nagłówka HTTP.
$ curl -I "http://www.google.com/support/forum/p/Webmasters/search?hl=en&q=test" HTTP/1.1 200 OK X-Robots-Tag: noindex Content-Type: text/html; charset=UTF-8
Więcej na temat sposobu działania pliku robots.txt oraz tego w jaki sposób wykorzystywać informacje zawarte w metatagu robots i nagłówku HTTP X-Robots-Tag do kontrolowania indeksowania strony będzie można dowiedzieć z kolejnej części poradnika, który opublikujemy wkrótce.
Źródło: http://code.google.com/web/controlcrawlindex/docs/getting_started.html