,

Kontrola przeszukiwania i indeksowania

Czy wiesz, jak robot Google, Googlebot, traktuje sprzeczne dyrektywy w pliku robots.txt? Czy wiesz, jak zapobiec indeksowaniu pliku PDF? Odpowiedzi na te pytania, wraz z wieloma innymi informacji na temat kontrolowania przeszukiwania i indeksowania witryny, są teraz dostępne na code.google.com: Kontrola przeszukiwania i indeksowania .

Wyszukiwarki internetowe zazwyczaj przechodzą przez dwa etapy, aby udostępnić treśc użytkownikom w wynikach wyszukiwania: przeszukiwanie (ang. crawling) oraz indeksowanie (ang. indexing). Przeszukiwanie ma miejsce wówczas, gdy roboty wyszukiwarek internetowych przemierzają publicznie dostępne strony internetowe. Na ogół wiąże się to z przejrzeniem strony internetowej oraz przejściem po linkach na niej umieszczonych. Indeksowanie polega na gromadzeniu informacji o stronie, tak aby można było ją udostępnić za pośrednictwem wyników wyszukiwania.

Rozróżnienie między przeszukiwaniem, a indeksowaniem jest istotne. Błędy w rozumieniu tej kwestii są niestety powszechne i prowadzą do tego, że dana strona pojawia się lub nie w wynikach wyszukiwania. Należy pamiętać, że strona może zostać przeszukana i nie zostać zindeksowana, a także chociaż rzadziej – zindeksowana, mimo, że nie została przeszukana.

Roboty są to potężne narzędzia pomagające w przeszukiwaniu i indeksowaniu treści umieszczonych w internecie. Właściciel witryny może chcieć aby miały one dostęp tylko do użytecznych treści (pomijając treści nieistotne). Metody opisane  w tym zbiorze dokumentów pomagają  kontrolować zarówno aspekty przeszukiwania, jak i indeksowania, można więc określić, które treści maja być udostępnione robotom wyszukiwarek oraz które treści powinny być prezentowane użytkownikom w wynikach wyszukiwania.

Jest to wszechstronne źródło informacji, z którego można dowiedzieć się więcej o pliku robots.txt, meta tagu robots oraz dyrektywie nagłówka HTTP- X-Robots-Tag. Metody opisane w dokumencie są de facto internetowymi standardami kontroli przeszukiwania i indeksowania treści stron internetowych. Składają się z opisu pliku robots.txt oraz meta tagu robots, kontrolujących udostępnianie treści oraz dyrektywy nagłówka HTTP- X-Robots-Tag kontrolującej indeksowanie.

(Żródło: http://googlewebmastercentral.blogspot.com/2010/11/controlling-crawling-and-indexing-now.html)