indeksowanie plikow PDF przez Google

Google rozpoczęło indeksowanie PDFów już w 2001 roku i przez te dziesięć lat nazbierało w swoim indeksie setki milionów takich plików. Mimo zapewnień Google, że pliki PDF są indeksowane przez roboty wyszukiwarki, wiele zagadnień dotyczących chociażby indeksowania obrazków czy tez linków umieszczonych w plikach PDF budziło wiele wątpliwości, aż do zeszłego czwartku, kiedy to na oficjalnym blogu Google dla Webmasterów pojawił się oficjalny wpis wyjaśniający podstawowe kwestie z tym związane.

Indeksowanie zawartości plików PDF

Google bez problemu indeksuje zawartość tekstową plików PDF (niezależnie od języka czy rodzaju kodowania znaków). Problem stanowią tylko te pliki, które są chronione hasłem lub są zaszyfrowane. Tak jak wspomniano z plików PDF bez problemu wyodrębniana jest zawartość tekstowa. Natomiast obrazy umieszczone w treści takiego dokumentu nie są jak na razie indeksowane. Aby Google było w stanie zindeksować obrazy należy umieścić je na stronie HTML.

Indeksowanie linków występujących w dokumencie PDF

Odnośniki umieszczone w plikach PDF są traktowane podobnie jak linki HTML. Oznacza to, że przekazują wskazywanym stronom swój PageRank, anchor tekst linku oraz inne sygnały dotyczące indeksowania. Innymi słowy roboty wyszukiwarki Google są w stanie podążać za linkami umieszczonymi w plikach PDF i co ważne linki te są zliczane do rankingu pozycji stron. Odnośniki umieszczone w pliku PDF posiadają jednak również pewne ograniczenia w stosunku do linków wykorzystywanych w dokumentach HTML, a mianowicie nie można nadawać im atrybutów, np. „nofollow”.

Wizytówka strony z dokumentem PDF w wynikach wyszukiwania

Tytuł prezentowany w SERP dla strony będącej plikiem PDF tworzony jest na podstawie dwóch elementów, a mianowicie: tytułu z metadanych pliku oraz anchor tekstów linków prowadzących do pliku. Aby mieć pewność, że Google będzie pokazywało właściwy tytuł w wynikach wyszukiwania, odpowiednią treść należy umieścić w obu wymienionych elementach.

Pliki PDF w rankingu Google

Pliki PDF zazwyczaj osiągają podobne pozycje w rankingu wyszukiwarki jak pliki HTML. Rodzaj pliku nie ma tu żadnego znaczenia, ważna jest natomiast sama zawartość dokumentu. W przypadku niektórych zapytań, można nawet spotkać się z przewagą w TOP10 plików PDF nad stronami HTML. Na tę wyższość PDFów nad stronami w HTML wpływa przede wszystkim fakt, że zazwyczaj posiadają one rozbudowana i unikalną zawartość tekstową, a to jest wysoko oceniane przez algorytmy wyszukiwarek internetowych.
Pliki PDF w rankingu Google

Usuwanie plików PDF z indeksu wyszukiwarki

W przypadku plików HTML najprostszym sposobem na to, aby nie były indeksowane jest dodanie do nich metatagu robots o wartości noindex. A co z plikami PDF? Kiedy zależy nam na tym, aby dany plik PDF nie był indeksowany przez wyszukiwarkę Google wówczas najlepiej do nagłówka HTTP takiego pliku dodać X-Robots-Tag o wartości noindex. W taki sam sposób należy postąpić w przypadku tych plików, które znalazły się już w indeksie Google (chociaż nie powinny). Jeżeli jednak istotne jest ich szybkie usunięcie, wówczas warto dodatkowo pokusić się o użycie narzędzia do usuwania adresów URL dostępnego w GWT.

Duplikowanie treści

double contentWielu webmasterów nie do końca zdając sobie sprawę z tego jak wyszukiwarka indeksuje zawartość plików PDF tworzy i umieszcza w serwisie drugą wersję takiego dokumentu wykorzystują do tego celu HTML. Działanie takie nie wpływa korzystnie na pozycje ani jednej ani drugiej wersji strony, czy jednak może powodować występowanie zjawiska double content? Prawdopodobnie tak, Google zachęca do tego, aby zawartość udostępniać tylko w jednym wybranym formacie (oczywiście lepiej w HTML). W sytuacji, kiedy z jakiegoś powodu obie wersje są niezbędne zalecane jest wskazanie preferowanego adresu URL albo poprzez odpowiedni wpis w sitemapie, albo poprzez dodanie tagu kanonicznego.

Więcej na temat najlepszych praktyk dotyczących optymalizacji plików PDF można dowiedzieć się z uwag Matta Cuttsa jakie przedstawił w zamieszczonym poniżej wideo.

Źródło: http://googlewebmastercentral.blogspot.com/2011/09/pdfs-in-google-search-results.html