Matta Cuttsa nie trzeba chyba zbytnio przedstawiać. Dla mniej wtajemniczonych to guru SEO,  pracownik Search Quality w Google. Specjalizuje się w kwestiach związanych z SEO.

Zawsze warto śledzić co Matt Cutts  ma do  powiedzenia ;-)

Przypominamy najważniejsze kwestie poruszone przy okazji wywiadu z dnia 14 marca tego roku

Wywiad poruszający zagadnienia związane z budżetem linkowania, przekierowaniami 301 i 302, double content, a także aspektem nawigacji oraz rel „cannonical”. W wywiadzie poruszona została również kwestia plików KML, PDF oraz JavaScriptu, a także technika PageRank Sculpting.

Główne zagadnienia

Budżet indeksowania:

  • Limit podstron zindeksowanych w ramach jednej witryny (ang. indexation cap) nie jest stał i z góry określony, ale zależy od PageRanku strony i od obciążenia serwera.
  • Liczba zindeksowanych podstron jest w znacznym stopniu proporcjonalna do PageRanku strony. (Przykład: Jeśli istnieje dużo linków przychodzących do strony głównej, wtedy na pewno zostanie ona zindeksowana przez Google. Strona główna może natomiast prowadzić do innych stron w obrębie serwisu, które będą otrzymywać od niej PageRank i uda się je również zindeksować. Jednak im coraz głębiej w witrynie, tym PageRank ma tendencję do zmniejszania się.)
  • Ponadto innym powodem pominięcia niektórych podstron w indeksowaniu może być nadmierne obciążenie serwera. (obciążenie serwera jest to maksymalna liczba równoczesnych połączeń, którą serwer może obsłużyć). Czas poświęcony przez robota Google na indeksację witryny jest ograniczony, co ma wpływ na ograniczenie liczby indeksowanych podstron. Im większe jest obciążenie serwera, tym mniejszą liczbę stron jest w stanie tym czasie odwiedzić robot.
  • Powielanie treści (tzw. double content) ma istotny wpływ na liczbę zindeksowanych podstron. (Przykład: Zakładając, na podstawie tego co było wspomniane wyżej, że uwzględniając PageRank oraz obciążenie serwera Google wyznacza liczbę stron jakie będzie indeksować dla danej witryny, wówczas fakt, że na kilku stronach występuje powielanie treści, spowoduje, że Google wyrzuci te strony z indeksu, a to oznacza utratę możliwości posiadania w indeksie innych stron z dobrą,
    niepowtarzalną treścią. Tak więc powielanie treści marnuje budżet indeksowania.

Double content:

  • Linkowanie z jednej strony do innej zawierającej taką samą zawartość powoduje marnowanie PageRanku.
  • W sytuacji linkowania do kilku stron, na których występuje powielanie treści, wyszukiwarka internetowa w większości przypadków zorientuje się i potraktuje je jako jedną podstronę oraz połączy głosy prowadzące do poszczególnych duplikatów. Jednak biorąc pod uwagę, to że każda wyszukiwarka może taką sytuacje zinterpretować inaczej, najlepszym rozwiązaniem jest przebudowa tych linków bezpośrednio na stronie. · Najlepszym rozwiązaniem na uniknięcie powielania treści jest przebudowa architektury i nawigacji witryny, w celu wyeliminowania wszystkich powielanych stron. Innym również dobrym rozwiązaniem jest wykorzystanie do tego celu przekierowania 301. Natomiast w sytuacji, w której np. dostęp do serwera jest utrudniony aby naprawić strukturę strony, można wykorzystać tag rel=”cannonical”. Jednak jest to najgorsze z prezentowanych rozwiązań.
  • Powielanie treści zdarza się również czasem w odniesieniu do programów afiliacyjnych. W przypadku co-brandingu, gdzie jedyną różnicą między dwoma podstronami może być logo, użytkownicy widzą w zasadzie te same strony. Wyszukiwarki internetowe są generalnie niezłe w wychwytywaniu takich sytuacji, ale w innych wypadkach powtórzona treść może zostać zakwalifikowana jako powielanie treści.
  • Istnieje kilka rozwiązań umożliwiających unikanie dublowania treści w przypadku programów afiliacyjnych. Jednym ze sposobów jest zrobienie przekierowania 301 z adresu URL zawierającego odpowiedni parametr do adresu URL już istniejącego bez tego parametru (parametr można zapamiętać np. w pliku cookie). Innym rozwiązaniem jest umieszczanie takich stron w oddzielnym katalogu który można następnie zablokować w pliku robots.txt, Linki partnerskie są zazwyczaj przeznaczone dla rzeczywistych użytkowników, a nie dla wyszukiwarek. Zastosowanie jednego z opisanych sposobów powoduje, że nadal będą one dostępne dla użytkowników, a jednocześnie nie będzie problemu z tym, że kody partnerskie powodują powielanie treści.

Identyfikatory sesji:

  • Nie należy używać identyfikatorów sesji. Obecnie istnieje wiele możliwości, aby tworzyć strony, które nie wymagają identyfikatorów sesji. Należy myśleć o tym nie tylko z punktu widzenia wyszukiwarki, ale również z punktu widzenia użyteczności i przyjazności dla użytkowników. Użytkownicy są bardziej skłonni klikać w linki, które wyglądają ładniej i mają bardziej prawdopodobne do zapamiętania adresy URL. Google również oferuje narzędzie do radzenia sobie z identyfikatorami sesji.
  • Mimo, że w większości przypadków wyszukiwarki internetowe dobrze obsługują identyfikatory sesji, to zdarzają się również sytuacje, w których wiele wersji strony jest indeksowanych z różnymi identyfikatorami sesji, powodujący tym samym powielanie treści. Dlatego zawsze lepiej zadbać o to aby, poza sytuacjami w których są niezbędne, ich unikać.

Przekierowanie 301 i 302:

  • Przekierowanie 301 to najlepsze narzędzie do migracji między stronami i witrynami. Działa dość dobrze, a jego skutki są widoczne bardzo szybko.
  • W przypadku przekierowania 301 następuje pewna, jednak niewielka utrata PageRanku.
  • Dozwolone jest wykorzystywanie przekierowania 301 do linków afiliacyjnych, ale zwykle nie przekazuje ono PageRanku.
  • Przekierowania 302 zawsze powinny mieć charakter tymczasowy. W przypadku przekierowania 302 zazwyczaj nie następuje przepływ PageRanku.

Aspekt nawigacji i rel „cannonical”:

  • Aspekt nawigacji jest niezwykle ważny. Jeśli to możliwe, to należy zadbać o stosunkowo płytką strukturę w postaci pośrednich stron. Jeśli użytkownik musi kliknąć duża liczbę warstw struktury nawigacji, aby znaleźć pojedynczy produkt, może stracić cierpliwość. Jest to również dziwne dla wyszukiwarki, jeśli ma przejść przez wiele warstw pośrednich struktury nawigacji, zanim przejdzie do produktu. Każda kolejna z tych warstw pośrednich powoduje, że coraz mniejsza część PageRank ma szanse dotrzeć do strony docelowej. Płytka nawigacja pozwala wyszukiwarkom internetowym dużo lepiej odkryć strony docelowe.
  • Jeśli nawigacja jest zbyt złożona, jest mniej materiału dla wyszukiwarek, do odnalezienia, zindeksowania oraz zwrócenia w odpowiedzi na zapytania użytkownika.
  • Podstrony, które są łączone przy wykorzystaniu rel „cannonical”, nie muszą być zupełnie identyczne, powinny jednak dotyczyć np. tego samego produktu lub produktów ściśle ze sobą powiązanych, różniących się powiedzmy tylko kolorem czy rozmiarem. Ogólnie rzecz
    biorąc, idea kanonicznych tagów ma na celu możliwość „powiedzenia” wyszukiwarce, że treści na dwóch stronach są w zasadzie takie same.
  • Nie istnieją przeciwwskazania do tego, aby podstrona zawierała rel „canonical” do samej siebie lub aby rel „canonical” występowało na każdej podstronie witryny.
  • Google może zlekceważyć umieszczony na stronie tag rel „canonical”, w sytuacji, kiedy uzna, że jego zastosowanie jest bezcelowe, lub może powodować szkody.

Pliki KML:

  • Google indeksuje pliki KML. KML to format pliku używany do wyświetlania danych geograficznych, w wyszukiwarkach takich jak Google Earth, Google Maps i Google Maps dla urządzeń przenośnych. Plik KML używa struktury opartej na znacznikach zagnieżdżonych elementów i atrybutów i oparty jest na standardzie XML.
  • Plik robots.txt nie powinien być używany w celu blokowania indeksacji plików KML. Najlepszą praktyką jest pozwolenie robotowi na działanie, a on postara się je “odduplikować”. Można też próbować naprawić to szybciej za pomocą poprawnej architektury witryny lub za pomocą przekierowań 301. Próby blokowania indeksowania podstron z poziomu robots.txt są zwykle bezskuteczne, gdyż Google zazwyczaj wciąż będzie je widzieć i trzymać w indeksie. Niekoniecznie więc można w ten sposób zaoszczędzić “budżet” na indeksowanie pozostałych podstron.

Używanie zapytań HEAD i GET przez Google:

  • Większość serwerów jest podobnie obciążona zapytaniem HEAD i GET. Z testów Google wynika, że efektywniej jest wysyłać zapytanie GET prawie za każdym razem, zamiast odpytywać tylko o HEAD. Są jednak sytuacje, w których Google pyta tylko o HEAD. Przykładowo, robot indeksujący obrazki lub pliki wideo używa zapytania HEAD – głównie dlatego, ze obrazy mają większą objętość.
  • Google wciąż korzysta z parametrów typu If-Modified-Since, dzięki którym serwer może powiedzieć czy strona zmieniła się, czy nie.

PageRank Sculpting:

  • PageRank Sculpting nie jest najlepszym rozwiązaniem, jest stratą czasu. Lepiej poświęcić ten czas na pozyskanie większej liczby linków lub stworzenie treści lepszej jakości.
  • Lepiej kierować użytkowników do ważnych treści, które warto aby przeczytali za pomocą architektury serwisu, a nie przy wykorzystaniu PageRank Sculpting.
  • Rozważne linkowanie między powiązanymi ze sobą treściami i pozyskiwanie tematycznych linków bezpośrednio do podstron, jest dużo lepszym rozwiązaniem niż stosowanie PageRank Sculpting.
  • PageRank Sculpting podejmuje PageRank, który już jest na stronie i próbuje prowadzić go do różnych stron, które uważa że będą bardziej skuteczne. Dużo lepszym rozwiązaniem jest umieszczenie na stronie głównej serwisu linków do produktów, które są ważne i mogą przynieść dużą marżę zysku. Wówczas wiele PageRank popłynie przez ten link do konkretnej strony produktu. (Przykład: Można rozpocząć z dziesięcioma najlepiej sprzedającymi się produktami, umieścić je na pierwszej stronie, a następnie na stronach tych produktów można umieścić linki do następnych dziesięciu najlepiej sprzedających się produktów. Jeśli ktoś pojawi się na jednej z tych stron i zobaczy coś, co wygląda naprawdę dobrze, kliknie w to, a następnie stamtąd może iść do kolejnych przydatnych i pokrewnych produktów. W ten sposób w łatwy sposób można prowadzić zarówno użytkowników, jak i wyszukiwarki prosto do ważnych produktów)
  • Sculpting oparty na JavaScript lub iframe – może zostać potraktowany jako spam. Zmiany w traktowaniu nofollow, jakie Google poczyniło, aby zmniejszyć efektywność sculptingu, były częściowo motywowane również przez ludzi z działu Search Ωuality, którzy chcieli doprowadzić do sytuacji, w której boty i użytkownicy widzą te same linki

Pliki PDF:

  • Roboty Google przetwarzają pliki PDF, jeśli jednak istnieje możliwość aby zamieścić daną treść w bardziej webowym formacie, jak np. czystym HTML, będzie to bardziej użyteczne dla internautów niż PDF.
  • Pliki PDF że są podobne do plików Flash, nie są to pliki w webowym formacie, ale mogą być bardzo przydatne. W ten sam sposób, w jaki roboty Google starają się znaleźć przydatne treści w pliku Flash, starają się również znaleźć przydatne treści w pliku PDF.

JavaScript:

  • Google przez jakiś czas skanował JavaScripty w celu odszukania w nich linków. Aktualnie roboty Google są mądrzejszy w zakresie JavaScriptów i potrafią wykonywać niektóre z nich.
  • Google nie wykonuje wszystkich JavaScriptów, pomija między innymi skrypty, jak np. Google Analytics.
  • Google ma możliwość wykonywania dużych partii JavaScriptów, jeśli tego chce lub potrzebuje.
  • W przypadku tworzenia reklam przy użyciu JavaScriptu, można używać rel=”nofollow” w JavaScriptowych linkach. Reklamy nie powinny mieć wpływu na ranking wyszukiwania.
  • Jeżeli iframe i dziwne JavaScripty staną się powszechne w stopniu wpływającym na jakość wyników wyszukiwania, Google wprowadzi zmiany w zakresie przekazywania takimi linkami PageRanku.

Dodatkowo o czym warto wiedzieć:

  • Jeśli robot Google znajdzie dużo podstron danej witryny, których wartość uzna za niską, wpłynie to na liczbę podstron witryny, które będą indeksowane. (jest to niezależne od występujących przekierowań czy stosowania tagu rel „cannonical”).
  • Robot poświęca sporo czasu na podstrony, które ostatecznie mogą nie znaleźć się w indeksie, dlatego ważne jest aby wszystkie podstrony zawierały aktualne informacje i sporo tekstu.
  • Google nie chce aby reklamy wpływały na organiczne wyniki wyszukiwania. Bardzo dużo tego typu elementów jest aktualnie rozpoznawanych już przez roboty Google i omijanych przy obliczaniu wartości witryny.
  • W przypadku braku kodu odpowiedzi HTTP Google zindeksuje witrynę pod jej oryginalnym adresem.
  • Google robi ostatnio bardzo wiele by wykrywać spam, tak aby nie wpływał on nadmiernie na wyniki wyszukiwania.

Źródło: http://www.stonetemple.com/articles/interview-matt-cutts-012510.shtml