Wraz z rozwojem sieci, wyszukiwarki odgrywają kluczową rolę w coraz większym stopniu pozwalając użytkownikom znaleźć interesujące informacje. Jednak dziś wyszukiwarki są poważnie zagrożona przez złośliwy spam internetowy, który próbuje obalić bezstronność wyników wyszukiwania. Wyszukiwarki internetowe zwalczają obecnie spam internetowy przy wykorzystaniu różnych często własnych zastrzeżonych technik. Omówiony artykuł jest próbą sformalizowania problemu i ma na celu wprowadzenie kompleksowego rozwiązania pomocnego w wykrywaniu spamu internetowego.

Spamerskie strony internetowe korzystają z różnych technik w celu osiągnięcia wyższej niż zasłużona pozycji w rankingu wyszukiwarki internetowej. Podczas gdy eksperci mogą ręcznie zidentyfikować spam, to jest to zbyt drogie, aby ręcznie sprawdzać tak ogromne ilości stron. W artykule przedstawione zostały technik półautomatyczne do oddzielania renomowanych, dobrych stron od spamu. Zasada polega na tym, że najpierw wybierany jest mały zestaw stron „materiału siewnego” do ręcznej oceny przez ekspertów. Po ręcznym określeniu renomowanych/wartościowych stron „materiału siewnego”, wykorzystywana jest struktura linków dostępnych w sieci w celu odkrycia innych stron, które mogą być dobre. W artykule przedstawione zostały możliwe sposoby realizacji selekcji „materiału siewnego” oraz odkrycia dobrych stron. Wyniki pokazują, że można skutecznie odfiltrować spam ze znacznej części sieci, w oparciu o dobry „materiał siewny” określony poniżej 200 stron.

Pełna treść artykułu Walka ze spamem przy wykorzystaniu TrustRank.