Новости
|
8 февраля 2012. 11:50
Перемены знаменуют начало нового этапа в жизни компании, когда она попытается работать в интересах акционеров ...
|
|
8 февраля 2012. 11:10
Сотрудник компании заявил в сети, SEO не дает ничего положительного пользователям интернету в целом ...
|
|
8 февраля 2012. 10:49
Теперь пожаловаться на пользователя или заблокировать его можно кликнув на значок "флажка" ...
|
|
|
7 февраля 2012. 18:27
Традиционно в начале года SEOnews объявляет о старте рейтинга SEO-компаний – «SEO глазами клиентов» ...
|
|
|
7 февраля 2012. 17:10
Около 45% пользователей отрицательно отреагировали на возможность появления социального медиа-контета в выдаче поисковика ...
|
|
|
7 февраля 2012. 16:58
2,5 миллиона рублей получит Андрей Райгородский, ведущий специалист в области информационных исследований ...
|
Самые популярные статьи
|
17 августа 2009. 03:09
|
|
20 февраля 2009. 19:31
|
|
12 августа 2009. 16:09
|
|
7 марта 2009. 11:07
|
|
|
28 февраля 2009. 16:33
|
|
6 августа 2009. 22:25
|
|
2 февраля 2009. 00:00
|
|
9 апреля 2009. 16:04
|
|
15 апреля 2009. 18:23
|
|
18 мая 2010. 17:02
|
Советуем посмотреть:
алюминиевый профиль порогвалютный рынок республики беларусь 2011
Теория
Влияние текстового окружения ключевиков на релевантность запросу
Цель
Целью данного исследования является поиск закономерностей, связанных со словами, которые расположены в тексте страниц рядом с поисковыми запросами. В этом исследовании мы попытаемся определить степень влияния на релевантность страниц в выдаче Яндекса наличие на этих страницах особых слов—“маркеров”. Эти слова мы будем искать, анализируя контент сайтов и вычленяя слова, расположенные в непосредственной близости от ключевиков.
Впервые предположение о возможном наличии таких “маркеров” в компании «Трилан» было высказано руководителем отдела ведения Размадзе Александром Борисовичем.
Стоит отметить, что определять “плохие” слова (т.е. негативно влияющие на релевантность страниц в выдаче) в данный момент мы не можем. Для определения таких маркеров необходимо наличие большого количества текстов, которые содержат поисковые запросы, но отсутствуют в топе выдачи Яндекса. Мы в данный момент располагаем лишь информацией о страницах, находящихся в TOP-50 выдачи. В этом исследовании ставятся задачи выявить саму возможность положительного влияния на результат, а также определить слова, наличие которых способно оказать такое влияние.
Теория
Для решения задачи мы воспользуемся алгоритмом, очень похожим на алгоритм, предложенный Полом Грэмом для фильтрации спама и основанным на формуле полной вероятности события, зависящего от несовместных гипотез, которая в свою очередь является прямым следствием теоремы Байеса.
Сама формула выглядит следующим образом:

Здесь P (B) – вероятность наступления события B,
– несовместные гипотезы,
– достоверность гипотезы,
- вероятность наступления события B при истинности гипотезы
.
Алгоритм
В нашем случае:
· cобытие B – “страница находится высоко в выдаче Яндекса по нашему запросу”;
· гипотезы
– слова, которые находятся в тексте рядом со словами из поискового запроса;
·
– вероятность того, что текст в котором это слово находится рядом с поисковыми запросами высоко в выдаче Яндекса;
·
– это достоверность гипотезы для данного текста.
Первый множитель в нашем случае можно получить экспериментально по определению вероятности:
![]()
Здесь
– количество попаданий слова рядом с поисковыми запросами в текстах, которые высоко в выдаче,
– всего попаданий этого слова рядом с поисковыми запросами во всей выборке.
Достоверность гипотезы будем вычислять для искомой страницы по формуле:
![]()
– количество упоминаний этого слова рядом с поисковыми запросами, V – всего слов, расположенных в непосредственной близости к поисковым запросам в данном тексте.
Таким образом, определены все необходимые для вычислений параметры.
Практика
Сначала определимся с параметрами и более точными определениями уже упоминавшихся ранее понятий:
1. Выше и далее под термином “слово” в контексте данного исследования будем понимать лемму, то есть начальную форму слова. Для приведения словоформ к леммам был использован парсер mystem от компании Яндекс).).
2. Слова, находящиеся в непосредственной близости от поискового запроса – это все слова, не входящие в поисковую фразу, но расположенные в тексте на расстоянии не более трех слов от любой из лемм, входящих в поисковый запрос без предлогов.
Общее количество поисковых запросов, на котором базируется исследование ≈49000
Для обучения алгоритма, то есть вычисления весов
были использованы тексты, находящиеся на первых трех местах в поисковой выдаче по всем поисковым запросам, то есть около 150 тыс. текстов.
Результаты
По нашему предположению, чем больше для пары поисковый запрос-текст параметр P (B) , тем выше вероятность, что текст при прочих равных условиях, окажется выше в поисковой выдаче Яндекса по этому запросу. Чтобы проверить наше предположение, найдем усредненные значения P (B) для текстов, находящихся на 1,2,3,5,10,20,30,40,50 местах в поисковой выдаче Яндекса.

Отметим, что здесь не стоит заблуждаться по поводу большого разрыва между третьим и пятым местом, так как для вычисления весов, как уже было сказано ранее, использовались именно тексты с первых трех позиций выдачи, но тем не менее очевидна тенденция, подтверждающая правильность нашего предположения.
Кроме того, в результате вычислений были определены веса слов, которые при положении в тексте в непосредственной близости от поисковых запросов положительно влияют на оценку Яндексом релевантности этих текстов. Списки таких запросов вы можете изучить в приложении, размещенном в конце данной публикации.
Заключение
В ходе исследования у нас сложилось убеждение, что алгоритм можно улучшить и получить еще более четкую закономерность, например, увеличив глубину поиска соседних слов, ограничить словарь с весами только словарными леммами или словами с достаточно высокой частотностью. Но к сожалению, это требует еще больше времени или увеличения ресурсов, а ни тем, ни другим мы сейчас не располагаем.
Тем, кто заинтересовался нашим исследованием и сам профессионально занимается продвижением сайтов и аналитикой, мы предлагаем оставить комментарии и свои размышления на данную тему.
PS
Хотелось бы отметить также, что не стоит переоценивать смысл написанного и полагать, что вы получите на выходе конкретный список из 10 слов, которые нужно просто ставить везде рядом с поисковыми запросами, чтобы занять все топы Яндекса. Стоит учитывать, что общая выборка наша не идеальна, поэтому глядя на список слов, который приведен в приложении, можно, безусловно, делать только общие выводы.
Попытаемся представить вам подчищенный список слов, отвечающих двум критериям: часто встречаются и имеют большой вес.
Итак, основные группы слов, которые стоят рядом с поисковыми запросами в текстах, высоко расположенных в Яндексе:
Общие описательные эпитеты, которые, надо полагать, говорят о том, что текст содержит описательную информацию. Высокий вес имеют такие слова, как “зеленый” (“красный”, “белый” и т. д.), “компактный” (“крупный”…), “праздничный”, “простой”, “пластиковый”, “металл”, “модель” и т. д.
Эпитеты и слова, описывающие коммерческую и не только привлекательность продукта: “спецпредложение”, “супер”, “замечательно”, “распродажа”, “роскошный”, “новинка”, “дешевый”, “впервые”, “бронировать” и т. д.
Глаголы и слова видимо не имеющие уже прямого отношения к словам из запроса, но говорящие об описательных свойствах статьи: “словарь”, “энциклопедия”, “статья”, “термин”, “википедия”. Такие слова и ссылки на энциклопедические ресурсы с описанием продукта, вероятно, стоит употреблять не обязательно в непосредственной близости от поисковых запросов.
Глядя на список можно сделать ряд еще не менее значимых выводов о типах употребляемых слов, но их я оставлю на откуп специалистам по продвижению.
Кроме того, по полному списку, который читатель здесь, конечно, не увидит, но уж попытайтесь поверить авторам исследования на слово, мы сделали некоторый КОСВЕННЫЙ вывод и о “плохих” словах. Первое, что здесь бросается в глаза из общеупортебительных слов с низким весом, это такие слова как “платить” (вес 0.31) и уж совсем в самом подвале таблицы “купить” (вес 0.25). Как нам кажется, в виду таких результатов, не стоит их ставить рядом с поисковыми запросамиJ Кроме того, в подвале таблицы оказалось много ничего не говорящих о возможном предмете вопроса пользователя словах, таких как названия стран (напомню, что сами слова запроса не учавствуют в анализе, то есть вопрос пользователей к Яндексу не был об этих странах), имен, слов: “ндс”, “тег’, “учреждение”, “бревно” и прочего мусора.
Аналитик компании «Трилан», Друг Платона.
Термины по этой теме
Верстка
Низкочастотники
ключевые слова
10.06.2010
Новые технологии в поиске, или Cтарые песни о главномВнедрение семантического поиска будущего начнется с уничтожения информационного мусора. Алгоритмы поисковиков его породили, им его и убивать





















