Возраст домена важен для Яндекса при любой конкурентности запроса

Цель
В данном исследовании  мы попытаемся проанализировать данные, которыми обладает компания «Трилан» и проверить предположение о том, что чем старше сайт, тем выше его позиция в выдаче Яндекса.

Исходные данные

Итак, для начала определимся со статистической выборкой, по которой стоятся аналитические выводы:
•    мы изучили почти 40 тысяч различных поисковых запросов разной тематики и TOP-50 сайтов по каждому из них в поисковой системе http://yandex.ru на 29.01.2010. Сразу оговорюсь, что все эти запросы не были выбраны произвольно или случайно, они так или иначе интересуют одну из трех компаний (это не только Трилан, но и два других игрока SEO-рынка ), предложивших определенный список запросов для исследования.  Плюс здесь в том, что это именно те фразы, по которым кто-то продвигается, а значит запросы интересные с точки зрения продвижения. При этом значительный объем выборки позволяет надеяться на ее достаточную репрезентативность.
•    несмотря на то, что 40000 запросов * 50 позиций = 2 млн. страниц, на самом деле это всего около 200 тыс. уникальных доменов второго уровня, возраст которых мы попытались определить с помощью различных whois-сервисов. К сожалению, возраст примерно 5%  доменов так и остался неизвестен, связано это с тем, что
- в некоторых странах, таких как, например, Украина, сервисы вообще не сообщают дату регистрации,
- а некоторыми зонами, в которых оказалось по 1-2 сайта,  пришлось пренебречь из-за трудоемкости процесса написания парсеров для каждого whois-сервиса для разных стран и зон.
•      при помощи сервиса adstat.rambler.ru/wrds, мы получили оценку популярности запроса — его частотность за декабрь 2009 года.

Общая статистика
Самый первый  и самый очевидный график, который должен подтвердить или опровергнуть нашу гипотезу, — это средний возраст доменов, находящихся на одном месте в поисковой системе:

Влияние возраста домена на позицию сайта в Яндексе

Из графика сразу же можно сделать ряд  выводов:
1.    Действительно, чем выше позиция, тем больше средний возраст домена.
2.    Сайты, находящиеся на первом месте, в среднем на полтора года старше сайтов, находящихся на 50 месте.
3.    В самом начале график резко снижается, затем падение становится более гладким, то есть, чем ближе к первому месту, тем значительней влияние фактора.

Строго говоря, сам по себе график еще мало о чем говорит, он лишь выявляет закономерность, которая может быть как причиной реального  влияния фактора на ранжирование, так и косвенным побочным эффектом влияния других факторов. Если предположить, что это действительно побочный эффект, то его можно попытаться объяснить логически: Яндекс заинтересован в том, чтобы его поиск был полезен людям, то есть  давал наиболее полную и подробную информацию на интересующую пользователей тему. Известно, что на положение сайта в выдаче влияют реальные факторы: объем сайта и представленной на нем информации, надежность источника, цитируемость в интернете. Вполне логично предположение, что больше информации в сети на старых сайтах, больше упоминаний и ссылок на них же. То есть, вполне вероятно, что сам по себе возраст домена и не учитывается в алгоритмах Яндекса, но логично вытекает из других факторов, влияющих на выдачу.  Впрочем, вполне вероятно и обратное. Наверняка сказать можно только после более подробного анализа других факторов и сопоставления информации. Пока лишь договоримся, что далее мы будем говорить не о влиянии фактора на ранжирование, а лишь о поиске некоторых закономерностей.
У первого графика есть ряд недочетов:
•    Во-первых, он никак не учитывает положение конкурентов по одному запросу относительно друг друга.
•    Во-вторых, существенное влияние на него могут оказать экстремальные ситуации: совсем молодые или совсем старые домены могут исказить истинное положение дел.
•    В-третьих, по этому графику сложно будет сравнить влияние возраста домена с другими факторами, которые, возможно, учитываются в алгоритмах Яндекса.

Для построения более универсального графика разработаем методику, которая позволит нам в дальнейшем измерить степень влияния любых факторов. Рассмотрим на примере. Предположим, для некоторого запроса на  первых пяти местах  в поисковой системе находятся следующие сайты:

Влияние возраста домена на позицию сайта в Яндексе

В последнем столбце здесь находятся номера сайтов в списке, упорядоченном по возрасту: 1—самый старый, 5—самый  молодой. Таким образом, в идеальной ситуации, когда влияние фактора максимально, позиция в первом столбце всегда совпадает с числом в последнем, в худшем случае, порядок обратный. Пример иллюстрирует методику для пяти сайтов, в нашем случае масштабируем  до 50.

Теперь  возьмем все  сайты, находящиеся на первом месте в Яндексе, суммируем их позиции по возрасту и делим на объем выборки, затем то же самое сделаем для второго места, ну  и так далее до 50 места. Поясню, чего стоит ждать: если график будет расти,  значит, влияние фактора положительно, убывать—отрицательно, в случае отсутствия каких либо закономерностей—горизонтальная прямая на уровне 25.  Чем быстрее рост или падение, тем сильнее влияние фактора:

Средняя позиция сайта в Яндексе по возрасту домена

В итоге, график полностью подтверждает все уже полученные выводы: более старые домены в среднем находятся , чем их более молодые конкуренты, и чем выше в выдаче происходит борьба за позиции,  тем значительней влияние фактора..

В завершение первой части анализа построим  графики, обратные двум предыдущим.

Влияние возраста домена на позицию сайта в Яндексе

Влияние возраста домена на позицию сайта в Яндексе

Первый график построен на основании интервальной оценки. Так как возраст доменов по интервалам времени распределен  неравномерно, график очень приблизительный, и именно этим объясняются резкие колебания  в его правой части.  Впрочем, этого достаточно, чтобы заметить еще одну важную закономерность: в левой части первого и правой части второго графиков кривая резко меняется, а в противоположной части она идет практически горизонтально. В районах роста/падения находятся молодые сайты. Иными словами, сайты, зарегистрированные 2 года  назад, имеют шансы оказаться выше значительно более, чем сайты, которым 1 год. Но сайты, которым 5 и 10 лет, соответственно  шансы имеют равные. По первому графику можно определить приблизительный диапазон: если домен младше 3-4 лет, то его возраст в сравнении с конкурентами имеет большое значение, если старше, то усредненное место его выше, чем у молодых, но не намного ниже, чем у еще более старых.

На втором графике можно видеть  еще один неожиданный эффект—слева график резко идет  вверх. Этот парадокс предлагаю назвать “эффектом заслуженных” , так как он вызывается такими сайтами, как mail.ru, rambler.ru и тому подобными. Это те очень старые порталы, которые дожили до нашего времени, при этом в выдаче поисковых систем упоминаются довольно часто, но по запросам, интересным для продвижения находятся совсем не высоко. 

Запросы, частотность, возраст домена, позиция

Во второй части анализа я попытаюсь найти какие-либо закономерности, связанные с самими запросами,  возможно, определить какие-то группы запросов, для которых влияние возраста домена более или, напротив, менее значимо.

Сразу оговорюсь, что в данном исследовании я не ставлю перед собой задачи разделения запросов по группам исходя из лексического значения—будем  пытаться определить группы “на глазок”.
Помимо лексики для запросов есть еще одна вполне измеряемая характеристика—это  их популярность, приближением  которой является их частотность в поисковой системе rambler.ru.

Для того чтобы начать поиск  закономерностей,  сначала нужно договориться, что, собственно говоря, значит фраза “для выдачи по этому запросу  влияние возраста домена выше, чем по тому”. То есть нужно ввести норму для  измерения расхождения выдачи Яндекса с ранжированием доменов по возрастам.  Для  этого я предлагаю использовать метод, очень похожий на принцип, использующийся в нашей системе статистики для определения апдейта поисковой системы. Апдейт, напомню,  - это выраженная в процентном отношении степень расхождения выдачи поисковой системы сегодняшнего дня по отношению ко вчерашнему. Итак, для каждого запроса у нас есть два вектора (1,2,3 …  i …  n)—позиции сайтов в поисковых системах,  ( ,  ,   …  …  )— позиция в списке, отсортированном по доменам. Показатель отклонения “выдачи по доменам” от естественной выдачи Яндекса для запроса w будем рассчитывать по следующей формуле:



, для четных n (в нашем случае n=50)


s(w) – чем меньше число, тем меньше расхождение, то есть тем более значим фактор.

В итоге мы вывели способ одним числом измерять степень влияния конкретного фактора на выдачу поисковой системы в целом, для этого найдем среднее s(w) по всем запросам: 63,20%.  Интересно будет сравнить это число с последующими измерениями.
Следующим шагом попробуем найти зависимость степени влияния возраста домена от частотности поисковых запросов. В следующей табличке приведена сводная информация по интервалам:

Влияние возраста домена на позицию сайта в Яндексе

Влияние возраста домена на позицию сайта в Яндексе для запросов разной частнотности

Вывод—влияние возраста домена, если оно есть, одинаково на запросы вне зависимости от частотности.
Теперь возьмем весь список запросов, для каждого запроса найдем s(w), отсортируем их в порядке возрастания параметра и получим список, на вершине которого будут располагаться те запросы, которые наиболее соответствуют гипотезе “чем старше сайт, тем выше он в Яндексе”, а внизу списка окажутся запросы, на которые влияние возраста домена минимально.

Дальше была рассмотрена на первая сотня запросов и на последная. Мы пытались обнаружить принципиальные различия между запросами в этих списках. Найти разницу не получилось.

Сайты, возраст домена, позиция

Теперь то же самое сделаем  для сайтов, упоминающихся в TOP-50 Яндекса по нашим запросам. Здесь уже важно не только и не столько расхождение, сколько его знак. То есть нужно определить не только то, насколько близки позиции сайтов и возраст домена, но и выше или ниже сайт находится в Яндексе, чем ему следовало бы, исходя из позиции по возрасту. Введем новую метрику:

Влияние возраста домена на позицию сайта в Яндексе
  




Здесь s—сайты , n—количество его упоминаний в TOP-50,   - позиция по запросу в Яндексе,   - позиция по возрасту среди конкурентов по запросу.

Далее возьмем сайты, упоминаемые по нашим запросам, не менее 30 раз, найдем для каждого из них r(s), отсортируем в порядке возрастания. И получим список, вверху со знаком минус—сайты, позиции которых значительно ниже, чем прогнозируемые по возрасту, внизу—сайты, которые находятся выше, чем им полагается по возрасту.
Закономерность, которую мне удалось обнаружить, видна невооруженным взглядом—внизу много довольно молодых, но при этом очень известных и брендовых сайтов.


Резюме

Итак, главные выводы этого исследования:
•    Закономерность «чем старше сайт, тем выше в Яндексе» действительно присутствует, причем чем ближе к первой позиции, тем закономерность четче прослеживается. При этом определить, есть ли прямая зависимость, пока не удалось, к этому еще вернемся.
•    Утверждение действует, в первую очередь, для молодых сайтов до 3-4 лет, между ними разница в возрасте действительно важна. Все, что старше, находится выше, чем молодые конкуренты, но разница в возрасте между ними уже не важна.
•    Усиления или понижения силы закона для запросов разной частотности не наблюдается.
•    Значительно меньше фактор ощущается для известных, цитируемых и брендовых сайтов.

Виталий Плотников, компания "Трилан", специально для SeoPro.ru


ОБСУДИТЬ:

Комментарии


Rambler's Top100