Блог о контекстной рекламе. Бегун, Директ и AdSense - как заработать вебмастеру.

Рейтинг в Google через таблицы и математику 1 Ноябрь 2009

Эта статья требует очень внимательного чтения. Данные о корреляции не предоставят всех ответов, но определенно будут очень интересными. Точно так же данные о моделях ранжирования могут дать богатую почву для предположений и догадок. В то же время беглый просмотр графиков без внимательного прочтения самой статьи может оказаться опасным. В тексте содержится много полезной информации, без которой графики могут ввести в заблуждение. Пожалуйста, будьте внимательны!

Для начала, некоторая статистика из индекса Linkscape:
• Время выпуска: 6 октября 2009
• Коренных доменов: 57,422,144 (57 миллионов)
• Поддоменов: 215,675,235 (215 миллионов)
• URLs: 40,596,773,936 (40.5 миллиардов)
• Ссылок: 456,939,586,207 (456 миллиардов; при включении страниц с 301 это число вырастает до 461 миллиарда)
• Свойства ссылок:
o No-follow, внутренних: 6,965,314,198 (1.51% всего)
o No-follow, внешних: 2,765,319,261 (0.60% всего)
o No-follow, всего: 9,730,633,459 (2.11% всего)
o 301: 384,092,425 (0.08% всего)
o 302: 2,721,705,173 (0.59% всего)
o URL с использованием ‘rel=canonical’: 52,148,989 (0.01% всего)
• Средняя корреляция между mozRank + Google PageRank
o Среднее арифметическое отклонение: 0.54
• Средняя корреляция между Domain mozRank (DmR) и Homepage PageRank
o Среднее арифметическое отклонение: 0.37

А теперь приступим к исследованию корреляции данных и поговорим о том, как использовать данные Linkscape для получения очень интересной информации. Первые графики представляют голую корреляцию, только соотношение между позицией в рейтинге и отдельной характеристикой. Как уже было сказано выше, внимательно читайте описание каждого графика, перед тем как сделать выводы. И помните: корреляция не является причинностью. Графики не означают, что если вы сделаете что-то, указанное на них, то сразу же повысите рейтинг.

Понимание графиков:

• Средний индекс по величине: Эти значения используются на осях Y многих графиков. Вместо выведения средних значений мы выводим средний относительный индекс в SERP (страница результатов поисковой машины) отсортированный по величине. Так что если у нас есть 3 SERP, страница на первой позиции стоит на 4 месте по количеству ссылок, на второй позиции - на 1 месте по количеству ссылок, а на третьей позиции - на 10 месте по количеству ссылок, то средний индекс по количеству ссылок для первой позиции будет (4+1+10)/3 = 5.
• Средние цифры - эти цифры используются на оси Y первого графика и показывают среднее количество ссылок.
• Позиция: Эти значения используются на осях X многих графиков. Они обозначают органическую позицию в Google.com, исключая любые вертикальные и нетрадиционные поисковые результаты (местные, видео, новости, картинки и т.п.)
• Планки погрешностей: Планки, ограничивающие основные линии в наших графиках могут показать точность в двух вещах. На некоторых графиках они показывают 95% точность в расположении среднего значения при бесконечных аналогичных данных. Эти планки показывают нашу уверенность в линии и часто содержат в названии “stderr” (сокр. среднеквадратическая ошибка). На других графиках они показывают нашу уверенность в том, как будет выглядеть любая данная страница SERP. Эти планки гораздо шире, так как предсказать средние значения всегда проще, чем конкретные. Графики с такими планками погрешностей часто содержат в названии “stddev” (сокр. квадратичное отклонение).

Данные ниже базируются на собрании 10 000 поисковых результатов для различных запросов (с уклоном в общую и коммерческую тематику) и 250 000 результатов. Некоторые результаты не были учтены из-за ошибок во время сбора информации и не-html ответов. Результаты брались в США с Google.com с октября 2009.

Как ссылки соотносятся с рангом?

Здравый смысл нам подсказывает, что само количество ссылок, указывающее на результат, уже должно неплохо предсказывать его позицию в рейтинге. Тем не менее, многие могли сами убедиться в том, что Yahoo! Site Explorer и даже сервисы Google вроде Webmaster Tools могут отображать значительное количество ссылок, не играющих никакой роли (ссылки с nofollow, внутренние ссылки и т.п), и исключать ссылки, имеющие довольно важное значение (вроде 301 редиректа). Используя данные Linkscape мы можем удалить эти “шумовые” ссылки и оперировать для нашего анализа только количеством полноценных внешних ссылок (и 301).

шумовые ссылки

Первый график, очевидно, предполагает наличие корреляции, но пики несколько разочаровывают. После более глубокого анализа мы пришли к выводу, что это происходит в основном из-за результатов со страницами, содержащими огромное (или, напротив, совсем небольшое) количество ссылок. Таким образом, мы пришли к созданию следующего графика:

ранжирование по количеству ссылок

Здесь мы можем увидеть, что произошло бы, если бы мы в принудительном порядке ранжировали результаты по количеству ссылок. Это значит, что мы брали каждый набор результатов и присваивали ему номер (1,2,3 и т.д.) соответствующий количеству ссылок в сравнении с другими страницами соответствующего результата (то есть странице с наибольшим количеством ссылок присваивался номер 1, следующей - 2 и т.д). Плавность линии предполагает, что график довольно точен, но мы можем еще более уточнить его. Планки погрешностей ниже показывают 95% точность для вычислений средних значений.

итоговый ссылочный график

Итого, мы можем прийти к выводу, что корреляция довольно сильна. Да, количество полноценных внешних ссылок является важным параметром и среднеквадратическая ошибка невелика. В то же время сравнение с линией “идеального случая” показывает, что ссылки не представляют всей картины. Получить большее количество ссылок, чем конкуренты, является хорошей целью, но она не должна быть единственной.

Последний оставшийся шаг - проверить квадратичное отклонение. Это покажет нам, насколько индивидуальные страницы могут отличаться от средних показателей.

Этот график показывает нам, что вариации индивидуальных наборов результатов могут быть довольно значительными, так что набор количества ссылок не всегда означает победу в конкурентной борьбе. Стоит отметить, что на графике квадратичное отклонение показано для 95% точности, что отстоит на 1,97 среднеквадратических ошибки от средних значений. В общем, количество полноценных внешних ссылок явно важно и имеет сильную корреляцию с рейтингом. Но для получения более важной информации нам придется использовать более сложные модели и оценки.

Может ли любая одна метрика предсказать рейтинг?

Это было бы хорошо. Ранее мы обращали внимание на качественные метрики вроде PageRank, Yahoo! Site Explorer Link Counts, Alexa Rank и т.д. Все они не многим более полезны, чем догадки. Оценка Google PageRank была (в феврале 2009) примерно на 16% лучше, чем случайная догадка, для предсказания рейтинга страницы (N+10, на 1 или 2 странице) и менее чем на 5% лучше догадок для предсказания позиции в списке (N+1, на 1 или 2 месте). График ниже показывает корреляцию для целого набора метрик, популярных в SEO:


С тех пор была проведена огромная работа по улучшению индекса Linkscape. Следующий график показывает этот прогресс:


Корреляция на графике уже на 35-50% лучше, чем догадки. Из него также следует, что лучше всего соответствуют рейтингу внешний mozRank (представляющий количество ссылочного веса передаваемого на страницу с внешних ссылок) и полноценные внешние ссылки. Это наверняка возьмут на заметку линкостроители. Эта линия корреляции может, например, предполагать, что в среднем важны как ссылки со страниц с высоким mozRank/PageRank и малым количеством ссылок на них (чтобы передавался больший вес), так и просто множество полноценных внешних ссылок.

Откуда такая разница в результатах? Во-первых, измерялись несколько разные вещи. Модель N+1 / N+10 несколько иная. Во-вторых, кроме изменения и улучшения индекса, в новых результатах учтено существенно больше страниц SERP.

Плохая новость состоит в том, что эти данные не дают нам полной картины. Более того, они показывают, что для каждого конкретного запроса квадратичное отклонение довольно велико.


Наблюдая такой эффект мы сталкиваемся с проблемой. Фактически данные не предоставляют прямых указаний к действию. Нет четкого “сделай это для повышения рейтинга”, а именно этот “Грааль” нас интересует.

Как соотносятся с рейтингом факторы оптимизации страниц?

Пока что мы не рассматривали корреляцию факторов оптимизации страниц с рейтингом. Займемся этим.


Google недавно объявили о том, что они игнорируют тег meta keywords. Эти данные, показывающие множество пиков на графике и очень широкие границы среднеквадратических ошибок, определенно подтверждают упомянутое заявление. Добавление ключевых слов в meta keywords, пожалуй, является одним из наименее связанных с рейтингом параметров среди тех, которые мы рассматривали.

А вот теги title с ключевыми словами, наоборот, показали заметную корреляцию с рейтингом. Конечно, они не идеально связаны, но в среднем график дает нам понять, что Google предпочитает страницы с ключевыми словами в теге title.


Ранее мы проверяли теги H1/H2/Hx и пришли к выводу, что они мало влияют на рейтинг. График показывает, что это до сих пор так. Использование слов запроса в других частях страницы вроде тела (все в рамках тегов ) и внешних якорей (в теге (a) ) имеют значительно более сильную корреляцию с рейтингом.

Этот график - наглядная иллюстрация того, почему стоит создавать более сложные системы, чем анализ прямой корреляции. Согласно этому графику использование ключевого слова в пути или имени файла в URL негативно коррелирует с рейтингом, поддомены в этом смысле практически бесполезны, а домены хорошо коррелируют с рейтингом. Но реальный опыт SEO говорит нам, что использование ключевых слов в названии страницы на самом деле является хорошей идеей, как для рейтинга, так и для CTR. Каждый раз, сталкиваясь с подобными противоречивыми данными, мы создаем множество гипотез. На данный момент нам кажется, что наиболее правдоподобно ситуацию объяснит то, что данные по адресу и имени файла могли быть искажены использованием ключевых слов в названии домена. То есть, если домен уже содержит в себе ключевое слово, то повторное его использование в названии файла может расцениваться как потенциальный спам (а точнее - его разновидность под названием keyword stuffing, злоупотребление ключевыми словами). Также возможным объяснением такой корреляции может быть то, что менее оптимизированные с точки зрения URL страницы оказываются более эффективными из-за других факторов (ссылок, авторитетности домена и т.д.).

Какова бы ни была истинная причина такого положения дел, это отличный пример того, почему чистая корреляция не всегда информативна и почему требуется более глубокий анализ и более сложные модели.

Возможно ли построить модель ранжирования из которой мы бы получили больше практически применимых данных?

Чтобы получить правильное представление о потенциальной ценности каждого действия в SEO, нам необходима модель Google. И это большая проблема. Предполагается, что в алгоритме Google используется около 200 факторов. Даже не смотря на то, что у нас есть множество различных данных (по оптимизации страниц, по ссылкам и т.д.), общая картина остается запутанной.

Красная линия “uber” на графике построена при помощи совокупности всех имеющихся у нас данных насчет страниц, доменов и ссылок, о которых мы упоминали выше. Причем данные были пропущены через специальную компьютерную систему.

Такие машинные модели позволяют гораздо лучше оценивать использование ключевого слова в конкретном месте на странице. Вместо того чтобы опираться на одну лишь корреляцию, мы можем обратиться к наиболее подходящей модели с вопросом “каково влияние использования ключевого слова здесь?”. Давайте рассмотрим пример, с которым у нас были проблемы чуть ранее. Корреляция ключевых слов в пути/имени файла и рейтинга:

Как вы видите, модель предполагает, что поддомены в основном бесполезны в качестве места размещения ключевых слов, но вот домены, наоборот, могут дать хороший результат. Расположение ключевых слов в пути и имени файла тоже дают небольшой позитивный эффект, что совпадает с нашими ожиданиями. Стоит отметить, что на графике некоторые линии уходят в отрицательные значения. Просмотрев результаты, мы увидели, что сайты на соответствующих позициях “перестарались” с использованием ключевых слов в адресах. Многочисленное повторение ключевого слова выглядит как спам. Возможно, это недостаток нашей модели, но скорее всего многие страницы могли бы получить выгоду из менее агрессивного использования ключевых слов в URL.

На следующем графике вы видите планки погрешностей квадратичного отклонения. Очевидно, что мы более уверены в топовых результатах, где использование ключевого слова не повредит и скорее даже поможет, но менее уверены в последующих результатах с негативными эффектами.

Давайте вновь обратим внимание на теги H(x) и посмотрим, может ли наша модель ранжирования что-либо добавить к нашим знаниям об их значении и ценности.

Результаты получились почти те же самые, что и были. Теги H1-H4 - не лучшее место для использования ключевых слов. Как и с URL, они могут немного помочь (даже меньше, чем URL), но далее начинается небольшой негативный эффект. Практически, конечно, можно посоветовать все еще их использовать, но на странице наверняка есть гораздо более выгодные места для размещения ключевых слов.

График, касающийся ссылок, с применением модели тоже становится более сложным и дополняется несколькими нюансами. Вы видите, что улучшение mozRank приносит больше пользы топовым сайтам, а само количество ссылок не так полезно. Тем не менее, с углублением в рейтинг мы видим уход графика в негативные значения. Возможно, это объясняется слишком большим использованием некоторыми страницами mozRank и внешних ссылок (скорее всего со страниц с низкой репутацией или спамерских). График не содержит огромного количества практической информации (вроде оптимального количества и качества ссылок и т.п.), но он довольно хорошо отражает наш практический опыт. Хорошие ссылки помогают, плохие - могут помешать.


Последний график показывает некоторые интересные особенности элементов на странице из нашего набора данных. Основным советом, который можно извлечь из него является то, что следует использовать изображения с хорошим alt текстом в котором используется ключевое слово. Эта зеленая линия является одной из наиболее сильных корреляций при использовании ключевого слова на странице. Использование ключевых слов в тегах , и даже в якорном тексте ссылок имеет все то же позитивное влияние наверху страницы результатов поиска и слегка негативное в районе 20-25 позиции. И это, опять же, совпадает с практикой.

Выводы и советы
Мы понимаем, что тут предоставлено довольно много данных, но они стоят того, чтобы внимательно их рассмотреть и обдумать. Вы можете серьезно повысить доверие клиента, использовав подобный анализ для обоснования важности и ожидаемого эффекта от рекомендуемых вами как специалистом по SEO изменений. Многие до сих пор считают, что наша работа больше основана на догадках и интуиции, чем строгих данных. Этим анализом мы хотим несколько исправить ситуацию. Мы не заявляем, что наши данные идеальны (планки погрешности и анализ точности показывают, что это не так), но они могут быть полезны.

Выводы из наших данных, в которых мы уверены:
• Ссылки важны, но нельзя полагаться только на их количество. Стоит больше внимания уделять анализу ссылок.
• Ни одна метрика сама по себе не может предсказать рейтинг (как минимум, пока)
• Теги H1,2 и т.д. - не особо важное место для размещения ключевых слов
• Текст в атрибуте Alt довольно важен и там следует использовать ключевые слова
• Злоупотребление ключевыми словами может не давать развиваться вашему сайту (особенно если вы злоупотребляете ключевыми словами и находитесь ниже 15-й позиции)
• Как и с ключевыми словами, злоупотребление ссылками (особенно с плохих источников) может навредить

Переводной материал, источник

Комментарии»

комментариев нет - будете первым?