Блог о контекстной рекламе. Бегун, Директ и AdSense - как заработать вебмастеру.

Сегментация веб-страниц в Yahoo: Отделение шума от информации 12 Октябрь 2009

В недавнем интервью Приянк Гарг (Priyank Garg) из Yahoo! Search Technology заявил о том, что Yahoo разбивает страницы на шаблонные секции, чтобы определить является ли контент уникальным или “шумовым”, шаблонным:

Что Yahoo! уже делает, так это ищет шаблонные структуры внутри сайтов для определения малозначимых страниц и понимания их роли. Как и стоило бы ожидать, стандартные страницы вроде “контактов” или “о нас” не получат множества ссылок с различными якорями с других сайтов, так что получается естественное направление ссылок на полезный контент.

Также определение шаблонов на сайте помогает нам лучше определять более важные для пользователей ссылки. Делается это автоматически при помощи алгоритмов, но в прошлом году мы запустили тег robots-NoContent, позволяющий вебмастерам вручную выделять неуникальный контент или контент, который не является релевантным индексации страницы.

Если на вашей странице расположены объявления или общая навигация сайта, то вы можете помочь нам, пометив их тегом robots-NoContent. Это однозначно покажет нам, что данный контент не является уникальным основным контентом страницы и не стоит ассоциировать страницу с ключевыми словами, там встречающимися.

Конечно, можно поспорить насчет информативности, полезности и потенциала для получения ссылок страниц “о нас”. При правильном подходе подобная страница может оказаться одной из наиболее интересных частей сайта. Но идея того, что не весь контент сайта может быть привлекательным и информативным, верна. Например, уведомления об авторских правах, реклама и навигационные ссылки, вряд ли привлекут внимание посетителя. Идея разбить страницу на части или “сегментировать” ее уже встречалась нам в патентах и статьях Microsoft и Google.

Yahoo может анализировать страницы для определения того, являются ли они шаблонными и отделять “основной контент” от частей шаблона, таких как навигационные ссылки, уведомления об авторских правах, сайдбары и метки времени. Также “шумом” могут считаться надписи вроде “люди, купившие XXX, также купили YYY”.

Два патента Yahoo, опубликованные ранее в этом месяце, развивают идею сегментации контента и дают нам больше информации о том, как Yahoo может использовать сегментацию веб-страниц.

Первый патент рассматривает множество тем, включая сравнение множества страниц на сайте с целью определения сегментов, использующихся на многих страницах. В случае обнаружения таких сегментов предполагается, что контент в них не является основной информацией на страницах.

Патент
Системы и методы определения типа информации специфичной для сайта
Изобретатели: Rupesh R. Mehta и Amit Madaan
Принадлежит Yahoo
US Patent Application 20090248707
Опубликовано 1 октября 2009
Подано на рассмотрение 25 марта 2008

Аннотация
Рассматриваемые методы и системы позволяют обнаруживать и идентифицировать релевантные типы информации в одном или более документах, таких как, например, веб-страницы, связанные с одним или более сайтами. Например, приводятся типовые методы и системы для определения того, относится ли информация к “информативному” или “шумовому” типу информации.

Второй патент рассматривает связи между частями контента (нечто, напоминающее “блоки” в патенте Microsoft) для определения принадлежности частей к общему сегменту..

Патент
Методы сегментации веб-страниц
Изобретатели Shanmugasundaram Ravikumar, Deepayan Chakrabarti и Kunal Punera
принадлежит Yahoo
US Patent Application 20090248608
Опубликовано 1 октября 2009
Подано на рассмотрение 28 марта 2008

Аннотация
Метод сегментации веб-страницы на визуально и семантически связанные части использует задачу оптимизации на взвешенном графе, где вес отражает должны ли две точки в дереве DOM веб-страницы располагаться вместе или раздельно при сегментации; веса определяются по данным помеченным вручную.

Выводы
Похоже, что Google, Yahoo и Microsoft все присваивают различный ценностный вес ссылкам в различных сегментах страниц, так что ссылка из области основного контента, вероятно, будет нести больше веса, чем ссылка из сайдбара или футера.

Также похоже, что поисковые машины стремятся игнорировать шаблонные сегменты страниц при попытке определения дублирующегося или почти дублирующегося контента, так что решения отфильтровать некоторые страницы из поисковых результатов скорее основываются на основном контенте страниц, чем дубликатами в футере или сайдбаре.

Возможно, слова в основной контентной области страницы будут считаться более важными, чем слова в сайдбаре и футере.

За последние пять-шесть лет было опубликовано множество интервью, статей и патентов на тему сегментации веб-страниц. Фактически, эта тема уже должна была бы относиться к базовым знаниям в SEO. Тем не менее, в большинстве популярных списков факторов, влияющих на ранжирование в поисковых системах, этого пункта нет. Может быть, пора ему там появиться?

Переводной материал, источник

Рекомендую к прочтению:

Оценка релевантности поисковых результатов по позиции
SEO под мобильный поиск
Опубликованы результаты “Битвы поисковых машин”
Патент Google о подсказках и аннотации к ссылке.
Патент об универсальном поиске Google
Ранжирование Google News
Временные взаимоотношения запросов

Комментарии»

комментариев нет - будете первым?