Автоматическая сегментация страниц, польза для дизайна и SEO. Часть 2. 14 Июль 2009
Продолжение статьи Автоматическая сегментация страниц, польза для дизайна и SEO.
Некоторые другие преимущества сегментации страниц
Кроме улучшения результатов поиска путем увеличения веса содержимого основной части страницы, существуют и другие причины, по которым сегментация страниц считается полезной.
Например:
1) Страница может содержать сегменты, собранные по тематикам (как на страницах новостных сайтов), и эти сегменты могут быть отнесены к различным категориям.
2) Результаты поиска обычно отображают заголовок страницы, краткую аннотацию (взятую из мета-тега description или других источников на странице) и URL. Сегментирование может позволить брать аннотацию из основной части страницы, релевантной запросу, а не просто из произвольного места на странице с ключевыми словами.
3) Страницы с ЧаВо (часто задаваемые вопросы, FAQ) могут быть более точно сегментированы.
4) Страница, состоящая из многих частей, вроде обзора многих продуктов или ресторанов, может быть сегментирована для использования в других местах. Например, представители Google описывали использование подобного подхода в патенте 2006 года о сегментации и индексировании для локального поиска.
5) В патенте об этом ничего не сказано, но возможно, что ссылки в различных сегментах будут восприниматься по-разному. К примеру, ссылка из основной части страницы сожжет считаться более «качественной», чем ссылка из сайдбара или раздела рекламы.
Подходы к сегментации страниц
Объектная модель документа (Document Object Model, DOM)
В новом патенте также обсуждаются различные подходы к сегментации страниц, включая и DOM. Для демонстрации ограничений при использовании этого подхода приводится следующий пример:
DOM не описывает семантической структуры, обращая внимание лишь на презентацию. Следовательно, простой анализ дерева DOM на странице для определения ее сегментов приведет к потере некоторых из них. Например, рассмотрим ситуацию с таблицей. В таблицу внесены модели камер, их описания и цены, соответственно разбитые на колонки. Колонка с ценами должна быть сегментом страницы, так как содержит исключительно цифровые данные. Но ноды, представляющие цены в дереве DOM этой страницы, могут не иметь общих родителей в дереве. Причина кроется в том, что используются ноды рядов, а не колонок. Получается, что в дереве DOM на странице не существует ноды колонки цен.
Визуальная сегментация
В дополнение к информации, полученной при рассмотрении объектной модели документа, при разбиении страницы на блоки полезно взглянуть на визуальное представление страницы. Обратить внимание на вещи вроде видимых линий или пустого пространства, разделяющих содержимое страницы.
Когда страница проанализирована визуально, разбита на блоки, а содержимое рассмотрено с точки зрения взаимосвязей между различными блоками, тогда можно довольно уверенно определять какие блоки стоит объединить, а какие - разделить. Блоки с различным цветом фона, разделенные горизонтальными или вертикальными линиями, использующие разные стили, шрифты и т.д., а также блоки, разделенные пустым пространством, могут относиться к разным сегментам.
Но визуальная сегментация также может упускать некоторые блоки на некоторых страницах.
В описании патента есть набор из пяти правил, которым можно следовать при сегментации страниц.
Автоматическая визуальная сегментация страниц
Изобретатели: Deepayan Chakrabarti, Manav Ratan Mital, Swapnil Hajela и Emre Velipasaoglu
Принадлежит Yahoo!
Патент США 20090177959
Опубликовано 9 июля, 2009
Подано на рассмотрение: 8 января, 2008
Резюме
Для предоставления ценной информации о странице, она должна быть поделена на четкие семантически когерентные сегменты для анализа. Набор эвристических правил позволяет сегментационному алгоритму определить оптимальное число сегментов для заданной страницы.
Первая эвристическая процедура - вычисление оптимального количества сегментов на заданной странице.
Вторая эвристическая процедура - объединение сегментов в случае избыточного их количества.
Третья эвристическая процедура - объединение сегментов соответствующих части страницы с большим количеством пустого пространство и малым количеством содержания.
Четвертая эвристическая процедура - объединение сегментов нод с рекомендованным количеством сегментов по определенным параметрам в сегменты других нод.
Пятая эвристическая процедура - рекурсивный анализ и разбиение сегментов соответствующих частям страниц, превышающим размеры заданные параметрами.
Краткий обзор процесса
1. Создается дерево DOM для страницы и к нему добавляется аннотация в виде информации о визуальном расположении каждого элемента на странице.
2. HTML теги каждой ноды классифицируются на разделители блоков, разметку текста и размещение текста.
Разделители блоков - разделяют части страницы. К ним относятся перевод на новую строку (br), образующий пустые строчки между частями текста и горизонтальные линии (hr).
Разметка текста - определяет свойства текста. К ней относятся жирный шрифт (b), абзац (p), курсив (p), стиль, размер и цвет шрифта (font). Эти элементы могут подсказать, что текст с ними не надо разбивать на различные блоки.
Размещение текста - группирует текст и определяет вид страницы. Сюда относятся секции (div), ячейки таблиц (td), и ряды таблиц (tr).
3. Нодам присваиваются блоки.
4. Блоки могут быть объединены для уменьшения их общего количества.
5. Различные эвристические правила, детально описанные в патенте, могут быть использованы для уменьшения или увеличения количества блоков при необходимости. Оставшиеся блоки определяются как сегменты.
Выводы. Применение в дизайне и SEO
Есть устоявшееся мнение, что при индексировании содержимого страницы поисковики учитывают абсолютно все, что на странице располагается. Но даже статья о сегментации Microsoft была опубликована целых шесть лет назад, а в ней описываются принципы разбиения страницы на части для избирательной индексации содержимого. Впоследствии Microsoft опубликовали еще множество статей на тему сегментации и разработали новые подходы.
Google опубликовал патент касающийся Визуальных Пробелов на страницах в этом году. В нем, кроме всего прочего, указывается тот факт, что для определения различных частей страниц может использоваться визуальная сегментация.
Если вы разрабатываете веб страницы или занимаетесь SEO на сайте, то вам стоит разобраться, как поисковая машина может сегментировать содержимое страниц. Это может определять какая часть содержимого страницы может быть проиндексирована, а какая - проигнорирована, сколько веса передаст ссылка, и откуда будут браться аннотации на страницу выдачи по поисковому запросу.
Переводной материал, источник Seobythesea
Рекомендую к прочтению:
Архитектура сайта и Google Analytics
Сегментируем трафик в Google Analytics
Рекламный конструктор ссылок. Tool: URL Builder Analytics.
- Рубрики : SEO, Новости, Переводы, Поисковые системы
- Автор : admin

Комментарии»
В первую очередь, Slon, спасибо за полезный материал.
Есть ли у вас какие-то сведения о механизме сегментации страниц в Яндексе? Про идентификацию платных ссылок более-менее ясно по мадридскому докладу, интересует метод выделения сниппета и определения веса ссылок. Есть ли параллели с Гуглом?
Хотелось бы узнать ваше мнение на эту тему, как вы видите применение сегментирования в seo?
что-то я так и не понял почему раскрутку называют SEO?
Тина Литини, информация есть но непосредственно сейчас она используется в работе. Раскрывать ее значит лишиться части дохода от SEO.
slon7, понимаю.