Автоматическая сегментация страниц, польза для дизайна и SEO. Часть 1. 14 Июль 2009
В конце 2003 года исследователи из Microsoft опубликовали работу по способу анализа структуры содержания веб страниц, который они назвали VIPS или Vision-based Page Segmentation Algorithm (Алгоритм сегментации страниц на основе внешнего вида). В их подходе учитывались визуальный и структурный аспекты страницы. Это значит, что поисковая машина могла определять различные части страницы и возможно понимать, что некоторые части могут быть более важными, чем другие.
Это могло иметь несколько применений в плане поиска и получения информации, а соответственно это было важно и для оптимизации под поисковые системы.
Недавно Yahoo опубликовали патент на новый способ сегментирования страниц, а также список правил, по которым сегментирование может происходить.
Зачем поисковой машине сегментация страниц?
Возможность правильно анализировать структуру и содержимое страницы является крайне полезной для поисковой машины в случае поиска страниц релевантных запросу. Учитывая тот факт, что поисковики стараются выдавать страницы релевантные искомым терминам, эти термины должны встречаться в основном содержимом страницы.
Описание патента начинается с примеров проблем, которые могут возникнуть в случае невозможности определения поисковиком основного содержимого страницы или неверного его определения.
К примеру, страница содержит текст песни X, но внизу страницы расположены ссылки на другие страницы с фрагментами текстов песен Y и Z. Поиск по названиям Y и Z выдаст эту страницу, так как обе песни на ней упомянуты, но очевидно, что пользователь ищет другую страницу.
Точно так же Y и Z могут быть текстом объявления на странице.
Другой пример, поиск по словам “авторские права компании X” должен выдавать ссылку на страницу с юридическими данными компании, а не на каждую страницу сайта, где внизу будет небольшая ссылка со словами «авторские права».
Термины и фразы в навигации сайта, объявлениях и т.п. - не лучший результат поиска. Соответственно и страницы, их содержащие, не будут лучшим выбором для выдачи:
На страницах New York Times можно увидеть полосу заголовков, анонсы новостей, спорт и уведомление об авторских правах. При поиске по словам вроде «New York Times юридическая информация» вы наверняка найдете не только искомую страницу, но и множество новостей с теми же словами. Для выдачи же более релевантной ссылки поисковику было бы полезно уметь анализировать страницы и понимать, где содержится искомая информация, а где она лишь упоминается, но не является основной.
Таким образом, разбиение страницы на секции полезно для выдачи более релевантных результатов поиска.
Страница может быть разбита на различные блоки вроде основного содержания, заголовка, футера, рекламы, основной навигации и так далее. Каждый из таких блоков может рассматриваться как отдельный сегмент и отдельная семантическая единица страницы, которая может быть связана или не связана с другими сегментами. Некоторые блоки можно объединить в один сегмент, некоторые можно разбить на более мелкие блоки. Новый патент описывает правила, по которым может действовать поисковик для разбиения блоков на более мелкие блоки или объединения однородных сегментов.
Другой патент, также принадлежащий Yahoo, детально описывает способы определения различных частей страницы и выделения наиболее важных из них.
Продолжение следует.
- Рубрики : SEO, Новости, Переводы, Поисковые системы
- Автор : admin

Комментарии»
комментариев нет - будете первым?