Как Google может расширять поиск при помощи синонимов ключевых слов поискового запроса 20 Январь 2010
При поиске в интернете одной из сложностей, предстающих перед пользователем, становится подбор правильных ключевых слов для получения в результате ссылок на необходимую информацию.
Поисковые машины обычно ранжируют страницы, основываясь на том, насколько важное место на страницах занимают ключевые слова поискового запроса. Так что если пользователь не использует правильных слов в запросе, то может просто не найти информацию, которую ищет.
Например, кто-то ищет информацию о хостинге в городе Форт-Уэйн. Пользователь может ввести запрос [Web hosting Fort Wayne], и не увидеть в результате ссылок на множество релевантных его поисковому намерению страниц, так как гораздо чаще название города пишут как “Ft. Wayne”, а не “Fort Wayne”. Ту же проблему можно увидеть при поиске чего-то касающегося Вашингтона в округе Колумбия: Washington, D.C., District of Columbia, DC.
Недавно одобренный патент Google рассматривает возможности поисковой машины по расширению ключевых слов, использованных пользователями, путем включения синонимов. Это должно помочь пользователям находить более релевантную информацию. В примере с городом Форт-Уэйн это означает, что Google проводил бы поиск по страницам, релевантным как запросу [web hosting Fort Wayne], так и [web hosting Ft. Wayne].
Пример с городом Форт-Уэйн взят из патента. Приводится там и еще один пример: кто-то ищет музыку или видео для создаваемого флэш-ролика и вводит в поисковую строку [free loops for flash movie]. Вполне вероятно, что большинство людей, создающих музыку, будут использовать слово “music”, а не “loops”. Также гораздо более вероятно использование слова “animation”, а не “movie”. Таким образом, при вводе запроса [free loops for flash movie], поисковая машина может не отобразить в результатах выдачи страницы, которые предоставляют бесплатную музыку для флэш-анимации, потому что там не используются слова “loop” или “movie”. В патенте изобретатели указывают на то, что при увеличении количества ключевых слов в запросе проблема становится все более серьезной:
Таким образом, документы, удовлетворяющие пользовательские информационные запросы могут использовать не те слова, которые были выбраны пользователем для формулировки запроса. Так как поисковые машины обычно ранжируют документы, основываясь на использовании в них ключевых слов, указанных пользователями, это означает, что поисковая машина может не отобразить наиболее релевантные документы в описанной выше ситуации (так как в наиболее релевантных документах ключевые слова из поискового запроса пользователя не будут играть заметной роли или будут вообще отсутствовать).
Эта проблема постепенно становится все более серьезной при увеличении количества ключевых слов в запросе. При запросах длиннее 3-4 слов существует большая вероятность того, что одно из слов представляет собой не лучший выбор для описания информационных запросов пользователя.
Синонимы и контекст
Одним из наиболее простых способов поиска синонимов для введенных ключевых слов запроса для поисковой машины является создание тезауруса или базы данных синонимов, в которой можно было бы проводить поиск для определения возможных синонимов ключевых слов. Но у такого подхода есть определенные ограничения. Одним из наиболее значимых ограничений является тот факт, что зачастую значение слова зависит от контекста его использования.
Например, обычно слово “music” не является верным синонимом для “loops”, но в контексте запроса, приведенного в примере ранее, это так. Более того, тут мы имеем особый случай, так как слово “music” вообще не упоминается как синоним “loop” в обычных тезаурусах. Нетрудно найти и множество других примеров нестандартных синонимов, зависящих от контекста.
И даже если для ключевого слова можно подобрать обычный синоним, то может быть сложно определить, какой именно из существующих синонимов стоит использовать в данном контексте запроса.
Патент представляет процесс, который можно использовать для нахождения синонимов слов в поисковых запросах. При этом оценивается качество синонимов в контексте конкретных запросов и прошедшие проверку синонимы используются для расширения запросов и предоставления выдачи релевантных страниц.
Начинается все с поиска похожих запросов и проведения проверки ключевых слов и фраз запросов с учетом информации, относящейся к запросам.
Например:
• Количество или процентная величина появления обоих терминов в поисковых запросах за определенный промежуток времени.
• Количество или процентная величина появления обоих терминов в поисковых сессиях определенного пользователя.
• Насколько похожи результаты выдачи при поиске с оригинальным ключевым словом и синонимичным кандидатом на использование при расширении запроса.
Как только находятся достаточно релевантные синонимы, поисковая машина может предложить модифицированный запрос с использованием синонима в качестве поискового предположения. Или же пересмотренный запрос может быть использован для расширения результатов поиска, предоставляемых пользователю.
Так что при поиске [Web hosting Fort Wayne] пользователь может увидеть набор результатов с поисковым предположением вверху, ведущим на страницу результатов поиска по запросу [Web hosting Ft Wayne], или же набор поисковых результатов, который уже включает страницы, подходящие и по запросу [Web hosting Fort Wayne] и по запросу [Web hosting Ft Wayne].
Патент:
Определение синонимов ключевых слов запроса в контексте запроса
Изобретатели John Lamping, Steven Baker
Принадлежит Google
US Patent 7,636,714
Одобрено 22 декабря 2009
Подано на рассмотрение 31 марта 2005
Аннотация
Метод, применяемый к поисковым терминам для определения синонимов или других терминов-заменителей, используется в системе получения информации. Запросы пользователей сортируются по идентификатору и сессии пользователей. Для каждого пользовательского запроса определяется множество псевдо-запросов, каждый из которых производится от пользовательского запроса при помощи замены фразы или пользовательского запроса специальным символом.
Для каждой фразы определяется как минимум один возможный синоним-кандидат. Синоним-кандидат это термин, использованный в контексте псевдо-запроса в пользовательском запросе вместо фразы. Оценивается точность или качество синонима-кандидата. Одобренные синонимы могут быть или предложены пользователю или автоматически добавлены к пользовательской строке поиска.
Как это работает
Кто-то вводит запрос в поисковой машине. Набор страниц, релевантных запросу, отбирается и ранжируется, основываясь на воспринимаемой релевантности и важности.
Затем поисковая машина рассматривает термины поискового запроса и может попытаться идентифицировать возможные синонимы для слов или фраз из запроса на основе списка, который может быть создан при анализе логов поисковых запросов.
Для создания подобного списка могут анализироваться все запросы за определенный период времени и отбираться потенциальные синонимы или “синонимы-кандидаты”.
Например, в исходном запросе могут быть слова [free loops for flash movie], а в логе предыдущих запросов может встретиться запрос [free music for flash movie], явно заслуживающий внимания.
Или же могут быть использованы запросы со специальными символами: [free * for flash movie].
Затем может быть проанализирована информация из логов поисковых запросов о запросах с синонимами-кандидатами.
Например, могут учитываться данные вроде частоты поиска [free loops for flash movie] и [free music for flash movie] или [free loops for flash animation] с небольшой разницей во времени.
Также могут проводиться и другие проверки. Например, какова вероятность того, что оба запроса имеют несколько общих топовых результатов в случае поиска по обоим запросам. Так что если в результатах поисковой выдачи по [free loops for flash movie] и [free loops for flash animation] присутствует несколько одинаковых страниц в топ-10, то это может означать, что “movie” и “animation” в контексте данного запроса являются синонимами.
Выводы
В патенте описывается множество примеров того как могут подбираться синонимы к ключевым словам в запросе, так что если эта тема вас живо интересует, то есть смысл внимательно ознакомиться с текстом патента.
При поиске в Google по запросу [district of columbia museums], в топе после локальных результатов содержится страница, на которой вообще нет слова “Columbia”. При просмотре копии страницы из кэша Google, мне удалось узнать, что “Columbia” появляется в якорном тексте, ведущем на эту страницу, и это может быть причиной ее появления в результатах поиска.
Считает ли Google, что на странице присутствуют другие слова и фразы, являющиеся синонимами “district of columbia”, такие как “D.C.”, и изменяет ли поисковую выдачу для включения этой страницы?
Не решающим, но довольно интересным свидетельством этого может служить то, что на странице поисковой выдачи акроним “D.C.” выделен жирным шрифтом, будто он является одним из ключевых слов запроса.
В патенте не упоминается возможность выделения поисковой машиной синонимов, использованных для расширения поискового запроса, в результатах поисковой выдачи. Возможно, это просто результат работы другого процесса.
Что для вас как пользователя или владельца сайта могло бы значить применение поисковой машиной Google подобных процессов?
Для пользователей это может означать, что Google может добавить в результаты поиска страницы, основываясь на словах, воспринимаемых как синонимы тем, что были использованы в запросе.
Для владельцев сайтов это может означать, что если вы ориентируетесь на определенные ключевые слова и фразы на страницах сайта, то стоит учесть и их синонимы. Возможно, что в выдаче по ключевым словам вам придется конкурировать с сайтами, продвигающими свои страницы с синонимичными ключевыми словами и фразами.
Переводной материал, источник.
- Рубрики : Патенты, Переводы, Поисковые системы
- Автор : admin

Комментарии»
Не знаю, есть ли у Яндекса патент, но про ввод синонимов (”гостиницы Гамбурга” - “гамбургские гостиницы” ) они писали уже давно.
Вот по этому используют синонимайзеры. Очень удобно подбирать ключевики с синонимами самостоятельно, нежели что там поисковик выдаст.