Оценка качетсва источников новостей 23 Август 2009
В центре внимания патента находится метод ранжирования источников статей на одну тему с целью презентации их в определенном порядке или определения какие из них стоит отобразить на главной странице Google News или в поисковых результатах Google News.
Процесс ранжирования источников новостей основывается на рассмотрении некоторого количества параметров каждого источника, которые оценивают определенные атрибуты источника.
Вот эти параметры:
Количество статей, появляющихся в источнике за определенный период
Предположительно, чем больше статей (уникальных) появляется за период времени в источнике, тем лучше. Как альтернатива, поисковой машиной может рассматриваться количество предложений, опубликованное за определенное время.
Средний объем статьи в источнике
Может измеряться в словах или предложениях. Если у CNN в среднем 300 слов на статью, а у местной газеты — 150, то CNN может получить значение этого параметра равное 300, а газета — 150.
Получается что более длинные статьи лучше? Если поисковая машина сравнит топ-100 статей за прошедшую неделю на сайте CNN и на каком-то другом сайте, то будет ли означать больший объем статей более высокое качество? Или сравниваются статьи, написанные по одному информационному поводу? И в таком случае опять же, будет ли более объемная статья более качественной?
Счет горячих новостей
Как скоро после важного события новость о нем будет опубликована? Если будут собраны все новости о событии, а затем проведен анализ времени их публикации, то опубликованные раньше всех статьи получат более высокий «счет горячих новостей»,
Паттерн использования
Если поисковая машина отслеживала бы количество людей, перешедших по ссылке на определенный источник новостей, в случае предоставления им ссылки в результате поиска, то какие источники предпочитали бы люди? Своеобразное измерение популярности источников новостей.
Мнение людей об источнике новостей
Можно провести опрос среди пользователей поисковой машины. Возможны и другие методы измерения. Например, газеты можно сравнивать по количеству полученных Пулитцеровских премий. Также может учитываться возраст источника новостей как «мера доверия общества». Возможно предоставление людям частей статей из разных источников для оценки.
Статистика циркуляции источника новостей
Может быть использована статистика циркуляции печатных публикаций источника новостей, статистика от Media Metrix и Nielsen Netratings и другие способы измерения трафика источника.
Размер коллектива, работающего в источнике новостей
Может учитываться количество различных имен журналистов в статьях.
Количество новостных бюро, связанных с источником новостей
Это, похоже, относится к большим и давно работающим новостным агентствам.
Оригинальные наименования в статьях источника новостей
Под наименованием в данном случае подразумевается имя, название местности, организация или любая вещь, имеющая собственное название.
В случае, когда собраны все статьи об определенном событии, и одна из них упоминает наименования, которые не упоминаются в других статьях, эта одна статья получит более высокий рейтинг. Этот параметр может показывать, что источник новостей «способен создавать оригинальные репортажи». Но есть и некоторые ограничения к применению этого подхода. Например, должны учитываться даты выхода статей с наименованиями, чтобы знать в какой статье и когда впервые появилось новое наименование. Также при определении уникальности наименования поисковая машина может обращать внимание на варианты написания и аббревиатуры.
Количество тем на которые создается контент в источнике новостей
Статьи могут быть рассортированы по темам и диапазон тем может быть использован для определения глобальности источника. Похоже, что данный параметр отдает предпочтение источникам с большим количеством обсуждаемых тем. Но ведь возможно, что статьи нишевого узконаправленного источника будут гораздо более качественными в своей теме.
Международное разнообразие
Тут оценивается количество стран из которых идет трафик на новости в сети. Поисковая машина может обращать внимание на что-то вроде IP адресов людей, переходящих по ссылкам на новости, для определения как широка международная аудитория источника.
Стиль изложения новостей
Поисковая машина может использовать автоматическую оценку для анализа орфографии, грамматики и уровня читабельности статей в источнике.
Также могут учитываться и другие факторы вроде количества ссылок на сайт.
Выводы
Google подавали множество патентов, связанных с Google News, но ни один из них не углублялся в такие детали используемых при ранжировании статей факторов и сигналов.
Несмотря на то, что патент был подан на рассмотрение почти 6 лет назад, он позволяет кое-что узнать об алгоритмах оценки новостных статей. Возможно, какая-то версия этого алгоритма используется и по сей день. Возможно, до сих пор используются некоторые факторы и параметры.
Впрочем, некоторые предположения в патенте вызывают сомнение.
Например, представим что произошло серьезное открытие в физике. Известный сайт о физике опубликовал детальную статью об открытии. Но чуть раньше статью опубликовали на сайте международной новостной компании, которой больше сотни лет, у которой офисы по всему миру и гораздо большие объемы циркуляции материала. При этом статью писал журналист не особо разбирающийся в физике. Какую из этих статей предпочли бы вы, если бы интересовались физикой?
Переводной материал, источник
Рекомендую к прочтению:
Каталог партнерских программ Бегуна
Conversion Optimizer стал доступнее
Стоит ли использовать геотаггинг для локального продвижения?
Позиции в Google и CTR – как клики распределяются по позициям
Консолидация ссылок и передача PageRank
- Рубрики : SEO, Патенты, Переводы, Поисковые системы
- Автор : admin

Комментарии»
“Оригинальные наименования в статьях источника новостей”
Что кстати и весьма любопытно.