Фиаско "конкурентной разведки в интернет": Особенности существующих баз данных СМИ

19 февраля 2005

Время чтения 15 мин

В середине 2004 года вышло в свет второе издание книги "Конкурентная разведка в интернет", сфокусированной на русских ресурсах и возможностях интернета, мимо которых уже не может пройти исследователь современной России и постсоветского мира. В отличие от издания 2002 года, которое имело подзаголовок "Советы аналитика", вторая книга сопровождена несколько иным подзаголовком: "Все необходимое по поиску любой информации". В предисловии автор Виктор Дудихин первым делом подчеркивает: "Книга адресована самому широкому кругу читателей". Благие помыслы автора увенчались полным провалом. В действительности, как бы удивительно это ни звучало, книга адресована плохо осведомленным корпоративным пользователям, да и то тем, которые не имеют доступа в интернет. Иначе просто нельзя трактовать тот факт, что, во-первых, в книге начисто игнорируются базы данных СМИ, предлагающие равноценные рассматриваемым Дудихиным базам услуги, только в сотни и тысячи раз дешевле, а также то, что описание к тем базам, которые все же рассматриваются, взято из интернета: пересказано, а местами переписано. Неужели при наличии интернета подобную информацию нельзя изучить в разделах технической поддержки соответствующих служб? Данный подход еще можно было бы понять, если бы автор, пересказывая и переписывая, параллельно сообщал об особенностях работы тех или иных операторов поиска, незадокументированных тонкостях, которые наиболее часто обсуждаются в кругу аналитиков. Однако всего этого в книге нет. Попробуем дать характеристику книге "Конкурентная разведка в интернет" издания 2004 года, а также рассмотрим те вопросы, которые, согласно мнению опрошенных нами аналитиков из ряда крупных корпоративных структур, наиболее актуальны и злободневны на данный момент для основных баз данных СМИ.

Первая глава книги представляет собой местами пространное и даже лирическое повествование о законодательных и иных аспектах работы аналитика с открытыми источниками информации. Главы со второй по четвертую - обзорные и в полной мере характеризуют уровень осведомленности автора о развитии новостного сегмента интернет. Непонятно зачем и для кого на нескольких десятках страниц разжевывается материалы, описанные еще в книге "Интернет для чайников". Какое отношение к конкурентной разведке имеет описание ресурсов бесплатного хостинга narod.ru и системы Яндекс-деньги. Опять же мы НЕ видим даже намека на попытку сравнить существующие поисковые системы типа Яndex (yandex.ru), Rambler (rambler.ru), Google (в русской сети - google.ru), Punto (punto.ru), Апорт (aport.ru) и другие - по эффективности поиска. В книги эти поисковые системы просто описываются независимо друг от друга. Но кому интересно такое описание? Разве его нельзя найти на сайтах поисковых систем? Например, в 2004 году в русском интернет-сообществе была чрезвычайно популярна тема "Google для хакеров". Проводилось серьезное обсуждение возможностей языка запросов Google, которые позволяют находить скрытые документы и уязвимости сайтов. Однако Дудихины, например, предпочитают рассказать о том, что запрос в Google можно формулировать в любом регистре: george washington, George Washington, and gEoRgE wAsHiNgToN. Что в принципе очень ценная информация, которая может исчезнуть из раздела HELP на сайте Google.

Что же касается представленной классификации новостных ресурсов, истории создания и принадлежности российских СМИ, то комментировать многие выкладки данного раздела не представляет смысла - получится вторая книга. Воззрения авторов весьма спорны, противоречивы, а зачастую сквозь них, как шило из мешка, торчит общий уровень компетентности автора книги. Вот, например такая цитата: "Порой информационные Internet-агентства возникают как побочный продукт деятельности местных радиостанций или телекомпаний. Одним из лучших в этой "экологической" нише источников информации можно считать проект REGNUM.RU" (стр. 37). Грубейшая ошибка касается не только того, как создавалось информационное агентство REGNUM, но и того, что REGNUM помещен в раздел региональных информационных агентств (да и вряд ли можно серьезно считать "региональным" это агентство, вещающее не только о России и мире, но и специально обо всем постсоветском и далее пространстве - Абхазии, Азербайджане, Армении, Беларуси, Грузии, Израиле, Иране, Нагорном Карабахе, Латвии, Литве, Молдавии, Турции, Украине, Эстонии, Южной Осетии).

Случайны ли подобные ошибки? Эти ошибки не случайны. Нужно чётко понимать "экологическую нишу" книги и побочным продуктом чего она является. Приведем еще один характерный пример. Цитата: "Существуют (и весьма успешно) поисковые системы, в которых нет и намека на классификаторы, в частности www.punto.ru и www.ya.ru (это клон Яндекса)" (С. 65). Все дело в том, что www.ya.ru - это и есть сам Яndex, упрощенный вход в систему для тех, у кого низкая скорость соединения. Виктор Дудихин считает же, что это отдельная поисковая система, "в которой нет и намека на классификаторы". Комментарии излишни. И подобных примеров много и на них по существу строятся авторские вкрапления в текст. Некоторый интерес представляет 5 глава "Методы и приемы обработки информации", однако в сноске указано, что материалы в данном разделе представляют из себя обзор источников, указанных в списке литературы. Ядро книги "Конкурентная разведка в интернет" - это поверхностное описание следующих информационно-аналитических систем: "Артефакт" ("Интегрум"), Lexis-nexis, Factiva, Информационно-аналитическая система "Россия", "Галактика-zoom", "Медиалогия".

Почему автор книги выбирает лишь поверхностное описание информационно-аналитических систем, часть из которых подпадает под определение "база данных СМИ"? Почему даже не поднимается вопрос о сравнительных качествах конкурирующих информационно-аналитических систем? Ответ заключается в том, что автору книги неизвестны критерии, по которым можно эффективно сравнивать базы данных. Во все времена таких критериев было два: количество источников и цена доступа. Ни о первом, ни о втором в книге не сказано ни слова.

Итак, на российском рынке баз данных СМИ существует три бессменных конкурента: Public (www.public.ru), "Интегрум" (integrum.ru) и "Медиалогия" (medialogia.ru). Стоимость минимального входного билета в эти системы составляет следующие суммы: Public - 48$, "Интегрум" - 90$, "Медиалогия" - 1000$, За эти деньги можно скачать в Public не менее 5 тыс. публикаций, Интегрум - около 100, Медиалогия - 1 тыс. ровно. Фокус заключается в том, что, несмотря на цены, ни одна из названных баз данных не обладает неоспоримым преимуществом перед остальными и каждая уникальна для выполнения определенных задач. Public, "Интегрум", "Медиалогия", прежде всего, отличаются способом формирования массивов, по которым будет осуществляться поиск. У всех названных баз очень хорошо поставлена работа с московской прессой. Все основные издания эти базы учитывают и обрабатывают оперативно. Принципиальные различия начинаются тогда, когда речь заходит о работе с региональной российской прессой. Public зарегистрирован как публичная библиотека и получает периодику по почте. В некоторых случаях это вызывает задержки с поступлениями. "Интегрум" формирует свои массивы на основе прямых договоров с редакциями, которые напрямую поставляют копии газет в "Интегрум". Это означает, прежде всего, оперативность. Однако было бы ошибочно полагать, что, "Интегрум" за счет этого перекрывает Public и "Медиалогию" по своим возможностям. Ни одна из трех основных баз данных СМИ не обладает набором источников, который бы полностью учитывал источники других баз. Процент уникальных региональных изданий, в каждой из обсуждаемых баз составляет до 10%. Главная проблема на данный момент заключается в том, что достоверного сравнительного списка региональных изданий, обрабатываемых Public, "Интегрумом" и "Медиалогией", нет.

В аналитических отчетах об упоминаемости и цитируемости почти всегда имеют место точные цифры, гистограммы, кривые роста и прочие методы наглядного отображения информации. Когда же дело доходит до исторических исследований вокруг определенных объектов, то подобная точность оказывается не всегда уместна. Обсуждаемые базы данных СМИ отличаются еще и по продолжительности мониторинга ими центральных и региональных СМИ. У каждой базы данных имеются свои пробелы, которые опять же являются уникальными для каждой из них. Более того, - эти пропуски не всегда учитываются и в техническом описании. Сегодня ни один специалист не имеет точного представления о том, что он упускает из виду, ограничиваясь только одной базой данных СМИ. Теперь поговорим о том, что пропущено в технической документации к трем основным базам данных СМИ (Public, "Интегрум", "Медиалогия"), что может привести к грубым ошибкам при работе с ними. Опрос аналитиков ряда крупных компаний позволил выявить наиболее актуальные уязвимости.

Public: особенность оператора *. Особенность работы оператора - "звездочка" (*). Для того чтобы получить все вариации определенного слова в логическом поиске необходимо добавить звездочку к концу слова. Однако существует целая группа слов, которая с этим оператором работает неверно. Эта фамилии, полный список которых никому не известен. Одна из таких фамилий - Лужков. Как проверить слово на ошибку работы с оператором "звездочка"? Необходимо запросить слово со "звездочкой" и без таковой. Если со "звездочкой" за тот же период времени возвращается меньше публикаций, то мы имеем дело как раз с таким словом. Пример: Дата: 15.03.2004, Архив за 2004 год (часть 1). Запрос: лужков*, логический - 29. Запрос: лужков, логический - 46. А согласно техническому описанию должно быть наоборот. На первый взгляд, запрос без "звездочки" просто выдает больше публикаций, и мы имеем два массива - полный и неполный. Однако это не так. Каждый из массивов имеет свои уникальные публикации о московском мэре, т.е. хотя запрос "лужков*" выдает меньше публикаций, чем "лужков", однако в нем присутствуют уникальные статьи, которые не возвращаются при запросе "лужков". Процент уникальных публикаций в каждом из массивов может достигать 50%. Как решить данную проблему? Необходимо использовать особую форму запроса; в нашем случае (лужков or лужков*). Подведем итог: Дата: 15.03.2004, Архив за 2004 год (часть 1). Запрос: (лужков* or лужков), логический - 64. Кроме того, одним из главных конкурентных недостатков Public является отсутствие телевизионных баз в его архивах.

"Интегрум": проблема нуля. Проблема "Интегрум" заключается в том, что его интернет-сайт периодически "виснет". Выражается это в том, что по любому запросу в какой-то период времени выдается ноль публикаций. В дирекции "Интегрум" проблему отрицают и заявляют, что обращений с жалобами не поступало. Однако если учесть то, что интенсивно с базой работают только корпоративные клиенты и то, что "проблема нуля" встречается не так уж часто, отсутствие обращений вполне понятно. Куда более серьезной выглядит проблема работы с оператором "звездочка". Сбои системы происходят при поиске фамилий с заглавной буквы. Система возвращает в таком случае ноль публикаций. Пример:

Дата: 01.02.2005, архивы: центральные газеты, центральные журналы.

Запрос: Путин* (заглавная буква, звездочка) - 0.

Запрос: путин* (маленькая буква, звездочка) - 257.

Запрос: Путин (заглавная буква, без звездочки) - 245.

Запрос: путин (маленькая буква, без звездочки) - 245.

Запрос: Фрадков* (заглавная буква, звездочка) - 0.

Запрос: фрадков* (маленькая буква, звездочка) - 97.

Запрос: Фрадков (заглавная буква, без звездочки) - 97.

Запрос: фрадков (маленькая буква, без звездочки) - 97.

Запрос: Зурабов* (заглавная буква, звездочка) - 0.

Запрос: зурабов* (маленькая буква, звездочка) - 77.

Запрос: Зурабов (заглавная буква, без звездочки) - 77.

Запрос: зурабов (маленькая буква, без звездочки) - 77.

На момент написания данной статьи описываемая проблема программистами "Интегрум" не решена. Однако она легко обходится за счет использования морфологии. Обратим также внимание на принципиальное различие при использовании регистров в рассматриваемых нами системах. Дело в том, что регистр в запросах Public и "Медиалогии" значения не имеет, а вот в "Интегрум" - имеет и первостепенное. Многие фамилии при запросах возвращают большое количество информационного мусора, похожих слов. В "Интегрум" эта проблема решается за счет использования регистра. Запрос слова с большой буквы выдаст публикации, в которых оно встречается только с большой буквы, а запрос с маленькой буквы выдаст вообще все упоминания без учета регистра.

"Медиалогия": мнение трехсот человек. Главное новшество системы "Медиалогия" - это наглядность. Из рекламного проспекта, в частности, можно узнать следующее: то, на что ранее уходило месяц работы целого отдела, теперь можно сделать за несколько минут. И если так, то хотелось бы знать имена сотрудников этих отделов, дабы никогда не иметь с ними дело. Тем не менее, "Медиалогия" является прекрасным инструментом для предварительного ознакомления с объектом мониторинга в том случае, если имеет место высокая упоминаемость. Фамилии политиков и бизнесменов, имена компаний, партий и других общественных организаций считаются объектами. Используя систему "Медиалогия", можно посмотреть: вместе с какими объектами упоминается предмет мониторинга чаще. И опять же - это подойдет только для предварительного ознакомления с проблемой. Также есть возможность просмотреть количество негативных и позитивных публикаций об объекте.

Принцип работы системы "Медиалогия" таков. Около 300 сотрудников, читая публикации в СМИ, определяют позитивный и негативный характер статей, выделяют объекты. Основное нарекание к этой системе состоит в том, что 300 сотрудников - это 300 разных мнений на рассматриваемые тексты. Впрочем, возможности "Медиалогии" также не стоит недооценивать. С задачами предварительного анализа система справляется блестяще. Одним из главных преимуществ системы является возможность просмотра видеофрагментов новостных передач телевидения.

Что же касается книги "Конкурентная разведка в интернет", то легко заметить, что книга рассчитана на недалекого корпоративного пользователя, испытывающего серьезные проблемы с доступом в интернет. Мы рассмотрели особенности трех основных баз данных СМИ. Единственная из них - Public - по своим ценам доступна широкому кругу пользователей, и парадокс заключается в том, что Дудихин не то что не рассматривает эту систему - он ее даже ни разу не упоминает! Между тем, в книге есть упоминание такой некогда известной системы как "Парк.ру" (park.ru), которая не может идти ни в какое сравнение с Public по своим возможностям.

Авторы книги в описании своих знаний о конкуренткой разведке дошли даже до англоязычных специализированных сервисов, но забыли отметить всего одну деталь: работа с базами данных, которые они описывают, для большинства его читателей равносильна прикуриванию сигар от стодолларовых купюр. Обратим также внимание на то, насколько сильно недооценены в книге способы бесплатного новостного поиска в сети интернет, которые к моменту написания книги, судя по новостям, которые видны на иллюстрациях в книге (скриншотах), уже функционировали.

Итак, есть две системы новостного поиска, которые не требуют никакой оплаты за использование своих услуг. Яndex-Новости (news.yandex.ru) и Rambler mass media (ранее - Rambler-Новости) (rambler.ru/db/news). В книге системе Яndex-Новости уделено ровно столько же места, сколько описанию системы бесплатного хостинга narod.ru. Rambler mass media вообще не описывается. А между тем, это одна из главных фатальных ошибок Дудихиных.

Отметим ряд моментов, которые представляются важными при использовании системы Яndex-Новости. Во-первых, это ограничение по набору источников. Во-вторых, возможность бесплатно получать на e-mail новости по заданным ключевым словам. Набор источников Яndex-Новости строится на основе интернет-версий российских и украинских СМИ. Стоит учесть, что не все крупные газеты и журналы, имеющие интернет-версию, попали в этот список. В частности, известная оппозиционная "Новая газета" и многие общественно-политические журналы. Однако и без этого список изданий представляется внушительным.

Говоря о Яndex'е и конкурентной разведке, невозможно не упомянуть о сервисе, который позволяет отслеживать результаты работы поискового робота Яndex. Задав список ключевых слов, можно регулярно получать подборку новых страничек, проиндексированных Яndex'ом. К сожалению, зачастую это могут быть ссылки на материалы годичной давности. И все же - появление подобного сервиса - значимый шаг на пути решения проблемы: "интернет - большая мусорная яма". Нельзя обойти вниманием новый сервис Яndex'а, который позволяет вести поиск по т. н. блогам - личным дневникам. Многие профессиональные пользователи общественной информации имеют подобные дневники и, исследуя это поле, зачастую можно прийти к интересным результатам.

Поговорим теперь о базах данных СМИ, без которых проведение качественного мониторинга не представляется возможным. Поговорим о тех базах, которые Дудихины даже не упоминают в своей книге. Инструментарий медиа-аналитика - это не только текстовые базы данных СМИ, а еще и специализированные системы, предоставляющие копии газет и журналов в PDF-версии. Отметим, что чтение газет в PDF - одна из услуг "Интегрум", однако конечная стоимость прочтенной утренней газеты может в 100 раз превысить стоимость газеты в киоске. Очевидно, что для профессионального пользователя вне России или там, где российская почта недоступна, вопрос чтения утренних газет должен как-то решаться. Существует два эффективных способа решения этой проблемы: интернациональные проекты PressDisplay (pressdisplay.com) и RussianStory (russianstory.com) PressDisplay за разумные деньги позволяет читать также свежую прессу из 54 стран мира.

Не опишешь всего, о чем авторы книги забыли даже упомянуть. Невозможно перечислить простейшие фактологические ошибки, обнаруженные в книге. Между тем в условиях, когда литература по данной тематике практически отсутствует, даже эта книга найдет своего читателя.