Иван Бегтин: «Если сервис окажется востребованным, реклама ему не потребуется»

Опубликовано: 27.08.2008, 16:31 Автор: Родин Дмитрий Рубрики: лица
Тематика: СкиурРевизор 2.0rssPage2RSSfeedburner
Иван Бегтин: «Если сервис окажется востребованным, реклама ему не потребуется»
На прошлой неделе Иван Бегтин предложил читателям своего блога принять участие в закрытом тестировании нового сервиса. Проект с рабочим названием «Скиур» позволяет создавать RSS-потоки любых веб-страниц – даже тех, где отсутствуют RSS-трансляции. О преимуществах своего сервиса перед многочисленными конкурентами в интервью TelNews рассказал сам разработчик.

- Как появилась идея создания такого сервиса?


- Идея появилась примерно год назад. Поскольку в силу особенностей основного рода своей деятельности я читаю многие государственные сайты, я давно уже столкнулся с тем, что RSS среди них поддерживают единицы. Поначалу удавалось обходиться использованием Page2RSS, но его RSS-ленты – это ленты изменений страниц, а не новостей, и в фиды попадало много мусора.


Создавать же парсер под каждый сайт - много мороки. В итоге я в качестве эксперимента решил создать собственный алгоритм, который «восстанавливал» бы новости из новостных веб-страниц автоматически. Учитывая, что одновременно с этим я занимался и занимаюсь решением других задач по распознаванию смысловых блоков на веб-страницах, эта оказалась не столь уж сложной и достаточно интересной.


- В чем заключаются ключевые отличия вашего сервиса от аналогов – «Ревизора 2.0», Yahoo!Pipes, Feed 43 и других?


- «Ревизор 2.0»  и Page2RSS позволяют создавать ленты изменений на веб-страницах вне зависимости от того, где и как эти изменения произошли. Максимум, что позволяют сделать подобные сервисы, - это настройка чувствительности по размеру измененного блока. В результате их использование не требует специальных знаний HTML, но отличается определенной неточностью.


Yahoo Pipes, Dapper, openkapow и Feed43 позволяют пользователю самостоятельно настраивать правила извлечения информации и получать качественные RSS-фиды, но для этого необходимо обладать хотя бы минимальными навыками работы с HTML, регулярными выражениями, пониманием DOM-модели веб-страницы. В итоге, это сервисы не для всех, и под каждый ресурс необходимо формировать свои правила извлечения данных.


Основные отличия заключаются в том, что мой сервис «восстанавливает новостную ленту» и делает это полностью автоматически, не требуя от пользователей каких-либо технических знаний. Единственное, что нужно для его работы - это чтобы на веб-странице присутствовала лента новостей с проставленными датами; все остальное - распознавание даты, заголовка, нахождение тела новости и ссылки - алгоритм проделает полностью автоматически и сформирует RSS-ленту из распознанных новостных блоков страницы.


- Когда будет представлена окончательная версия сервиса, и что вы хотели бы добавить к нему до этого времени?


- Ориентировочно публичная версия будет доступна в начале октября. Текущая версия сознательно сделана упрощенной - из страницы сейчас извлекается только один обобщенный поток, пока еще не поддерживается часть форматов англоязычных дат и меня не все устраивает в производительности алгоритма - я думаю, что именно эти изменения появятся в первую очередь. И, конечно, будут учтены пожелания пользователей, которые сейчас используют алгоритм в закрытом тестировании. Также практически наверняка будет экспорт новостей в форматах RSS и ATOM, а также, скорее всего, публичный API.


- Как будут обстоять дела с частотой обновлений?


- Сейчас частота обновлений ограничена 2 часами. В дальнейшем все будет зависеть от числа отслеживаемых страниц и пользователей, но в любом случае обновление будет происходить не реже раза в сутки. Собственно, ограничения здесь исключительно в области задействованных ресурсов, и если вариант коммерческого сервиса окажется востребованным, то там частота обновлений может быть доведена и до 10 минут.


- Планируете ли вы представить пользователям возможность настройки внешнего вида каналов?


- Хотелось бы, но вряд ли в первой публичной версии. В дальнейшем, конечно, это возможно.


- Собираетесь ли вы как-либо рекламировать сервис, когда он будет готов?


- Я создавал этот алгоритм для себя и решения личных задач в качестве эксперимента. Идея же сделать общедоступный сервис возникла уже только, когда я заметил, что с подобной проблемой получения новостей сталкиваюсь не только я один. Коммерческих целей его продвижения изначально я не преследовал. Если сервис окажется востребованным, то подозреваю, что реклама ему не потребуется - если не окажется, то и реклама ему не поможет.


- Хотели бы вы продать кому-либо эту технологию?


- В большей степени мой интерес состоит в продаже не технологий, а сервисов на их основе. Сама же технология сейчас - часть общей библиотеки смыслового анализа веб-страниц, построения так называемой «объектной карты». Если будут интересные предложения, то именно этот алгоритм можно будет из нее выделить. Продажа библиотеки целиком в мои ближайшие планы не входит.


- Вы говорили о возможности создания на основе этого сервиса поисковика по созданным RSS-лентам. Расскажите подробнее об этой идее.


- Это лишь как один из вариантов развития. Фактически алгоритм сейчас позволяет создать поисковик по новостям с большим охватом, чем существующие новостные поисковики поскольку теперь в него можно будет включить RSS-ленты даже с тех сайтов, где их нет, причем подключение этих лент может производиться автоматически. В долгосрочной перспективе возможно построение поисковой машины со смысловым анализом индексируемых данных и различными формами их представления.


- Насколько я понимаю, вы также рассматриваете возможность интеграции этого сервиса с другими «связанными» с ним проектами. Как это могло бы выглядеть?


- Да, в частности, ранее я работал над алгоритмами геоклассификации (геокодинга) вебсайтов и отдельных страниц, а также сейчас продолжаю работать над тематической классификацией текстов и новостей. Одним из направлений развития этого сервиса может быть создание классифицированных новостных потоков с расширенными возможностями по фильтрации и группировке новостей. Также возможна интеграция со смежными сетевыми сервисами, такими как FeedBurner  и Google Reader.


Добавьте комментарий
Для размещения комментария необходима регистрация или авторизация:
 пользователь:   
 запись OpenID: 


Заработай деньги
на своём сайте!
Новый сервис монетизации СМИ и блогов.
Приглашаем сайты к бета-тестированию →
Новости СМИ2

ТЕМА НЕДЕЛИ


Rambler's Top100
купить автомобиль форд фокус