Новая технология: каждому стартапу – свой Google

Опубликовано: 15.01.2007, 16:35 Автор:
Новая технология: каждому стартапу – свой Google Один из первых вопросов, который слышат основатели онлайновых стартапов от потенциальных инвесторов в эти дни, таков: «Почему компания Google не смогла этого сделать?». Ну, а предприниматели в свою очередь начинают отвечать: «Почему мы не смогли создать Google?».

Медленное, но стабильное развитие открытых поисковых проектов вроде Hadoop, Lucene и Nutch параллельно с наличием доступных вычислительных ресурсов Amazon Web Services показывает, что построить масштабируемую инфраструктуру онлайн-поиска могут большинство стартапов.

Hadoop – это базовая структура для запуска приложений на группах компьютеров, дублирующая функции распределенной системы Google File System и MapReduce (тоже от Google), алгоритма для обработки больших массивов данных. Lucene является системой поиска и индексирования, созданной на основе Java. Nutch обладает теми же возможностями, что и Lucene, плюс предлагает дополнительные функции поиска и веб-интерфейс для просмотра результатов.

Поисковые системы с открытым исходным кодом уже используются такими организациями, как Krugle, Powerset, Wikipedia и Zimbra.

Krugle, поисковый движок для программистов, помогающий найти в Сети нужный программный код и техническую информацию, построен на основе на Nutch и Lucene. «Без Nutch и Lucene мы бы просто не смогли создать такую функциональность, которую имеем сейчас, и столь быстро представить работоспособный сервис, - сказал исполнительный директор Krugle Стив Ларсен (Steve Larsen). - Данные ресурсы позволили нам решить технические проблемы, связанные с Krugle, в рекордно короткие сроки».

«Доступ к исходному коду поисковых систем также оказался очень важен, - отмечает главный технический директор Krugle Кен Краглер (Ken Krugler). - Мы получили возможность модифицировать поисковые системы, подстраивая их под свои нужды. В коммерческих решениях значительно больше ограничений. Их сложнее настраивать и превращать в то, что вам нужно».

Для работы Krugle использует 100 отдельных серверов. Краглер говорит, что виртуальная вычислительная система Elastic Compute Cloud (EC2) от Amazon выглядит многообещающе, но он считает ее более подходящей для начинающих компаний.

«Конечно, масштабируемость у EC2 лучше, чем у ограниченного набора серверов», - говорит Краглер, но при этом подчеркивает, что данная система слишком новая, чтобы быть надежной.

Стартап Powerset использует EC2 для обеспечения вычислительными мощностями своего будущего поискового сайта, работающего с естественными языками.

Ранее в этом месяце, делая на конференции Web 2.0 доклад об использовании EC2 в своем проекте, учредитель и исполнительный директор Powerset Барни Пелл (Barney Pell) сказал, что использование его компанией технологии от Amazon «является значительным сдвигом в конкурентной динамике в сфере онлайнового поиска», так как компании не приходится вкладывать капитал «в создание достаточно большого центра обработки информации, способного прочесывать весь Интернет, обслуживая миллионы запросов пользователей», чтобы обеспечить достойную конкуренцию Google и Yahoo.

Стоит отметить, что на конференции Пелл не счел нужным упомянуть об использовании его проектом не только EC2, но и системы Hadoop, которая задействуется для кэширования результатов поиска перед тем, как они будут помещены в локальную сеть Powerset. В электронном письме разработчикам Hadoop главный технический директор Powerset Лоренцо Тионе (Lorenzo Thione) описал способ совместного применения Hadoop и EC2 для создания отказоустойчивой поисковой системы. «Мы выявили интересную функцию Hadoop, которую можно использовать при работе с EC2, – это возможность плавно изменять количество виртуальных машин, которые являются частью кластера, - пишет Тионе. - Наши экземпляры настраиваются на присоединение к кластеру и распределенной файловой системе Hadoop (Hadoop Distributed File System) сразу после активации, и если по какой-либо причине мы теряем эти машины, общий процесс от этого не страдает".

Конечно, Google – это нечто значительно большее, чем просто поисковая инфраструктура. Даже если конкуренты достигли некоторого паритета в технологическом плане, у Google все еще есть гигантская пользовательская база и бренд. Также стоит отметить, что конкурентам пока не сделать бизнеса на поисковых системах. На данный момент не существует рекламных платформ с открытым исходным кодом, обладающих функциональностью систем, созданных Google, Microsoft и Yahoo, не говоря уже о Amazon и eBay.

Но поскольку открытые проекты начинают задействоваться в коммерчески успешных сервисах, компании, использующие данное ПО, способствуют его улучшению. Ларсен сказал, что его компания содействует развитию Nutch, и отметил, что Yahoo продолжает продвигать Hadoop. Чем больше развиваются открытые проекты, тем мощнее будет поддержка для будущих стартапов.

Источник: Yahoo! News


Добавьте комментарий
Для размещения комментария необходима регистрация или авторизация:
 пользователь:   
 запись OpenID: 


Заработай деньги
на своём сайте!
Новый сервис монетизации СМИ и блогов.
Приглашаем сайты к бета-тестированию →
Новости СМИ2

ТЕМА НЕДЕЛИ


Rambler's Top100