Оцифровывать книги будет все человечество

Опубликовано: 00.00.0000, 00:00 Автор: Кепман Михаил
Тематика: CAPTCHAкниги
Оцифровывать книги будет все человечество С каждым днем возрастает популярность мобильных устройств. Пользователи очень часто используют КПК, смартфоны и коммуникаторы для чтения книг. К сожалению, масса произведений до сих пор не оцифрована, хотя существует много крупных проектов, занимающихся этим. В большинстве случаев, результата достигают сканированием и последующим оптическим распознаванием. Не секрет, что многие книги не поддаются распознаванию, и выкладываются в интернет набором отсканированных страниц, собранный в файлы формата PDF или DJVU. Читать их с маленького дисплея - сомнительное удовольствие.

Есть другая проблема, совершенно не связанная с первой – использование программ, позволяющих автоматизировать некоторые манипуляции в интернете. Такие программы могут оставлять рекламные сообщения на форумах, регистрироваться на сайтах или помогать пользователю работать с файлообменными серверами. Защита от подобных программ построена одинаково на большинстве сайтов – пользователю предлагается картинка с различными символами, которые тот должен ввести, чтобы продолжить работу. После того, как программы стали использовать технологию оптического распознавания текста, пришлось усилить защиту, используя алгоритм CAPTCHA. Символы стали всячески искривлять, но человек по-прежнему легко узнает буквы и цифры, а вот компьютер уже не может справиться с этим. Исследователи считают, что пользователи во всем мире ежедневно решают около 60 млн. таких «головоломок». Человеку, чтобы распознать и ввести символы, в среднем, требуется около десяти секунд.

Луис фон Ан (Luis von Ahn), исследователь из Carnegie Mellon, смог разом решить обе эти проблемы, разработав метод, с помощью которого легко отличить человека от компьютера. Изящество, с которым он это делает, вызывает уважение. Вместо искореженных символов, пользователю предлагается небольшой отсканированный фрагмент книги, текст которого и необходимо воспроизвести в соответствующем поле.

Луис фон Ан, занимающийся оцифровкой книг, накопил несколько десятков тысяч файлов, которые не получилось распознать автоматически. В основном, это старые, потрепанные страницы. Именно их фрагменты используются для проверки пользователя «на человечность». Все они размещены на сервере разработчика.

Таким образом, миллионы пользователей ежедневно будут распознавать десятки, а то и сотни книг. Сервер, с которого берутся фрагменты, будет синхронизировать всю работу по распознаванию текста и «склеивать» книгу, которая сразу же будет выложена на сайте проекта. Возникает закономерный вопрос – как же система определит, правильно ли введен текст? Как оказалось, один и тот же фрагмент показывают сразу нескольким пользователям, и только при совпадении ответов система регистрирует его как правильный. В таком методе, конечно, есть свои недочеты, но в процессе тестирования все нюансы будут учтены.

Луис фон Ан говорит, что человечество ежедневно тратит 150 тыс. человек/часов на ввод «исковерканных» символов. В такой ситуации, по его мнению, можно использовать время, которое люди тратит на бессмысленные действия для их же пользы.

Добавьте комментарий
Для размещения комментария необходима регистрация или авторизация:
 пользователь:   
 запись OpenID: 


Заработай деньги
на своём сайте!
Новый сервис монетизации СМИ и блогов.
Приглашаем сайты к бета-тестированию →
Новости СМИ2

ТЕМА НЕДЕЛИ


Rambler's Top100
эсаб свэл