Ежедневное электронное издание о российском Интернете
Оцифровывать книги будет все человечество
Опубликовано: 00.00.0000, 00:00 Кепман Михаил
С каждым днем возрастает популярность мобильных устройств. Пользователи очень часто используют КПК, смартфоны и коммуникаторы для чтения книг. К сожалению, масса произведений до сих пор не оцифрована, хотя существует много крупных проектов, занимающихся этим. В большинстве случаев, результата достигают сканированием и последующим оптическим распознаванием. Не секрет, что многие книги не поддаются распознаванию, и выкладываются в интернет набором отсканированных страниц, собранный в файлы формата PDF или DJVU. Читать их с маленького дисплея - сомнительное удовольствие.
Луис фон Ан (Luis von Ahn), исследователь из Carnegie Mellon, смог разом решить обе эти проблемы, разработав метод, с помощью которого легко отличить человека от компьютера. Изящество, с которым он это делает, вызывает уважение. Вместо искореженных символов, пользователю предлагается небольшой отсканированный фрагмент книги, текст которого и необходимо воспроизвести в соответствующем поле.
Луис фон Ан, занимающийся оцифровкой книг, накопил несколько десятков тысяч файлов, которые не получилось распознать автоматически. В основном, это старые, потрепанные страницы. Именно их фрагменты используются для проверки пользователя «на человечность». Все они размещены на сервере разработчика.
Таким образом, миллионы пользователей ежедневно будут распознавать десятки, а то и сотни книг. Сервер, с которого берутся фрагменты, будет синхронизировать всю работу по распознаванию текста и «склеивать» книгу, которая сразу же будет выложена на сайте проекта. Возникает закономерный вопрос – как же система определит, правильно ли введен текст? Как оказалось, один и тот же фрагмент показывают сразу нескольким пользователям, и только при совпадении ответов система регистрирует его как правильный. В таком методе, конечно, есть свои недочеты, но в процессе тестирования все нюансы будут учтены.
Луис фон Ан говорит, что человечество ежедневно тратит 150 тыс. человек/часов на ввод «исковерканных» символов. В такой ситуации, по его мнению, можно использовать время, которое люди тратит на бессмысленные действия для их же пользы.
- 00.00.0000 в 00:00
- 3 голоса
- одобрить
- утопить
- 0 комментариев
Заработай деньги
на своём сайте!
на своём сайте!
Новый сервис монетизации СМИ и блогов.
Приглашаем сайты к бета-тестированию →
Новости СМИ2
Обсуждаемые новости
эсаб свэл