Оружие для борьбы со спамом теперь помогает университетским исследователям сохранять старые книги и рукописи. Многие веб-сайты используют автоматизированные тесты при регистрации, чтобы определить, действует ли это человек или компьютерная программа. «Экзамен» состоит из ввода пользователем несколько случайных букв, изображённых на картинке в искажённом виде. Этот тест - CAPTCHA (Completely Automated Turing Test To Tell Computers and Humans Apart - Полностью автоматизированный тест для различения компьютеров и людей) - был разработан в университете Карнеги Меллона, дабы спастись от автоматизированных программ-ботов.
Но теперь этот метод используется в гораздо более рациональных целях – для распознавания слов из старых книг, которые не смогли обработать автоматизированные компьютерные средства распознавания символов. Таких слов достаточно много – даже самые современные технологии не в силах прочитать порядка 10% текста из старинных книг, газет и журналов.
Таким образом, то, что не сумели правильно прочесть компьютеры, теперь вручную набирают сотни тысяч пользователей – по паре-тройке слов при каждой регистрации на каком-нибудь сайте или форуме. Идея действительно неплоха и имеет почти неисчерпаемые источники искажённых слов. По словам представителей университета, ещё только предстоит оцифровать около 100 миллионов единиц печатной продукции, на что, при нынешних темпах, потребуется не менее 400 лет.
Источник новости: ВВС