Российский ИИ научился читать сложные рукописные слова без ошибок
Разработка поможет улучшить распознавание документов/imgs/2025/03/21/08/6763671/5ca0a4b4ff0317223420dadc62a93fcde1d77708.png)
© Ferra.ru
Одним из главных испытаний для новой нейросети стало слово «шиншилла». В рукописном тексте буквы «ш», «и» и «л» могут сливаться, создавая сложности для машинного анализа. Однако нейросеть Smart Engines справилась с задачей, анализируя только форму и взаимное расположение букв, а не угадывая слово по смыслу.
В отличие от традиционных систем, новый алгоритм не использует словарный запас русского языка. Это особенно важно при обработке паспортов, регистрационных штампов и других официальных документов, где ошибки недопустимы.
Для обучения ИИ разработчики использовали 1,2 миллиона строк рукописного текста, сгенерированного с равномерным распределением буквосочетаний. Такой метод минимизирует так называемые «галлюцинации» ИИ — ситуации, когда нейросеть ошибочно «додумывает» слова, которых нет в тексте.