7 инструментов для распознавания текста онлайн и офлайн

7 инструментов для распознавания текста онлайн и офлайн

Эти сайты и программы помогут извлечь текстовое содержимое изображений и бумаг, чтобы вам было удобнее с ним работать.

1. Office Lens

  • Платформы: Android, iOS, Windows.
  • Распознаёт: снимки камеры.
  • Сохраняет: DOCX, PPTX, PDF.

Этот сервис от компании Microsoft превращает камеру смартфона или ПК в бесплатный сканер документов. С помощью Office Lens вы можете распознать текст на любом физическом носителе и сохранить его в одном из «офисных» форматов или в PDF. Итоговые текстовые файлы доступны для редактирования в Word, OneNote и других сервисах Microsoft, интегрированных с Office Lens. К сожалению, с русским языком программа справляется не так хорошо, как с английским.

2. Adobe Scan

  • Платформы: Android, iOS.
  • Распознаёт: снимки камеры.
  • Сохраняет: PDF.

Adobe Scan тоже использует камеру смартфона, чтобы сканировать бумажные документы, но сохраняет их копии только в формате PDF. Приложение полностью бесплатно. Результаты удобно экспортировать в кросс‑платформенный сервис Adobe Acrobat, который позволяет редактировать PDF‑файлы: выделять, подчёркивать и зачёркивать слова, выполнять поиск по тексту и добавлять комментарии.

3. FineReader

  • Платформы: веб, Android, iOS, Windows.
  • Распознаёт: JPG, TIF, BMP, PNG, PDF, снимки камеры.
  • Сохраняет: DOC, DOCX, XLS, XLSX, ODT, TXT, RTF, PDF, PDF/A, PPTX, EPUB, FB2.

FineReader славится высокой точностью распознавания. Увы, бесплатные возможности инструмента ограниченны: после регистрации вам позволят отсканировать всего 10 страниц. Зато каждый месяц будут начислять ещё по пять страниц в качестве бонуса. Подписка стоимостью 129 евро позволяет сканировать до 5 000 страниц в год, а также открывает доступ к десктопному редактору PDF‑файлов.

4. Online OCR

  • Платформы: веб.
  • Распознаёт: JPG, GIF, TIFF, BMP, PNG, PCX, PDF.
  • Сохраняет: TXT, DOC, DOCX, XLSX, PDF.

Веб‑сервис для распознавания текстов и таблиц. Без регистрации Online OCR позволяет конвертировать до 15 документов в час — бесплатно. Создав аккаунт, вы сможете отсканировать 50 страниц без ограничений по времени и разблокируете все выходные форматы. За каждую дополнительную страницу сервис просит от 0,8 цента: чем больше покупаете, тем ниже стоимость.

5. img2txt

  • Платформы: веб.
  • Распознаёт: JPEG, PNG, PDF.
  • Сохраняет: PDF, TXT, DOCX, ODF.

Бесплатный онлайн‑конвертер, существующий за счёт рекламы. img2txt быстро обрабатывает файлы, но точность распознавания не всегда можно назвать удовлетворительной. Сервис допускает меньше ошибок, если текст на загруженных снимках написан на одном языке, расположен горизонтально и не прерывается картинками.

6. Microsoft OneNote

  • Платформы: Windows, macOS.
  • Распознаёт: популярные форматы изображений.
  • Сохраняет: DOC, PDF.

В настольной версии популярного блокнота OneNote тоже есть функция распознавания текста, которая работает с загруженными в заметки изображениями. Если кликнуть правой кнопкой мыши по снимку документа и выбрать в появившемся меню «Копировать текст из рисунка», то всё текстовое содержимое окажется в буфере обмена. Программа доступна бесплатно.

7. Readiris 17

  • Платформы: Windows, macOS.
  • Распознаёт: JPEG, PNG, PDF и другие.
  • Сохраняет: PDF, TXT, PPTX, DOCX, XLSX и другие.

Мощная профессиональная программа для работы с PDF и распознавания текста. С высокой точностью конвертирует документы на разных языках, включая русский. Но и стоит Readiris 17 соответственно — от 49 до 199 евро в зависимости от количества функций. Вы можете установить пробную версию, которая будет работать бесплатно 10 дней. Для этого нужно зарегистрироваться на сайте Readiris, скачать программу на компьютер и ввести в ней данные от своей учётной записи.

Программы для распознавания текста

Как правило, если речь заходит о программах для распознавания сканированного текста (OCR, оптическое распознавание символов), большинство пользователей вспоминают единственный продукт — ABBYY FineReader, который, бесспорно, является лидером среди такого программного обеспечения в России и одним из лидеров в мире.

Тем не менее, FineReader — не единственное такого рода решение: есть бесплатные программы для распознавания текста, онлайн-сервисы для этих же целей и, более того, такие функции присутствуют и в некоторых знакомых вам программах, которые, возможно, уже установлены на вашем компьютере. Обо все этом я и постараюсь написать в этой статье. Все рассмотренные программы работают в Windows 7, 8 и XP.

Лидер распознавания текстов — программа ABBYY Finereader

Про FineReader (произносится как Файн Ридер) слышали, наверное, большинство из вас. Эта программа лучшая или одна из лучших для качественного распознавания текстов на русском языке. Программа является платной и цена лицензии для домашнего использования составляет чуть менее 2000 рублей. Также имеется возможность скачать пробную версию FineReader или же воспользоваться онлайн распознаванием текстов в ABBYY Fine Reader Online (бесплатно можно распознать несколько страниц, далее — платно). Все это доступно на официальном сайте разработчика http://www.abbyy.ru.

Установка пробной версии FineReader не вызвала никаких проблем. ПО может интегрироваться с Microsoft Office и Проводником Windows, для того чтобы было удобнее запустить распознавание. Из ограничений бесплатной пробной версии — 15 суток использования и возможность распознать не более 50 страниц.

Снимок для тестирования программ распознавания

Так как сканера у меня нет, то для проверки я воспользовался снимком с некачественной камеры телефона, в котором немного отредактировал контрастность. Качество никуда не годное, посмотрим, кто справится.

Меню программы FineReader

FineReader может получать графическое изображение текста напрямую со сканера, из графических файлов или камеры. В моем случае, достаточно было открыть файл изображения. Результат порадовал — всего пара ошибок. Сразу скажу, что это лучший результат из всех проверенных программ при работе с данным образцом — похожее качество распознавания было только на бесплатном онлайн сервисе Free Online OCR (но в этом обзоре мы говорим только о программных средствах, не онлайн распознавании).

Результат распознавания текста в FineReader

Откровенно говоря, для кириллических текстов у FineReader, наверное, нет конкурентов. Плюсами программы является не только качество распознавания текстов, но и широкая функциональность, поддержка форматирования, грамотный экспорт во множество форматов, включая Word docx, pdf и другие возможности. Таким образом, если задачи OCR — это то, с чем вы сталкиваетесь постоянно, то не пожалейте сравнительно небольшого количества денег и это вполне окупится: вы сэкономите огромное количество времени, быстро получая качественный результат в FineReader. Я, кстати, не рекламирую ничего — действительно считаю, что тем, кому нужно распознать больше десятка страниц, стоит задуматься о покупке такого ПО.

CuneiForm — бесплатная программа для распознавания текста

По моей оценке, вторая по популярности программа OCR в России — бесплатная CuneiForm, скачать которую можно с официального сайта http://cognitiveforms.ru/products/cuneiform/.

Читайте также:  Как установить Яндекс.Браузер на свой компьютер

Установка программы также очень проста, никакого стороннего софта (как многое бесплатное ПО) она установить не пытается. Интерфейс лаконичен и понятен. В некоторых случаях проще всего воспользоваться мастером, для чего предназначена первая из иконок в меню.

С образцом, которым я пользовался в FineReader, программа не справилась, или, точнее, выдала что-то плохо читаемое и ошметки слов. Вторая попытка была предпринята со скриншотом текста с сайта самой этой программы, который, правда, пришлось увеличить (ей нужны сканы с разрешением 200dpi и выше, скриншоты с толщиной линий шрифтов 1-2 пикселя она не читает). Тут она справилась хорошо (часть текста не распознана, так как был выбран только русский язык).

Распознавание текста в CuneiForm

Таким образом, можно предположить, что CuneiForm — это то, что следует попробовать, особенно если у вас качественно отсканированные страницы и вы хотите распознать их бесплатно.

Microsoft OneNote — программа, которая у вас, возможно, уже есть

В состав Microsoft Office, начиная с версии 2007 и заканчивая текущей, 2013, присутствует программа для ведения заметок — OneNote. В ней также присутствуют функции распознавания текста. Для того, чтобы воспользоваться ею, просто вставьте отсканированное или любое другое изображение текста в заметку, кликните правой клавишей мыши по ней и воспользуйтесь контекстным меню. Отмечу, что по умолчанию для распознавания установлен английский язык.

Распознавание в Microsoft OneNote

Не могу сказать, что текст распознается идеально, но, насколько я могу судить, несколько лучше даже чем в CuneiForm. Плюс программы, как уже было сказано, в том, что с немалой вероятностью она уже установлена на вашем компьютере. Хотя, конечно, ее использование в случае необходимости работы с большим количеством отсканированных документов навряд ли будет удобным, скорее она подойдет для быстрого распознавания визиток.

OmniPage Ultimate, OmniPage 18 — должно быть, что-то очень крутое

Я не знаю, насколько хороша программа для распознавания текстов OmniPage: пробных версий нет, где-то скачивать не хочу. Но, если ее цена оправдана, а она обойдется примерно в 5000 рублей в версии для индивидуального использования и не Ultimate, то это должно быть что-то впечатляющее. Страница программы: http://www.nuance.com/for-individuals/by-product/omnipage/index.htm

Цена на ПО OmniPage

Если ознакомиться с характеристиками и отзывами, в том числе и в русскоязычных изданиях, в них отмечается, что OmniPage действительно обеспечивает качественное и точное распознавание, в том числе и на русском языке, сравнительно легко разбирает не самые качественные сканы и предоставляет набор дополнительных инструментов. Из недостатков выделяют не самый удобный, особенно для начинающего пользователя, интерфейс. Так или иначе, на западном рынке OmniPage — прямой конкурент FineReader и в англоязычных рейтингах они борются именно между собой, а потому, думаю, программа должна быть достойной.

Это далеко не все программы данного типа, существуют также различные варианты небольших бесплатных программ, но, пока экспериментировал с ними нашел два главных недостатка им свойственных: отсутствие поддержки кириллицы, либо различное, не слишком полезное ПО в комплекте установки, а потому решил не упоминать их здесь.

А вдруг и это будет интересно:

  • Windows 10
  • Настройка роутера
  • Всё про Windows
  • Загрузочная флешка
  • Лечение вирусов
  • Восстановление данных
  • Установка с флешки
  • В контакте
  • Одноклассники
  • Android

Почему бы не подписаться?

Рассылка новых, иногда интересных и полезных, материалов сайта remontka.pro. Никакой рекламы и бесплатная компьютерная помощь подписчикам от автора. Другие способы подписки (ВК, Одноклассники, Телеграм, Facebook, Twitter, Youtube, Яндекс.Дзен)

12.11.2018 в 14:51

Ставил CuneiForm, — и убрал её. Качество распознавания так себе, а на Windows 10 жутко глючит при запуске.

28.07.2020 в 11:40

Здравствуйте!
Правильно я понимаю, что программ для распознавания рукописного текста не существует?
Можете подсказать программы для перевода речи, в частности аудиофайла, в текст, или ссылку на Вашу статью по этой теме?

Бесплатные аналоги ABBYY FineReader

  • Все
  • Для дома
  • Для бизнеса
  • Open source

Сохранить ссылку

Смотрите также

  • Просмотр изображений
  • Математические пакеты
  • DVD проигрыватели
  • Оптимизаторы
  • Запись CD и DVD
  • Операционные системы
  • Фаерволы
  • Запись видео с экрана
  • Online игры
  • Генеалогическое дерево
  • Создание GIF-файлов
  • Антивирусы
  • Файловые менеджеры
  • Личные финансы
  • Архиваторы
  • Распознавание текста
  • Игры
  • Ремонт
  • Блокирование рекламы
  • PDF
  • Почтовые клиенты
  • Создание WiFi сети

Распознавание текста

Ниже вы найдёте бесплатные программы, распространяющеся под лицензиями

img2txt

img2txt – онлайн сервис по распознаванию текстов из отсканированных изображений. Сервис работает с английским, русским и украинским языками. Стоит отметить, что загружаемое изображение не должно содержать таблицы, изображения, диаграммы, а также превышать 4 Мб. Кроме того, оно должно быть представлено в одном из следующих форматов: jpg, jpeg, png. подробнее.

www.free-ocr.com

www.free-ocr.com – онлайн сервис для распознавания текста. Качество распознавания хорошее, даже при невысоком качестве изображения. Имеет ограничение на размер распознаваемого файла в 2 Mb. Поддерживает такие языки как: русский, английский, немецкий, французский, испанский, итальянский, чешский, датский, нидерландский, финский, греческий, норвежский, польский, португальский, шведский, турецкий, украинский. подробнее.

OnlineOCR.net

OnlineOCR.net – бесплатный сервис по распознаванию текста и сохранению его в форматах docx, xlsx или txt. Сервис позволяет распознавать до 15 изображений в час без регистрации, хотя регистрация бесплатна. Количество поддерживаемых языков огромное, включая русский, украинский, белорусский. Распознавание происходит довольно быстро. Качество работы сервиса на хорошо отсканированных изображениях нормальное. Если текст содержит картинки или отсканирован плохо, то качество страдает. Сервис имеет ограничение по размеру файла в 5 МБ. подробнее.

SimpleOCR

SimpleOCR – бесплатное приложение для распознавания текста. Умеет распознавать рукописный текст. Поддерживаемые языки: английский, голландский, французский. Умеет читать изображения со сканера. подробнее.

Free Online OCR

Free Online OCR – бесплатный онлайн сервис для распознавания текста. К достоинствам аналога ABBYY FineReader можно отнести хорошее качество распознавания текста; неограниченное количество загрузок; работа с 70 языками, в том числе русским; распознавание текста, содержащего сразу несколько языков; отсутствие регистрации. Free Online OCR предоставляет возможность выделять, а также разворачивать часть документа, предназначенную для дальнейшей обработки. Распознает следующие форматы: JPEG, JFIF, PNG, GIF, BMP, PBM, PGM, PPM и PCX. Работает с такими форматами сжатия как Unix compress, bzip2, bzip и gzip; со следующими мультистраничными документами: TIFF, PDF и DjVu. Распознает файлы DOCX и ODT с изображениями. Работает с ZIP архивами. Результат может быть получен в виде простого текста (TXT), документа Microsoft Word (DOC) и PDF-файла Adobe Acrobat. подробнее.

Читайте также:  Устранение ошибки с библиотекой Binkw32.dll

Лучшие программы для распознавания текста

Утомительное перепечатывание текста для приведения его в электронный вид давно уже отошло в прошлое, ведь сейчас существуют довольно продвинутые системы распознавания, работа с которыми требует минимального вмешательства пользователя. Программы для оцифровки текста востребованы как в офисе, так и дома. В настоящее время существует довольно большое разнообразие различных приложений для распознавания текста, но какие из них действительно лучшие? Попробуем разобраться в этом вопросе.

ABBYY FineReader

Эбби Файн Ридер – самая популярная программа для сканирования и распознавания текста в России, а, возможно, и в мире. Данное приложение имеет в своем арсенале все необходимые инструменты, что и позволило ему достичь такого успеха. Кроме сканирования и распознавания, ABBYY FineReader позволяет производить расширенное редактирование полученного текста, а также выполнять ряд других действий. Программа отличается очень качественным распознаванием текста и быстротой работы. Мировую популярность она заслужила также благодаря возможности оцифровки текстов на многих языках мира, а также мультиязычному интерфейсу. Среди немногих недостатков FineReader можно, разве что, выделить большой вес приложения и необходимость платить за пользование полноценной версией.

Readiris

Главным конкурентом Эбби Файн Ридер в сегменте оцифровки текста является приложение Readiris. Это функциональный инструмент для распознавания текста как со сканера, так и с сохраненных файлов различных форматов (PDF, PNG, JPG и др.). Хотя по функционалу данная программа несколько уступает ABBYY FineReader, она значительно превосходит большинство других конкурентов. Главной же фишкой Readiris является возможность интеграции с целым рядом облачных сервисов для хранения файлов. Недостатки у Readiris практически те же, что и у ABBYY FineReader: большой вес и необходимость платить немалые деньги за полноценную версию.

VueScan

Разработчики VueScan главное внимание сконцентрировали все-таки не на процессе распознавания текста, а на механизме сканирования документов с бумажных носителей. Причем программа хороша именно тем, что работает с очень большим перечнем сканеров. Для ее взаимодействия с устройством не требуется установка драйверов. Более того, VueScan позволяет работать с дополнительными возможностями сканеров, которые даже родные приложения этих устройств не помогают раскрыть в полной мере. Также у программы есть инструмент распознавания сканируемого текста. Но данная функция пользуется популярностью только в связи с тем, что ВуеСкан – отличное приложение для сканирования. Собственно, функционал по оцифровке текста довольно слаб и неудобен, поэтому распознавание в VueScan используется для решения несложных задач.

CuneiForm

Приложение CuneiForm – отличное решение для распознавания текста с фото, изображений, сканера. Популярность оно приобрело благодаря применению особой технологии оцифровки, совмещающей шрифтонезависимое и шрифтовое распознавание. Это позволяет максимально точно распознавать текст, учитывая даже элементы форматирования, но при этом сохранять высокую скорость работы. В отличии от большинства программ для распознавания текста, эта абсолютно бесплатна. Но у данного продукта имеется и целый ряд недостатков. Так, он не работает с одним из самых популярных форматов – PDF, — а также имеет плохую совместимость с некоторыми моделями сканеров. Кроме того, приложение на данный момент разработчиками официально не поддерживается.

WinScan2PDF

В отличии от CuneiForm, единственной функцией WinScan2PDF является оцифровка полученного со сканера текста в формат PDF. Главное преимущество этой программы – простота использования. Она подойдет тем людям, которые очень часто сканируют бумажные документы и распознают текст в формате PDF. Главный недостаток ВинСкан2ПДФ связан с очень ограниченным функционалом. Собственно, больше ничего данный продукт не умеет делать, кроме указанной выше процедуры. Он не может сохранять результаты распознавания в другой формат, кроме PDF, а также не предоставляет возможности оцифровки файлов изображений, которые уже хранятся на компьютере.

RiDoc

РиДок является универсальным офисным приложением для сканирования документов и распознавания текста. Его функционал все-таки немного уступает ABBYY FineReader или Readiris, но и стоимость заметно меньше. Поэтому по соотношению «цена – качество» RiDoc выглядит даже предпочтительнее. В то же время, существенных ограничений по функционалу программа не имеет, и одинаково хорошо выполняет как задачу сканирования, так и распознавания. Фишкой РиДок является возможность уменьшения изображений без потери качества. Единственный существенный недостаток – не совсем корректная работа по распознаванию мелкого текста.

Безусловно, среди перечисленных программ любой пользователь сможет отыскать ту, которая ему придется по душе. Выбор будет зависеть как от конкретных задач, которые приходится чаще всего решать, так и от финансового состояния.

Распознавание документов на частном примере — обзор доступных платных и бесплатных решений

Всем привет! Типичная ситуация сложилась в компании, в которой я работаю. В бухгалтерии вечный аврал, людей не хватает, все занимаются чем-то безусловно важным, но по сути бесполезным. Такое положение дел не устраивало руководство.

Если подробнее, то проблема в том, что ресурсов бухгалтерии не хватает на текущие задачи, а выделять ставки под новых людей никто не хочет. Поэтому сверху приняли решение порезать некоторые задачи и освободить время бухгалтеров для более полезных дел. Под нож попала такая работа как сканирование и распознавание документов, копирование, внесение их в прочие рутинные радости.

Так передо мной, как аналитиком, встала задача: найти решение для распознавания документа типичного для моей компании — счет-фактуры — структурировать его в имеющиеся хранилища, а также в 1С. Решение, которое будет удобным, понятным, и не влетит компании в копеечку.

Опыт получился занятным, решил поделиться тем, что удалось собрать. Возможно я что-то упустил, поэтому велком в комментарии, если есть, что добавить.

Программы сканирования документов, программы распознавания документов — не новое решение на рынке, его можно найти как в бесплатных программах, так и встроенных в системы.

Начал я с бесплатных программ:

  • glmageReader
  • Paperwork
  • VietOCR
  • CuneiForm.

В ходе распознавания нашего счета-фактуры такими программами я увидел следующее:

  • В таких программах как VietOCR, Paperwork, glmageReader можно настроить хранение отсканированных документов в определенные папки, Paperwork умеет их даже сортировать, согласно меткам.
  • В основном они хорошо справляются с текстом, а там, где текст распознан некорректно, в некоторых программах можно вручную изменить содержимое, прежде чем экспортировать файл.

Однако есть и проблемы:

  • Есть разница между работой с pdf сканами и png. Не всегда удается удачно конвертировать png в pdf.
  • Большинство таких программ сложно справляются с распознаванием документов табличного вида, даже самого простого формата. В результате мы получаем распознанный текст без размеченных полей.

  • Иногда неточно определяется шрифт, вследствие чего при конвертации весь распознанный текст наезжает друг на друга.
  • В процессе распознавания иногда необходимо делать выравнивание по ключевым словам, с доворотами и смещением координат.
  • В некоторых программах таблица распознавалась как картинка и экспортировалась в новый документ Word тоже в качестве картинки, очень урезанной, которую даже сложно разглядеть.
  • При редактировании распознанного содержимого в некоторых программах возникали проблемы, менялся шрифт или сам текст.
  • Технология сработала достаточно хорошо, Учитывая, что программы бесплатные, описанные выше проблемы допустимы. Однако, я искал более упорядоченного решения.

    Затем я исследовал распознавание в ABBYY FineReader 15 Corporate

    За 7-дневный срок триала я изучил и эту платформу.

    • Когда я открыл png файл, он отлично был считан и в результате удачно конвертирован в pdf без потери качества изображения и текста.
    • Программа отлично знает, как отсканировать документ для редактирования текста. Причем в режиме редактирования файла формата png текст удается отредактировать без проблем, но иногда слетает разметка.
    • Однако то же самое я не могу сказать про редактирование файла-скана pdf. При попытке редактирования летели слои.
    • Табличный вид распознается качественно, вся структура сохраняется, меня это порадовало.
    • OCR редактор хорошо распознал мой сформированный pdf счет-фактуры. Где-то пару символов требовалось поправить вручную.



    Однако, была ситуация, что почти весь подобный документ распознался с меньшей точностью и данных для изменения вручную было уйма. Думаю, здесь можно было бы решить вопрос технически, но это затратило бы больше времени.

  • Здесь можно настроить автоматическую конвертацию входящих документов, которые регулярно будут тянуться из указанной папки, по указанному расписанию.
  • Он позволяет сравнивать версии документов, даже если они в разных форматах. При большом потоке документов и правок в них, это очень удобно.
  • От использования этого софта были приятные впечатления. Однако, когда я обратился к ценнику системного решения ABBYY Flexicapture (а мне нужно именно системное), то выяснил, что решение, особенно кастомизированное, обходится в довольно круглую сумму, около 400 тыс. руб./мес. и выше за 10 тыс. страниц.

    Я стал искать альтернативу. Как освободить руки сотрудника, получить качественное распознавание документов и не переживать за сохранность и структуру данных.

    И тут я решил получше разглядеть ELMA RPA, которую я уже изучал ранее.

    Вендор предлагает перекинуть значительную часть работы по экспорту данных в ERP с плеч бухгалтеров на роботов. По сути, именно это решает поставленную передо мной задачу. Чтобы познакомиться с распознаванием в этой системе, я взял у вендора триальную версию системы.

    Здесь я обнаружил, что распознавание не преследует цели конвертировать полученные данные в новый документ-файл.

    Здесь главная цель — распознавание реквизитов документа и их передача в другие системы/сайты/приложения. Кроме того, роботы складывают всю информацию куда надо: автоматически находят нужные папки и сохраняют в необходимых форматах.

    Какие виды распознавания в системе я посмотрел:

    Распознавание по шаблону

    Нам предлагается на основании шаблона документа распознать подгружаемый документ. Насколько мне известно, этот вид распознавания бесплатный, внутрь зашит движок Tesseract.

    • Этот вид распознавания работает именно со сканами формата jpg и png, pdf он пока не рассматривает. Но продукт еще молодой, думаю, все впереди.
    • Этот вид распознавания входит в бесплатную версию Community Edition
    • Удобно размечен текст по блокам, которые можно сопоставить, согласно переменным, которые мы создали в контексте робота. Таким образом вручную настроить, что именно тянем в распознавание.
    • Нашу счет-фактуру он распознал 50/50, некоторые слова подменил как посчитал нужным. 🙂


    Однако, вендор на данный кейс сообщил, что этот вид распознавания адаптирован под простые документы, с текстовой структурой или с легкими формами. И посоветовал для распознавания счета-фактуры использовать другой вид распознавания — intellect lab.

    Процесс тот же, загружаем шаблон и по нему распознаем. Но здесь шаблон отправляется на облачный сервер.

    От сервера получаем ответ (распознает такой тип документа или нет), и если распознается, то передается структура шаблона (переменные для маппинга), для сопоставления переменных, которые необходимо будет записать в RPA процессе.

    В процессе воспроизведения мы отправляем уже документ, который хотели бы распознать и получаем ответ от iLab сервера о распознавании.

    Что отметил по поводу этого распознавания:

    • Здесь уже распознавание работает как программа сканирования документов pdf, и при этом работает и с форматами jpg и png.
    • Качество документа не влияет на эффективность распознавания. Даже документы с плохим качеством распознаются корректно.
    • Счет-фактура распозналась полностью и без подмен переменных.
    • Робот сумел получить скан с почты, распознать его и создать его экземпляр в 1С. То есть автоматически сохранил файл там, где мы ему задали, что, естественно, крайне удобно.
    • Входит в бесплатную Community Edition в виде распознавания документа в облаке. Подходит, если используем стандартные типы (СФ, УПД, АВР и др.), и, например до 100 документов в месяц или до 500 в год. (Стоит заметить, что считаем не в страницах, а в документах непосредственно.)

    Сам процесс распознавания документов довольно сложно отобразить на видео, так как это происходит в коробке, а экран пустует несколько секунд. Поэтому я сделал отдельную запись распознанных данных в блокнот для визуализации.

    Соответственно, эти же данные робот записывает в 1С, создавая там новый документ:

    Что удалось выяснить по ценам: Если мы, например, хотим работать масштабно именно с ilab распознаванием, то за наши 10 000 документов придется выложить:

    • примерно 180 000 руб. единовременно,
    • плюс, допустим, 400 000 руб. покупка робота с оркестратором
    • итого: 580 000 руб.

    Робот бессрочный, а 10 000 документов на какое-то время хватит. Довольно выгодно получается, как минимум в том, что заплатим за все один раз.

    Что понравилось в распознавании в этой платформе в целом:

    • Можно настроить получение документов по событию, а также, например из электронной почты и любых других внешних источников. У меня пока была цель настроить получение с почты.
    • Все считанные данные с документа можно спокойно записать в контекстные переменные и далее их передать в необходимые системы, приложения, сайты, ВМ и т д. И я не переписываю уже ничего руками.
    • Скорость обработки. 15 секунд и объект распознан, а остальной порядок действий — это счет по минутам. Если заявиться с потоковым сканированием с большим количеством документов, думаю это не составит больших временных затрат.
    • Много качественного функционала в свободном доступе, для небольших компаний им можно вполне обойтись.