Российские разработчики создали систему "искусственного интеллекта", понимающую сложные документы

25.10.2013 | 11:56
Cognitive Technologies объявила о создании первой в России системы, обеспечивающей промышленное качество ввода сложных типов документов, к которым главным образом относится первичная бухгалтерская документация (счета фактуры, товарно - транспортные накладные и т.д.).

В компании говорят, что это кардинально иные технологии, нежели системы распознавания символов, в их традиционном понимании.

«Обычные OCR-системы на реальных документах могут дать точность распознавания не более 50% полностью правильных строк таблицы, что говорит об их низкой пригодности для промышленного применения», рассказывает руководитель лаборатории систем массового ввода документов Владимир Арлазаров. Качество ввода документов такого класса характеризуется двумя параметрами: процентом распознавания табличных строк, а не отдельных символов и точности классификации товарных наименований.

«Порогом для промышленного применения распознавания, в среднем, считается правильный автоматический ввод 75% позиций, и мы в своем решении превзошли ее на несколько процентов. Итоговым результатом ввода таких документов является информация, разложенная с высокой точностью по ячейкам внутренней базы данных заказчика, о наименовании товаров, их стоимости, поставщике, плательщике и т.д., десятки и сотни позиций. Понятно, что одна единственная ошибка сразу сводит весь результат на нет», комментирует Арлазаров.

Автоматическая обработка сложных типов документов, доля которых в общем объеме бухгалтерского документооборота по разным оценкам, составляет порядка 50%-60%, является одной из сложных задач искусственного интеллекта. Причина состоит в том, что в отличие от многих других типов бизнес - документов, например, платежных поручений, страховых анкет, налоговых деклараций и т.п., до настоящего времени не существует единых правил, регламентирующих эти документы и определяющих расположение их элементов.

Иными словами, однотипная информация (данные о получателе, банковские реквизиты и т.д.) может в разных документах может произвольно «плавать» по странице и даже размещаться на разных листах, в случае многостраничных документов. Кроме того, сама форма документов этого класса также является, во многом, произвольной и может варьироваться от формата А5 до А4, допуская при этом еще и различные варианты ориентации (альбомная, портретная). Качество печати документов во многих случаях также оставляет желать лучшего.

Таким образом, система распознавания сложных документов фактически должна как человек понимать, к какому из признаков относится напечатанная в разных частях документа информация. Например, является ли напечатанное число одним из реквизитов платежного документа, или номером отгрузки, или суммой оплаты или какой-либо другой характеристикой.

По словам Арлазарова, человек распознает информацию на основе имеющихся у него данных и приобретенных с опытом правил соответствия одних элементов другим. «Мы в нашей системе реализуем аналогичные механизмы понимания, наполнив «мозг» системы необходимыми данными и установив правила соответствия. Нами используются различные смысловые и семантические правила».

В итоге задача понимания сводится к определению соответствия каждого из элементов документа (например, адреса грузополучателя) - определенной ячейке в базе данных, куда эта информация (адрес грузополучателя) должна быть помещена. В этом смысле наиболее сложными для обработки являются разделы документа, представляющие сплошной текст в котором «интеллект» системы должен вычленить элементы, относящиеся к различным признакам.

Выделить в тексте к чему какая информация (адрес покупателя, поставщика, реквизиты плательщика и т.д.) относится, сложно даже человеку

Другой проблемой, с которой столкнулись разработчики, стало определение наименований товаров в тексте документа. Сложность состоит в том, что каждый из поставщиков использует, как правило, свой вариант написания каждого из наименований. Например, «Батон нарез. упак.» может быть «Н. у. батон завод №2» или «Хлеб нар. уп. » и т.д. Таким образом, у одной и той же товарной позиции может быть такое количество вариантов написания, которое, по – сути, способен выдумать человек.

С математической точки зрения идентификация или классификация товарной позиции представляет собой определение соответствия между товарной позицией и номером ее кода в базе данных заказчика, который, при этом, на документах не печатается. По - этому, для определения такого соответствия используется смысловой анализ текста.

Человек в таких случаях проводит идентификацию на основе просмотра всего документа и сравнения каждой из товарных позиций друг с другом. При этом он определяет в одну и ту же группу позиции, относящиеся к одному товару. По схожему принципу работает и интеллектуальная программа. При этом она научилась разбираться с однозначностями типа: 0,5 кг, полкило,500 грамм, пятьсот грамм и полбуханки.

Наконец, еще одним препятствием на пути промышленной обработки сложных документов было распознавание в документе печатей, подписей и отделениях их от служебных пометок. Дело в том, что подписи и пометки во многих случаях отличить практически не возможно.

Решается задача только с использованием дополнительных данных, имеющихся в документе. Например, подпись сравнивается с ее аналогом в других позициях или «читаются» близлежащие данные (Ф.И.О., наличие печати и т. д.), по которым графический элемент может быть идентифицирован как подпись и т.д. Такое решение предназначено в первую очередь для крупных торговых сетей.

«Наша компания вложила в разработку технологии понимания сложных типов документов за последние 5 лет более 70 млн. рублей. Мы непрерывно ведем исследования в сферах, результаты в которых могут быть востребованы через 5, 10 и более лет. Так, работы в направлении когнитивных технологий в понимании документов мы инициировали еще в середине 90-х, а реальный спрос на него возник только в последние годы, при появлении соответствующей аппаратной базы и организационного контура. Сегодня мы ведем исследования в области машинного зрения, bigdata, меметических вычислений (модели передачи информации, рассматривающие идеи как единицы информации, по аналогии с геном в генетике). Когда эти направления станут востребованными, мы уже будем в числе их лидеров», - убеждена президента Cognitive Technologies Ольга Ускова.
Cognitive Technologies, искусственный интеллект
По материалам CyberSecurity.ru
Лента новостей: FacebookLiveJournalЯндекс

Комментарии (0)
Оставьте комментарий:CaptchaОбновить проверочный код