Спецслужбы США получили ПО для анализа арабских текстов

07.03.2003 | 15:22
Компания Basis Technology выпускает ПО для обработки текстов на всех языках мира. Ее программы распознают и анализируют языки, проверяют алфавиты на совместимость с Unicode и проводят многоязыковой поиск в документе.

Арабский язык - один из самых трудных для компьютерного анализа, особенно по части поиска данных. Зачастую арабские слова уже несут в себе грамматические элементы, определяющие вид глагола, спряжение, лицо, число, род и др. В итоге, текст на арабском приходится "нормализовать", чтобы обеспечить индексирование, поиск по ключевым словам и другие операции. К тому же, своеобразное использование или полное отсутствие гласных вносит дополнительные трудности.

Arabic Language Analyzer (ARLA) представляет собой программный механизм, позволяющий обрабатывать документы, написанные на арабском языке. ARLA легко интегрируется с существующими системами поиска. ARLA выполняет орфографическую и лексическую нормализацию текста, включающую удаление таких частей речи, как союзы, предлоги и местоимения, которые усложняют поиск. В программе используются сложный лингвистический алгоритм и специальная лексика для перевода числительных (включая сложные) в формы единственного числа.

Созданный по заказу спецслужб Arabic Language Analyzer расширит возможности американских спецслужб в предотвращении возможных террористических атак. Сейчас спецслужбы США испытывают трудности при анализе информации на арабском языке, так как имеющиеся средства ориентированы на латинский алфавит и американскую таблицу кодировки символов. Транскрибирование, выполняемое переводчиками-людьми, часто приводит к разным толкованиям и усложняет обработку текстов. Например, имя главы Ливии Муамара Каддафи имеет около тридцати(!) вариантов написания латиницей.

Ранее Basis Technology, в штате которой насчитываются всего 50 человек, выпустила инструменты для работы с китайским, корейским и японским языками.
безопасность, информация, защита информации, статьи, библиотека, аудит, администрирование, реагирование на инциденты, криптография, уязвимость
По материалам http://compulenta.ru
Лента новостей: FacebookLiveJournalЯндекс

Комментарии (0)
Оставьте комментарий:CaptchaОбновить проверочный код