XML и Unicode: опасная смесь

18.06.2003 | 15:23
Организации по стандартизации предупреждают: набор символов, позволяющий компьютерам писать на любом языке, от чешского до китайского, может нарушить работу веб-браузеров.

Unicode, публикуемый консорциумом Unicode Consortium, представляет собой стандартный набор символов для компьютеров, в котором каждому письменному знаку на любом языке присвоен определенный номер. XML (Extensible Markup Language), рекомендованный консорциумом W3C для разметки цифровых документов и создания новых языков разметки для специфических задач или отраслей, опирается на Unicode и четко отслеживает его редакции.

Однако технический отчет, выпущенный Unicode Consortium - и одновременно опубликованный группой интернационализации W3C, - предупреждает авторов документов, что некоторые особенности Unicode могут нарушать работу XML-приложений, HTML-браузеров и других программ.

Конфликты между Unicode и языками разметки для веба проистекают из принципиального различия в подходах, лежащих в основе набора символов и веб-стандартов. Если Unicode гарантирует взаимно-однозначное соответствие каждому символу на странице, то XML и его сородичи проявляют больше гибкости, позволяя авторам присваивать одному и тому же символу, слову или странице разные стилевые и функциональные атрибуты.

Например, Unicode содержит так называемые "символы совместимости", отдельные коды для обозначения надстрочных и подстрочных цифровых или буквенных индексов. В HTML или XML, напротив, автор должен использовать основной символ, а затем оформить его как надстрочный или подстрочный индекс.

Чтобы все работало, W3C рекомендует авторам пользоваться исключительно возможностями разметки. Символы совместимости "не являются долгосрочным, хорошим средством", считает руководитель группы интернационализации W3C и внештатный научный сотрудник Лаборатории вычислительной техники Массачусетского технологического института Мартин Дёрст: "Мы призываем авторов со всей ответственностью и осторожностью подходить к использованию Unicode в сочетании с XML".

Обычно авторы знают, что их Unicode-документы будут читать посредством веб-браузеров и других XML-приложений. Но бывает, что конфликты возникают неожиданно, когда в XML-приложение поступает информация из существующих баз данных и информационных хранилищ. В этих случаях приложения, предназначенные для работы с языками разметки, начинают спотыкаться на символах, обозначающих знаки вертикальной и горизонтальной табуляции и прочие управляющие символы.

"В отчете мы приводим множество всякого рода символов, которые так или иначе могут применяться в старых системах или тексте без форматирования, но когда в вашем распоряжении есть средства разметки, то вместо этих символов лучше использовать структуру, - говорит Дёрст. - Работая с XML, пользуйтесь средствами XML. Управляющие символы как следует работать не будут".

В конце этого года четвертая версия Unicode выйдет в виде книги. Сейчас доступны предварительные версии Unicode 4.0.
безопасность, информация, защита информации, статьи, библиотека, аудит, администрирование, реагирование на инциденты, криптография, уязвимость
По материалам http://zdnet.ru
Лента новостей: FacebookLiveJournalЯндекс

Комментарии (0)
Оставьте комментарий:CaptchaОбновить проверочный код