Поскольку пространство понятий едино для окружающего мира, то для передачи информации достаточно передавать идентификаторы объектов - понятий в ПП, а не их описание в традиционных языках. (опять аллюзия к растровому и векторному способу хранения изображений), что позволит управлять избыточностью информационного потока.
В Существующих алгоритмах архивации их авторы интуитивным путем выделяют словари, по сути - области пространства понятий и записывают кодируемую информацию в терминах словарей - областей пространства понятий. Следовательно, существует взаимосвязь между алгоритмами сжатия и механизмом ПП, еще не описанная математически.
Введем понятие плотность информации, как величину, обратную избыточности информации.
Пл_инф=1/Кизб.
((Кизб - коэффициент избыточности информации, по Шеннону- Колмогорову))
Плотность информации характеризует соотношение количества информации ( по определению информации из теоремы о сложности Колмогорова) и информации и хранимого объема информации. И, в соответствии с тем, что избыточность информации не может быть больше единицы, то и ее плотность всегда будет меньше единицы ( реальное количество информации в не больше всего объема хранимой информации).
Пл_инф- это комплексная величина, ее составляющие - плотности, зависящие от различных способов хранения информации. Так, для текстовой информации это будут грамматическая, синтаксическая и лексическая избыточность хранимой информации. В общем же случае можно выделить Пл_код плотность кодирования (включает в себя грамматическую плотность и частично-синтаксическую) и Пл_сем - семантическую плотность ( лексическая и опять же частично синтаксическая) хранимого объема информации, причем,
Пл_инф=Пл_код х Пл_сем = (1/Кизб_код)х(1/кизб_сем) = 1(Кизб_код х Кизб_сем), где соответственно,
Кизб_код и Кизб_сем - коэффициенты, характеризующие избыточность, возникающую при кодировании информации и семантическую избыточность.
Современные алгоритмы сжатия, как правило, уменьшают только избыточность кодирования, а семантическая же избыточность ими игнорируется, так как, как правило, эти алгоритмы работают с входным потоком символов, что соответственно, снижает эффективность сжатия. Частично Семантическая избыточность уменьшается при использовании алгоритмов сжатия с потерей информации, но в этих алгоритмах данный процесс носит неуправляемый характер, в силу примитивности работы таких алгоритмов ( Jpeg, Mpeg). Поскольку эти алгоритмы используют достаточно простые методы интерполяции, они выкидывают "лишнюю" информацию без точной оценки ее значимости.
Так, при сжатии изображений с использованием jpeg, оценка качества сжатого изображения происходит, как правило "на глазок". То есть, если стоит задача съемки панорамного изображения и быстрой его передачи, почти гарантированно не будут точно переданы мелкие элементы изображения, хотя в некоторых случаях, эта информация может оказаться ключевой ( например, для военных систем с дистанционным управлением - "маленькие точки" могу оказаться силами противника).
Другой пример: в силу структуры языка, в текстовых информационных массивах много дублирующейся информации, которую достаточно передать один раз или варьирующейся, для описания изменения в которой не нужно полностью перекачивать весь массив заново, а достаточно передать только изменения. Современные алгоритмы сжатия не распознают такие повторения, так как в них принимается вероятностный подход к появлению конкретных цепочек символов. Путь к решению этой проблемы показан в семействе алгоритмов Зива-Лемпела, (кодирование повторяющихся слов), но данный алгоритм совершенно не устойчив к незначительным изменениям входного потока - при появлении нового, возможно случайного и незначимого символа, он начинает кодировать блок заново.
Для исправления этих недостатков, с позиций Теории Пространства Понятий предлагается другой подход - сначала получить всю возможную информацию путем отражения информационного массива в пространство понятий, для поиска координат понятий, описанных в данном информационном массиве в пространстве понятий. Затем передать уже координаты областей пространства, куда попадает информация из этого массива, соответственно передавая значимые и отбрасывая незначимые понятия.
То есть получается, что полностью контролируется семантическая избыточность передаваемой информации. А последующее кодирование осуществляется уже проверенными и отработанными методами символьного кодирования. |