Stanislav Taktaev personal web site
Персональный сайт Станислава Тактаева.
 

Search

 | 

Новости/News

 | 

Русский

 | 

English

Форум / Discussion ||

Семантическое сжатие. Передача информации с точки зрения КТПП

Сжатие в основном имеет две основных области применения – хранение и передача информации. Причем применение сжатия обусловлено в основном экономическими соображениями рационального использования ресурсов. Но цель сжатия - хранить и передавать не конкретные символы/пиксели, а ту смысловую информацию, которую они описывают. А ее конкретное представление (символы/пиксели) обусловлено текущей технологией.

Рассмотрим следующую аналогию. Раньше деньги прочно ассоциировались с золотом, драгоценностями. И путешественники возили с собой кошельки, туго набитые монетами, что было нелегко и опасно. Потом люди придумали чеки и банкноты – то есть драгоценности хранятся спокойно в сейфе в банке, а человек носит с собой ссылку на этот запас в виде денежной купюры. Сейчас дело пошло еще дальше, и мы храним уже даже не деньги, (как ссылку на богатство), а ссылку на эти деньги – информацию о деньгах на кредитной карте.

Так вот, образно говоря об информации, мы сейчас таскаем всю свою наличность с собой. А почему нельзя передавать просто чеки? Ведь в словах «горел закат» содержится столько же информации, сколько в многомегабайтном tiff овском файле с фотографией этого заката. И если нам нужна просто информация о закате – зачем таскать весь файл?

Исходя из этого, предлагается новый способ представления информации, когда сама структура информации хранится отдельно, в некоем банке данных, а собственно информация – как комбинация понятий представленная ссылками на описания понятий в этом самом банке данных.

Поскольку пространство понятий едино для окружающего мира, то для передачи информации достаточно передавать идентификаторы объектов - понятий в ПП, а не их описание в традиционных языках. (опять аллюзия к растровому и векторному способу хранения изображений), что позволит управлять избыточностью информационного потока.

В Существующих алгоритмах архивации их авторы интуитивным путем выделяют области пространства понятий (словари) и записывают кодируемую информацию в терминах пространства понятий. Следовательно, существует взаимосвязь между алгоритмами сжатия и механизмом ПП, еще не описанная математически.

Введем понятие «плотность информации», как величину, обратную избыточности информации.

Пл_инф=1/Кизб. (Кизб - коэффициент избыточности информации, по Шеннону- Колмогорову)

Плотность информации характеризует соотношение количества информации ( по определению информации из теоремы о сложности Колмогорова) и хранимого объема информации. И, в соответствии с тем, что избыточность информации не может быть больше единицы, то и ее плотность всегда будет меньше единицы ( реальное количество информации не больше всего объема хранимой информации).

Пл__инф- это комплексная величина, ее составляющие - плотности, зависящие от различных способов хранения информации. Так, для текстовой информации это будут грамматическая, синтаксическая и лексическая избыточность хранимой информации. В общем же случае можно выделить Пл_код плотность кодирования (включает в себя грамматическую плотность и частично-синтаксическую) и Пл_сем - семантическую плотность ( лексическая и опять же частично синтаксическая) хранимого объема информации, причем,

Пл_инф=Пл_код х Пл_сем = (1/Кизб_код)х(1/кизб_сем) = 1(Кизб_код х Кизб_сем),

где соответственно,

Кизб_код и Кизб_сем - коэффициенты, характеризующие избыточность, возникающую при кодировании информации и семантическую избыточность..

Современные алгоритмы сжатия, как правило, уменьшают только избыточность кодирования, а семантическая же избыточность ими игнорируется, так как, как правило, эти алгоритмы работают с входным потоком символов, что соответственно, снижает эффективность сжатия. Частично Семантическая избыточность уменьшается при использовании алгоритмов сжатия с потерей информации, но в этих алгоритмах данный процесс носит неуправляемый характер, в силу примитивности (линейности) работы таких алгоритмов (Jpeg, Mpeg).

Поскольку эти алгоритмы используют достаточно простые методы интерполяции, они выкидывают «лишнюю» информацию без точной оценки ее значимости. Так, при сжатии изображений с использованием jpeg, оценка качества сжатого изображения происходит, как правило «на глазок». То есть, если стоит задача съемки панорамного изображения и быстрой его передачи, почти гарантированно не будут точно переданы мелкие элементы изображения, хотя в некоторых случаях, эта информация может оказаться ключевой ( например, для военных систем с дистанционным управлением - «маленькие точки» могу оказаться силами противника).

Другой пример: в силу структуры языка, в текстовых информационных массивах много дублирующейся информации, которую достаточно передать один раз или варьирующейся, для описания изменения в которой не нужно полностью перекачивать весь массив заново, а достаточно передать только изменения. Современные алгоритмы сжатия не распознают такие повторения, так как в них принимается вероятностный подход к появлению конкретных цепочек символов. Путь к решению этой проблемы показан в семействе алгоритмов Зива-Лемпела, (кодирование повторяющихся слов), но данный алгоритм совершенно не устойчив к незначительным изменениям входного потока - при появлении нового, возможно случайного и незначимого символа, он начинает кодировать блок заново.

Для исправления этих недостатков, с позиций Теории Пространства Понятий предлагается другой подход - сначала получить всю возможную информацию путем отражения информационного массива в пространство понятий, для поиска координат понятий, описанных в данном информационном массиве в пространстве понятий. Затем передать уже координаты областей пространства, куда попадает информация из этого массива, соответственно передавая значимые и отбрасывая незначимые понятия. То есть получается, что полностью контролируется семантическая избыточность передаваемой информации. А последующее кодирование осуществляется уже проверенными и отработанными методами символьного кодирования.

Слово - это код, обозначающий понятие, причем код неоптимальный. Одним словом могут обозначаться многие понятия (многозначные слова и омонимы) , или же одно понятие может обозначаться несколькими словами языка (синонимы, близкие по значению слова, например дорога и путь) . Причем, если рассматривать «коренные» слова того или иного языка, то в них прослеживаются семантические связи с понятиями, которые они обозначают (бег – бегать, бегун), а для новых, заимствованных слов (компьютер, менеджмент) таких семантических связей нет, что повышает семантическую избыточность данным слов. (см. также 7.9 Создание нового универсального языка)

Сжатие в основном имеет две основных области применения – хранение и передача информации. Причем применение сжатия обусловлено чисто жлобскими соображениями буржуйской экономии.

Хранить и передавать нам надо не конкретные символы/пиксели, а ту смысловую информацию, которую они описывают. А символы/пиксели – это издержки текущей технологи представления информации.

Я предлагаю новый способ представления информации, когда сама структура информации хранится отдельно, в некоем банке данных, а собственно информация – как комбинация понятий представленная ссылками на описания понятий в этом самом банке данных. Мы нашли недавно очень интересную аналогию. Раньше деньги прочно ассоциировались с золотом, драгоценностями. И путешественники возили с собой кошельки, туго набитые монетами, что было нелегко и опасно. Потом люди придумали чеки и банкноты – то есть драгоценности хранятся спокойно в сейфе в банке, а человек носит с собой ссылку на этот запас в виде денежной купюры. Сейчас дело пошло еще дальше и мы храним уже даже не деньги, (как ссылку на богатство) а ссылку на эти деньги – информацию о деньгах на Эл. Карте. )

Так вот, образно говоря об информации, мы сейчас таскаем всю свою наличность с собой. А почему нельзя передавать просто чеки? Ведь в словах «горел закат» содержится столько же информации, сколько в многомегабайтном tiff овском файле с фотографией этого заката. И если нам нужна просто информация о закате – зачем таскать весь файл?

You can ask author:

Pls, carefully type your email!

Your E-mail:
Your Question:

Website from "Summatech"
I'll ready to answer to you: Stanislav Taktaev