Введение в теорию семантического пространства. Понятийная модель знаний.
В настоящее время становится все более актуальной проблема автоматизированного анализа неструктурированных массивов информации, особенно в задачах связанных с определением смысла информации: классификации информации, поиска, распознавания речи, перевода. Существующие технологии используют лингвистический подход, что создает ряд ограничений. Использование слов, как атомарных смысловых единиц, не позволяет решить проблему однозначного определения смысла того или иного сообщения на естественном языке, из-за наличия в каждом языке синонимов, омонимов, многозначных слов (полисемов).
Необходимость автоматизации смыслового анализа информации обусловлена и экспоненциальным ростом объема хранимой информации в несистематизированном виде. Это хорошо характеризуется выражением «Интернет – гора мусора, в которой найти знания, трудно, практически невозможно». То есть, практически вся информация, хранимая человечеством, сейчас представлена в неструктурированном, «растровом» формате. Исключение составляют различные структурированные массивы информации и алгоритмы, но опять же, информация, зафиксированная в них, скорее похожа улов в сети с ячейками размером метр на метр, то есть в нее попадаются только самые общие описания и правила. Очевидно, что такой подход дает слишком абстрактные модели и их применение в реальном мире невозможно без вмешательства человеческого интеллекта.
Излишняя обобщенность моделей также не дает возможность заимствований алгоритмов и структур между различными областями человеческой деятельности, их переноса и применения из одной области в другую. Причина этому – неочевидность похожести близких по смыслу правил в различных областях человеческой деятельности, из за различных языков описания, из за того, что в различных областях используются абсолютно различные группы понятий.
Следовательно, для современной информационной технологии необходима такая модель представления информации, которая позволит распознавать хранимые знания без рутинного использования человеческого интеллекта. Здесь уместно провести аналогию между растровым и векторным способом хранения графических изображений: если из содержимого растрового файла нельзя однозначно сказать, как построено хранимое изображение, то из векторного формата способ построения очевиден.
То есть, необходимо найти и развить такой способ описания знаний, который бы был, по существу «векторным» форматом представления информации и позволял бы автоматически, без участия человека, по крайней мере, в рутинном процессе обработки, вести систематизацию и анализ информации.
В настоящее время широко используются алгоритмы, базирующиеся на анализе представления информации в виде слов естественных языков (лингвистический подход). Этот подход ограничен, что уже сейчас проявляется в неэффективной работе информационно поисковых систем, систем автоматизированного перевода, распознавания речи. Это можно объяснить тем, что слова естественных человеческих языков не тождественны понятиям, как классам объектов окружающего мира. Вообще, слова языка информационно слабо связаны с понятиями, которые они обозначают. Как правило, эта связь еще и субъективна, то есть каждый человек по своему воспринимает связь слов и понятий . Слово - это код, обозначающий понятие, причем код неоптимальный. Одним словом могут обозначаться многие понятия (многозначные слова и омонимы), или же одно понятие может обозначаться несколькими словами языка (синонимы, близкие по значению слова, например дорога и путь). Причем, если рассматривать «коренные» слова того или иного языка, то в них прослеживаются семантические связи с понятиями, которые они обозначают (бег – бегать, бегун), а для новых, заимствованных слов (компьютер, менеджмент) таких семантических связей нет. Все это не позволяет использовать лингвистические технологии в системах распознавания смысла.
Для решения этой проблемы предлагается перейти от лингвистического представления информации непосредственно к анализу смысловой структуры информации, путем создания нового подхода, базирующегося на однозначном сопоставлении смысла понятия и его представления.
Основная идея представляемого подхода состоит в том, чтобы применять модель, базирующуюся на определении точного положения понятия (как класса объектов или процессов окружающего мира) в некоей системе координат. Пусть для каждого понятия, ассоциированного с каким-либо классом объектов окружающего мира, существует его определение, как области абстрактного семантического пространства, «пространства понятий» (ПП), space of notions (SN). Следовательно, существует и возможность построения однозначного соответствия (отражения) между неким смысловым выражением, описывающим некоторый объект, свойство или действие в окружающей реальности и областью многомерного пространства понятий N{x1,x2,…, xn}, где Xn nà∞– примеры координатных осей (размерностей) данного пространства. Автор предлагает назвать данное научное направление «координатной теорией пространства понятий» (КТПП), Space notation theory (SNT), или же координатной теорией семантического пространства.
Тогда становится возможным построение карты семантического пространства, количественное описание смысловых, информационных отношений, расстояний между понятиями реального мира через математические уравнения «алгебры понятий» («семантической алгебры»), разрабатываемой на основе векторной алгебры и алгебры предикатов и дальнейшее изучение топологии семантического пространства. Любой язык, в какой –то мере и есть карта пространства понятий, только она неточна, неизмеряема.
Основные задачи теории –
1. построение системы координат семантического пространства,
2. построение карты семантического пространства,
3. исследование топологии семантического пространства.
В настоящее время преобладает иной подход, когда используются различные безразмерные заменители смыслового расстояния – «семантические связи», «весовые коэффициенты» и т.д., как правило, отражающие иерархические и сетевые соотношения между понятиями, причем с искажениями, вносимыми лингвистическими технологиями. Смысловое, информационное расстояние в этих в этих подходах является абстрактной неизмеримой величиной, пригодной только для бинарной оценки (белый и черный, теплый и холодный). А насколько далеки друг от друга понятия «черный» и «холодный»? Это расстояние больше, чем между «шершавый» и «синий»? А какие вещи понятийно ближе друг к другу – кресло и бутылка или компьютер и кружка?
Необходимо сразу отметить, что пространство понятий может быть как объективным, так и субъективным. Пусть Субъективное ПП - это пространство понятий отдельного человека, тогда объективное ПП - результат коллективной договоренности об описании реальности. В данной работе, на данном этапе описывается и исследуется объективное ПП.
Также, надо отметить, что слова естественных человеческих языков не тождественны понятиям, как классам объектов окружающего мира. Вообще, слова языка информационно слабо связаны с понятиями, которые они обозначают. Как правило, эта связь еще и субъективна, то есть каждый человек по своему воспринимает связь слов и понятий (см. субъективное ПП). Слово - это код, обозначающий понятие, причем код неоптимальный. (См.7.5 Сжатие и передача информации с точки зрения КТПП).
Тогда становится возможным построение карты семантического пространства, описание смысловых отношений, расстояний между понятиями реального мира через математические уравнения «алгебры понятий», «семантической алгебры» в основе которых лежит векторная алгебра и дальнейшее изучение топологии ПП.
Координатный подход является расширением существующих подходов в описании пространства понятий – иерархической, реляционной моделей. Таким образом, идея пространства понятий ни в коем случае не отменяет иерархических, конструктивных и прочих взаимосвязей, но дополняет их, делая их исчислимыми. Например, можно достаточно долго описывать положение листа на дереве, передвигаясь к нему от ствола, по веткам и веточкам. Его гораздо проще можно найти, задав абсолютные полярные координаты: горизонтальное и вертикальное направление, длину вектора от осевой линии ствола у земли. Вместо достаточно объемного описания путешествия по дереву, мы получаем 3 (!)числа.
Несмотря на ряд, внешне близких концепций (семантические сети, проекты CYC, Semantic Web/OWL, фасетные каталоги, подробнее на http://www.taktaev.com/russian/cnp/), предлагаемая концепция координатного подхода, является передовой, оригинальной и представляется наиболее продуктивной, поскольку открывает возможность расчета смысловых расстояний, что необходимо в решении задач распознавания смысла и построении систем искусственного интеллекта. Более того, по мнению автора, именно отсутствие координатного подхода и не позволяет до сих пор решить задачи распознавания, связанные с учетом смыслового контекста, что является одним из основных препятствий на пути создания полноценных систем искусственного интеллекта.