В период 2005-2007 года мной велись исследования по извлечению данных для составления карт семантического пространства из существующих баз знаний.
Данная задача решена и алгоритм извлечения знаний из массива документов например Яндекса или Google'a составлен. Он настолько прост, что я воздержусь пока от его публикации и постараюсь написать софт и поэкспериментировать с этими данными сам.
Пока алгоритм угловат и не блещет особыми изысками, в частности не совсем понятно как быть с «наивной» картой семантического пространства, которая и представлена в основном в массиве документов Интернета. То есть мнение людей о том, как описывается то или иное понятие не блещет точностью L. Как обойти это пока не совсем понятно, как вариант – проводить построение карты по онлайн энциклопедиям и Wiki.
Идеям, как это отфильтровать, буду признателен и включу в список благодарностей.
|