УДК 007+519.712.2:681.3.019

 

В.Н. БЕЛООЗЕРОВ, И.Б. ГУРЕВИЧ, Б.В. КРАВЦОВ, Д.М. МУРАШОВ, Ю.О. ТРУСОВА

Научный Совет по комплексной проблеме “Кибернетика” РАН

 

СТРУКТУРА ТЕЗАУРУСА БАЗЫ ЗНАНИЙ ПО АНАЛИЗУ ИЗОБРАЖЕНИЙ[1]

 

Разрабатываемый тезаурус является одним из основных модулей базы знаний в составе системы автоматизации научных исследований в области анализа и понимания изображений на основе накопления и использования знаний “Черный квадрат”, создаваемой в течение ряда лет в Научном совете по комплексной проблеме “Кибернетика” РАН. Построение классификации задач и алгоритмов, а также автоматизация навигации по базе знаний потребовали создания тезауруса, который является лингвистическим обеспечением базы знаний и отражает современное состояние проблемы анализа и понимания изображений.

Одной из основных задач создания тезауруса является разработка его структуры. Структура тезауруса определяется решаемыми задачами, функциональными требованиями и спецификой лексического наполнения языка предметной области.

Структура включает следующие базовые элементы: тематические разделы (поля), функциональные разряды, набор связей между терминами, схема словарной статьи.

В научной школе, возглавляемой академиком Ю. И. Журавлёвым, в прикладной области «Обработка, анализ и распознавание изображений» выделяются следующие направления, в соответствие с которыми в тезаурусе формируются тематические поля лексики: обработка изображений, распознавание изображений, анализ изображений, получение изображений, а также лексика, описывающая изображение в качестве объекта процессов.

Исходя из специфики предметной области, в каждом из тематических полей особые разделы составляют следующие функциональные разряды терминов: наименования процессов, инструментов, результатов, а также наименования их характеристик. Отдельным разделом должна быть представлена лексика смежных и прикладных областей.

          В пределах каждого раздела лексики устанавливается иерархия терминов по критерию общности понятий и отношению часть-целое. Наиболее важными с точки зрения решаемых задач являются «ассоциативные» отношения между терминами различных функциональных разрядов лексики. Предусматриваются следующие виды связей терминов различных категорий: объект – характеристика объекта; процесс получения/ обработки/ анализа/ распознавания – результат; процесс получения/ обработки/ анализа/ распознавания – инструмент; изображение – процесс получения/ обработки/ анализа/ распознавания; изображение – результат обработки/ анализа/ распознавания.

Проблема неоднозначности терминологии решается введением в тезаурус определений понятий и синонимов.

Словарная статья тезауруса имеет следующую структуру: заглавный термин; тематический раздел (поле), к которому относится термин; определение термина; функциональный разряд; перевод термина; перечень связей со списком терминов для каждой.

Тезаурус создается как двуязычный со взаимно -однозначным соответствием английских и русских дескрипторов.

Процедура построения тезауруса совмещает одновременно два подхода, рекомендованных классическими методиками [1]: априорный и апостериорный.

Действующий в настоящее время вариант тезауруса включает около 1000 дескрипторов.

В процессе эксплуатации предполагается его пополнение и развитие структуры по результатам практического применения.

_________________________

1. ГОСТ 7.24-90 СИБИД. Тезаурус информационно-поисковый многлязычный. Состав, структура и основные требования к построению. - М.: Изд. стандартов, 1990.



[1] Данная работа выполнена при частичной поддержке Российского фонда фундаментальных исследований , проекты №№ 99-07-90411, 00-07-90003,  01-07-90016

Hosted by uCoz