УДК 007+519.712.2:681.3.019
В.Н. БЕЛООЗЕРОВ, И.Б. ГУРЕВИЧ, Б.В. КРАВЦОВ, Д.М.
МУРАШОВ, Ю.О. ТРУСОВА
Научный Совет по комплексной проблеме “Кибернетика”
РАН
СТРУКТУРА ТЕЗАУРУСА БАЗЫ ЗНАНИЙ ПО АНАЛИЗУ
ИЗОБРАЖЕНИЙ[1]
Разрабатываемый
тезаурус является одним из основных модулей базы знаний в составе системы автоматизации
научных исследований в области анализа и понимания изображений на основе
накопления и использования знаний “Черный
квадрат”, создаваемой в течение ряда лет в Научном совете по комплексной проблеме
“Кибернетика” РАН. Построение классификации задач и алгоритмов, а также
автоматизация навигации по базе знаний потребовали создания тезауруса, который является лингвистическим
обеспечением базы знаний и отражает современное состояние
проблемы анализа и понимания изображений.
Одной из основных задач
создания тезауруса является разработка его структуры. Структура тезауруса
определяется решаемыми задачами, функциональными требованиями и спецификой
лексического наполнения языка предметной области.
Структура включает следующие
базовые элементы: тематические разделы (поля), функциональные разряды, набор
связей между терминами, схема словарной статьи.
В научной
школе, возглавляемой академиком Ю. И. Журавлёвым, в прикладной области
«Обработка, анализ и распознавание изображений» выделяются следующие
направления, в соответствие с которыми в тезаурусе формируются тематические
поля лексики: обработка изображений, распознавание изображений, анализ
изображений, получение изображений, а также лексика, описывающая изображение в
качестве объекта процессов.
Исходя из
специфики предметной области, в каждом из тематических полей особые разделы
составляют следующие функциональные разряды терминов: наименования процессов,
инструментов, результатов, а также наименования их характеристик. Отдельным
разделом должна быть представлена лексика смежных и прикладных областей.
В пределах каждого раздела лексики устанавливается иерархия
терминов по критерию общности понятий и отношению часть-целое. Наиболее важными
с точки зрения решаемых задач являются «ассоциативные» отношения между
терминами различных функциональных разрядов лексики. Предусматриваются
следующие виды связей терминов различных категорий: объект – характеристика
объекта; процесс получения/ обработки/ анализа/ распознавания – результат; процесс
получения/ обработки/ анализа/ распознавания – инструмент; изображение –
процесс получения/ обработки/ анализа/ распознавания; изображение – результат
обработки/ анализа/ распознавания.
Проблема
неоднозначности терминологии решается введением в тезаурус определений понятий
и синонимов.
Словарная
статья тезауруса имеет следующую структуру: заглавный термин; тематический
раздел (поле), к которому относится термин; определение термина; функциональный
разряд; перевод термина; перечень связей со списком терминов для каждой.
Тезаурус
создается как двуязычный со взаимно -однозначным соответствием английских и
русских дескрипторов.
Процедура
построения тезауруса совмещает одновременно два подхода, рекомендованных
классическими методиками [1]: априорный и апостериорный.
Действующий в настоящее время вариант
тезауруса включает около 1000 дескрипторов.
В процессе эксплуатации предполагается его
пополнение и развитие структуры по результатам практического применения.
_________________________
1. ГОСТ 7.24-90 СИБИД. Тезаурус
информационно-поисковый многлязычный. Состав, структура и основные требования к
построению. - М.: Изд. стандартов, 1990.
[1] Данная работа выполнена при частичной поддержке Российского фонда фундаментальных исследований , проекты №№ 99-07-90411, 00-07-90003, 01-07-90016