Информационно-поисковый тезаурус по автоматизации обработки и распознавания изображений

В. Н. Белоозеров: ВИНИТИ

И. Б. Гуревич, Д. М. Мурашов, Ю. О. Трусова: Научный совет по комплексной проблеме «Кибернетика» РАН

 

Information Retrieval Thesaurus for Automation of Image Processing and Recognition

V. N. Beloozerov, B. B. Gurevich, D. M. Murashov, Yu. O. Trusova

 

A conception of a thesaurus for the automation of image processing is presented. The thesaurus incorporates a vast variety of pragmatic relations that connect objects, characteristics and processes of image analysis. The thesaurus actually holds up to 800 terms mainly in the categories: “image”, “image analyses”, “image processing”, “image recognition”.

1.    Лексико-семантический состав тезауруса

Создаваемый тезаурус предназначен в качестве лингвистического обеспечения автоматизированных процессов различных видов работы с изображениями – получение, обработка, анализ, распознавание, понимание и т. п., а также для индексирования и поиска информации в базе знаний по данной проблеме. Тезаурус для работы с изображениями (ТРИ) соответственно своему предназначению должен содержать терминологию, во-первых, описывающую изображения, и во-вторых, описывающую операции с изображениями. Кроме того очевидна необходимость иметь в тезаурусе термины инструментов, используемых при работе с изображениями. Поскольку операции с изображениями должны производиться, исходя не из своей собственной внутренней потребности, а для выполнения каких-то внешне полагаемых целей, эти цели также должны быть представлены в ТРИ терминами, описывающими задачи операций с изображениями. Для каждой из этих категорий понятий по необходимости должна быть представлена лексика, описывающая свойства каждой из категорий. Таким образом, мы получаем следующие семантические классы лексики в ТРИ:

изображения,

операции с изображениями,

инструменты операций с изображениями,

задачи операций с изображениями,

свойства изображений,

свойства операций,

свойства инструментов,

свойства задач.

Перечисленные выше лексические категории не однородны в логическом плане. Так например, категория процессы распадается на виды процессов (получение, обработка, анализ, распознавание, понимание), которые вступают в различные отношения с другими лексическими категориями. Так, в отличие от получения изображений, остальные операции являются “двухместными”, то есть являются операциями преобразования исходного объекта в конечный. Но при обработке и исходный, и конечный объекты относятся к категории изображений, а при других видах обработки конечный продукт описывается другими лексическими категориями. Для анализа продуктом является описание изображения; для распознавания – классификационное решение об изображении; для понимания – представление изображения во встроенной в систему модели мира. При развитии ТРИ лексические категории продуктов обработки также должны получить достаточное наполнение.

Подобным же образом категория инструментов распадается на материальные инструменты (оборудование, организационные системы, ...) и идеальные инструменты (алгоритмы, методики, программы, программные системы, …). Категории свойств естественным образом распадаются на качественные и количественные, сюда же относятся структурные свойства (состав и взаимодействие частей, связи со средой). Выделяются также “свойства свойств”, в частности – единицы величин. Конкретный перечень различаемых в ТРИ лексико-семантических категорий устанавливается в процессе наполнения его терминологией данной области знания и именами применяемых приёмов работы с изображениями.

2.    Дескрипторы тезауруса

Тезаурус – это словарь понятий, связанных друг с другом системой отношений. Каждое понятие в тезаурусе представлено дескриптором. Главным составным элементом дескриптора является предпочтительный термин, принятый в качестве стандартного способа выражения данного понятия в системе. Часто термином “дескриптор” обозначают именно предпочтительный термин как представитель дескриптора. Дополнительно к предпочтительному термину дескрипторам приписываются синонимы – альтернативные способы выражения этого понятия, встречающиеся в научной и технической практике. В частности синонимом может быть краткая форма термина при предпочтительной полной форме; например в нашем тезаурусе краткой форме операция соответствует полная форма операция над изображениями.

Дескрипторы ТРИ имеют в качестве предпочтительных два термина – английский и русский. Синонимы также вводятся на обоих этих языках. Таким образом, ТРИ совмещает в себе функции нормативного словаря (устанавливающего “правильный” термин) и переводного словаря (дающего способ выражения понятия на другом языке).

Семантика дескрипторов в тезаурусе отражается приписыванием им элементов данных, содержащих коды классификационных систем (позволяющие отнести дескриптор к известным понятийным полям) и поименованные интерпретируемые ссылки на другие дескрипторы тезауруса (позволяющие представить место данного дескриптора в системе связанных понятий). В ТРИ дескрипторы кроме того имеют поле дефиниций (определений понятия). Дефиниции также сформулированы на двух языках, и различаются по своему статусу как либо нормативные (принятые в системе), либо литературные (заимствованные из используемых литературных источников и существенно отличающиеся от нормативных).

Элементы данных одного дескриптора объединены в словарную статью, которая может быть визуализована на экране либо в английской, либо в русской форме. В целом словарная статья представляет собой фрейм, определяющий семантические и синтаксические свойства дескриптора.

3.    Иерархическая структура

Как было показано выше, все дескрипторы ТРИ можно представить распределёнными по пяти лексико-семантическим категориям:

изображения,

операции,

инструменты,

задачи,

свойства.

Наименования этих категорий, то есть сами указанные выше термины, вводятся в тезаурус в качестве наиболее общих по объёму понятия дескрипторов. (Здесь и далее подчёркнутые слова рассматриваются как элементы ТРИ). Семантическая широта этих дескрипторов выражена тем, что в словарной статье не заполнены элементы данных, указывающие на вышестоящие понятия, а в элементах данных нижестоящих понятий стоят более узкие по смыслу дескрипторы:

            Более узкие понятийные категории связаны таким же образом с разветвлёнными цепочками иерархически подчинённых дескрипторов, выражающих конкретные практические понятия, встречающиеся при работе над изображениями. Каждый дескриптор в ТРИ (кроме указанных категориальных) имеет связь с вышестоящим и соответственно относится к той или иной семантической категории. Однако в пределах одной категории дескрипторы связаны не обязательно строго древесной структурой иерархии. От одного корня могут исходить ветви, выделенные по разным основаниям деления понятий, которые затем могут приводить к частным понятиям, сочетающим в себе признаки видовых различий разных ветвей понятийного дерева. Такие понятия будут принадлежать одновременно к двум (или более) ветвям иерархии и у них в качестве вышестоящих следует указывать два или больше дескрипторов. Например, дескриптор объём изображения подчинён одновременно и понятию свойства изображений и понятию количественные свойства. Другой пример: понятие изображение делится как по признаку “дискретности”, так и по признаку “цветности”; тогда дескриптор чёрно-белое дискретное изображение принадлежит сразу двум ветвям дерева изображений.

Таким образом, каждая лексико-семантическая категория дескрипторов представляет собой полииерархическую структуру (не ветвящееся дерево, а переплетающуюся “грибницу”) логических связей по признаку теоретикомножественного включения объёмов понятий.

Родовидовые связи дескрипторов используются для производства при работе системы и базы знаний операций логического вывода по классическим схемам. Другая возможность вывода обеспечивается связями дескрипторов по отношению часть-целое. Это отношение (партитивное) независимо от родовидовой иерархии, но само образует на множестве дескрипторов полииерархическую сеть связей. Объект, составляющий часть некоторого другого объекта, в то же самое время может составлять часть и третьего объекта (так некая операция может входить в состав различных алгоритмов обработки изображений). При этом партитивно связанные понятия не обязательно относятся к одной лексико-семантической категории: части изображения могут быть уже не “изображениями”, а “свойствами изображений”, например “край изображения”. В отличие от родовидовых связей партитивные не покрывают всё множество дескрипторов единой сетью, а образуют изолированные “острова” материально связанных понятий. В ряде случаев партитивные связи могут совпадать с родовидовыми; так между дескрипторами изображение и деталь изображения естественно установить как ту, так и другую связь, поскольку детали изображения сами являются изображениями.

4.    Прагматические связи

База знаний по работе с изображениями должна иметь информацию о возможностях и результатах применения тех или иных операций к тем или иным типам изображений в тех или иных обстоятельствах с теми или иными результатами. Эта информация позволить системе автоматической обработки выбирать адекватные ситуации способы работы. ТРИ содержит эти данные в виде поименованных бинарных отношений на множестве дескрипторов. Каждое отношение указывается в словарной статье обоих связанных дескрипторов именованной ссылкой на другой дескриптор. Виды отношений зависят от категориальной принадлежности связываемых дескрипторов. Всему множеству дескрипторов свойственно атрибутивное отношение – связь объекта с его свойствами, характеристиками, параметрами. На подмножестве дескрипторов, описывающих типы изображений как таковых, функционирует отношение “исходное изображение – результат обработки”. Из сущности процессов работы с изображениями выявляется необходимость фиксировать в ТРИ также следующие связи дескрипторов различных лексико-семантических категорий:

-          тип изображения – применяемые методы обработки,

-          метод обработки – вид результирующего изображения,

-          тип изображения – метод получения

-          метод получения изображения – применяемый инструмент,

-          метод обработки изображения – применяемый инструмент,

-          и другие.

При развёртывании структуры ТРИ выявляется до 25 лексико-семантических категорий дескрипторов, каждая из которых представляет собой аналог “части речи” естественного языка и характеризуется специфической моделью словарной статьи, в которую входят функциональные связи указанных выше типов в сочетаниях, характерных именно только для этой категории дескрипторов. Модель (фрейм) дескрипторной статьи каждой “сущностной” категории должна включать ссылки на свою “атрибутивную” категорию. Фрейм дескрипторов категории “операции” должен иметь ссылки на категории исходных и конечных объектов и наоборот. Каждая связь, предусмотренная фреймом может быть заполнена одной или несколькими ссылками, а также может оставаться свободной. Система таких ссылок пронизывает тезаурус “горизонтальными” неиерархическими связями, переплетая друг с другом независимые классификационные деревья отдельных категорий лексики.

 

5.    Связь с массивом документов

ТРИ стоится на материале теоретических и практических работ, описанных в литературных источниках. Из них выбираются английские термины, их переводы на русский язык и определения понятий. В ряде случаев корректные дефиниции на русском языке построены самостоятельно в ходе упорядочения собранной лексики. Сконструированные и нормативные дефиниции выделены как имеющие особый статус, а заимствованные из литературы имеют ссылку на источник. Эти ссылки служат в действующей базе знаний в качестве гипертекстовых переходов.

Основной блок связей ТРИ с документами по проблеме, позволяющий искать информацию в документальном фонде по тематическим запросам, находится вне тезауруса. Этот блок образуется в процессе индексирования документов по тезаурусу и логически следует после создания тезауруса. Однако практически целесообразно совмещение этих процессов. Индексирование состоит в том, что каждому документу приписываются дескрипторы, отражающие его содержание с желаемой для системы полнотой и образуется в результате поисковый образ документа (ПОД). После этого образуется “инверсный массив”, или “индексный массив”, где каждому дескриптору сопоставляются адреса соответствующих документов. Этот массив служит главным инструментом документального поиска. В ходе индексирования документов неизбежно появляются новые термины – ключевые слова документа, которые отсутствуют в тезаурусе. Хотя ключевые слова относятся главным образом к категории “прочей лексики”, но среди них будут встречаться и термины, относящиеся к сущности задач работы с изображениями. Это влечёт необходимость пополнения и развития ТРИ при пополнении массива документов. Рациональное технологическое разделение этих процедур может быть достигнуто, если индексировать документы имеющимися в них ключевыми словами невзирая на их статус в ТРИ, а при формировании индексного массива заменять ключевые слова соответствующими предпочтительными терминами дескрипторов.

6.    Реализация (текущее состояние)

Действующая версия тезауруса включает до 800 терминов по проблемам получения, обработки, анализа, распознавания и понимания изображений, выявленных в ходе анализа литературы.

Термины представлены на английском языке. Варианты британской и американской орфографии имеют статус синонимов. Таким образом, в тезаурус включены как британские формы, например colour, neighbour, programme, так и американские аналоги color, neighbor, program и др. Различные способы выражения одного и того же понятия, бытующие в англоязычной литературе, также сведены в группы синонимии, если различия в оттенках значения не являются существенными в данной сфере исследований. Все синонимы и орфографические варианты представляют одно понятие – дескриптор – занимающий одну вершину иерархической структуры понятий. Один из синонимов, наиболее принятый и наиболее адекватно выражающий понятие, выбран как предпочтительный термин для представления дескриптора.

В ряде случаев один и тот же термин занимает место в двух (или более) узлах иерархической схемы. Одной из причин этого является употребление слова для обозначения различных понятий в различных областях деятельности. Так в оптике слово спектр обозначает частотный состав света, а в математике – некоторую характеристическую функцию оператора. Это явление называется омонимией терминов. В таких случаях в качестве предпочтительного термина для этих дескрипторов выбираются более полные термины (в данном случае: оптический спектр и спектр оператора), а краткие формы входят в дескриптор в качестве справочных синонимов. Однако существуют регулярные ряды омонимичных терминов, которые разводить по разным дескрипторам тезауруса не целесообразно из-за того, что при явном различии значений они взаимосвязаны прагматически и могут вступать в равнозначные связи с другими дескрипторами. Таковыми “непротивопоставленными” синонимами являются например термины, обозначающие процесс и результат процесса, такие как преобразование-процесс (transformation) и преобразование-результат (transform), или термины, обозначающие место процесса, отношение к процессу (input, outputвход и выход как место процесса, ввод и вывод как сам процесс, а также входной и выходной как отношение к процессу). Такие омонимы в тезаурусе как правило не различаются и представлены одним дескриптором.

В других случаях в число существенных признаков некоторого понятия могут входить признаки различных обобщающих понятий. Так, понятие дискретное чёрно-белое изображение относится как к классу дискретных изображений, так и к классу чёрно-белых изображений. В иерархической структуре ТРИ эти факты отражаются дублированием статьи терминов одного понятия в ветвях двух (или более) вышестоящих дескрипторов. Таким образом в тезаурусе реализована полииерархическая схема родовидовых отношений дескрипторов, в которой они представляются не древесным графом, а сетью направленных связей без петель.

Глубина иерархических связей каждого дескриптора определяется развитостью понятийной системы в соответствующей понятийной области. Универсального расслоения дескрипторов в тезаурусе по уровням иерархии не предусматривается. Это обусловлено двумя причинами. Во-первых, при прагматическом подходе, который принят при построении ТРИ с прагматической целью обслуживания информационной системы, основой лексического состава являются реальные термины, фигурирующие в документах, которые относятся как к самым глубоким, конкретным уровням абстракции (в практических работах), так и к верхним уровням (в теоретических исследованиях). Более высокие уровни абстракции зачастую формируются искусственно с целью упорядочения практически используемой лексики. При таком выстраивании иерархических деревьев снизу вверх (от ветвей разного уровня к корню) невозможно и нецелесообразно ограничивать построение системы жёсткой лестницей уровней абстракции. Фактически в Версии 0 тезауруса представлены цепочки родовидовых отношений самой разнообразной длины; минимум – две ступени (конкретный термин и его категориальная атрибуция). Такие ветви относятся главным образом к категории общей лексики. Наибольшие длины цепочек принадлежат к специфическим вопросам работы с изображениями, их классификации, типологии средств и процессов обработки.

В целом лексика тезауруса распределена по следующим корневым дескрипторам:

image (изображение)

image acquisition (получение изображений)

image analysis (анализ изображений)

image processing (обработка изображений)

image property (свойства изображений)

instruments (инструменты)

instruments’ property (свойства инструментов)

general (общая лексика)

geometry (геометрия)

optics (оптика)

В отступление от общей концепции было решено расщепить категорию процессы на более узкие понятия, в соответствии с тремя подобластями работы с изображениями – получение, обработка и анализ (включая в анализ изображений их распознавание и понимание). Это должно позволить более компактно использовать тезаурус в рамках каждой из подобластей. Также из категории общей лексики выделены подкатегории оптических и геометрических терминов, поскольку они имеют особое значение для описания работы с изображениями.

Многие термины в тезаурусе снабжены определениями, найденными в англоязычной литературе. Они приводятся со ссылками на источник в качестве справочной информации.

Статистические характеристики существующего варианта ТРИ по состоянию на июнь

2002 г.:

Общее число терминов -  717

Распределение по тематическим разделам:

Общее число дескрипторов - 622

Общее число синонимов - 95

Максимальная глубина иерархии – 4

Число дескрипторов с определениями – 241

 

Hosted by uCoz