В. В. Иванов Внаучно-образовательном центре по лингвистике, созданном при Казанском госуниверситете решение

Вид материала

Подобный материал:

Информационная система «Культурное наследие России»

В.Д. Соловьев, В.В. Иванов

В научно-образовательном центре по лингвистике, созданном при Казанском госуниверситете решением Минобрнауки РФ, начата реализация проекта “ИС “Культурное наследие России”.

Стержнем “ИС “Культурное наследие России” является онтология в сфере культуры, с планируемым объемом – 10 тыс. концептов. В онтологии культурного наследия можно условно выделить верхний и нижний уровни. В качестве базовой части при проектировании верхнего уровня онтологии выбрана модель CIDOC-CRM [1], разработка Международного совета музеев (ICOM), претендующая на роль стандарта при создании музейных онтологий. Онтология CRM содержит около 80 концептов и примерно 250 свойств, число свойств у разных концептов колеблется от 1 до 10, в основном концепты имеют по 2-4 собственных (не наследуемых) свойства. При проектировании верхнего уровня онтологии культурного наследия также учитываются рекомендации по описанию музейных экспонатов, предложенные в АДИТ, и другие стандарты описания музейных коллекций (CIMI [2], SPECTRUM [3]). Нижний уровень онтологии составят концепты, описывающие понятия конкретных предметных областей: сфер культуры, типов и видов организаций культуры. На начальном этапе построения нижнего уровня в качестве предметной области выбрана область геологии в силу своей локализации и легкости формализации, а в качестве организаций выбраны естественнонаучные музеи.

Масштаб онтологии культурного наследия накладывает ограничения на процесс ее создания. Нижний уровень онтологии будет содержать достаточно мало (по сравнению с числом концептов) новых свойств, поскольку большинство отношений определено на верхнем уровне. Это условие делает возможным автоматизацию процесса наполнения нижнего уровня, используя тезаурусы русского и английского языка для данной предметной области. Термины предметной области планируется также извлекать из текстов на естественном языке, например, из текстовых описаний музейных сайтов. Полезный эффект при извлечении концептов из набора страниц некоторого сайта состоит в том, что в процессе извлечения семантика набора фактически описывается в терминах онтологии.

Рассмотрим возможности применения разрабатываемой онтологии и ее место в ИС «Культурное наследие России».

Существенными свойствами разрабатываемой онтологии, являются формальность описания (концептуализации) и разделяемость. Первое достигается путем описания онтологии на языке OWL, рекомендуемом консорциумом W3C для описания web-онтологий. Второе – доступностью исходного текста онтологии для любого желающего ее использовать.

Одна из задач, для которых критически важна семантика представляемой информации – задача индексации некоторого множества документов с целью ускорения поиска. Примером может служить поиск в множестве web-страниц по ключевым словам, используемый в большинстве поисковых сервисов в Internet. Хотя этот подход обеспечивает высокую скорость поиска, он не всегда удовлетворителен по точности возвращаемого результата. Решение этой проблемы видится в ограничении множества страниц рамками некоторой предметной области, например, областью культурного наследия, и уточнением образа документа и поискового запроса терминами онтологии. Для решения задач поиска в рамках ИС «Культурное наследие России» планируется разработка поискового сервиса. В его функции входит семантическое индексирование web-страниц и собственно предоставление интерфейса для поиска. Индексация проводится на основе разработанной онтологии культуры. При этом образ документа, представляющий собой набор экземпляров концептов и их свойств, описываемых в данном документе, либо хранится независимо от текста документа (что соответствует «классическому» подходу), либо может внедряться в HTML-разметку и становится частью документа. Второй подход реализуется с помощью технологии «RDF in HTML» [5] (RDF-описаний, вложенных в HTML-документ) и преимущество его в том, что семантическая разметка создается только однажды (возможно, даже самим автором документа) и затем может быть легко извлечена из тела или заголовка документа и использована многократно разными поисковиками. Главное, чтобы они все разделяли одно и то же базовое описание – онтологию.

Рассмотрим пример вложения метаданных в документ:

На сайте «Музеи Татарстана», например, есть страничка, содержащая краткую справку о личности Николая Ивановича Лобачевского. Ниже приведен фрагмент HTML-кода этого документа (ссылка скрыта):

...

ЛОБАЧЕВСКИЙ Николай Иванович

1792 – 1856

...

Далее – HTML-код с добавленными метаданными:

...

ЛОБАЧЕВСКИЙ Николай Иванович

1792 –

1856

...

RDF-описание может быть получено путем применения XSLT преобразования к аннотированному метаданными HTML-документу. Ниже изображен фрагмент RDF-описания, извлеченного из аннотированного HTML.

...

ЛОБАЧЕВСКИЙ Николай Иванович

1792

1856

...

Атрибут about тега Description описывает URI (#museum_ontology-person_329) описываемого объекта. Теги hasName, wasBornIn, diedIn – свойства данного объекта и имеют соответствующие значения. Наконец, тег instanceOf определяет, что данный объект является экземпляром класса E21 Person (см. рис.1) Следует заметить, что семантика этих тегов определена где-то вне данного документа: в онтологии, на которую указывает URI пространства имен (xmlns="u/museum/ontology/"/). Таким образом, для полного описания семантики данного документа вполне достаточно иметь описание онтологии.

Рис. 1. Фрагмент иерархии классов CRM.

Такое RDF-описание может быть использовано поисковой системой для определения релевантности документа запросу, формализованному в терминах онтологии, например, «найти все экземпляры класса E21 Person жившие между 1790 и 1800 годами».

Конечно, у подхода есть и отрицательные стороны: привязка описания к конкретной онтологии, возложение на владельца документа обязанностей по внедрению метаданных, внутренние ограничения самой технологии.

Понятно, что процесс аннотирования страниц должен быть автоматизированным, поскольку объемы информации и количество документов в сети Internet велики. Предполагается разработать в рамках «ИС «Культурное наследие России» средство поддержки автоматизированного аннотирования.

Важным сегментом Сети, практически никак не отраженным современными поисковиками, является DW (Deep Web – глубинный Web). Он определяется как множество динамически генерируемых web-страниц, содержащих информацию из баз данных доступных онлайн [6]. Русскоязычный DW представлен 5100-7500 глубинными сайтами [6]. Проблема в том, что доступ к информации из онлайновых баз данных возможен только через web-интерфейс конкретного сайта. Нет возможности осуществлять поиск сразу в нескольких БД. Помимо тех баз данных, доступ к которым возможен через web-интерфейс, существует целый ряд баз данных (БД, лежащие в основе информационных систем музеев, архивов: КАМИС, АС Музей и т.п.), доступ к которым для широкой аудитории закрыт. Информация из этих баз данных, тем не менее, представляет большой интерес для пользователя. Подход, реализованный в проекте MuseumFinland [4], разрешает эту проблему путем создания единой базы знаний на основе онтологий и объединения в этой базе знаний информации из трех гетерогенных БД трех различных музеев Финляндии. При этом данные переносятся из своего исходного местоположения (в БД) в RDF-базу знаний. В ИС «Культурное наследие России» планируется реализовать подход, не требующий физической миграции данных.

Проект «ИС «Культурное наследие России» в настоящее время находится на начальном этапе анализа предъявляемых к системе требований и технологий, необходимых для разработки.

Литература

1. .forth.gr, 2004.

2. org/

3. rg.uk/spectrum.htm

4. lsinki.fi/u/eahyvone/publications/MuseumFinlandJWS.pdf, 2005.

5. ссылка скрыта, 2005

6. Интернет-математика 2005. Автоматическая обработка веб-данных. – Яndex, Москва, 2005