Авторефераты по всем темам  >>  Авторефераты по разным специальностям

На правах рукописи

ВИШНЯКОВ Ренат Юрьевич РАЗРАБОТКА И ИССЛЕДОВАНИЕ ФОРМАЛИЗОВАННЫХ ПРЕДСТАВЛЕНИЙ И СЕМАНТИЧЕСКИХ СХЕМ ПРЕДЛОЖЕНИЙ ТЕКСТОВ НАУЧНО-ТЕХНИЧЕСКОГО СТИЛЯ ДЛЯ ПОВЫШЕНИЯ Э Ф Ф Е К Т И В Н О С Т И И Н Ф О Р М А - И О Н Н О Г О П О И С К А Специальность: 05.13.17 Теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Таганрог - 2012 - 2 -

Работа выполнена в Технологическом институте федерального государственного автономного образовательного учреждения высшего профессионального образования Южный федеральный университет в г. Таганроге.

НАУЧНЫЙ РУКОВОДИТЕЛЬ:

доктор технических наук, профессор Чернухин Юрий Викторович ОФИЦИАЛЬНЫЕ ОППОНЕНТЫ:

Ромм Яков Евсеевич доктор технических наук, профессор, ТГПИ им. А.П.Чехова, кафедра информатики, заведующий кафедрой Спиридонов Олег Борисович, кандидат технических наук, ООО АВИАОК Интернейшенел, генеральный директор ВЕДУЩАЯ ОРГАНИЗАЦИЯ:

ОАО ТАНТК им. Г.М. Бериева г.Таганрог.

Защита состоится л 4 июля 2012 г. в 1420 на заседании диссертационного совета Д 212.208.21 при Южном федеральном университете по адресу: 3479г. Таганрог, пер.Некрасовский, 44, ауд. Д-406.

С диссертацией можно ознакомиться в Зональной научной библиотеке ЮФУ по адресу: г. Ростов-на-Дону, ул. Пушкинская, 148.

Автореферат разослан " 1 " июня 2012 г.

Ученый секретарь диссертационного совета Чернов Н.И.

- 3 -

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность проблемы.

Глобальная сеть Интернет и компьютерные технологии сформировали целостное и быстро растущее информационное пространство, порождающее новые потребности в обработке, представлении и поиске информации. Сегодня все публикуемые бумажные документы оцифровываются и размещаются в электронных хранилищах различного назначения, активно используются поисковые машины и сервисы. На научных форумах активно обсуждается обработка текстовой информации и тесно связанные с ней информационный поиск и классификация документов, автореферирование, автоаннотирование и пр. Отмечается, что в информационном поиске критерий релевантности, основанный на встречаемости слов, при различении документов одинаковой терминологии, не дает приемлемого качества выдач, а решения предлагается искать в выделении семантической составляющей документов.

Отсутствие хороших решений в обработке семантики текстов связаны с многозначностью ее выражения в естественных языках, а также различными стилистическими приемами их оформления. Например, литературным текстам присущ художественный стиль со свойственной ему метафоричностью и образностью, научнотехнической стиль отличает предельно точное выражение смысла в форме правдоподобного рассуждения. Однако семантика текстов всегда имеет грамматическое оформление и через него распознается.

Настоящая диссертационная работа выполнена в рамках данной проблематики и посвящена разработке и исследованию формализованных представлений и семантических схем предложений текстов научно-технического стиля и их использованию для повышения эффективности информационного поиска.

Объект исследований. Особенности текстов документов научно-технического стиля, формализованные представления и семантические схемы предложений, эффективность информационного поиска.

Цели работы. Разработка и исследование новых формализованных представлений и семантических схем предложений текстов научно-технического стиля и их использование для повышения эффективности информационного поиска Задачи работы:

1. Провести анализ естественного языка и его грамматики, особенностей научно-технического стиля, существующих методов формализации представления предложений. Определить функционал смысловыразительности и проанализировать лингвистическое обеспечение различных видов информационного поиска.

2. Разработать и исследовать формализованное словно-зависимое представление предложения и его атрибуты: цепочки зависимостей, характеристические словные множества, размеченные степени отношения непосредственного подчинения, размеченное транзитивное замыкание отношения непосредственного подчинения и алгоритмы восстановления цепочек зависимостей.

3. Разработать и исследовать формализованное словно-шкальное представление предложения и его атрибуты: словную шкалу, ее разбиения на непересекающиеся классы, нумерацию разбиений, мощностные оценки, системы разбиений. Сконструировать алгоритмы построения систем разбиений и нотации их представления.

- 4 - 4. Определить и исследовать понятия контекста, контекстной связки, дерева контекстной связки, операции контекстного уточнения смысла, сконструировать обратную польскую запись функционала смысловыразительности, процедуры ее вычисления и представления в виде семантических схем.

5. Разработать критерий сравнения фрагментов текстов на близость, процедуры формирования ВЫДАЧ, а также провести экспериментальное сравнение семантического информационного поиска на основе сравнения семантических схем предложений и базового, учитывающего вхождение слов запроса в тексты.

Методы исследования. Для решения диссертационных задач использованы теория отношений, теория графов, комбинаторика; теория формальных языков и грамматик, информационного поиска, элементы теории нечеткой математики.

Научная новизна работы. Разработаны новые:

1. Формализованные словно-зависимое и словно-шкальное представления предложений текстов научно-технического стиля, алгоритмы их построения и обработки, позволяющие выделять и анализировать фрагменты предложений на смысловую целостность.

2. Функционал смысловыразительности, его представление в нотации обратной польской записи, процедуры ее получения и вычисления, позволяющие строить семантические схемы предложений, используемые в информационном поиске для сравнения предложений или их фрагментов на близость.

3. Критерий сравнения и система решающих правил вычисления близости текстовых фрагментов, процедуры включения документов в ВЫДАЧУ, составляющие основу семантического информационного поиска.

Основные положения, выносимые на защиту. На защиту выносятся следующие научные положения и результаты диссертационного исследования:

1. Формализованное словно-зависимое представление предложения и его атрибуты: цепочки зависимостей, характеристические словные множества, размеченные степени отношения непосредственного подчинения, размеченное транзитивное замыкание отношения непосредственного подчинения и алгоритмы восстановления цепочек зависимостей 2. Формализованное словно-шкальное представление предложения и его атрибуты: словная шкала, разбиения на непересекающиеся классы, нумерация разбиений, мощностные оценки, система разбиений, ее нотации, правила и алгоритмы конструирования.

3. Функционал смысловыразительности и его представление в нотации обратной польской записи, способы ее получения и вычисления, семантическая схема предложения.

4. Критерий сравнения и система решающих правил вычисления близости текстовых фрагментов и процедуры включения документов в ВЫДАЧУ.

Теоретическая и практическая значимость результатов исследования.

1. Проведен анализ естественного языка, грамматики, особенностей научнотехнического стиля, существующих формальных представлений предложений. Определен функционал смысловыразительности, исследована смысловыразительность лингвистического обеспечения различных видов информационного поиска.

- 5 - 2. Разработано и исследовано формализованное словно-зависимое представление предложения и его атрибуты: цепочки зависимостей, характеристические словные множества, размеченные степени отношения непосредственного подчинения, размеченное транзитивное замыкание отношения непосредственного подчинения и алгоритмы восстановления цепочек зависимостей.

3. Разработано и исследовано формализованное словно-шкальное представление предложения и его атрибуты: словная шкала, разбиения на непересекающиеся классы, нумерация разбиений, мощностные оценки, системы разбиений и их нотации. Построены правила и алгоритмы конструирования систем разбиений.

4. Определены и исследованы понятия контекста, контекстной связки, дерева контекстной связки, операции контекстного уточнения смысла и сконструирован функционал смысловыразительности в нотации обратной польской записи, процедуры вычисления и представления его виде семантических схем.

5. Разработаны критерий сравнения и система решающих правил вычисления близости текстовых фрагментов и процедуры включения документов в ВЫДАЧУ, а также проведено экспериментальное сравнение семантического информационного поиска на основе сравнения семантических схем предложений и базового, учитывающего вхождение слов запроса в тексты.

Достоверность результатов. Подтверждается использованием теории отношений, теория графов, комбинаторики; нумераций, теория формальных грамматик и языков, информационного поиска, элементов нечеткой математики, а также результатами экспериментов.

Использование результатов работы. Результаты диссертационного исследования используются в ряде научных работ, выполненных в международной лаборатории ELDIC, и в учебном процессе, что подтверждается актами о внедрении результатов исследования госбюджетных НИР и учебном процессе магистерской программы Интеллектуальные системы по направлению 230100 Информатика и вычислительная техника факультета автоматики и вычислительной техники Таганрогского технологического института Южного федерального университета.

Апробация результатов работы. Основные результаты работы неоднократно докладывались и обсуждались на конференциях и семинарах различного уровня:

Всероссийской научной конференции молодых ученых, аспирантов и студентов Информационные технологии, системный анализ и управление, (Таганрог, 2006, 2008, 2009, 2010, 2011 гг.);

Международной конференции по системам искусственного интеллекта при поддержке IEEE AIS'06, AISТ08, AISТ11 (Дивноморское, 2006,2008,2011гг.);

Всероссийской научной конференции студентов и аспирантов Техническая кибернетика, радиоэлектроника и системы управления, (Таганрог, 2006 г.).

Всероссийской научной школе-семинар молодых ученых аспирантов и студентов Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки (Таганрог, 2007, 2008, 2009, 2010 гг.).

Всероссийской конференции студентов, аспирантов и молодых ученых Технологии Microsoft в теории и практике программирования (Таганрог, 2008).

Всероссийской научной школе-семинаре молодых ученых аспирантов и студентов Семантическая интерпретация и интеллектуальная обработка текстов, их - 6 - приложения в информационном поиске, хранении и обработке документов в электронных архивах и библиотеках (Таганрог, 2011, 2012 гг.).

Публикации. По материалам диссертации автором опубликовано 24 печатных работ, в том числе четыре статьи в изданиях из списка, рекомендованного ВАК, в которых отражены основные результаты диссертационного исследования.

Структура и объем работы. Диссертация состоит из введения, пяти разделов и заключения. Основной текст изложен на 141 странице, содержит 58 рисунков, таблицу, список литературы из 177 наименований.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертационного исследования, сформулированы его цели и задачи, а также научные и практические результаты.

В первом разделе определена терминология предметной области, проанализированы понятия смысла, языка, зависимости слов, связанного текста, контекстного смыслоуточнения и введено понятие функционала смысловыразительности. Исследованы особенности текстов научно-технического стиля, главными из которых являются стремление к точному выражению смысла и зависимых слов к максимальной линейной близости. Проанализированы основные виды информационного поиска и моделирование в них семантики запросов. Показано, что в поиске на основе морфологического подобия функционала смысловыразительности формируется путем объединения смысловых значений слов запроса, что определяет его невысокую точность, а в дескрипторном поиске - пересечением смыслов термов запроса, точность его высока при четко организованном поисковом пространстве. Языковые средства в существующих видах поиска синтаксически бедны и фактически представлены лексикой.

Во втором разделе проанализированы основные элементы языка: словосочетание и предложение, определены их речевые роли, особенности и виды связей их элементов. Проанализирована подчинительная связь слов в предложении, которая выражается бинарным отношением непосредственного подчинения. В рамках данного отношения рассмотрена проективная структура предложения, которую отличает определенный порядок слов, в ее линейной развертке отсутствуют попарные пересечения дуг и ни одна из них не покрывает корень дерева зависимостей. В проективных предложениях зависимые слова образуют группы целостного смысла, представленные путями на дереве зависимостей. Проанализировано второе представление предложения, фрагменты которого образуют группы (отрезки) слов, связанные целостным смыслом и называемые составляющими. Составляющие могут вкладываться друг в друга, но никогда не пересекаются, а их совокупность, называемая системой составляющих, имеет иерархичную структуру. Она может представляться нотациями скобочной формы или дерева. Показано, что в проективных предложениях система составляющих и отношение непосредственного подчинения тесно связаны и представляют группы слов целостного смысла.

В третьем разделе разрабатываются и исследуются формализованные словнозависимое и словно-шкальное представления предложений.

Словно-зависимое представление. Пусть - текстовый фрагмент, в пределе предложение, - множество его слов, перенумерованных слева направо, а его синтаксический строй выражен бинарным отношением непосредствен - 7 - ного подчинения. Элементами отношения - пары (главное слово, зависимое слово) и само отношение несимметрично, нерефлексивно и нетранзитивно.

Определение 3.1. Два слова x и y текстового фрагмента связаны в цепочку зависимостей, если существует последовательность слов где: - словосочетание, - главное слово и - зависимое.

Длина обозначается как и равна числу входящих в нее словосочетаний. Для обозначения существования цепочки используется запись, в которой знак представляет транзитивное замыкание отношения непосредственного подчинения. Цепочка зависимостей задает узкий смысл слова x, поскольку другие ее слова играют роль смыслоуточняющего контекста. Если слово x совпадает с корнем дерева или поддерева, то представляет путь или его фрагмент на дереве зависимостей.

Множеством Хвост(x) называется совокупность слов, которыми заканчиваются цепочки зависимостей, начинающиеся со слова х, т.е. Хвост(x)={у | где: = x+y}. Хвост(x) определяет слова, которые могут участвовать в образовании смыслообразующего контекста для слова x.

Множеством Голова(у) назовем совокупность слов, которыми начинаются цепочки зависимостей, имеющие заключительным слово y, т.е.

Голова(y)=. Множество Голова(y) представляет слова предложения, для которых слово y может являться смыслоуточняющим контекстом.

По виду отношения и матрице инцидентности нельзя восстановить цепочки зависимостей и их характеристические словные множества Голова(y) и Хвост(x). Для восполнения данного недостатка вводятся другие понятия.

Определение 3.2. Если пара, то соответствующей ей размеченной парой назовем пару вида, а множество вида назовем размеченной k-степенью отношения.

Определение 3.3. Размеченным транзитивным замыканием отношения назовем отношение вида.

Для отношения определим размеченную матрицу инцидентности, у которой на пересечении строки и столбца может быть записана, называемая размеченной единицей, если существует размеченная пара.

Алгоритм. Построения размеченной матрицы инцидентности.

1. На основе матрицы создать пустую матрицу.

2. Для отношения вычислить всех размеченные степеней отношений ( ) и построить размеченное транзитивное замыкание отношения.

3. По размеченному транзитивному замыканию отношения построить матрицу следующим образом: если существует пара, то в пересечение строки и столбца вписать размеченную единицу.

Алгоритм. Построение множества Хвост(xi) по.

- 8 - 1. Задать слово, для которого выполняется построение характеристического множества.

2. Положить.

3. Выделить в матрице строку, соответствующую слову, зафиксировав i.

4. Включить в все слова, именующие столбцы матрицы, в соответствии с выражением.

Алгоритм. Построение характеристического множества Голова(xj.) по.

1. Задать слово, для которого выполняется построение характеристического множества Голова(xj).

2. Положить.

3. Выделить в матрице столбец слову, зафиксировав j.

4. Включить в Голова(xi) все слова, именующие строки матрицы, в соответствии с выражением.

Установление существования цепочки зависимости тривиально и выполняется по принадлежности слова x множеству Голова(y) или слова y - множеству Хвост(x). Построение цепочки в виде последовательности выполняется разбором снизу вверх, начиная от слова y, или сверху-вниз, начиная от слова x.

Алгоритм. Разбор снизу-вверх. Заданы x и y, требуется построить.

1. Определить существование, для чего по размеченной матрице инцидентности вычислить элемент.

2. Если, то цепочка зависимостей отсутствует. Выход из алгоритма.

3. Если, то продолжить.

4. Положить и.

5. Для всех значений :

5.1. В столбце найти элемент.

5.2. Построить словосочетание как часть цепочки.

6. Результат. Цепочка зависимостей.

При разборе сверху-вниз выявляется сочинительная связь по наличию в строке двух и более одинаковых элементов и строятся альтернативные пути разбора.

Формализованное словно-шкальное представление предложений. Отобразим предложение на прямую, сопоставим каждому слову нумерованные элементарные отрезки, совместим первый отрезок с началом линии, последний - с ее концом. Прямую линию назовем словной шкалой, число m ее элементарных отрезков - длиной. Для двух отрезков и и ( ) возможны отношения: отрезки и несовместны, если ; смежны, если ; пересекающиеся, если ; вложен в отрезок, если и.

Разбиением словной шкалы назовем ее представление совокупностью смежных отрезков, в общем случае разной длины. Множество всех разбиений конечно и его мощность зависит от длины словной шкалы. Включим в это множество раз - 9 - биение, соответствующее наибольшему отрезку (словной шкале), и разбиение, представляющее элементарные отрезки. Разбиения и являются единственными в данном множестве разбиений.

Проведем комбинаторную оценку множества всех разбиений словной шкалы, для чего построим нумерацию его элементов. Пусть заданы словная шкала длины и множество ее разбиений. Сформируем на этом множестве классы разбиений по числу входящих в них отрезков таким образом, чтобы класс включал в себя только разбиения, построенные из отрезков, т.е.

. Очевидно, что для словной шкалы длиною число таких классов также равно, причем и. Упорядочим в нумерации классы разбиений в порядке следования номеров, тогда ее схема примет следующий вид:, где - поднумерацию разбиений класса.

Способ построения поднумерации для класса разбиений. Если, то класс включает одно разбиение, представляющее всю словную шкалу. Припишем этому разбиению первый номер в нумерации и имя. Если, то класс также представлен всего одним разбиением, которому припишем последний номер и имя. Поставим в соответствие разбиению систему векторов, в которой позиция каждой орты слева направо соответствует му отрезку разбиения, а ее значение определяет длину го отрезка соответственно. В таком соответствии разбиению всегда соответствует числовой вектор вида, поэтому соответствие между множеством разбиений и множеством векторов является взаимно однозначным. Перейдем от нумерации классов разбиений к нумерации векторов. Так, в нумерации поднумерация представлена вектором, поднумерация - вектором, а поднумерация представлена системой векторов.

Поскольку в классе для любого вектора, соответствующего разбиению, справедливо соотношение для, то в классе существуют разбиения, содержащие отрезок максимальной длины для данного класса, а соответствующие им вектора имеют вид:

, Е,, Е,, Е,, Е,. В дальнейшем эти вектора назовем реперными для системы векторов класса разбиений, а параметр - характеристическим числом поднумерации. Система векторов класса разбиений всегда содержит реперных векторов. Будем считать, что в этом же порядке они входят в нумерацию системы векторов, при этом вектор - первый в поднумерации, а вектор - последний.

Для поднумерации построим правило перехода от ее члена к, для чего составим операцию развертки из последовательности действий:

1. Слева направо в векторе разбиения найти первую орту ;

2. Представить орту в виде двух слагаемых ;

- 10 - 3. Получить новое значение для смежной слева орты путем добавления к ней единицы: +1 и перенести его в орту нового вектора разбиения ;

4. Перенести второе слагаемое в первую орту нового вектора;

5. Присвоить орте нового вектора разбиения значение 1, ;

6. Значения других орт вектора разбиения перенести в вектор разбиения.

Алгоритм. Построение поднумерации для класса разбиений.

1. Построить реперный вектор вида:, где, и считать его первым в поднумерации, положить (счетчик поднумерации).

2. Применить к - му вектору поднумерации операцию развертки и новому вектору присвоить номер.

3. Пункт 2 выполнять до тех пор, пока результатом развертки не будет реперный вектор вида.

В поднумерации для любого j-го вектора выполняется соотношение. Если в нем закрепить порядок следования членов, то каждому вектору поднумерации можно поставить во взаимно однозначное соответствие определенную конфигурацию такой суммы значений. Данная конфигурация в комбинаторике называется разложением натурального числа на упорядоченную сумму из натуральных слагаемых или композицией натурального числа длины.

Из определения операции развертки и алгоритма построения поднумерации следует, что между поднумерацией и композицией натурального числа длины существует взаимно однозначное соответствие. Если через обозначить число членов поднумерации, то его можно определить в виде, а число членов всей нумерации задается комбинаторной оценкой вида:

.

Пусть в нумерации на словной шкале заданы два таких разбиений и (, что отрезки разбиения либо не совмещаются с отрезками разбиения, либо вкладываются в них. Результат вложения запишем в виде: и назовем совмещенной формой разбиений.

Определение 3.4. Системой разбиения словной шкалы назовем совмещенное разбиение всех классов нумерации вида, где.

В систему из каждого класса включается только один экземпляр, поэтому правило его выбора (S-правило) задает уникальную конфигурацию системы разбиения. В то же время самих разбиений может быть множество.

Алгоритм. Построение системы разбиений по стратегии сверху - вниз 1. Для предложения построить словную шкалу и разбиение.

2. Для по выбрать экземпляр разбиения из класса и включить его в систему разбиений.

Индекс в указывает на конкретное а, используя разные правила, можно конструировать разные системы разбиений.

- 11 - Разберем класс нормальных систем разбиений. Пусть для словной шкалы проективного предложения построены множество разбиений, классы разбиений и соответствующая нумерация.

Отрезки выбираемого из класса экземпляра разбиения имеют свойства:

1. Отрезок содержит слово, называемое главным словом отрезка, у которого входящая в него дуга зависимости исходит из слова, лежащего вне данного отрезка.

2. У всех других слов отрезка, кроме главного, все входящие дуги зависимостей исходят из слов, находящихся в пределах данного отрезка.

3. Главное слово отрезка разбиения представляет сказуемое (аксиома).

Пусть задано разбиение, включающее некоторый отрезок. Из определения системы разбиений в отрезок должны вкладываться отрезки разбиения. Операцией расщепления отрезка по главному слову назовем его деление на два смежных подотрезка по правилу:

1. В отрезке найти дугу зависимости, исходящую из главного слова ;

2. Рассечь перпендикулярной линией отрезок и дугу рядом с главным словом так, чтобы между главным словом и линией не было других слов.

3. Отрезок разделить по линии расщепления на два смежных подотрезка и, один из которых содержит главное слово отрезка.

4. Отрезки и включить в разбиение.

Операцию поясняет приведенный рисунок.

иния Алгоритм. Построение системы разбиений. расщепления Подчинительная х ? связь 1. Положить переменную.

...

X1 Xk-1 Xk Xk+1... Xl... Xn 2. Найти в разбиении отрезок, имеющий исходящую из главного слова и заканчивающуюся ?1 ?словом в данном отрезке дугу зависимости.

...

X1 Xk-1 Xk... Xl... Xn Xk+3. Применить к отрезку операцию расщепления по найденной дуге зависимости, а по результатам операции построить разбиение и включить его в систему разбиений. Нарастить счетчик.

4. Повторять с пункта 2 до тех пор, пока в разбиении содержатся отрезки размерностью более одного слова.

Построенную систему разбиений словной шкалы предложения будем называть нормальной системой разбиения и обозначать как. При переходе от разбиения к разбиению всегда стоит выбор расщепляемого составного отрезка и удаляемой дуги. И если на выбор наложить определенные ограничения, то получим частные нормальные системы разбиения:,,, включающие в себя систему составляющих.

В четвертом разделе вводится и исследуется функционал смысловыразительности в нотации обратной польской записи (ОПЗ), разрабатывается формализованная процедура его вычисления на основе МП-автомата и конструируется его представление в виде семантической схемы.

Пусть задан фрагмент текста =x1x2Еxn и его словосочетание (xi - главное, а xj - зависимое слова со множествами смысловых значений и соответственно). В словосочетании смысл уточняется контекстным смыслом, что представляется выражением, где стрелка указывает направле - 12 - ние зависимости слов. Поскольку контекст сужает смысл главного слова, то справедливо утверждение.

Введем операцию контекстного уточнения смысла. Тогда контекстное уточнение смысла в словосочетании запишется как. Поскольку в словосочетании связь слов однонаправленная, то для нее справедливо неравенство. Для двух не связанных прямой зависимостью слов x и y, всегда (аксиома) и.

Если во фрагменте предложения v главное слово, а x1, x2,Е, xn его контекстные слова, то контекстной связкой слова v назовем запись вида. Сопоставив контекстную связку дереву зависимости, видно, что оно представляет собой узел v и его куст из узлов x1, x2,Е, xn.

Пусть, у и z слова фрагмента текста контекстной связки, тогда справедливо соотношение. Обобщая результат на контекстную связку, получим или в обобщем виде. Для k=1 или k=0 соотношение сводится к или.

Представим функционал смысловыразительности в нотации ОПЗ. Операция контекстного смыслоуточнения определяется выражением и его ОПЗ можно представить как. А ОПЗ контекстной связки можно представить в виде:

, где:

. Проведя подстановку, получим модифицированное представление контекстной связки в виде.

На дереве зависимостей дуги пометим символами операций контекстного смыслоуточнения, а узлы - операциями пересечения .

Алгоритм. Обход дерева контекстной связки.

1. Обход выполняется слева направо с самого левого контекстного узла;

2. Для контекстного узла строится ОПЗ операции смыслоуточнения, которая задается дугой зависимости и главным словом.

3. После обхода контекстных узлов в строку-результат записываем операцию пересечения со значением счетчика операндов, равным числу контекстных узлов.

Обход дерева контекстной связки показан ниже на рисунке, а его результат - ОПЗ контекстной связки имеет вид:

.

Алгоритм. Построение ОПЗ фрагмента текста .

1. Выполнить с левого нижнего узла слева направо последовательный обход дерева зависимостей .

2. Для узла построить ОПЗ его контекстной связки.

Для примера фрагмента предложения:

- 13 - ОПЗ функционала смысловыразительности имеет следующий вид:

ОПЗ:, Процесс вычисления ОПЗ функционала смысловыразительности представляется семантической схемой рисунка. Круглые вершины, имеющие только исходящие дуги, являются входами схемы, круг(a) S лая вершина, не имеющая исходящей r1 r7=r1r6 r2? r1=S(a)S(b) ? дуги, есть выход семантической схе(b) мы. Круглые вершины образуют яру- S сы. Ярус 0-уровня - входы семанти- r2=r2S(b) r? ческой схемы. Ярус 1-уровня - сеS(c) мантические переменные, которые r5=r2r4 2? r2=S(c)S(d ) r2 r? зависят от входов схемы. Ярус 2(d) S уровня образуют вершины, значения r4=r3 S(d ) r? которых формируют входы и переS(e) менные 1-уровня и т.д.

rr3=S(e)S(f ) ? В пятом разделе представлены результаты экспериментов по иссле- S (f) дованию информационного поиска, основу которого составляют теоретических результаты диссертационного исследования. Для этого разработаны специальный программный комплекс, схемы экспериментов, критерии сравнения фрагментов текстов на близость, решающие правила и процедуры определения близости, а также построены тестовая выборка из 10 и входной поток из 70 документов.

Формулировка задачи: из потока документов, подаваемых на вход программного комплекса, сформировать пакет документов (ВЫДАЧУ), который включает наиболее близкие по смыслу запросу пользователя документы.

Согласно схеме эксперимента пользователь формирует представляемый осмысленным и грамматически связанным текстом запрос. Для него формируется семантическая схема, представляющая образец сравнения. Программным комплексом обрабатываются документы входного потока, для их предложений строятся семантические схемы и оцениваются на близость семантической схеме запроса. На основе интегральных результатов сравнения по всему тексту принимается решение о включении документа в ВЫДАЧУ. В моделировании последовательно участвуют три, функционально отличных блока обработки информации: блок установления близости предложений текстов научно-техническому стилю и построение их формализованных нотаций; блок конструирования функционала смысловыразительности и семантических схем предложений документов; блок определения близости запроса и документов и формирования ВЫДАЧИ.

В первом блоке анализируются первичные тексты документов, строятся словные шкалы предложений и их системы разбиений, оценивается их принадлежность классу нормальных разбиений. Выделяются все нормальные разбиения, которые переводятся в формализованные нотации дерева и скобочной формы.

- 14 - Второй блок обрабатывает формализованные нотации разбиений и по ним строит функционал смысловыразительности в нотации ОПЗ. Построенные выражения функционала смысловыразительности обрабатываются МП-процедурами для построения семантических схем предложений. Третий блок оценивает на близость семантические схемы предложений документов семантической схеме запроса и принимает решение о включении документа в ВЫДАЧУ.

Структура критерия сравнения семантических схем на близость. Пусть sq и st семантические схемы фрагментов текстов q и s соответственно. Тогда критерий близости данных семантических схем определим следующим образом, где и. Здесь -операцию установления близости, D - множество значений критерия близости. Если, то имеет место полная близость. Если, близость отсутствует.

Построим метод информационного поиска, который будет использоваться в качестве базы сравнения с семантическим поиском. Он основывается на определении релевантности как частоты встречаемости в документе слов запроса, которое распространено в практике информационного поиска. Тогда базовый критерий сравнения текстовых фрагментов на близость (база) определим как отношение числа (p) совпадающих слов в запросе и фрагменте текста к числу (q) слов в запросе.

В семантической схеме элементом смысла является ее фрагмент, представленный на рисунке, поэтому в семанти- S(a) ческом поиска критерий сравнения (семантик) должен учиrr 1=S(a)S(b) ? тывать степень совпадения семантических схем запроса и S(b) текстового фрагмента. Представим семантик долей совпадающих элементов смысла запроса (m) и фрагмента текста к общему числу (n) элементов смысла семантической схемы запроса:

Пусть для предложения si вычислено значение критерия близости i, семантической схеме запроса q, тогда результаты сравнений по всему документу можно представить множеством пар вида. Разобьем шкалу D критерия близости на 4 подинтервала: [0..p1), [p1..p2), [p2..p3) и [p3..1] так, чтобы выполнялось соотношение и будем считать, что интервал [0..p1) соответствует слабой близости, [p1..p2) - лотносительно слабой близости, [p2..p3) - достаточно сильной близости, а [p3..1] - сильной близости. Если для пары (q,si) значение i попадает в некоторый подинтервал, то ей приписывается значение близости данного подинтервала.

Для документа создается Таблица близостей и в нее заносятся данные о числе встречаемости разных видов близостей по всему документу (fслабая, fотносительная, fдостаточная, fсильная). Кроме того, на включение документа в ВЫДАЧУ наложено параметрическое ограничение (порог). При пороге n документ включается в ВЫДАЧУ при числе встречаемости близостей не менее n. В экспериментах опытным путем подобраны величины порогов: 3, 5 и 8. С учетом встречаемости близостей и порогов система правил принятия решений принимает следующий вид:

IF ((fслабая>(fдостаточная +fсильная))&(fслабая>fотносительная)&(fслабаяporog) THEN емБФ лабаяФ;

IF ((fотносительная>(fдостаточная + fсильная))&(fотносительная>fслабая))&(fотносительнаяporog) THEN емБФОтносительнаяФ;

IF ((fдостаточная>(fслабая + fотносительная)) & (fдостаточная>fсильная) )&(fдостаточнаяporog) THEN емБФДостаточнаяФ;

IF ((fсильная>(fслабая + fотносительная))& (fсильная>fдостаточная) )&(fсильнаяporog) THEN емБФ ильнаяФ.

- 15 - Проверка документа по системе решающих правил реализуется процедурой Procedure Сем_близость (D, porog, СемБл), где Сем_близость - имя процедуры, D - документ, porog - параметрическая переменная, СемБл возвращаемая переменная со значением близости Слабая, Относительная, Достаточная или Сильная, а качество ВЫДАЧ определяется отношением числа (m) документов из контрольной выборки в ВЫДАЧЕ к объему (n) ВЫДАЧИ. Данные для разных порогов и критериев близостей по базовому и семантическому поискам сведены в таблицу ниже.

Качество ВЫДАЧИ для критерия Качество ВЫДАЧИ для критерия ЗначеВиды база семантик ния позапросов рогов 0,75-1,0 0,5-1,0 0,25-1,0 0,1Ц1,0 0,75-1,0 0,5-1,0 0,25-1,0 0,1Ц1,3 0,20 0,19 0,13 0,13 0,636 0,833 0,625 0,4Запрос_1 5 0,24 0,22 0,16 0,14 0,778 0,909 0,769 0,68 0,14 0,07 0,04 0,03 0,500 0,571 0,455 0,33 0,14 0,14 0,13 0,12 0,727 0,769 0,667 0,5Запрос_2 5 0,20 0,19 0,17 0,13 0,750 0,833 0,714 0,58 0,11 0,06 0,05 0,04 0,667 0,750 0,600 0,53 0,17 0,12 0,10 0,10 0,583 0,714 0,625 0,5Запрос_3 5 0,16 0,17 0,14 0,12 0,800 0,833 0,769 0,68 0,08 0,06 0,04 0,05 0,429 0,556 0,455 0,53 0,17 0,15 0,12 0,11 0,647 0,769 0,638 0,5Усредненный 5 0,20 0,19 0,15 0,13 0,778 0,857 0,750 0,6запрос 8 0,11 0,06 0,04 0,04 0,526 0,625 0,500 0,4Из таблицы видно, что качество ВЫДАЧ семантического поиска в разы превосходит качество ВЫДАЧ базового метода для всех запросов и значений порогов.

Особенно преимущества семантического поиска проявляются при различении документов одной терминологии, когда базовый метод практически не работает.

В заключении формулируются основные результаты, полученные в диссертационной работе.

Основной результат диссертационной работы заключается в создании новых формализованных представлений и семантических схем предложений текстов научно-технического стиля и их использовании для повышения эффективности информационного поиска, отличительной особенностью которого является учет семантической составляющей текстовой информации.

Работа содержит следующие новые научные результаты:

1. Формализованные словно-зависимое и словно-шкальное представления предложений текстов научно-технического стиля, алгоритмы их построения и обработки, позволяющие выделять и анализировать фрагменты предложений на смысловую целостность. (С. 49Ц60, 62Ц79, 83Ц88).

2. Функционал смысловыразительности, его представление в нотации обратной польской записи, процедуры ее получения и вычисления, позволяющие строить - 16 - семантические схемы предложений, используемые в информационном поиске для сравнения предложений или их фрагментов на близость. (С. 24Ц27, 92Ц108).

3. Критерий сравнения и система решающих правил вычисления близости текстовых фрагментов, процедуры включения документов в ВЫДАЧУ, составляющие основу семантического информационного поиска. (С. 112Ц114, 120Ц125).

Список опубликованных работ по теме диссертации в изданиях ВАК 1. Вишняков Р.Ю. Об одном подходе к интеллектуализации информационнопоисковых систем // Известия ТРТУ. Тематический выпуск, Интеллектуальные САПР. Ч Таганрог, изд-во ТРТУ, 2007, №1 (73) Ч с. 170-173.

2. Вишняков Р.Ю., Вишняков Ю.М. Семантически ориентированная метамодель предложения научно-технического текста. // Журнал Информатизация и связь, №3, 2011, с.17-19.

3. Вишняков Р.Ю., Вишняков Ю.М. Об одной метамодели предложения естественного языка для семантической интерпретации научно-технических текстов. // Известия ЮФУ. Технические науки. Тематический выпуск Интеллектуальные САПР. - Таганрог: Изд-во ЮФУ, 2011, №7 (120), с.163-167.

4. Вишняков Р.Ю., Вишняков Ю.М. Словная шкала, операции над отрезками, разбиения. // Известия ЮФУ. Технические науки. Тематический выпуск Интеллектуальные САПР. - Таганрог: Изд-во ЮФУ, 2012, № 2 (127), с. 198-204.

Основные публикации по теме диссертации 5. Вишняков Ю.М., Вишняков Р.Ю. Проблемы семантического информационного поиска // Труды международных научно-технических конференций Интеллектуальные системы (AISТ06) и Интеллектуальные САПР (CAD-2006). Научное издание в 3-х томах.Ч М.: ФИЗМАТЛИТ, 2006, Т.2. Ч с.308-314.

6. Вишняков Р.Ю. Интеллектуальные информационно-поисковые системы.

ингвистический анализ // Электронный Интернет-журнал Перспективные информационные технологии и интеллектуальные системы, №4(28), 2006, Ч с.37-42, 7. Вишняков Р.Ю. Проблема интеллектуализации поисковых систем //Тезисы докладов VIII Всероссийской научной конференции студентов и аспирантов Техническая кибернетика, радиоэлектронные системы и системы управления. Ч Таганрог, изд-во ТРТУ, 2006. Ч С. 246-247.

8. Вишняков Р.Ю. Интеллектуальные информационно-поисковые системы.

ингвистический анализ и обработка текстовой информации // Материалы трудов IV Всероссийской научной конференции молодых ученых, аспирантов и студентов Информационные технологии, системный анализ и управление. Ч Таганрог, издво ТРТУ, 2006. Ч С. 60-66.

9. Вишняков Р.Ю. Информационный поиск. системы анализа и обработки текстовой информации // Сборник трудов Всероссийской научной школы-семинар молодых ученых, аспирантов и студентов Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки. Ч Таганрог, изд-во ТТИ ЮФУ, 2007, Ч с. 39-42.

10. Вишняков Р.Ю. Поиск и обработка данных. Точность, случайность, нечеткость // Сборник трудов Всероссийской научной школы-семинар молодых ученых, - 17 - аспирантов и студентов Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки. Ч Таганрог: изд-во ТТИ ЮФУ, 2007, Ч с. 42-43.

11. Вишняков Р.Ю. Проблемы аппарата семантического информационного поиска. // Сборник трудов V-ой Всероссийской конференции студентов, аспирантов и молодых ученых Технологии Microsoft в теории и практике программирования.

Ч Таганрог: изд-во ТТИ ЮФУ, 2008, Ч с. 43-48.

12. Вишняков Р.Ю. Лингвистическое обеспечение информационного поиска и его смысловыразительность.// Сборник трудов Всероссийской научной школысеминар молодых ученых, аспирантов и студентов Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки. Ч Таганрог: изд-во ТТИ ЮФУ, 2008. Ч С. 137-143.

13. Вишняков Р.Ю. Смысловыразительность и проблемы семантического информационного поиска // Труды международных научно-технических конференций Интеллектуальные системы (AISТ08) и Интеллектуальные САПР (CAD-2008).

Научное издание в 3-х томах. Ч М.: ФИЗМАТЛИТ, 2008.

14. Вишняков Р.Ю. Построение предметных словарей // Сборник трудов VI Всероссийской научной конференции молодых ученых, аспирантов и студентов Информационные технологии, системный анализ и управление. Ч Таганрог издво ТТИ ЮФУ, 2008. Ч С. 13-19.

15. Вишняков Р.Ю. Проблемно-ориентированный интегратор информационных ресурсов (POINTER) // Неделя науки - 2009: Материалы научных работ. - Таганрог:

Изд-во ТТИ ЮФУ, 2009. - С.34-16. Вишняков Р.Ю., Марченко В.А. Проблемно-ориентированная система поиска технической документации // Сборник трудов VII Всероссийской научной конференции молодых ученых, аспирантов и студентов "Информационные технологии, системный анализ и управление". Ч Таганрог: изд-во ТТИ ЮФУ, 2009. Ч С. 9-14.

17. Вишняков Р.Ю. Лингвистический анализ и обработка текстовой информации на основе дискурсивных свойств естественных языков и их применение в информационном поиске // Сборник трудов Всероссийской научной школы-семинар молодых ученых, аспирантов и студентов Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки. Ч Таганрог: изд-во ТТИ ЮФУ, 2010. Ч С. 55-57.

18. Вишняков Р.Ю., Марченко В.А. Особенности реализации хранилища данных системы поиска технической документации // Сборник трудов Всероссийской научной школы-семинар молодых ученых, аспирантов и студентов Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки. Ч Таганрог: изд-во ТТИ ЮФУ, 2010. Ч С. 82-83.

19. Вишняков Р.Ю. Разработка дискурсивной модели текста на основе нечеткой логики // Сборник трудов VIII Всероссийской научной конференции молодых ученых, аспирантов и студентов Информационные технологии, системный анализ и управление. Ч Таганрог: изд-во ТТИ ЮФУ, 2010. Ч С. 23-27.

20. Вишняков Р.Ю., Гриненко Р.А., Жуков В.В. Поточная система обработки, классификации и поиска типизированных данных на основе КА // Сборник трудов Всероссийской научной школы-семинар молодых ученых, аспирантов и студентов - 18 - Интеллектуализация информационного поиска, скантехнологии и электронные библиотеки. Ч Таганрог: изд-во ТТИ ЮФУ, 2010. Ч С. 58-59.

21. Вишняков Р.Ю., Вишняков Ю.М. Об одной модели семантической классификации методов информационного поиска. // Информатика, вычислительная техника и инженерное образование. - Таганрог: Изд-во ЮФУ, 2011, № 4(6), с.21-22. Вишняков Р.Ю. Метамодель предложения научно-технических текстов, ориентированная на семантическую интерпретацию. // Сборник трудов Всероссийской научной школы-семинар молодых ученых, аспирантов и студентов Семантическая интерпретация и интеллектуальная обработка текстов, их приложения в информационном поиске, хранении и обработке документов в электронных архивах и библиотеках. Ч Таганрог: изд-во ТТИ ЮФУ, 2011. Ч С. 46-51.

23. Вишняков Р.Ю. Использование нотации обратной польской записи для контекстного уточнения смыслов фрагментов текстов. // Сборник трудов Всероссийской научной школы-семинар молодых ученых, аспирантов и студентов Семантическая интерпретация и интеллектуальная обработка текстов, их приложения в информационном поиске, хранении и обработке документов в электронных архивах и библиотеках. Ч Таганрог: изд-во ТТИ ЮФУ, 2012. Ч с. 106-112.

24. Вишняков Р.Ю. Контекстное уточнение смысла слов в связанном текстовом фрагменте. // Сборник трудов Всероссийской научной школы-семинар молодых ученых, аспирантов и студентов Семантическая интерпретация и интеллектуальная обработка текстов, их приложения в информационном поиске, хранении и обработке документов в электронных архивах и библиотеках. Ч Таганрог: изд-во ТТИ ЮФУ, 2012. Ч с. 112-116.

ичный вклад автора в работах, написанных в соавторстве [2,3] Цучет особенностей текстов научно-технического стиля; [4] - для словных шкал операции над отрезками и способы построения систем разбиений; [5] - анализ трудностей в семантической обработки текстов; [16] Цповышение эффективности поиска за счет особенностей научно-технической документации; [18] - подход к организации хранилища данных научно-технической документации; [20] - подход к поиску и классификации типизированных данных на основе конечных автоматов;

[21] Цклассификация методов поиска на основе смысловыразительности языковых средств лингвистического обеспечения.

Технологический институт Южного федерального университета в г. Таганроге 347928, Ростовская область г. Таганрог, пер. Некрасовский 44.

Авторефераты по всем темам  >>  Авторефераты по разным специальностям