Общая характеристика работы

Вид материалаЗакон
3 Основные аспекты поиска информации
3.1 Этапы поисковой процедуры
1.Формирование потребности в информации.
2. Формирование запроса.
3. Поиск нужной информации.
3.2 Информационно-поисковый язык
Продолжение таблицы 3.2.1
Подобный материал:
1   2   3   4   5   6   7   8   9

3 Основные аспекты поиска информации


Поиск, при котором учитываются словоизменения, называется морфологическим. Его способны осуществлять все русскоязычные и многие зарубежные ПС. Когда мы вводим в поле запроса слона «мальчик пошел в лес», мы, скорее всего, хотим найти документы, содержащие все четыре слова. Однако поисковая машина, представив вначале документы со всеми словами, начнет затем давать ссылки на документы, в которых есть хотя бы одно из указанных нами ключевых слов. Существуют способы точно указать поисковой машине, как должны быть связаны между собой введенные пользователем ключевые слова. Для этого используются логические операторы, а сам поиск называется булев.

Более подробно об операторах будет говориться далее.

Эффективный поиск. Будем считать, что эффективность поиска информации тем выше, чем больше коэффициенты полноты и точности, в то же время – меньше время и другие ресурсы, затрачиваемые на проведение поиска. Многие современные ПС с целью повышения эффективности поиска позволяют вместо простого поиска производить т.н. «расширенный».Он доступен по ссылке на странице поиска и представляет собой форму, которую нужно заполнить, ответив на дополнительные вопросы. Кроме этого возможен и т.н. «сложный» поиск с использованием булевых операторов, то есть поиск с помощью логических операторов.

3.1 Этапы поисковой процедуры


Процедура поиска имеет вполне определенную этапность — от определения информационной потребности и области поиска до анализа результатов и выбора пертинентных объектов.

1.Формирование потребности в информации.

На этой фазе определяется цель поиска, его стратегия и область проведения (поисковые серверы, каталоги, тематические порталы).

Информационные потребности пользователя могут относиться к разным областям, которые могут быть как узкоспециализированными, так и достаточно типовыми. На практике основная часть информационных потребностей приходится именно на типовые области применения:

• поиск отдельных Web-страниц;

• поиск новостей;

• поиск людей и организаций;

• поиск литературных произведений;

• поиск программного обеспечения;

• поиск музыкальных произведений;

• поиск графических изображений;

• поиск видеоинформации;

• поиск коммерческой информации.

2. Формирование запроса.

Основной задачей второго этапа является формирование эффективных запросов к ИПС.

Наибольшую проблему при формировании запросов представляет то, что на каждом поисковом сервере используется свой информационно-поисковый язык (ИПЯ), несмотря на то что у различных языков этого типа много общего, — например, схожий набор булевых операций. В настоящее время не существует единого стандарта, хотя на протяжении многих лет ведутся попытки такой стандартизации.

3. Поиск нужной информации.

Третий этап поиска в сети Internet является определяющим, — от его реализации зависит, будет ли найденное решение пертинентно. На этом этапе пользователь работает с конечными документами, полученными в виде отклика ИПС. От правильного выбора набора документов-первоисточников зависит результат работы всех трех этапов поисковой процедуры.

3.2 Информационно-поисковый язык


Информационно-поисковые языки (ИПЯ), то есть языки, на которых обращаются пользователи к системе. Все поисковые системы обеспечивают поиск хотя бы по одному слову.Некоторые системы рассматривают все слова запроса как правые усечения.У некоторых такая возможность не реализована, например у Google, Alltheweb. В Рамблер и в Яndex, морфологический инструментарий позволяет искать по всем словоформам исходного терма. Поиск по словоформам является результатом серьезного лингвистического анализа и реализован в русскоязычных системах Апорт, Яndex и Рамблер, а также в укранской системе META.

Большинство современных систем способно реализовывать контекстный поиск заключенной в кавычки фразы (Google, Alltheweb, AltaVista, Lycos и др.). В большинстве современных систем реализованы булевы операторы AND, OR и NOT, а также работа со скобками. Можно отметить, что у самой популярной в мире системы Google - самый лаконичный набор логических операторов - "+", OR и "-".Большинство поисковых систем обеспечивает выполнение операций контекстной близости, одна из реализаций которой - поиск выражений в кавычках.

Слова запроса, заключенного в двойные кавычки, ищутся в документах в том порядке и в тех формах, в которых они встретились в запросе.

В свое время функции контекстной близости получили наибольшее развитие в системе Lycos, где были реализованы с помощью трех операторов: NEAR, FAR и BEFORE.

При построении запросов может быть реализована возможность объединения слов в группы, которые будут аргументами некоторого оператора. Такие группы заключаются в скобки. Использование скобок позволяет создавать вложенные запросы, а также изменять приоритеты операторов, принятые по умолчанию. Возможность поиска по параметрам документов зачастую позволяет ограничивать диапазон поиска значениями URL, датам, заглавий и т.п. Чаще всего выйти на возможность поиска по параметрам можно из режима расширенного поиска. Во многих системах обеспечивается поиск по данным в форматах: HTML, PDF, RTF, MsWord.

В Google, например, обеспечивается поиск по сайту ("site:"), определение ссылок на сайт ("admission site:"), поиск по ценам, например "DVD player $250..350", странам, датам, доменам и т.д. Наиболее частоупотребляемые операторы ИПЯ представлены в таблице 3.2.1


Таблица 3.2.1


пробел или &

логическое И (краткое - в пределах одного абзаца)

Пример: легкая промышленность

Результат: все документы, где в пределах одного абзаца встречаются слова "легкая" и "промышленность"

&&

логическое И (в пределах документа)

Пример: легкая&&промышленность

Результат: все документы, где встречаются слова "легкая" и "промышленность"

, или |

логическое ИЛИ

Пример: легкая,промышленность

Результат: все документы, где встречается либо слово "легкая", либо слово "промышленность"

~

бинарный оператор И НЕ (в пределах одного абзаца)

Пример: производство~газета

Результат: все документы, где в пределах одного абзаца встречается слово "производство", но не в словосочетании "газета производство"

~~

бинарный оператор И НЕ (в пределах документа)

Пример: производство~газета

Результат: все документы, где встречается слово "производство", но не в словосочетании "газета производство"

( )

группирование слов

Пример: (швейное&&производство)~газета

Результат: все документы, где встречаются слова "швейное" и "производство", но не в словосочетании со словом "газета"

/(число)

расстояние в словах, где "число" - число слов между словами в запросе плюс единица.

Пример: швейное/1 производство

Результат: все документы, где встречается словосочетание "швейное производство"

+

Обязательное наличие слова в документе

Пример:+быть или +не быть

&&/(число)

Расстояние в предложениях

Пример: банк &&/1 налоги

“”

Поиск точной фразы

Пример: “Красная шапочка”

!

Без учета морфологии

!!

Для поиска форм только этого слова

Пример:!!день

Ищет дня,дни но не формы глагола деть

*

позволяет усекать термин справа

$title(выражение)

Поиск в заголовке.

$anchor(выражение)

Поиск в тексте ссылок

image=”значение”

Поиск файла изображения

hint=(выражение)

Поиск в подписях к изображению

url =”значение”

Поиск на заданном сайте

link=”www......”

Поиск ссылок на заданной странице

mime=” “

Поиск файлов заданного типа (pdf,doc...)

lang=«язык»


Поиск документов на определенном языке

date=«ГГГГ{*|ММ{*|ДД}}»


Поиск документов датированных определенной датой



Продолжение таблицы 3.2.1

Следует отметить, что у каждой поисковой системы есть свой особенный язык запросов, поэтому для наиболее точного поиска нужной информации следует обратиться в Помощь соответствующего поисковика.