WWW.DISSERS.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

   Добро пожаловать!


Pages:     || 2 | 3 | 4 | 5 |
ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ТВЕРСКОЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ КАФЕДРА «ИНФОРМАЦИОННЫЕ СИСТЕМЫ» Введение в информационно-поисковые системы Часть 1 Методические указания по изучению дисциплины "Мировые информационные ресурсы" для студентов специальностей «Прикладная информатика (в экономике)» и «Информационные системы и технологии» Тверь 2005 УДК 025.4.036:004.6(075.8)+025.4.036:004.738.5(075.8);

681.3.01(075.8)+681.324(075.8) ББК 73.я7+32.81.я7 В методических указаниях рассматриваются основные принципы построения информационно-поисковых систем (ИПС) и их практического применения. Приводятся понятия и определения, обсуждаются информационные потребности пользователей. Рассматривается представление информации в ИПС, принципы анализа текстов и индексирования документов, типичные модели (булева и векторная) и алгоритмы поиска информации. Приводятся основные сведения о классификации документов. Обсуждаются современные словарные, классификационные и метапоисковые ИПС, их практическое применение и критерии эффективности.

Методические указания предназначены для студентов специальностей «Прикладная информатика (в экономике)» и «Информационные системы и технологии».

Методические указания обсуждены и рекомендованы к печати на заседании кафедры «Информационные системы» (протокол № 5 от 20.12.2004 г.).

Составители: В.К. Иванов, К.В. Иванов.

Введение в информационно-поисковые системы Часть 1 Методические указания по изучению дисциплины "Мировые информационные ресурсы" для студентов специальностей «Прикладная информатика (в экономике)» и «Информационные системы и технологии» Редактор Т.С. Синицына Технический редактор _ Подписано в печать Формат 60x84/16 Бумага писчая Физ. печ. л. 2.25 Усл. печ. л. 2.09 Уч.-изд. л. 1.96 Тираж 100 экз. Заказ № 14 С-14 _ Типография ТГТУ © Тверской государственный технический университет, 2005 3 Содержание ВВЕДЕНИЕ.......................................................................................................................................................................1. ОСНОВНЫЕ ПРИНЦИПЫ ПОСТРОЕНИЯ ИПС...............................................................................................1.1. ПОНЯТИЯ И ОПРЕДЕЛЕНИЯ..............................................................................................................................................1.2. ИНФОРМАЦИОННАЯ ПОТРЕБНОСТЬ ПОЛЬЗОВАТЕЛЯ..............................................................................................................1.3. РЕЛЕВАНТНОСТЬ............................................................................................................................................................1.4. ОБЩАЯ СХЕМА ПРОЦЕССА ПОИСКА.................................................................................................................................2. ПРЕДСТАВЛЕНИЕ ИНФОРМАЦИИ В ИПС......................................................................................................2.1. ИНДЕКСИРОВАНИЕ ДОКУМЕНТОВ....................................................................................................................................2.2. ВЕКТОРНАЯ МОДЕЛЬ ТЕКСТА.........................................................................................................................................2.3. СТАТИСТИЧЕСКИЙ АНАЛИЗ ТЕКСТОВ. ЗАКОН ЦИПФА........................................................................................................2.4. АНАЛИЗ ИНФОРМАЦИОННЫХ МАССИВОВ.........................................................................................................................2.4.1. Понятие относительной частоты.............................................................................................................2.4.2. Распределение частоты встречаемости терминов..................................................................................2.5. ОПРЕДЕЛЕНИЕ ВЕСОВ ТЕРМИНОВ....................................................................................................................................2.5.1. Частотная модель.........................................................................................................................................2.5.2. Вероятностная модель.................................................................................................................................2.5.3. Латентно-семантический анализ................................................................................................................3. ХРАНЕНИЕ ИНДЕКСИРОВАННЫХ ДОКУМЕНТОВ..................................................................................... СПИСОК РЕКОМЕНДУЕМОЙ ЛИТЕРАТУРЫ...................................................................................................Введение Очень давно человек впервые задумался о том, как хранить знания для дальнейшего удобного и эффективного использования. Классический пример этого – оглавление книги, которое делает возможным быстрый доступ к любому интересующему нас разделу.

С ростом числа книг возникла необходимость в более удобных способах хранения. В библиотеках появились каталоги, или индексы – наборы ключевых слов или понятий, связанные с коллекциями книг и других документов. С помощью каталогов доступ к информации становится достаточно простым, а скорость его относительно велика. Тем не менее, решение задач по поиску информации было в основном уделом работников библиотек и специалистов по теории поиска.

В ХХ веке развитие информационных технологий повлияло на все сферы человеческой жизни. Не стал исключением и информационный поиск. В 60 и 70-е годы для ускорения процессов каталогизации и поиска появились первые автоматизированные информационно-поисковые системы1 (ИПС). Они применялись в каталогах и информационных отделах крупных библиотек. Тогда и начались серьезные исследования теории и практики информационного поиска и построения ИПС [,, ].



Говоря об ИПС, следует разделять понятия «поиск информации» и «поиск данных». Поиск информации – это более широкое понятие, допускающее более мягкие критерии соответствия искомой информации потребности пользователя. В отличие от систем поиска данных, которые имеют дело со строго формализованными данными и запросами2, ИПС работают с информационными объектами разной (чаще всего небольшой) степени формализованности, в основном с текстами на естественном языке. Точность работы ИПС определяется релевантностью найденных документов, четкого однозначного критерия которой не существует (это будет показано в разделе 1.3) [, ].

За последние десять лет область информационного поиска значительно расширилась. Создание электронных библиотек на базе крупнейших мировых хранилищ информации, развитие систем мультимедийного поиска, широкое внедрение систем управления документами и т. п. являются стимулом для непрерывного совершенствования технологий поиска информации.

Английское обозначение информационно-поисковых систем – information storage and retrieval systems, information retrieval systems.

Такие системы обычно реализуются в системах управления базами данных (СУБД). Языки запросов, например, SQL или XPath, оперируют математически точными критериями поиска, а хранимые данные имеют четко определенную структуру. В настоящих методических указаниях эти системы не рассматриваются.

Однако наиболее революционным событием стало зарождение и развитие сети Интернет. В 90-е гг. ХХ в. человечество получило доступ к огромному массиву информации в самых разных предметных областях – миллионам связанных документов, которые расположены на компьютерах по всему миру. Интернет сегодня – это неструктурированное распределенное хранилище динамичной информации громадного объёма, в котором постоянно добавляются новые документы, а устаревшие редактируются или удаляются.

Колоссальное и непрерывно растущее количество информации приводит к тому, что обеспечение поиска в Интернете становится критически важной задачей.

Однако без соответствующих поисковых средств проблема поиска в сети необходимой информации становится в настоящее время практически неразрешимой.

Появление поисковых систем сети Интернет стало новым этапом в развитии информационного поиска. Сегодня ИПС сети Интернет эффективно применяют разработанные за много лет методы поиска информации. Более 75% пользователей пользуются ИПС для поиска информации в Интернете []. В то же время специфика природы сети Интернет и ее непрерывное развитие ставят перед исследователями новые задачи, многие из которых не решены до сих пор.

Современные теоретические и практические исследования информационного поиска сконцентрированы вокруг нескольких крупных международных конференций []. К ним относятся серия конференций TREC (Text Retrieval Conference), проводимая институтом NIST (National Institute for Standards and Technology) США, конференции SIGIR (Special Interest Group on Information Retrieval), организованные международной группой исследователей и разработчиков технологий информационного поиска ACM (Association of Computing Machinery), а также конференция, которая занимается различными проблемами, связанными с Интернет – WWW Conference [, ]. В России по вопросам информационного поиска ежегодно проводится конференция «Электронные библиотеки (RCDL)» [, ].

В настоящих методических указаниях рассматриваются информационный поиск и поисковые системы в основном с точки зрения используемых в них информационных технологий. Изложенный материал носит обзорный характер. Описаны модели и реализующие их алгоритмы, архитектура систем и технические особенности их реализации. Определенное внимание уделено и взаимодействию человека, осуществляющего поиск, с поисковой системой. Рассмотрены проблемы восприятия и интерпретации информации пользователем ИПС.

Рекомендации состоят из двух частей. В части 1 перечислена основная терминология информационного поиска, дано определение информационной потребности пользователя и описана общая схема процесса поиска. Далее анализируются информационные массивы и их представление в ИПС, процессы индексирования и взвешивания терминов. Рассматривается порядок хранения индексированных документов. В части 2 описываются основные модели и алгоритмы поиска информации в ИПС, а также один из традиционных методов анализа документов – классификация.

Перечисляются главные критерии эффективности ИПС и способы их оценки. В заключении описывается архитектура и состав современных ИПС, работающих в сети Интернет.

Изложение материала предполагает, что студенты знакомы с матричной алгеброй и теорией вероятностей, с основами математической логики, теорией информационных систем и основами теории баз данных, основами методологии тестирования и оценки систем, а также с основами Интернет-технологий.

1. Основные принципы построения ИПС 1.1. Понятия и определения Информационный поиск – это отрасль знания, которая занимается представлением, хранением и доступом к информационным ресурсам. Теория информационного поиска оперирует несколькими ключевыми понятиями, определения которых даны ниже.

Информационный ресурс – это любой материальный объект, который фиксирует или подтверждает какие-либо знания и может быть включен в определенное собрание. По форме различают текстовые (книги, журналы, рукописи), графические или изобразительные (чертежи, схемы, графики, планы, карты, диаграммы), аудиовизуальные (звукозаписи, видеозаписи, фильмы) информационные ресурсы [].





Наряду с информационным ресурсом, в информационном поиске также используется понятие «документ». Под документом чаще всего понимается содержательно законченный текстовый информационный ресурс, который можно каким-либо образом уникально идентифицировать. ИПС оперируют электронными документами, т.

е. представлениями документов на машиночитаемых носителях в ЭВМ [].

С понятием документа тесно связаны метаданные и суррогаты. Метаданные (метаинформация) – это структурированная информация о документе, например, библиографические сведения, информация о качестве документа, отзывы других пользователей. Под суррогатом понимают представление документа в виде заголовка, имени автора, аннотации, ключевых слов и т. д. [].

ИПС представляет собой комплекс программных и аппаратных средств, который обеспечивает отбор и представление электронных документов по заданным критериям.

На рис. 1 представлена общая схема работы информационно-поисковой системы.

Документ Сведения о Документ Запрос документах Информационнопоисковая Пользователь Документ Ответ система Документ N Множество информационных ресурсов Рис. 1. Информационно-поисковая система ИПС работают с множествами документов, которые называются также коллекциями документов. Примерами таких множеств могут служить электронная библиотека, русскоязычная часть Интернета, энциклопедия на лазерном диске.

1.2. Информационная потребность пользователя Итак, в определенный момент времени у некоторого пользователя возникает информационная потребность в документах по той или иной нужной ему тематике, которая обычно достаточно узка [].

В начальный момент эта потребность часто не может быть точно выражена словами. При этом любая поисковая система требует достаточно четких запросов.

Следовательно, пользователь должен представить свою информационную потребность в виде некоторого выражения, которое может быть воспринято поисковой системой.

Выделяют четыре этапа представления информационной потребности [,, ]:

-реальная информационная потребность – это неосознанная истинная информационная потребность пользователя (потребность в некоторой новой информации при решении стоящей перед пользователем задачи);

-осознанная информационная потребность – появляется после осознания пользователем стоящей перед ним проблемы (осознанная потребность отличается от реальной, более того, пользователь может понимать имеющуюся проблему неправильно);

-выраженная информационная потребность – результат описания осознанной информационной потребности с помощью естественного языка;

-формализованная информационная потребность – это результат представления выраженной потребности средствами формального поискового языка ИПС.

На рис. Рис. 2 показана эволюция представлений информационной потребности. По мере переходов от одного представления к другому отличие от первоначальной реальной потребности увеличивается.

Проблема, стоящая перед пользователем Реальная информационная потребность Осознание Осознанная информационная потребность Выражение Выраженная информационная потребность Формализация Формализованная информационная потребность Информационнопоисковая система Рис. 2. Представления информационной потребности Необходимость формулирования информационной потребности на специальном информационно-поисковом языке (ИПЯ) определяется тем, что интерпретировать естественный язык весьма сложно. Это научно-практическое направление интенсивно развивается в настоящее время, и некоторые поисковые системы позволяют пользователям составлять запросы на естественном языке []. Однако в таком случае информационную потребность в формализованном виде определяет сама система.

Информационная потребность, сформулированная на информационно-поисковом языке, называется запросом.

Запрос поступает в ИПС, и система возвращает некоторый ответ. Степень соответствия ответов поисковой системы запросу пользователя, а значит, и его информационной потребности, называется релевантностью [].

1.3. Релевантность Релевантность – это фундаментальное понятие теории информационного поиска. Тем не менее, оно не является специфичным для информационно-поисковых систем, и изучается многими направлениями науки: философией, психологией, теорией искусственного интеллекта, теорией обработки естественных языков и т. д. [].

Понятие релевантности возникло одновременно с появлением первых библиотек, посетителям которых требовалось найти книги для удовлетворения информационной потребности. Стимулом для детального анализа релевантности послужило появление в середине ХХ века информационно-поисковых систем. Обсуждение понятия релевантности продолжается уже более полувека, но, несмотря на это, его единого общепринятого определения до сих пор не существует [].

Наиболее часто используются следующие виды релевантности [, ]:

1. Когнитивная релевантность, или пертинентность – характеризует степень соответствия информации из документа и реальной информационной потребности пользователя. Это истинная и наиболее трудноопределимая релевантность. Все остальные виды релевантности являются ее приближениями.

2.Тематическая (предметная) релевантность – характеризует степень близости предмета (тематики) информационной потребности и найденного документа. Под тематикой здесь понимается область интересов пользователя, в пределах которой существует его информационная потребность.

Pages:     || 2 | 3 | 4 | 5 |










© 2011 www.dissers.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.