среда, 18 августа 2010 г.

Булев поиск

Булев поиск

Смысл термина информационный поиск (information retrieval— IR) может быть очень широким. Даже извлечение кредитной карточки из бумажника для того, чтобы узнать ее номер, уже можно трактовать как вид информационного поиска. Тем не менее как научная дисциплина информационный поиск может быть определен следующим образом.
Информационный поиск (IR) — это процесс поиска в большой коллекции (хранящейся, как правило, в памяти компьютеров) некоего неструктурированного материала ("обычно — документа), удовлетворяющего информационные потребности.
Если рассматривать информационный поиск таким образом, то можно отметить, что раньше подобной деятельностью занимались лишь отдельные специалисты: библиогра­фы-консультанты, помощники юристов и другие профессионалы. Мир изменился, и те­перь сотни миллионов людей делают это ежедневно, используя поисковые системы или просматривая свою электронную почту. Информационный поиск быстро становится ос­новной формой доступа к информации, вытесняя традиционный поиск по ключу (когда продавец говорит вам: "К сожалению, я смогу найти ваш заказ, только если вы назовете мне его номер").
нию. Это напоминает расстановку книг на полке по темам. Если задан набор тем, посто­янные информационные потребности и другие категории (например, пригодность тек­стов для различных возрастных групп), то возникает задача классификации - опреде­лить, к какому классу относится (и относится ли вообще) каждая группа документов. Для ее решения часто сначала вручную классифицируют какое-то количество документов, надеясь классифицировать новые документы автоматически.

К информационному поиску можно также отнести некоторые задачи, не подпадаю­щие под данное выше базовое определение. Когда мы говорим "неструктурированные данные", мы подразумеваем данные, которые не имеют ясной, семантически очевидной и легко реализуемой на компьютере структуры. Они представляют собой противополож­ность структурированным данным, каноническим примером которых являются реляци­онные базы данных наподобие тех, которые обычно используются предприятиями для хранения реестров продукции и персональных данных сотрудников. В реальности же со­вершенно "неструктурированных данных" практически не существует. Например, обыч­ные текстовые данные имеют скрытую структуру, характерную для естественных язы­ков. Однако даже если требовать явного наличия структуры, то большинство текстов та­ковую очевидно имеют, поскольку в них есть заголовки, абзацы и сноски, которые обычно представлены в тексте в виде явной разметки (например, в коде веб-страниц). Поэтому методы информационного поиска используются также для "полуструктури­рованного" поиска, например для нахождения документа, в заголовке которого содер­жится слово Java, а в теле — слово threading.

К информационному поиску относятся и такие задачи, как навигация пользователей по коллекции документов и фильтрация документов, а также дальнейшая обработка най­денных документов. Если имеется набор документов, то возникает задача кластеризации, которая заключается в определении наилучшей группировки документов по их содержанию. Это напоминает расстановку книг на полке по темам. Если задан набор тем, посто­янные информационные потребности и другие категории (например, пригодность тек­стов для различных возрастных групп), то возникает задача классификации - опреде­лить, к какому классу относится (и относится ли вообще) каждая группа документов. Для ее решения часто сначала вручную классифицируют какое-то количество документов, надеясь классифицировать новые документы автоматически.

Системы информационного поиска можно классифицировать по масштабу их дейст­вия. Для этого полезно выделить три уровня. В процессе веб-поиска (Web search) систе­ма должна выполнить поиск среди миллиардов документов, размещенных на миллионах компьютеров. Отличительными особенностями веб-поиска является необходимость сбо­ра документов для индексации, способность создавать системы, эффективно работающие с огромными массивами информации, а также учет определенных аспектов веба, таких как использование гипертекста и противодействие попыткам веб-мастеров искусственно повысить позиции своих сайтов, манипулируя содержимым веб-страниц. На другом полюсе находится персональный инфор­мационный поиск (personal information retrieval). В последние годы многие операцион­ные системы имеют встроенные возможности поиска (например, Mac OS X компании Apple, реализующая технологию Spotlight, и операционная система Windows Vista, пре­доставляющая функцию Instant Search). Кроме того, программы электронной почты обычно предоставляют не только функции поиска, но и средства классификации текстов, по крайней мере они должны иметь фильтры от спама, а также средства ручной или ав томатической сортировки писем по папкам. Для этих систем критично обрабатывать все многообразие форматов документов на обычном персональном компьютере.

Важны про­стое сопровождение и инсталляция, а также небольшой объем занимаемой памяти, по­зволяющий выполнять работу, не раздражая пользователя. Промежуточное положение между упомянутыми двумя классами занимают системы корпоративного (enterprise), ве­домственного (institutional) и ориентированного на предметную область (domain-specific) поиска, которые работают, например, с коллекциями внутренних документов корпора­ций, базами патентов или научными статьями по биохимии. В лих случаях документы, как правило, хранятся в централизованных файловых системах, и одна или несколько специализированных машин осуществляют поиск по коллекции. В книге рассматривают­ся методы, применяемые во всем спектре приложений, однако методы параллельного и распределенного поиска в системах веб-поиска излагаются нами довольно поверхностно, поскольку детали их работы описаны лишь в небольшом количестве публикаций. Одна­ко, как правило, разработчики программного обеспечения интересуются вопросами пер­сонального и корпоративного поиска, если, конечно, они не работают в одной из немно­гочисленных компаний, специализирующихся на веб-поиске.

Комментариев нет:

Отправить комментарий