Булев поиск
Смысл термина информационный поиск (information retrieval— IR) может быть очень широким. Даже извлечение кредитной карточки из бумажника для того, чтобы узнать ее номер, уже можно трактовать как вид информационного поиска. Тем не менее как научная дисциплина информационный поиск может быть определен следующим образом.
Информационный поиск (IR) — это процесс поиска в большой коллекции (хранящейся, как правило, в памяти компьютеров) некоего неструктурированного материала ("обычно — документа), удовлетворяющего информационные потребности.
Если рассматривать информационный поиск таким образом, то можно отметить, что раньше подобной деятельностью занимались лишь отдельные специалисты: библиографы-консультанты, помощники юристов и другие профессионалы. Мир изменился, и теперь сотни миллионов людей делают это ежедневно, используя поисковые системы или просматривая свою электронную почту. Информационный поиск быстро становится основной формой доступа к информации, вытесняя традиционный поиск по ключу (когда продавец говорит вам: "К сожалению, я смогу найти ваш заказ, только если вы назовете мне его номер").Информационный поиск (IR) — это процесс поиска в большой коллекции (хранящейся, как правило, в памяти компьютеров) некоего неструктурированного материала ("обычно — документа), удовлетворяющего информационные потребности.
нию. Это напоминает расстановку книг на полке по темам. Если задан набор тем, постоянные информационные потребности и другие категории (например, пригодность текстов для различных возрастных групп), то возникает задача классификации - определить, к какому классу относится (и относится ли вообще) каждая группа документов. Для ее решения часто сначала вручную классифицируют какое-то количество документов, надеясь классифицировать новые документы автоматически.
К информационному поиску можно также отнести некоторые задачи, не подпадающие под данное выше базовое определение. Когда мы говорим "неструктурированные данные", мы подразумеваем данные, которые не имеют ясной, семантически очевидной и легко реализуемой на компьютере структуры. Они представляют собой противоположность структурированным данным, каноническим примером которых являются реляционные базы данных наподобие тех, которые обычно используются предприятиями для хранения реестров продукции и персональных данных сотрудников. В реальности же совершенно "неструктурированных данных" практически не существует. Например, обычные текстовые данные имеют скрытую структуру, характерную для естественных языков. Однако даже если требовать явного наличия структуры, то большинство текстов таковую очевидно имеют, поскольку в них есть заголовки, абзацы и сноски, которые обычно представлены в тексте в виде явной разметки (например, в коде веб-страниц). Поэтому методы информационного поиска используются также для "полуструктурированного" поиска, например для нахождения документа, в заголовке которого содержится слово Java, а в теле — слово threading.
К информационному поиску относятся и такие задачи, как навигация пользователей по коллекции документов и фильтрация документов, а также дальнейшая обработка найденных документов. Если имеется набор документов, то возникает задача кластеризации, которая заключается в определении наилучшей группировки документов по их содержанию. Это напоминает расстановку книг на полке по темам. Если задан набор тем, постоянные информационные потребности и другие категории (например, пригодность текстов для различных возрастных групп), то возникает задача классификации - определить, к какому классу относится (и относится ли вообще) каждая группа документов. Для ее решения часто сначала вручную классифицируют какое-то количество документов, надеясь классифицировать новые документы автоматически.
Системы информационного поиска можно классифицировать по масштабу их действия. Для этого полезно выделить три уровня. В процессе веб-поиска (Web search) система должна выполнить поиск среди миллиардов документов, размещенных на миллионах компьютеров. Отличительными особенностями веб-поиска является необходимость сбора документов для индексации, способность создавать системы, эффективно работающие с огромными массивами информации, а также учет определенных аспектов веба, таких как использование гипертекста и противодействие попыткам веб-мастеров искусственно повысить позиции своих сайтов, манипулируя содержимым веб-страниц. На другом полюсе находится персональный информационный поиск (personal information retrieval). В последние годы многие операционные системы имеют встроенные возможности поиска (например, Mac OS X компании Apple, реализующая технологию Spotlight, и операционная система Windows Vista, предоставляющая функцию Instant Search). Кроме того, программы электронной почты обычно предоставляют не только функции поиска, но и средства классификации текстов, по крайней мере они должны иметь фильтры от спама, а также средства ручной или ав томатической сортировки писем по папкам. Для этих систем критично обрабатывать все многообразие форматов документов на обычном персональном компьютере.
Важны простое сопровождение и инсталляция, а также небольшой объем занимаемой памяти, позволяющий выполнять работу, не раздражая пользователя. Промежуточное положение между упомянутыми двумя классами занимают системы корпоративного (enterprise), ведомственного (institutional) и ориентированного на предметную область (domain-specific) поиска, которые работают, например, с коллекциями внутренних документов корпораций, базами патентов или научными статьями по биохимии. В лих случаях документы, как правило, хранятся в централизованных файловых системах, и одна или несколько специализированных машин осуществляют поиск по коллекции. В книге рассматриваются методы, применяемые во всем спектре приложений, однако методы параллельного и распределенного поиска в системах веб-поиска излагаются нами довольно поверхностно, поскольку детали их работы описаны лишь в небольшом количестве публикаций. Однако, как правило, разработчики программного обеспечения интересуются вопросами персонального и корпоративного поиска, если, конечно, они не работают в одной из немногочисленных компаний, специализирующихся на веб-поиске.
Комментариев нет:
Отправить комментарий