четверг, 19 августа 2010 г.

Пример информационного поиска

В библиотеках многих людей есть толстый том собрания произведений Шекспира Допустим, вы хотите определить, в какой пьесе используются слова Brutus AND Caesar AND NOT Calpumia. Для этого можно, например, прочитать текст от начала до конца, отмечая пьесы, содержащие слова Brutus и Caesar, и исключая из рассмотрения пьесы, в которых встречается слово Calpumia. Простейший компьютерный метод решения этой задачи сводится к последовательному просмотру (linear scanning) всех документов. Этот процесс часто называют прямым поиском или, на английском, grepping (от названия ко­манды grep, которая в операционной системе Unix выполняет этот процесс). Прямой по­иск по тексту может быть очень эффективным, особенно на современных компьютерах. Довольно часто такая обработка допускает поиск по шаблону с джокерами (wildcard pattern matching). На современных компьютерах выполнения простых запросов на коллек­циях данных среднего размера (общий объем тома собрания избранных произведений Шекспира составляет чуть меньше одного миллиона слов) вполне достаточно для рядо­вого пользователя.
Тем не менее во многих случаях необходимо нечто большее.