В библиотеках многих
людей есть толстый том собрания
произведений Шекспира Допустим, вы хотите
определить, в какой пьесе используются
слова Brutus AND Caesar AND NOT
Calpumia. Для этого можно,
например, прочитать текст от начала до
конца, отмечая пьесы, содержащие
слова Brutus
и Caesar, и
исключая из рассмотрения пьесы, в которых
встречается слово
Calpumia. Простейший
компьютерный метод решения этой задачи
сводится к последовательному просмотру
(linear scanning) всех документов. Этот процесс
часто называют прямым поиском или, на
английском, grepping (от названия команды grep, которая в
операционной системе Unix выполняет этот
процесс). Прямой поиск по тексту может быть очень
эффективным, особенно на современных
компьютерах. Довольно часто такая
обработка допускает поиск по шаблону с
джокерами (wildcard pattern matching). На современных
компьютерах выполнения простых запросов
на коллекциях
данных среднего размера (общий объем тома
собрания избранных произведений Шекспира
составляет чуть меньше одного миллиона
слов) вполне достаточно для рядового
пользователя.
Тем не
менее во многих случаях необходимо нечто
большее.