Настройка
Инсталляция
Настройка
Все конфигурационные параметры находятся в файле config.pl.
Назначение большинства параметров достаточно очевидно и не требует
пояснений.
$base_dir = ".";
- путь к директории, где расположены Ваши html файлы. Если index.pl расположен
в той же директории, оставьте этот параметр как есть. Учтите, что здесь и далее
надо указывать либо относительный путь к файлу, либо полный, начиная с корня
файловой системы (а не корневого каталога вебсервера).
$base_url = "http://www.server.com/";
- URL Вашего сайта.
$file_ext = 'html txt htm shtml php';
- список расширений файлов, которые надо индексировать.
$non_parse_ext = 'txt';
- список расширений файлов, в которых не требуется удаление HTML тегов.
$no_index_dir = 'img image temp tmp cgi-bin';
- директории, которые не нужно индексировать. Встретив директорию с таким именем,
скрипт не будет сканировать ни эту директорию, ни все ее поддиректории.
$numbers = '0-9';
- скрипт вырезает их файла все небуквенные символы и индексирует только то,
что останется. Кроме символов латинского алфавита, скрипт оставляет
символы национальных алфавитов (описаны ниже). В параметре $numbers Вы можете
указать, какие еще символы должны индексироваться (например цифры, символ подчеркивания и т.д.)
$use_selective_indexing = "NO";
- данная опция полезна при индексировании больших сайтов со сложной навигацией,
новостными колонками и прочими элементами дизайна, которые появляются почти на каждой
странице сайта и не должны индексироваться. Она позволяет указать индексирующему скрипту
фрагменты кода, которые должны быть вырезаны в процессе анализа страницы. Для этого
необходимо включить эту опцию ("YES") и раскомментировать нижеследующие строки в "config.pl".
%no_index_strings = (
q[<!-- No index start 1 -->] => q[<!-- No index end 1 -->],
q[<!-- No index start 2 -->] => q[<!-- No index end 2 -->],
);
Внутри квадратных скобок необходимо указать две строки. Все, что находится
в индексируемом файле между этими строками, будет вырезано (учтите, что если данные строки
встречаются несколько раз, будет обработан каждый случай). В HTML файлах для этих
целей можно использовать специальные метки, которые разделяют элементы дизайна
(либо любые строки, которые однозначно определяют нужное место).
$cut_default_filenames = 'YES';
- позволяет вырезать имя файла (например "index.html") из URL в результатах
поиска.
$use_stop_words = "YES";
- список слов, которые не надо индексировать.
$descr_size = 256;
- длина описания файла в результатах поиска (можно использовать либо
начало HTML файла, либо содержимое тега "META description").
$CAP_LETTERS = '\xC0-\xDF\xA8';
- укажите код заглавных букв Вашего языка (тех, которые отличаются от латинских).
Сделайте то же самое для строчных букв.
Файл config.pl содержит несколько других параметров,
которые документированы в самом файле.
Использование робота-паука
Робот-паук использует все вышеописанные параметры
(за исключением $base_dir и
$base_url .
Вам необходимо установить всего две дополнительные переменные.
@start_url
- Список УРЛ, с которых начнется индексирование.
@allow_url
- Скрипт будет индексировать только файлы в указанных серверах.
Если необходимо исключить директорию из индексирования, используйте
$no_index_dir параметр (этот параметр един для всех серверов
в списке @allow_url).
Использование шаблонов
В новой версии скрипта используются шаблоны для изменения дизайна
вывода результатов поиска. Шаблон размещен в файле "template.htm".
Это обычный HTML файл, Вы можете открыть его в любом броузере и посмотреть,
как будет выглядеть Ваша страница, и при желании изменить дизайн по своему
усмотрению.
Шаблон состоит из нескольких секций: "header" и "footer"
будут выводиться всегда в начале и конце страницы; "results_header", "results"
и "results_footer" выводятся при успешном поиске; "no_results" выводится, если
поиск дал нулевой результат; "empty_query" выводится при пустом запросе.
Каждая секция шаблона разделена метками вроде этой:
<!-- RiSearch::header::start -->
Вы можете редактировать все, что находится между двумя разделителями.
В шаблоне используется несколько предопределенных параметров, на место
которых будет подставлен результат выполнения скрипта. Вот полный список
параметров:
%query%
- запрос.
%search_time%
- время выполнения скрипта.
%query_statistics%
- статистика найденных слов (т.е. строка вида - "слово1-N1 слово2-N2").
%stpos%
- порядковый номер, с которого начинаются результаты на данной странице.
%url%, %title%, %size%, %description%
- URL найденного файла, его заголовок, размер и описание.
%rescount%
- общее число найденных файлов.
%next_results%
- линки на следующие страницы с результатами поиска.
%rand_number%
- случайное число в пределах от нуля до 256. Можно использовать в кодах
баннерных систем (число фиксировано в пределах секции, но генерируется заново
для каждой секции).
%right_form("файл","файла","файлов")%
- данный параметр предназначен для русскоязычных сайтов. Он выводит на страницу
необходимую форму слова, в соответствии в числом найденных файлов. Вы можете
заменить слово "файл" любым другим словом, только соблюдайте такой же порядок
форм (например:
%right_form("совпадение","совпадения","совпадений")%
).
|