Сразу следует оговориться: речь идет об уникальной программе, не потому, что сложной, а просто никто этим не занимался.
Русскоязычных поисковых систем я знаю штук двадцать, но эта ищет только по своей базе данных. Анекдоты, истории ит.п. База содержит порядка 12М текста. Ограничение на поиск только одно: слово не короче трех букв, дабы ограничить размер вывода. И несколько особенно матерных выражений тоже заблокированы. Итак, обработано порядка 17000 обращений.
Лидирует, разумеется, попытка поиска вообще без ключевого слова: 654 раза. Еще 110 вызовов - с ключами короче трех символов. Следом за ним - вовочка, штирлиц, секс в русском и английском написаниях, новый русский, прочие сильно отстали.
Использованные кодировки (цифры округлены):
Win-1251 |
15700 |
KOI8 |
1020 |
Транслит |
300 |
866 |
100 |
MAC |
100 |
ISO-8859 |
60 |
Неправильно заданных ключей было порядка тысячи ста (15.5%). Неправильный в данном случае означает не поиск, дающий пустой вывод, а заведомо неверный ключ. Ошибки заслуживают отдельного разбора...
Грамматические ошибки в словах. Порядка 1800. Непреодолимая преграда. Трудно искать черную кошку в темной комнате, если ее там нет:
Алкаголик
Ананист
Чепаев
Честушки
Ключевые слова, не связанные с темой страницы, то бишь, юмором.
смоленский банк
Кастанеда
служба занятости
поиск работы москва
секс фотографии молодых девочек
секс+связывание
mutual masturbation
Все это - несмотря на здоровенное заглавие "Поиск анекдотов" в начале страницы.
Ключевые слова, заданные транслитом (кому-то было лениво переключать клавиатуру). 2200 обращений. Без комментариев...
Неверно заданные разделители между ключами. Вина автора. Не предусмотрел вероятность сложного поиска.
Ключи в неверной кодировке.
Трудно винить системщика Куличек, вроде, все работает. Автор программы тоже вины за собой не чувствует: проверялось в двух основных кодировках. Кривые руки и плохо настроенный софт у пользователя? Это его вина, но беда - владельца страницы. Рецепта нету.
Мораль:
Во всякой поисковой системе на заглавной странице должна быть соответствующая информация фонтом размера не меньше H3. Причем, не оставляющая возможности двух толкований.
Попыток сложных запросов: около ста пятидесяти. К сожалению, сложные запросы не поддерживаются. По той причине, что за полтора года существования страницы никто не попросил их реализовать.
Некоторые запросы удивляют своей фантазией.
xxx вас Василий иванович
Чивильдеев
девелопмент
еврейский пароход
заяц разодранным очком
Елена Львовна
PIZDA00654
славик свинья корова попугай
гусарские баллады
Неужели кто-то всерьез предполагал, что бывают анекдоты с подобными словосочетаниями?
60 наиболее часто встречающихся ключевых слов
василий иванович |
00027 |
жена |
00027 |
ржевский |
00027 |
футбол |
00027 |
свадьба |
00028 |
армян |
00029 |
винни |
00029 |
медицина |
00029 |
нарк |
00029 |
любовник |
00031 |
спорт |
00031 |
холмс |
00031 |
хакер |
00032 |
школа |
00032 |
гаи |
00033 |
поручик |
00033 |
русский |
00033 |
брежнев |
00035 |
негр |
00035 |
прапорщик |
00037 |
пятачок |
00037 |
врач |
00039 |
рабинович |
00039 |
доктор |
00040 |
заяц |
00040 |
петька |
00040 |
ежик |
00043 |
пиво |
00046 |
хохол |
00047 |
ё |
00049 |
новый |
00050 |
штирлиц |
00050 |
евреи |
00051 |
жопа |
00052 |
пизда |
00054 |
программист |
00054 |
компьютер |
00056 |
марта |
00058 |
теща |
00060 |
vovochka |
00062 |
ленин |
00062 |
армия |
00065 |
студент |
00065 |
вовочка |
00067 |
любовь |
00068 |
xxx |
00079 |
ельцин |
00082 |
наркоман |
00085 |
еврей |
00087 |
грузин |
00089 |
новые русские |
00091 |
ржевский |
00098 |
хуй |
00107 |
чапаев |
00108 |
чукча |
00129 |
новый русский |
00153 |
sex |
00222 |
секс |
00237 |
штирлиц |
00263 |
вовочка |
00325 |
Выводы:
- преобладающие в поиске слова - из предлагаемого пользователю списка наиболее вероятных ключей.
Этот список был в свое время аннулирован, чтобы подстегнуть фантазию юзера. Тем не менее, Вовочка и Штирлиц остались любимы народом.
- Проблема неверного написания слов несущественна: получив пустой вывод, поневоле заподозришь грамматическую ошибку.
- Если пользователю дается хотя бы минимальная свобода помимо нажатия кнопок, будут совершены все возможные ошибки и еще парочка, которые автор и представить себе не мог. Посему, инструкция должна быть четкой и исчерпывающей, как устав караульной службы.