понедельник, 31 марта 2008 г.

Рубрикация и поиск - пациент скорее мертв, чем жив?

Забавно наблюдать на протяжении всей истории поисковых систем и решений, как пытаются решить проблему Большой Свалки.

Как только не пытались подойти к решению проблемы "
пойди туда, не знаю куда, принеси то - не знаю, что".

Что особенно забавно - закон цикличности справедлив для любой области человеческой деятельности.

Помнится, сначала были каталоги и звали их по-разному :)

Каталоги составлялись ручками, выверялись ручками - поскольку весь обозримый интернет был совершенно детского размера и сервера второго уровня можно было запомнить.

Потом пришла пора бурного роста. И как-то каталоги отошли на задний план, а появились поисковые машины со звучными именами, которые предлагали ввести в одном-единственном окошечке запрос - и потом, подобно максвелловскому демону, шустро поискать в помойке. А дабы удовлетворить пользователя, ему вываливали тысячи, десятки и сотни тысяч результатов по принципу "
Посмотри, дорогой - а не это ли ты искал? И, кстати, заметь, мы вытащили полмиллиона результатов всего-то за 1-0,5-0,02 секунды!"

Отсортированные типа по
релевантности (типа - потому что ранг, например, ссылок никакого отношения к релевантности как таковой не имеет по определению), данные обрушивались на голову пользователей ровно до тех пор, пока кто-то из великих не сообразил, что дальше первой страницы, собссно, ничего уже можно не искать.

Цитата читателя:

«Много – совсем не значит хорошо, самое главное – отыскать именно то, что действительно нужно».

Конец цитаты.

Почему?

По определению. Используемые упрощенные (и донельзя наивные) алгоритмы обработки текстов не позволяли и не позволяют вести так называемый
полнотекстовый контекстный поиск.

То, что пытаются выдавать за оный, скорее вызывает ироничную усмешку.

А посему, поисковики вышли из положения по принципу "Спасение утопающих - дело рук самих утопающих":

-
Вот вам, ребятки, продвинутый язык запросов и пишите сложные выражения, а не то вам миллионы результатов выдадим!

Ищем по ключевым словам. Тупо и цинично.

Великий Google с умилительной гордостью объявил, что вырос процент поисковых запросов из трех и более фраз.

Конечно, народ сообразил наконец, что
всемирная помойка разрослась до такой степени, что одним-двумя словами запроса ничего не найти.

Оставим за скобками тот факт, что Google ищет отдельные слова, но не устойчивые словосочетания
*. Очевидно, что его движок предельно упрощен с фасада для удовлетворения поискового зуда блондинок.

А что же пресловутая рубрикация, скажете вы?

Рубрикация, по своей природе, это попытка упорядочить хаос, раскидав по полочкам то, что положено по ним раскидать.

Одно ма-аленькое
но.

Дабы раскидать по полочкам
всемирную помойку, надо нечто гораздо большее, нежели совершенные алгоритмы. Ибо для рубрикации требуется все-таки человеческий интеллект.

Потому что не существует на данный момент алгоритмов, способных к пониманию
смысла текста.

-Опачки?
-Вот именно!

Что в сухом остатке? А в сухом остатке - ручная работа тысяч редакторов Open Directory Project.

Кстати о птичках - мало кому известный факт (и который мало кто озвучит, потому что... понятно, почему), но данные ODP (
стопроцентно собранные и выверенные вручную!) используются поисковиками как основа своих индексов и собственных директорий.

Иными словами, используются
метаданные, собранные людьми, дабы хоть как-то решить задачу несовершенства алгоритмов поиска, которую не компенсирует быстродействие и мощь компьютерных систем.

Означает ли это, что алгоритмически задача
релевантного поиска** неразрешима?

Вероятнее всего нет.

Для решения данной задачи нужно всего лишь использовать подходящие инструменты. И работа тысяч добровольных (ну-у или почти добровольных) редакторов ODP тут вряд ли поможет (вспомним пост про 10 миллионов обезьян).

Все же чтобы заточить карандаш, мельничный жернов подходит как-то не особенно... Да и 10 миллионов мельничных жерновов, говоря по правде, тоже.


___________________________
* Можете, кстати говоря, попробовать поискать словосочетания в двойных кавычках. Голяк, ребята. Много не сыщете.

___________________________
** Ма-аленькое замечание. Релевантность не тождественна индексу цитирования. Более того, она как правило никакого отношения к индексу цитируемости не имеет и иметь не может. То, что обсуждается где-либо в наибольшей степени, не означает, что там собрались эксперты и информация будет максимально релевантной. Скорее, вас просто приведут в место наибольшего трепа или наиболее раскрученного ресурса.

Кстати, проблема клоакинга поисковых систем проистекает, на мой взгляд, именно из индекса цитирования. Всеми правдами и неправдами добиться наибольшего количества ссылок. Дабы занять призовые места в рейтинге поиска. Поисковики, который год ведущие непрерывную войну с черным и серым SEO, могли бы решить проблему на корню, в принципе не допустив ее появления, если бы поиск осуществлялся действительно по релевантности, а не по индексу цитирования.