поиск

"Больше текстов, хороших, но разных"

Знаете, а я вот замечаю, что некоторые события как бы происходят не по отдельности, а складываются во вполне связанную последовательность. Ну, вот например: вчера забыл человек зарядить мобильник, днём пришлось по нему очень много разговаривать, а вечером, когда срочно нужно было позвонить по личным делам – мобильник оказался полностью разряженным. Если по отдельности все эти события можно считать малозначительными, то связанные вместе они могут привести к очень серьезным последствиям. Прямо как в неустойчивой струе жидкости – несколько флуктуаций плотности приводят к разрушению всего потока.

Вот и я за вчерашний день заметил несколько вроде бы малоинтересных событий. Но чутье подсказывает, что есть какая-то внутренняя взаимосвязь между ними.

Клоны

Для начала обсудим новость, которая пришла из Яндекса. Якобы главный поисковик России улучшает свой алгоритм таким образом, чтобы страницы первоисточника ранжировались выше, чем страницы с копипастом. Цитата из записи в блоге Яндекса (ссылка в конце поста):

Многие вебмастеры знают, как обидно обнаружить копию своего текста, размещенную на чужом сайте, которая в результатах поиска находится выше оригинала. Чтобы честные вебмастеры расстраивались как можно реже, Яндекс старается отдавать предпочтение оригиналам. Благодаря сегодняшнему обновлению страницы, содержащие авторский контент, стали ранжироваться лучше.

Мы хотим сделать определение авторства еще точнее, поэтому если ваш оригинальный текст ранжируется хуже копии, сообщите, пожалуйста, нашей службе поддержки.

На пути к светлому поисковому будущему

Когда-то давно поисковые системы просто искали информацию, размещенную на страницах веб-сайтов, и показывали пользователям ссылки на эти страницы. Я сам помню, как в далеком 2001 году основой поисковой выдачи были куски текста, размещенного на страницах.

Но всё течёт, всё изменяется. И сегодня поисковые системы выдают не просто ссылки на кусочки текста, а целые массивы структурированной информации. Вот, например, внедрена новая фишка в Яндексе - расширенное описание в сниппете для интернет-магазинов:

yandex

Получить такое расширенное описание можно загрузив данные о товарах в Яндекс.Маркет или указав необходимую информацию в Яндекс.Вебмастер.

Уже маячит перед нами светлое будущее, когда поисковые системы не просто будут выдавать информацию, а действительно отвечать на вопрос пользователя.

«Real-Time поиск» в Яндексе

Похоже, стала понятна причина долгого отсутствия апдейтов в Яндексе. Яндексоиды шлифовали и тестировали новую технологию – «Real-Time поиск». Вот цитата из релиза компании:

Чтобы окончательно сделать из поискового индекса отражение (реального веба, прим. автора блога), мы создали и запустили новые технологии — робот «Orange Crawler» и «Real-Time поиск». Основная разработка была сделана калифорнийским отделением Яндекса — Yandex Labs в сотрудничестве с программистами московского офиса.

Новый апельсиновый робот не прокачивает все страницы интернета, а извлекает из него свежий и сочный контент. Количество страниц в интернете бесконечно, поэтому важно их обходить в определенном порядке, чтобы в первую очередь были скачаны страницы с ценной информацией.

Теперь, если я правильно понял суть послания, Яндекс будет апдейтить выдачу постоянно. Радость для дорвейщиков. Ужас для школоты, которая не сможет создавать темы про апы на форумах.

Справедливости ради стоит заметить, что ссылка на опубликованный пресс-релиз появилась в Google намного раньше, чем в Яндексе. То есть Google, на данный момент, всё равно работает быстрее.

Поиск TUT.by

Глянул сегодня на поиск TUT.by, заметил кое-что интересное.

Во-первых, выдача очень сильно изменилась за последние две недели. Многие региональные запросы перестали быть таковыми. Да и в целом переиграли многие факторы. Нужно думу думать, а некогда.

поисковые подсказки в tut.by

Во-вторых, добавили поисковые подсказки. Это когда вводишь начало запроса, а поиск, основываясь на статистике, пытается угадать запрос целиком, чтобы сэкономить пользователю время. В целом неплохая штука (см. картинку выше). Есть шанс, что эта фича немного изменит картину по популярным запросам для Беларуси. Так как подсказки берутся из общей статистики (насколько я понял), сиречь в будущем у нас будет много характерных для России запросов.

Ну не понимаю я яндексоидов

Не перестает меня удивлять Яндекс в плане поиска.

Сначала яндексоиды и лично господин Садовский утверждают, что обновления поисковой базы будут происходить чаще. Затем по пять дней нет апов выдачи.

Сначала яндексоиды утверждают, что отдел поиска никак не связан с отделом директа. Затем на живых людях тестируют выдачу без номеров у сайтов, тем самым ещё сильнее стирая различия между органик выдачей и платными объявлениями.

Сначала яндексоиды утверждают, что у них принцип: по одному запросу показывается одна страница сайта. Затем снова на живых людях тестируется гугловская фишка со сдвоенной выдачей.

Сначала яндексоиды утверждают, что сниппет берётся или из содержимого сайта или из его описания в Яндекс каталоге. Затем в Яндексе можно найти сниппеты, взятые из каталога DMOZ.

Сначала яндексоиды утверждают, что персонально за пользователями не следят. Затем людям, проверявшим в Яндексе запрос "недвижимость в Болгарии", в директе 3-4 недели показывается реклама недвижимости.

И таких примеров ещё очень и очень много. Или левая рука не знает, что делает правая. Или они полностью копируются модель Google (сознательно или нет – другой вопрос). Или за базар не отвечают.

Хотя есть ещё объяснение "техническими проблемами", которое можно использовать всегда…

Доклады с РОМИП 2009

РОМИПРОМИП… Российский семинар по Оценке Методов Информационного Поиска…

Целью семинара является создание плацдарма для проведения независимой оценки методов информационного поиска, ориентированных на работу с русскоязычной информацией, а также консолидация сообщества российских исследователей и разработчиков, занимающихся информационным поиском.

В этом году 16 сентября в Петрозаводске состоялась очная встреча седьмого цикла РОМИП. Во встрече приняло участие более 70 человек, были проведены 15 докладов и круглый стол.

Отмечу, что на нескольких предыдущих семинарах РОМИП были освещены темы определения тематичности сайта и страницы, поиска дубликатов изображения, определения региональной принадлежности сайта. И, в последствии, в течение нескольких лет они были применены к веб-поиску Яндексом и другими поисковыми системами. Когда-то я уже писал о РОМИП (сперва вышла работа "яндексоидов", а года через два в Яндексе появились регионы).

Так ли плох новый поиск от Microsoft?

Поиск называется Bing. Компания Microsoft выпустила его в стадии Beta до запланированного (по слухам) срока. И поисковик этот не так уж плох.

microsoft bing
Такую картинку показывает первой новый поисковик по запросу "bing microsoft"

Да, его база пока скудновата, но это поправимо. При нынешних мощностях и числе веб-ресурсов вопрос стоит не в том, как проиндексировать как можно больше страниц, а в том, как проиндексировать как можно больше качественных страниц. А также в том, как организовать эффективные и быстрые алгоритмы ранжирования документов.

С ранжированием видимых косяков мной замечено не было. Всё более-менее релевантно, не хуже чем у Яндекса в первые недели после введения новых алгоритмов. Местами даже лучше.

Бросаются в глаза неадекватные моменты с переколдовкой некоторых терминов и синонимической базой, но тут опять таки всё можно объяснить малознакомым русским языком. Онотоле бы им в штат, он бы порядок навёл. А заодно и Лебедева, чтобы дизайн переделал.

Подпишись на RSS