Gaz-v-pol ([info]gaz_v_pol) wrote,
@ 2009-04-23 16:47:00
Previous Entry  Add to memories!  Tell a Friend  Next Entry
Как в Яндексе отличить Эдуарда Лимонова от килограмма лимонов.
Вдогонку задаче по лингвистике об уровне популярности Э.В.Лимонова возник вопрос: можно ли всё-таки задать Яндексу такой запрос, чтобы получить только сообщения с разными формами фамилии господина Лимонова, но не про кексы из лимонов и не про BWM за 5 лимонов.

Ответ положительный, вот правильный запрос.



(12 comments) - (Post a new comment)


[info]yanaelis
2009-04-23 01:45 pm UTC (link)
эх:) мы такими запросами каждый день на работе занимаемся...
а Гугл, гад, капитализацию не различает! :)

(Reply to this) (Thread)


[info]gaz_v_pol
2009-04-23 08:24 pm UTC (link)
А где ты работаешь, [info]yanaelis ?

Если ты или кто-то у тебя на работе разбирается в языках запросов поисковых систем, можно попросить тебя помочь, пожалуйста? Вышеописанный запрос является всё-таки извращением, хотелось бы как-то научиться использовать "!" (искать с большой буквы) и "!!" (искать все формы данного конкретного слова) вместе. Я попробовал варианты:

!(!!Лимонов)
!!(!Лимонов)
!!!Лимонов
! !!Лимонов
!! !Лимонов

Ни один из них не даёт результата (в поиске на первой странице находятся ссылки на сообщения, в которых слово "лимонов" написано с маленькой буквы).

Не подскажешь, как правильно задать такой вопрос Яндексу?

(Reply to this) (Parent)(Thread)


[info]yanaelis
2009-04-24 07:14 am UTC (link)
Я работаю в ABBYY.
Знаешь, сама про Яндекс тебе не подскажу (дело в том, что, когда я начинала работать, он не индексировал западные сайты, и я полностью перешла на Google. С тех пор яндекс исправился, но привычка уже укоренилась:)). Но у меня есть знакомый, который в Яндексе работает - я его спрошу.

(Reply to this) (Parent)(Thread)


[info]liveuser
2009-04-24 09:39 am UTC (link)
Эх, да что они там в Яндексе знают о языке запросов (ну кроме Садовского разве что).

(Reply to this) (Parent)(Thread)


[info]yanaelis
2009-04-24 12:59 pm UTC (link)
Хе:) Яндекс, похоже, тоже не хранит информации о
регистре:)

Попробуй запрос:
((!лимонов) | (!лимонова) | (!лимонову) | (!лимонове) | (!лимоновым) | (!лимоновы)) ~~ !лимон ~~ !лимонов

Получается то же самое, что и у тебя в выдаче.

(Reply to this) (Parent)


[info]matholimp
2009-04-23 06:51 pm UTC (link)
Сходите на форум http://kubok.yandex.ru . Там спецы просветят на любой случай.

(Reply to this) (Thread)


[info]liveuser
2009-04-24 09:38 am UTC (link)
Закрыт форум, там уже не спросить, но направление иправильное.
А главное, эта ссылка вызывает доброго духа запросов Яндекса :-)

(Reply to this) (Parent)


[info]liveuser
2009-04-24 09:40 am UTC (link)
> вот правильный запрос.
Фуууу.

'(!Лимонов)' - все этим скобки вокруг слова лишние.
'~~ !лимон' - лишнее, вы ведь перед этим указали допустимые формы.
'!Лимонов... ~~ !лимонов' - ахха, а теперь попробуйте найти в своей выдаче форму "Лимонов". Нету, самми исключили.
'~~' - этим вы исключаете документы, в которых одновременно есть и Лимонов, и "лимон".

А теперь внимание - действительно правильный запрос (вроде ничего не напутал):

!!Лимонов ~/+0 (!лимонов ~/+0 !Лимонов)

В порядке хелпа:
http://help.yandex.ru/search/
http://help.yandex.ru/search/?id=481939
http://community.livejournal.com/kubok/45852.html (местами устарело)
Ну и базовые представления о логике

(Reply to this) (Thread)


[info]gaz_v_pol
2009-04-24 01:03 pm UTC (link)
Ого! Изящно Вы, уважаемый коллега, выразились... Не всё понятно в Вашем запросе, спасибо за науку, буду разбираться...

Однако ж погодите, и на Ваш запрос находится:

Лимонов в Шотландии завались - просто-таки оранжереи до горизонта</>

Аромата е свеж, плодово-цветен - тропически цитруси, папая, лимонова кора, ванилия и мускус

Если бы старина Вуди вышел бы сейчас из лимоновых зарослей и вложил бы в мою руку свой "Смит энд Уэссон"


Впрочем, наверное, таких записей не очень много, и они погоды не делают.

Но тогда совсем непонятно, почему на Ваш запрос находится втрое больше записей, чем на мой. Не может же быть, что только из-за тех блоггеров, которые пишут фамилию Лимонова с маленькой буквы?

К слову, советую добавлять в конце запроса &numdoc=100 (это удобно, чтобы сразу увидеть, насколько запрос выдал то что надо)

(Reply to this) (Parent)(Thread)


[info]liveuser
2009-04-24 02:44 pm UTC (link)
> Однако ж погодите, и на Ваш запрос находится...

Напутал все-таки, да.

Как оказалось, оно там все гораздо проще устроено. Запрос на заглавную букву не срабатывает, если слово первое в запросе (что, в общем, баг - видимо, тянется со времен примерно двухлетней давности, когда Яндекс учитывал заглавные буквы в запросе именно так) - т.е. '!!Лимонов мякоть' - найдет в т.ч. мякоть лимонов, а вот 'мякоть !!Лимонов' - уже только мякоть Лимонов, с заглавной буквы.

Соответственно, нужно всего лишь сделать нужное слово не первым в запросе. Два классических способа:
а) (ч9ар4ва98ор9ч7а4а | !!Лимонов)
б) лимонов /0 !!Лимонов

> Но тогда совсем непонятно, почему на Ваш запрос находится втрое больше записей, чем на мой.
' ~~ !лимонов' - если слово начинается со строчной буквы, регистр не учитывается, т.е. вы исключили и "лимонов", и "Лимонов".

В итоге вы искали все страницы, где написано: "Лимонова", "Лимонову", "Лимонове", "Лимоновым", "Лимоновы" (все с заглавной буквы, поскольку "нерабочую" первую позицию в запросе героически занял аннигилированный "Лимонов"), но при этом на странице не должно быть слов "лимон", "Лимон", "лимонов", "Лимонов".

(Reply to this) (Parent)(Thread)


[info]gaz_v_pol
2009-04-24 06:36 pm UTC (link)
Слушайте, я уже окончательно с ума схожу. Такой поиск отсекает сообщения, где написано про политика, но с маленькой буквы вроде http://moo-nbp.livejournal.com/783620.html?thread=4043268, правильно? Но ведь Вы только что в предыдущем комментарии убедительно показали, что таковых не очень мало.

Спрашивается, что же делать? Можно ли задать Яндексу такой поиск, который бы нашёл упоминания про политика Лимонова (написанные и с большой и с маленькой буквы), и не нашёл бы упоминания про фрукт лимон (также написанные и с большой, и с маленькой буквы) ?

Ещё предлагаю для единообразия добавлять &ft=all (искать по всем блогам и форумам)

(Reply to this) (Parent)(Thread)


[info]liveuser
2009-04-24 07:29 pm UTC (link)
> Можно ли задать Яндексу такой поиск, который бы нашёл упоминания про политика Лимонова (написанные и с большой и с маленькой буквы), и не нашёл бы упоминания про фрукт лимон (также написанные и с большой, и с маленькой буквы)?

В общем виде - нет, конечно. Слово "лимонов" в "кора лимонов" и "эдуард лимонов" для Яндекса идентичны (равно как и "Лимонов много уродилось" и "Лимонов, превед"), так что дальше начинается вечный поиск баланса между полнотой и качеством.

Можно, конечно, повлиять на релевантность. Скажем, выдавать "лимонов" с маленькой буквы, только если где-то на странице в пределах пяти предложений написано "политик", "писатель", "эдуард", "эдик" и/или не выдавать, если на странице есть любая форма слов "лимон", "лимоновый", "кора", "аромат" или что там еще.

Типа такого получается (для наглядности "Лимонов" с большой буквы убираем из выдачи):
(((!!лимонов ~/+0 !!Лимонов) ~~ (!!лимон | !!лимоновый | !!кора | !!аромат)) | ((!!лимонов ~/+0 !!Лимонов) &&/5 (политик | писатель | эдуард | эдик | эдичка)))

Ну а дальше уже смотреть-подкручивать. Впрочем, наверняка это все плюс-минус пара процентов. В реальной жизни проще забить или вручную почистить.

ЗЫ. Можно еще попробовать поискать синтаксический/семантический модуль, который сможет хотя бы самые простые случаи разобрать, но это уже совсем другая область, с которой я знаком весьма поверхностно.

(Reply to this) (Parent)


(12 comments) - (Post a new comment)

Create an Account
Forgot your login or password?
Login w/ OpenID
English • Español • Deutsch • Русский…