100 самых популярных запросов в Яндексе за месяц, с 16 июня по 16 июля 2008 года

В первых числах июня Марат на своем блоге 195531.com написал, что было бы неплохо получить аналог Google Trends для русского трафика.

Если смотреть объективно, то качественно такую вещь может сделать только сам Яндекс, однако 16 июня был написан скрипт, который парсит выдачу Прямого Эфира и складывает в базу.

Запросы к прямому эфиру идут с частотой раз в минуту, поэтому за месяц в базе набралось всего 863883 записей. В принципе для самого скрипта увеличить частоту запросов не сложно. Но сейчас все это дело крутится на обычном хостинге и запрос к БД, выбирающий 100 самых популярных записей занял ни много, ни мало 41.4736 сек.

Так что в планах на будущее переезд на VPS (кстати, что посоветуете?) и увеличение количества записей хотя бы в 10 раз. Возможно это даст отслеживать запросы не за месяц, а за день. Все-таки это даст 288000 тысяч записей за сутки.

Есть и еще кое-какие планы, но об этом позже. Сейчас время самого списка 100 самых популярных запросов!

совпадения запросы
1875 одноклассники
1283 в контакте
964 погода
915 Вконтакте
886 однокласники
862 mail.ru
819 контакт
814 знакомства
748 mail
696 зайцев нет
689 гороскоп
683 одноклассники.ru
653 рамблер
621 одноклассники.ру
618 Работа
591 сонник
577 QIP
569 из рук в руки
567 кухни
506 rambler
465 мтс
461 vkontakte
452 мегафон
444 музыка
429 билайн
408 карта москвы
394 футбол
392 www.mail.ru
387 google
383 www.vkontakte.ru
383 vkontakte.ru
381 odnoklassniki.ru
377 ржд
376 новости
375 игры
364 Википедия
364 переводчик
360 www.odnoklassniki.ru
346 yandex
340 Дом 2
337 евро 2008
336 icq
332 фото
322 почта
309 odnoklassniki
303 loveplanet
295 сбербанк
291 марафон
290 auto.ru
288 картинки
281 прогноз погоды
280 Обои
280 поздравления с днем рождения
263 эльдорадо
262 mamba
256 мой мир
249 авто
247 евросеть
246 анекдоты
245 Одноклассник
243 мамба
238 гисметео
231 связной
231 карта метро
229 домодедово
228 ВИДЕО
228 youtube
226 поздравления
226 СПОРТ-ЭКСПРЕСС
224 яндекс
222 однаклассники
218 vuku
213 приколы
212 аэрофлот
211 погода в москве
211 xuk.ru
209 обои для рабочего стола
205 афиша
202 спорт экспресс
200 санрайз
197 чат
196 mp3
192 nokia
191 техносила
189 карта России
189 vuku.ru
188 телепрограмма
183 особо опасен
182 xuk
182 стульчик
180 iphone
180 jlyjrkfccybrb
178 Спорт
176 gismeteo
173 дом2
173 маил
173 майл
171 Фобос
170 rambler.ru
170 Одноклассники ру

совпадения — количество идентичных запросов за месяц. Чем больше это значение, тем соответственно популярнее запрос.

В принципе проверка по wordstat.yandex.ru показывает, что картина похожа на реальность. 🙂

Так вот, если первым планируемым улучшением является увеличение количества запросов, то во вторую очередь я думаю прикрутить что-то вроде ручной морфологии для популярных запросов, ведь запросы «одноклассники», «однокласники» и «одноклассники.ru» — это в принципе одно и тоже.

Или делать этого не стоит? А интереснее оставить запросы именно в том виде, как их набирают пользователи?

Результаты оглашены, планы на будущее тоже. Если есть идеи или предложения буду рад выслушать в комментариях. А если хотите первыми узнать о новой версии — подписывайтесь на RSS. 🙂 Хотя точных сроков не обещаю, дел как всегда много, а времени мало.

21 комментарий для “100 самых популярных запросов в Яндексе за месяц, с 16 июня по 16 июля 2008 года”

  1. В принципе неплохо, но смысл гуглотрендов в том, чтобы определить короткосрочные тренды.
    Т.е. у них — это ежечасное представление данных по самым популярным запросам за час.

    Может быть стоит увеличить частоту запросов и, хотя бы ежедневные тренды выдавать.

  2. 195531, согласен. Это 1ый этап эксперимента. Просто при большом количестве запросов обычный хостинг боюсь не справится. 🙂 Да и как бы Яндекс по ip не забанил… 🙂

  3. На сколько я понимаю (из практики написания аська бота на обычном хостинге 🙂 ), на сервере есть 2 ограничения. На время на исполнения скрипта и на время активной загрузки процессора скриптом. Т.е. при команде sleep() жрётся первое время а не второе.
    Первое ограничение на время мне удавалось обойти set_time_limit(0); + ignore_user_abort();
    А по второму — второе не жрётся когда ты к БД обращаешься. Процес в это время спит, работает бд.
    Или просто хостинг был криво настроен. Пробовал на host-express.ru. Бот жил до 24 часов. Точнее спал, а не жил — и периодически отвечал.
    А щас пользуюсь firstvds.ru — всего 150р в месяц за vds.
    Удачи!
    Да странно, что порно в списке нет.
    Антиспам ref наверно не пускает — жалко. 🙁

  4. Юрик, вот firstvds.ru и думаю попробовать.
    Проблема даже не во времени исполнения скрипта. Меня больше пугает большое количество обращений к БД. Один запрос к яндексу == 20 инсертов в базу. Т.е. если дергать яндекс раз в секунду, то 20 записей в БД в секунду. Это конечно не очень много, но для обычного хостинга, где у меня даже к ssh доступа нет может оказаться неприятно.

  5. Уведомление: 100 самых популярных запросов в Яндексе за месяц, с 17 июля по 17 августа 2008 года

  6. Уведомление: 100 самых популярных запросов в Яндексе за месяц, с 16 августа по 16 сентября 2008 года

  7. Тоже купил хостинг в этой firstvds.ru за 149 рублей.
    Дёшево конечно, но и ресурсов они дают очень мало, получается, что обычный сайт на какой-нить джумле или другом движке грузится раз в 5 медленнее, чем на обычном виртуальном хостинге. На счёт баноустойчивости фёрствдс еще не пробовал — мощных скриптов типа этого не запускал. А вы на чем остановились по хостингу? Или забили на этот Яндекс.Прямой Эфир?

  8. Привет, zweroboy. 🙂 Да забил пока, сейчас не очень актуально.
    По поводу VDS такая штука. Когда там нужно поднять Апач + ПХП + МуСКЛ, то с ресурсами и правда может быть беда. Если же обойтись только Perl + MySQL для скрипта, то все будет полегче. 🙂

  9. Не так интересно какие люди набирают слова , (хотя и это важно) как непосредственно сами объекты поисков . То-есть неплохо объединить одинаковые по смыслу запросы , для того , что-бы лист сто отражал как таковые интересы населения . А не способы поиска , которые как праило зависят от образования , воспитания , и лексикона конкретного пользователя .

  10. Пример критериев : одноклассники , однокласники , одноклассники.ru .
    Очевидно , или по крайней мере можно с уверенностью 99% понять , что интересует сайт одноклассники .
    Из-за повторяющихся по смыслу запросов , в «лист 100» , не попадают в данной ситуации , как минимум , две темы .
    Смысловах повторов в листе давольно много . -> «100 самых популярных запросов в Яндексе за месяц» — не отражает «инересы населения» на все СТО .
    Ну а работу по формированию списка — безусловно — делать должна машина . И не понимаю чему вы улыбаетесь 🙂

  11. [quote]Пример критериев : одноклассники , однокласники , одноклассники.ru.[/quote]
    Это не критерии, это запросы. Человек, безусловно, понимает, что в данном случае ищут одно и тоже. Как автоматически объединять эти запросы в один идеи есть?

  12. Разные по написанию , но одинаковые по смыслу запросы , можно попробывать собрать с помощью тегов . В данном случае это — все возможные варианты написания названия сайта «одноклассники» : odnklas… ; одноклас… ; однокласс… ; одноклас… ру , и т.д. и Т.п. …

    С помощью этих-же тегов исключить из дальнейшего поиска сайт «одноклассники» .

    Следующий запрос — грубо говоря — Всё кроме «odnklas… ; одноклас… ; однокласс… ; одноклас… ру , и т.д. … »

    Учитывая , что часть этой рабоды — уже выполняется , самой поисковой машиной . Мы имеем достаточно высокую вероятность получит вторую строчку рейтинга запросов за месяц . Далее третью , четвёртую …

    А вообще — я понимаю — советовать всегда легко 🙂

  13. Собственно запросы давно не собираются даже в текущем виде. 🙂 И большой нужды в них у меня сейчас нет, а из-за этого и выделить какое-то время на то, чтобы это дело запустить и привести в приличный вид не получается.

Добавить комментарий для Владимир Лапшин Отменить ответ

Ваш адрес email не будет опубликован.