100 самых популярных запросов в Яндексе за месяц, с 16 июня по 16 июля 2008 года

В первых числах июня Марат на своем блоге 195531.com написал, что было бы неплохо получить аналог Google Trends для русского трафика.

Если смотреть объективно, то качественно такую вещь может сделать только сам Яндекс, однако 16 июня был написан скрипт, который парсит выдачу Прямого Эфира и складывает в базу.

Запросы к прямому эфиру идут с частотой раз в минуту, поэтому за месяц в базе набралось всего 863883 записей. В принципе для самого скрипта увеличить частоту запросов не сложно. Но сейчас все это дело крутится на обычном хостинге и запрос к БД, выбирающий 100 самых популярных записей занял ни много, ни мало 41.4736 сек.

Так что в планах на будущее переезд на VPS (кстати, что посоветуете?) и увеличение количества записей хотя бы в 10 раз. Возможно это даст отслеживать запросы не за месяц, а за день. Все-таки это даст 288000 тысяч записей за сутки.

Есть и еще кое-какие планы, но об этом позже. Сейчас время самого списка 100 самых популярных запросов!

совпадениязапросы
1875одноклассники
1283в контакте
964погода
915Вконтакте
886однокласники
862mail.ru
819контакт
814знакомства
748mail
696зайцев нет
689гороскоп
683одноклассники.ru
653рамблер
621одноклассники.ру
618Работа
591сонник
577QIP
569из рук в руки
567кухни
506rambler
465мтс
461vkontakte
452мегафон
444музыка
429билайн
408карта москвы
394футбол
392www.mail.ru
387google
383www.vkontakte.ru
383vkontakte.ru
381odnoklassniki.ru
377ржд
376новости
375игры
364Википедия
364переводчик
360www.odnoklassniki.ru
346yandex
340Дом 2
337евро 2008
336icq
332фото
322почта
309odnoklassniki
303loveplanet
295сбербанк
291марафон
290auto.ru
288картинки
281прогноз погоды
280Обои
280поздравления с днем рождения
263эльдорадо
262mamba
256мой мир
249авто
247евросеть
246анекдоты
245Одноклассник
243мамба
238гисметео
231связной
231карта метро
229домодедово
228ВИДЕО
228youtube
226поздравления
226СПОРТ-ЭКСПРЕСС
224яндекс
222однаклассники
218vuku
213приколы
212аэрофлот
211погода в москве
211xuk.ru
209обои для рабочего стола
205афиша
202спорт экспресс
200санрайз
197чат
196mp3
192nokia
191техносила
189карта России
189vuku.ru
188телепрограмма
183особо опасен
182xuk
182стульчик
180iphone
180jlyjrkfccybrb
178Спорт
176gismeteo
173дом2
173маил
173майл
171Фобос
170rambler.ru
170Одноклассники ру

совпадения — количество идентичных запросов за месяц. Чем больше это значение, тем соответственно популярнее запрос.

В принципе проверка по wordstat.yandex.ru показывает, что картина похожа на реальность. 🙂

Так вот, если первым планируемым улучшением является увеличение количества запросов, то во вторую очередь я думаю прикрутить что-то вроде ручной морфологии для популярных запросов, ведь запросы «одноклассники», «однокласники» и «одноклассники.ru» — это в принципе одно и тоже.

Или делать этого не стоит? А интереснее оставить запросы именно в том виде, как их набирают пользователи?

Результаты оглашены, планы на будущее тоже. Если есть идеи или предложения буду рад выслушать в комментариях. А если хотите первыми узнать о новой версии — подписывайтесь на RSS. 🙂 Хотя точных сроков не обещаю, дел как всегда много, а времени мало.

21 комментарий для “100 самых популярных запросов в Яндексе за месяц, с 16 июня по 16 июля 2008 года”

  1. В принципе неплохо, но смысл гуглотрендов в том, чтобы определить короткосрочные тренды.
    Т.е. у них — это ежечасное представление данных по самым популярным запросам за час.

    Может быть стоит увеличить частоту запросов и, хотя бы ежедневные тренды выдавать.

  2. 195531, согласен. Это 1ый этап эксперимента. Просто при большом количестве запросов обычный хостинг боюсь не справится. 🙂 Да и как бы Яндекс по ip не забанил… 🙂

  3. На сколько я понимаю (из практики написания аська бота на обычном хостинге 🙂 ), на сервере есть 2 ограничения. На время на исполнения скрипта и на время активной загрузки процессора скриптом. Т.е. при команде sleep() жрётся первое время а не второе.
    Первое ограничение на время мне удавалось обойти set_time_limit(0); + ignore_user_abort();
    А по второму — второе не жрётся когда ты к БД обращаешься. Процес в это время спит, работает бд.
    Или просто хостинг был криво настроен. Пробовал на host-express.ru. Бот жил до 24 часов. Точнее спал, а не жил — и периодически отвечал.
    А щас пользуюсь firstvds.ru — всего 150р в месяц за vds.
    Удачи!
    Да странно, что порно в списке нет.
    Антиспам ref наверно не пускает — жалко. 🙁

  4. Юрик, вот firstvds.ru и думаю попробовать.
    Проблема даже не во времени исполнения скрипта. Меня больше пугает большое количество обращений к БД. Один запрос к яндексу == 20 инсертов в базу. Т.е. если дергать яндекс раз в секунду, то 20 записей в БД в секунду. Это конечно не очень много, но для обычного хостинга, где у меня даже к ssh доступа нет может оказаться неприятно.

  5. Уведомление: 100 самых популярных запросов в Яндексе за месяц, с 17 июля по 17 августа 2008 года

  6. Уведомление: 100 самых популярных запросов в Яндексе за месяц, с 16 августа по 16 сентября 2008 года

  7. Тоже купил хостинг в этой firstvds.ru за 149 рублей.
    Дёшево конечно, но и ресурсов они дают очень мало, получается, что обычный сайт на какой-нить джумле или другом движке грузится раз в 5 медленнее, чем на обычном виртуальном хостинге. На счёт баноустойчивости фёрствдс еще не пробовал — мощных скриптов типа этого не запускал. А вы на чем остановились по хостингу? Или забили на этот Яндекс.Прямой Эфир?

  8. Привет, zweroboy. 🙂 Да забил пока, сейчас не очень актуально.
    По поводу VDS такая штука. Когда там нужно поднять Апач + ПХП + МуСКЛ, то с ресурсами и правда может быть беда. Если же обойтись только Perl + MySQL для скрипта, то все будет полегче. 🙂

  9. Не так интересно какие люди набирают слова , (хотя и это важно) как непосредственно сами объекты поисков . То-есть неплохо объединить одинаковые по смыслу запросы , для того , что-бы лист сто отражал как таковые интересы населения . А не способы поиска , которые как праило зависят от образования , воспитания , и лексикона конкретного пользователя .

  10. Пример критериев : одноклассники , однокласники , одноклассники.ru .
    Очевидно , или по крайней мере можно с уверенностью 99% понять , что интересует сайт одноклассники .
    Из-за повторяющихся по смыслу запросов , в «лист 100» , не попадают в данной ситуации , как минимум , две темы .
    Смысловах повторов в листе давольно много . -> «100 самых популярных запросов в Яндексе за месяц» — не отражает «инересы населения» на все СТО .
    Ну а работу по формированию списка — безусловно — делать должна машина . И не понимаю чему вы улыбаетесь 🙂

  11. [quote]Пример критериев : одноклассники , однокласники , одноклассники.ru.[/quote]
    Это не критерии, это запросы. Человек, безусловно, понимает, что в данном случае ищут одно и тоже. Как автоматически объединять эти запросы в один идеи есть?

  12. Разные по написанию , но одинаковые по смыслу запросы , можно попробывать собрать с помощью тегов . В данном случае это — все возможные варианты написания названия сайта «одноклассники» : odnklas… ; одноклас… ; однокласс… ; одноклас… ру , и т.д. и Т.п. …

    С помощью этих-же тегов исключить из дальнейшего поиска сайт «одноклассники» .

    Следующий запрос — грубо говоря — Всё кроме «odnklas… ; одноклас… ; однокласс… ; одноклас… ру , и т.д. … »

    Учитывая , что часть этой рабоды — уже выполняется , самой поисковой машиной . Мы имеем достаточно высокую вероятность получит вторую строчку рейтинга запросов за месяц . Далее третью , четвёртую …

    А вообще — я понимаю — советовать всегда легко 🙂

  13. Собственно запросы давно не собираются даже в текущем виде. 🙂 И большой нужды в них у меня сейчас нет, а из-за этого и выделить какое-то время на то, чтобы это дело запустить и привести в приличный вид не получается.

Добавить комментарий

Ваш адрес email не будет опубликован.