В первых числах июня Марат на своем блоге 195531.com написал, что было бы неплохо получить аналог Google Trends для русского трафика.
Если смотреть объективно, то качественно такую вещь может сделать только сам Яндекс, однако 16 июня был написан скрипт, который парсит выдачу Прямого Эфира и складывает в базу.
Запросы к прямому эфиру идут с частотой раз в минуту, поэтому за месяц в базе набралось всего 863883 записей. В принципе для самого скрипта увеличить частоту запросов не сложно. Но сейчас все это дело крутится на обычном хостинге и запрос к БД, выбирающий 100 самых популярных записей занял ни много, ни мало 41.4736 сек.
Так что в планах на будущее переезд на VPS (кстати, что посоветуете?) и увеличение количества записей хотя бы в 10 раз. Возможно это даст отслеживать запросы не за месяц, а за день. Все-таки это даст 288000 тысяч записей за сутки.
Есть и еще кое-какие планы, но об этом позже. Сейчас время самого списка 100 самых популярных запросов!
совпадения | запросы |
1875 | одноклассники |
1283 | в контакте |
964 | погода |
915 | Вконтакте |
886 | однокласники |
862 | mail.ru |
819 | контакт |
814 | знакомства |
748 | |
696 | зайцев нет |
689 | гороскоп |
683 | одноклассники.ru |
653 | рамблер |
621 | одноклассники.ру |
618 | Работа |
591 | сонник |
577 | QIP |
569 | из рук в руки |
567 | кухни |
506 | rambler |
465 | мтс |
461 | vkontakte |
452 | мегафон |
444 | музыка |
429 | билайн |
408 | карта москвы |
394 | футбол |
392 | www.mail.ru |
387 | |
383 | www.vkontakte.ru |
383 | vkontakte.ru |
381 | odnoklassniki.ru |
377 | ржд |
376 | новости |
375 | игры |
364 | Википедия |
364 | переводчик |
360 | www.odnoklassniki.ru |
346 | yandex |
340 | Дом 2 |
337 | евро 2008 |
336 | icq |
332 | фото |
322 | почта |
309 | odnoklassniki |
303 | loveplanet |
295 | сбербанк |
291 | марафон |
290 | auto.ru |
288 | картинки |
281 | прогноз погоды |
280 | Обои |
280 | поздравления с днем рождения |
263 | эльдорадо |
262 | mamba |
256 | мой мир |
249 | авто |
247 | евросеть |
246 | анекдоты |
245 | Одноклассник |
243 | мамба |
238 | гисметео |
231 | связной |
231 | карта метро |
229 | домодедово |
228 | ВИДЕО |
228 | youtube |
226 | поздравления |
226 | СПОРТ-ЭКСПРЕСС |
224 | яндекс |
222 | однаклассники |
218 | vuku |
213 | приколы |
212 | аэрофлот |
211 | погода в москве |
211 | xuk.ru |
209 | обои для рабочего стола |
205 | афиша |
202 | спорт экспресс |
200 | санрайз |
197 | чат |
196 | mp3 |
192 | nokia |
191 | техносила |
189 | карта России |
189 | vuku.ru |
188 | телепрограмма |
183 | особо опасен |
182 | xuk |
182 | стульчик |
180 | iphone |
180 | jlyjrkfccybrb |
178 | Спорт |
176 | gismeteo |
173 | дом2 |
173 | маил |
173 | майл |
171 | Фобос |
170 | rambler.ru |
170 | Одноклассники ру |
совпадения — количество идентичных запросов за месяц. Чем больше это значение, тем соответственно популярнее запрос.
В принципе проверка по wordstat.yandex.ru показывает, что картина похожа на реальность. 🙂
Так вот, если первым планируемым улучшением является увеличение количества запросов, то во вторую очередь я думаю прикрутить что-то вроде ручной морфологии для популярных запросов, ведь запросы «одноклассники», «однокласники» и «одноклассники.ru» — это в принципе одно и тоже.
Или делать этого не стоит? А интереснее оставить запросы именно в том виде, как их набирают пользователи?
Результаты оглашены, планы на будущее тоже. Если есть идеи или предложения буду рад выслушать в комментариях. А если хотите первыми узнать о новой версии — подписывайтесь на RSS. 🙂 Хотя точных сроков не обещаю, дел как всегда много, а времени мало.
В принципе неплохо, но смысл гуглотрендов в том, чтобы определить короткосрочные тренды.
Т.е. у них — это ежечасное представление данных по самым популярным запросам за час.
Может быть стоит увеличить частоту запросов и, хотя бы ежедневные тренды выдавать.
195531, согласен. Это 1ый этап эксперимента. Просто при большом количестве запросов обычный хостинг боюсь не справится. 🙂 Да и как бы Яндекс по ip не забанил… 🙂
Удачи тебе, приятно видеть, что идеи воплощаются в жизнь.
Спасибо 🙂 Постараюсь доделать сервис до конца. 😉
На сколько я понимаю (из практики написания аська бота на обычном хостинге 🙂 ), на сервере есть 2 ограничения. На время на исполнения скрипта и на время активной загрузки процессора скриптом. Т.е. при команде sleep() жрётся первое время а не второе.
Первое ограничение на время мне удавалось обойти set_time_limit(0); + ignore_user_abort();
А по второму — второе не жрётся когда ты к БД обращаешься. Процес в это время спит, работает бд.
Или просто хостинг был криво настроен. Пробовал на host-express.ru. Бот жил до 24 часов. Точнее спал, а не жил — и периодически отвечал.
А щас пользуюсь firstvds.ru — всего 150р в месяц за vds.
Удачи!
Да странно, что порно в списке нет.
Антиспам ref наверно не пускает — жалко. 🙁
Юрик, вот firstvds.ru и думаю попробовать.
Проблема даже не во времени исполнения скрипта. Меня больше пугает большое количество обращений к БД. Один запрос к яндексу == 20 инсертов в базу. Т.е. если дергать яндекс раз в секунду, то 20 записей в БД в секунду. Это конечно не очень много, но для обычного хостинга, где у меня даже к ssh доступа нет может оказаться неприятно.
Уведомление: 100 самых популярных запросов в Яндексе за месяц, с 17 июля по 17 августа 2008 года
Уведомление: 100 самых популярных запросов в Яндексе за месяц, с 16 августа по 16 сентября 2008 года
Тоже купил хостинг в этой firstvds.ru за 149 рублей.
Дёшево конечно, но и ресурсов они дают очень мало, получается, что обычный сайт на какой-нить джумле или другом движке грузится раз в 5 медленнее, чем на обычном виртуальном хостинге. На счёт баноустойчивости фёрствдс еще не пробовал — мощных скриптов типа этого не запускал. А вы на чем остановились по хостингу? Или забили на этот Яндекс.Прямой Эфир?
Привет, zweroboy. 🙂 Да забил пока, сейчас не очень актуально.
По поводу VDS такая штука. Когда там нужно поднять Апач + ПХП + МуСКЛ, то с ресурсами и правда может быть беда. Если же обойтись только Perl + MySQL для скрипта, то все будет полегче. 🙂
Не так интересно какие люди набирают слова , (хотя и это важно) как непосредственно сами объекты поисков . То-есть неплохо объединить одинаковые по смыслу запросы , для того , что-бы лист сто отражал как таковые интересы населения . А не способы поиска , которые как праило зависят от образования , воспитания , и лексикона конкретного пользователя .
Филя, на основании каких критериев объединить одинаковые по смыслу запросы предлагаете? Или вручную это делать? 🙂
Пример критериев : одноклассники , однокласники , одноклассники.ru .
Очевидно , или по крайней мере можно с уверенностью 99% понять , что интересует сайт одноклассники .
Из-за повторяющихся по смыслу запросов , в «лист 100» , не попадают в данной ситуации , как минимум , две темы .
Смысловах повторов в листе давольно много . -> «100 самых популярных запросов в Яндексе за месяц» — не отражает «инересы населения» на все СТО .
Ну а работу по формированию списка — безусловно — делать должна машина . И не понимаю чему вы улыбаетесь 🙂
[quote]Пример критериев : одноклассники , однокласники , одноклассники.ru.[/quote]
Это не критерии, это запросы. Человек, безусловно, понимает, что в данном случае ищут одно и тоже. Как автоматически объединять эти запросы в один идеи есть?
Разные по написанию , но одинаковые по смыслу запросы , можно попробывать собрать с помощью тегов . В данном случае это — все возможные варианты написания названия сайта «одноклассники» : odnklas… ; одноклас… ; однокласс… ; одноклас… ру , и т.д. и Т.п. …
С помощью этих-же тегов исключить из дальнейшего поиска сайт «одноклассники» .
Следующий запрос — грубо говоря — Всё кроме «odnklas… ; одноклас… ; однокласс… ; одноклас… ру , и т.д. … »
Учитывая , что часть этой рабоды — уже выполняется , самой поисковой машиной . Мы имеем достаточно высокую вероятность получит вторую строчку рейтинга запросов за месяц . Далее третью , четвёртую …
А вообще — я понимаю — советовать всегда легко 🙂
Ну собственно , что скажете Владимир ?
Собственно запросы давно не собираются даже в текущем виде. 🙂 И большой нужды в них у меня сейчас нет, а из-за этого и выделить какое-то время на то, чтобы это дело запустить и привести в приличный вид не получается.
А регуляркой для парсинга не поделишься?
Если не сложно.
Спасибо
Веталь, да запросто:
if ($line =~ /www\.yandex\.ru\/yandsearch\?text=\S+\starget=\"_blank\">([\s\S]*)<\/a>/) {
$keyword = $1;
}
В актуальности правда не уверен. Может и поменялось уже что-то.
эта тема ещё не закрыта? а-то есть одна мысль…
Денис, в общем уже закрыта. Но если мысль стоящая, то открыть не сложно. 🙂