Стоит ли верить SpyLOG’у?

Опубликовано: 14.11.2008, 09:31 Автор: Николай Двас Рубрики: мнения
Стоит ли верить SpyLOG’у? В Рунете не так много сервисов статистики. При этом каждый из них обладает своими особенностями, достойными изучения. Так, например, существует мнение, что статистика SpyLOG’a в той своей части, которая касается частоты поисковых запросов, недостаточно точна.

Прежде всего, следует отметить, что статистика запросов, например, за октябрь выглядит более чем экстравагантно: на первом месте с почти полуторакратным отрывом от ближайшего преследователя находится запрос «переводчик». Еще в сентябре он был пятьдесят вторым по популярности — в октябре, если верить трендам Спайлога, он стал первым. Понятно, что такие данные не вызывают доверия.


Репрезентативность без порно падает


Посчитать частоту поисковых запросов действительно сложно, равно как и количество пользователей, сделавших эти запросы. Борис Овчинников, Business Intelligence Director компании SUP, отмечает, что хотя из-за смещения и неслучайности выборки никакая система веб-статистики не является репрезентативной, в действительности приходится говорить о том, что разные системы репрезентативны в разной степени. Более того, различные статистики одной и той же системы могут обладать разным качеством и надежностью. По утверждению Бориса Овчинникова, есть статистики, где присутствие или отсутствие пусть даже и очень крупного сайта на результат влияет несущественно. К таким относится, например, статистика по времени суток, распределение аудитории по городам, статистика по браузерам. А, например, на статистику поисковых запросов даже один сайт может повлиять очень сильно. Соответственно, причиной проблем SpyLOG’a может являться недостаточный охват Рунета, следовательно, увеличенный вес отдельного сайта, «тянущего» вслед за собой соответствующий запрос.


Помимо малого охвата, некоторые дополнительные проблемы SpyLOG создает себе сам. Как признался аналитик компании Игорь Селицкий, отфильтровываются названия сайтов, являющиеся брендами (за исключением омонимичных нарицательным), а также порносайты и сайты с пиратским ПО. Фильтр всегда привносит искажение в смежную статистику, например, в статистику поисковых систем. Так, например, в Google порнографию ищут относительно чаще, чем в «Яндексе», значит, отбрасывая порнографию, SpyLOG отнимает у Google непропорционально больше, чем у «Яндекса». Однако фильтрация — лишь частичное объяснение. Нефильтрованый TOP-50, хоть и отличается от фильтрованного, однако «порно» в нем в два раза проигрывает слову «переводчик» — сомнительное распределение интересов. Зато после дефильтрации в TOP-5 попали запросы «связной», «МТС», «евросеть». Нетрудно понять, на каких сайтах установлены счетчики SpyLOG’a, а на каких — нет.


Информационные запросы — спасение SpyLOG’a?


При всей плачевности ситуации у SpyLOG’a есть шансы ее выровнять. Во-первых, основные проколы касаются навигационных запросов, а не информационных. Навигационные запросы считать объективно труднее, чем информационные, потому что тут эффект каждого тематического сайта слишком велик. Соответственно, составляя рейтинг количества запросов по малому числу данных, возможно, имеет смысл говорить только об информационных. Нефильтрованный TOP-50, если оставить в нем только информационные запросы, не слишком плох. Кроме того, для увеличения репрезентативности так или иначе следует прекратить фильтровать запросы. Хотим мы того или нет — порнография в Интернете была, есть, скорее всего будет, причем на ведущих по популярности позиция — непонятно зачем закрывать на это глаза. В-третьих, выборку сайтов надо увеличивать, и бесплатность — шаг в этом направлении. И, наконец, хотя это и сложно — возможно, для коррекции всех вышеприведенных эффектов имеет смысл производить взвешивание выборки. Правда, вопрос выбора весовых коэффициентов — очень тонкий, и неверно выбранный вес может сыграть еще худшую роль, чем фильтрация.


Комментарии
adminpunsh
adminpunsh
14.11.2008, 09:32 это спам!
-2 голоса
Лично - давно не юзаю
skedrov
skedrov
14.11.2008, 20:29 это спам!
0 голосов
1) Речь идет не о статистике спайлог, а о проекте тренды.
2) Проект существует в бете. Это значит, что в него продолжают вноситься изменения, в том числе в результате обсуждений представляемых данных.
3) Понять, на каких сайтах стоит спайлог нетрудно и без поисковых запросов. Для этого существует рейтинг сайтов. Кроме того, счетчик на страницах сайтов может увидеть любой желающий.
4) Фильтрация порно запросов не приводит к занижению гугла, так как в отчете по поисоквым фразам не строятся распределения по поисковым системам. А в отчете по поисковым системам не используется фильтрация :)
5) У спайлога совсем не плачевная ситуация, раз он может запускать новые проекты :))



iselitsky
iselitsky
15.11.2008, 00:40 это спам!
0 голосов
Николай Двас, откуда вы знаете кто написал указанный вами комментарий?
Думаю источники информации стоит уточнять, ведь в блоге blog.lexa.ru может запосить любой желащий. А в таком случае статью сочтут уткой, ни мне, ни Вам(на сколько я думаю) это не будет приятно.

Кстати, неплохо бы было исправить небольшой ляп:
"Зато после фильтрации в TOP-5 попали запросы «связной», «МТС», «евросеть»."
Стоит заменить на что-то вроде "Зато после снятия фильтрации..."
Алексей в блоге как раз привёл топ с фильтрацией, на в интерфейсе трендов, если посмотреть повнимательнее сейчас он без БЕЗ фильтрации.
dvas
dvas
15.11.2008, 19:51 это спам!
0 голосов
Прошу прощения, там, конечно же, надо было писать "после дефильтрации". Поправим.

Добавьте комментарий
Для размещения комментария необходима регистрация или авторизация:
 пользователь:   
 запись OpenID: 


Заработай деньги
на своём сайте!
Новый сервис монетизации СМИ и блогов.
Приглашаем сайты к бета-тестированию →
Новости СМИ2

ТЕМА НЕДЕЛИ


Rambler's Top100