Что такое выборка Google Analytics и как ее избежать

Хола, котаны! Показатели Google Analytics отражают информацию о производительности сайта и поведении привлеченных пользователей. Однако есть проблема, из-за которой аналитика бывает некорректной. Речь о выборке данных. В статье мы расскажем, как выборка сказывается на отчетах и поделимся способами, которые помогут избежать неточностей. Присаживайтесь поудобнее и читайте!

Читать в полной версии

Что такое выборка в Google Analytics


Представьте сумку с тысячей шариков, и нужно узнать, сколько из них красных. Вместо того, чтобы считать шарики, вы достаете десяток из сумки наугад и проверяете, сколько из них красных.Приблизительно так работает выборка в Google Analytics.
В статистическом анализе выборка означает взятие фрагмента набора данных и анализ на предмет тенденций или для проверки гипотез.

Поскольку Google Analytics популярный инструмент для аналитики, он должен быстро обрабатывать данные. Чтобы получить хорошие скорость и точность, Google случайным образом отбирает часть данных о трафике.



Google работает с меньшей и управляемой выборкой, но при этом дает аналогичные результаты.
Но если результаты такие же, почему бы не работать с выборочными данными? Зачем беспокоиться о получении данных без выборки?


Почему выборка иногда скрывает информацию 


Есть 2 сценария, при которых расчеты бывают ошибочными:
             В обоих случаях образцы неполные. Проблема связана с выборкой, которая приводит к неуверенности в точности отчетов. 

Предположим, вы запускаете две кампании — А и Б. У кампании А коэффициент конверсии 10,5%, а кампании B — 8,3%. На первый взгляд результаты очевидны — кампания A — лидирует. Однако анализируемая выборка бывает недостаточно большой, чтобы оценить результат, и между кампаниями нет четкой разницы.

Чтобы данные были точными, необходимо получить информацию без выборки. Но прежде чем мы покажем некоторые обходные пути, давайте посмотрим, как работает выборка в Google Analytics.


Как работает выборка в Google Analytics


Вы можете сразу определить, произведена ли выборка данных, посмотрев на значок щита в верхней части отчета.

Зеленый означает, что в отчете вся информация.

Желтый говорит, что отражаются выборочные данные. Если навести указатель мыши на желтый значок щита, вы увидите сообщение: «Отчет основан на % сеансов». Он показывает размер выборки.


Чтобы настроить размер выборки, кликните на раскрывающееся меню и переключитесь между «Быстрый ответ» и «Повышенная точность». 

Если набрать «Быстрый ответ», Google Analytics возьмет меньшую выборку из набора данных для создания отчетов. Так вы получите информацию быстрее.

«Повышенная точность» означает, что отчет создан с максимально возможным размером выборки.


Когда используются образцы данных Google Analytics


Отчеты по умолчанию

Для создания отчетов Google Analytics сначала собирает необработанные данные в таблицах посещений. Затем Гугл объединяет информацию и сохраняет в стандартных отчетах. Так Google Analytics быстро извлекает данные без выборки. Есть пять типов отчетов по умолчанию:
      Отчеты по умолчанию полные.

Специальные отчеты

Иногда приходится менять отчеты по умолчанию, чтобы получить больше информации. Например, добавить вторичный показатель, новый фильтр, новый сегмент или даже создать отчет. Каждый раз, когда происходит настройка, Google Analytics сначала проверяет отчет по умолчанию, чтобы узнать, доступны ли запрашиваемые показатели.

Если соответствующие данные недоступны, Google Analytics проверит сеансы в таблицах посещений. Если сеансов слишком много, Google Analytics произведет выборку. 

Однако создание специальных или настраиваемых отчетов не всегда запускает выборку. Для этого предусмотрен конкретный порог.

Пороги

Google Analytics выбирает отчеты на основе количества сеансов. У каждой версии GA ограничение на их количество.

В Universal Analytics выборка начинается, когда в специальных отчетах 500000 сеансов на уровне ресурса для выбранного диапазона дат.

Использование Google Analytics 360 не спасет от выборки, хотя и увеличивает порог. Вам не придется беспокоиться о выборке, если отчеты не охватят 1000000 сеансов для выбранного диапазона дат.


Пределы запросов

У Google Analytics ограничение на количество запросов в один миллион строк для отчета независимо от диапазона дат. Вот почему, когда отчет превышает этот порог, Гугл автоматически объединяет лишние строки в одну, под названием «Другие».

Мощность

«Другие» записи — это результат измерений с высокой мощностью. Количество элементов — это количество значений, которые содержат одно измерение. Например, у параметра «Мобильный» в Google Analytics только два значения — Да или Нет, что означает, что его количество элементов равно двум.

Существуют ограничения мощности:
         Когда лимит превышается, Google Analytics группирует лишние данные в «Другие». Измерения с высокой мощностью — измерения, включающие несколько уникальных значений — скорее всего, выйдут за черту. 
Например, параметр "Страница" может содержать несколько значений в зависимости от URL-адресов на сайте.

Если в отчете есть параметр высокой мощности, он может потерять важные данные в разделе «Другие», и вы не узнаете об этом, если не получите необработанные данные.

Прочие отчеты

Аналогично специальным отчетам, отчеты по многоканальным последовательностям будут выбраны, когда вы внесете в отчет изменения. Например, добавление нового сегмента, новой метрики или изменение периода ретроспективного анализа. Обратите внимание, что при настройке Google Analytics вернет максимум 1000000 конверсий.

Поскольку GA создает отчеты с потоковой визуализацией на основе максимум 100000 сеансов (для выбранного диапазона дат), они точнее, чем другие отчеты.


Выборка данных в Google Analytics 4


В Google Analytics 4 отчеты по умолчанию не отбираются. Можно добавить дополнительные параметры, сегменты или фильтры. Отчеты останутся полными.


Однако выборка может происходить при создании расширенного анализа: когортного, исследования, перекрытия сегментов, анализа воронки и т.д.

Если у вас 10000000+ строк и создаваемый отчет не является дубликатом отчета по умолчанию, сработает выборка.


5 обходных путей для выборки в Google Analytics


1. Используйте отчеты по умолчанию или упростите собственные

В отчетах по умолчанию содержится много данных, и у них нет выборки. Поэтому, если не нужны специальные отчеты, используйте отчеты по умолчанию.

Если меняете отчеты, упростите запрос, чтобы избежать выборки. Например, вместо одновременного добавления нескольких измерений сначала удалите ненужные.

2. Измените диапазон дат

Еще один и способ избежать выборки — сократить диапазон дат. Например, вместо того, чтобы смотреть на 6-месячный период (или всякий раз, когда отчет достигает порога в 500000 сеансов), посмотрите на 2-месячный период.


3. Используйте Google Analytics 360

В платной Google Аналитике нет выборки, если в ней меньше 100 миллионов сеансов.

Если вы достигли предела, чтобы обойти выборку:
       4. Экспортируйте данные в Google Таблицы

Google Analytics API позволяет вручную загружать данные в Google Таблицы. Попытайтесь экспортировать информацию в короткие сроки, а затем собрать и агрегировать ее в электронной таблице.

Однако на то, чтобы объединить данные, нужно много времени. Что еще хуже, скопируете неправильные данные в неправильные ячейки.


Подведем итоги


Для многих выборка в Google Analytics — не проблема.
Несмотря на то, что при выборке учитывается только часть информации, ее результаты достаточно точные.

Вы можете принимать обоснованные решения о сайте с помощью ускоренного анализа Google Analytics. Иногда лучше использовать аналитику без выборки. Если у вас немного показателей, например в отчетах о чистой прибыли: конверсии и цели, придется избежать выборки и изучить всю информацию.