Здравствуйте!
Перед запуском рекламной кампании принято проводить A/B-тестирование. Однако не всякий тест может считаться показательным. И первая ошибка – неверно определена репрезентативная выборка. Следствие такой ошибки – впустую потраченные деньги на запуск неэффективной рекламы.
Что такое репрезентативная выборка
С понятиями «генеральная совокупность» и «репрезентативная выборка» сталкиваются все, кто запускают A/B-тесты и хотят получить статистически значимые результаты. Ведь чаще всего провальные тесты случаются по двум причинам: маленькая выборка и недостаточный объем данных.
Для расчета репрезентативной выборки сейчас совсем не нужно знать сложные формулы и рассчитывать их вручную. Для этого есть удобные онлайн-калькуляторы (Optimizely, Mindbox, VWO) и методика SurveyMonkey.
Для работы со всеми перечисленными инструментами надо знать правила проведения тестов, оперировать основными понятиями и понимать, как работают инструменты расчета репрезентативной выборки.
Вот основные понятия, которые нужно знать для расчета выборки:
- Генеральная совокупность. Вся группа людей, мнение/действия которых для нас имеют значение. Для рекламодателей это все люди, на которых распространяются результаты A/B-теста. Это может быть аудитория ремаркетинга, подписчики в социальных сетях, покупатели в оффлайн-магазинах или даже просто мужчины в возрасте от 25 до 40 лет;
- Репрезентативная выборка. Определенный процент людей из генеральной совокупности, который будет проходить A/B-тестирование. То есть это часть нашей целевой аудитории;
- Достоверность (уровень доверия). Этот показатель характеризует вероятность того, что выборка окажется значимой для отобранных результатов. Задается в пределах 80–99%. Если достоверность ниже 80%, то таким данным нельзя доверять. Чаще всего достоверность задают на уровне 95%;
- Погрешность. Отображает уверенность в том, что полученные результаты характеризуют мнение (для контекста – поведение) генеральной совокупности. Допустимый процент ошибки в результатах. Обычно составляет от 1 до 10%. Наиболее часто используемый предел погрешности равен 5%.
Каждый из перечисленных онлайн-калькуляторов имеет свою специфику. Об этом мы расскажем ниже.
Выборка в тестах: зачем считать и что еще влияет на результаты
Перед запуском рекламной кампании принято запускать тестирование. Это позволяет определить наиболее эффективный вариант объявления. В объявлении может тестироваться любой элемент: заголовки, креативы, описания, расширения, CTA-кнопки и т. д.
Тестирование разных вариантов объявлений может проводиться для повышения кликабельности объявления, увеличения коэффициента конверсии. Однако, по данным AppSumo, значимые результаты дают только 1 из 8 тестов.
Правильное определение репрезентативной выборки для тестовых групп обеспечивает достоверные результаты по тестам. Ниже рассмотрим причины, по которым тест может не дать значимых результатов.
Недостаточно данных
Допустим, мы запустили тестирование двух вариантов объявлений с разными заголовками. Вечером получаем такие результаты:
По результатам первого дня может показаться, что текущее объявление работает более эффективно.
В этом случае у рекламодателя возникают такие вопросы:
- достаточно ли данных собрано в аналитике, чтобы делать выводы об эффективности текущего объявления;
- останавливать ли тест или продолжать эксперимент.
Нельзя делать выводы об эффективности кампании по нескольким десяткам переходов и паре кликов. Для принятия решения необходимо собрать достаточное количество аналитических данных.
Для определения размера нашей выборки воспользуемся онлайн-калькулятором Optimizely.
Проводим такие действия:
- указываем коэффициент конверсии по текущему объявлению. Допустим, 18%;
- задаем статистическую значимость на уровне 95%;
- указываем минимальное относительное изменение коэффициента конверсии, которое хотелось бы получить – 20%.
Расчеты показывают, что для получения статистически значимых данных выборка для тестируемой группы должна состоять из 1300 человек.
Неправильно поставлена гипотеза
Это еще одна распространенная причина получения непоказательных результатов тестирования.
Например, в ходе теста была выдвинута гипотеза, что новое описание в объявлении принесет больше трафика на целевую страницу и мы получим более высокую конверсию. Но в результате тестирования трех вариантов описания не было обнаружено значительной разницы.
В таких ситуациях возникает вопрос о том, как сделать тест показательным и улучшить результаты. Один из способов — заинтересовать целевую аудиторию. Для этого может быть недостаточно просто изменить описание в объявлении или заголовок. Нужны более значимые изменения. Можно поменять креатив или изменить торговое предложение (увеличить скидку, изменить цену, предложить покупателям рассрочку).
Выбрана не та метрика
Для получения значимых результатов важно выбрать только один показатель, который надо улучшить. Например, цель – повыситькоэффициент конверсии к покупке для новых посетителей. Именно с учетом этого показателя и рассчитывают выборку большинство онлайн-калькуляторов.
Однако если данных по конверсиям недостаточно, то нужно ориентироваться на другие метрики. Например, на рост CTR. В таких случаях расчет выборки можно провести с помощью онлайн-калькулятора Mindbox.
С помощью Mindbox можно определить размер выборки для 2–5 вариантов тестирования по таким показателям:
- Open Rate. Отношение открытых за период писем к общему количеству доставленных писем;
- Click Rate. Кликнутые письма (были открыты хотя бы один раз) к общему количеству доставленных писем. По сути, для рекламных объявлений это CTR;
- Conversion Rate. Конверсия в заказы. Для объявлений рассчитывается как количество конверсий к общему количеству посетителей сайта;
- Конверсия в другие целевые действия.
Размер выборки напрямую зависит от выбранного тестируемого показателя и количества тестируемых вариантов.
Например, посмотрим, какой размер выборки понадобится нам при тестировании показателя Open Rate. При таких условиях: средний Open Rate – 15%, ожидаемый прирост показателя – 30%.
Получается, размер выборки для каждого варианта объявления составляет 2 224 человека.
А вот скольким людям надо показать объявление при тестировании показателя конверсия в заказы при средней конверсии по истории 5%:
Размер выборки для каждой тестируемой группы составляет 29 827 человек.
Вывод: чем ближе к деньгам, тем более показательны результаты. Поэтому все A/B-тесты измерялись бы по Conversion Rate. Но проблема в том, что чем ниже по этой воронке продаж, тем больше людей потребуется для проведения теста. Для расширения охвата и получения достоверных данных в этом случае надо ориентироваться на повышение показателя Click Rate или Open Rate.
Как определить размер выборки
Метод SurveyMonkey
Компания SurveyMonkey предложила метод определения репрезентативной выборки с учетом предела погрешности и уровня доверия.
Сделать это можно с помощью такой таблицы:
Методика расчета репрезентативной выборки состоит из пяти этапов. Показываем, как это сделать на примере интернет-магазина электроинструментов.
Исходные данные: магазин находится в Курске и хочет запустить рекламу для привлечения новых клиентов на сайт.
Перед запуском кампания проводит A/B-тест и тестирует два объявления с разными вариантами заголовков. Выдвигается гипотеза, что второй вариант объявления понравится целевой аудитории больше и по нему будет больше кликов и конверсий.
1 этап – определяем генеральную совокупность. Интернет-магазин собрал достаточно данных о покупателях. И знает, что их целевая аудитория – это мужчины в возрасте от 25 до 70 лет, которые живут в Курске и интересуются ремонтом, строительством, обустройством дома.
Для оценки приблизительного размера целевой аудитории воспользуемся myTarget. Эта платформа предоставляет гибкие настройки таргетинга и позволяет приблизительно определить рекламный охват, который мы и примем как генеральную совокупность.
В примере мы не будем запускать кампанию через myTarget, а просто используем его для определения размера ЦА.
Заходим в профиль myTarget. Выбираем цель – «Конверсии» – «Трафик», ниже указываем URL. Слева появится прогноз аудитории за 7 дней. По мере настройки таргетинга рекламный охват будет сокращаться.
Сократим рекламный охват. Для этого указываем такие настройки:
- пол – мужчины;
- возраст – 25–70 лет;
- география – Курск.
Уже после этих настроек размер аудитории сократится до 43 000 – 144 000 человек:
Указываем интересы. Потенциальные покупатели интересуются автомобилями, ремонтными и строительными работами, благоустройством дома:
Таким образом размер нашей целевой аудитории находится в пределах 34 000 – 108 000 человек.
2. Определяем точность теста. Для получения статистически значимых результатов рекомендуется устанавливать предел погрешности в районе 1–5%, а уровень доверия – 95–99%.
Например, мы поставили гипотезу, что пользователи чаще будут кликать по второму объявлению. Уровень погрешности принимаем 1%, значит, уровень доверия составляет 99%. Это означает, что фактически 98–100% пользователям второй вариант объявления понравится больше, чем первый.
3. Определяем размер выборки с помощью таблицы. Приблизительно наша генеральная совокупность составляет 100 000 человек. Подходящая нам выборка составляет – от 383 до 8763 человек. Для получения максимально значимых данных устанавливаем уровень доверия на уровне 99%. Поэтому остановимся на 660.
- Прикидываем ожидаемую конверсию по объявлению. Средний показатель по предыдущим кампаниям составлял 12%. Поэтому принимаем CR = 12%.
- Узнаем, скольким людям надо показать наши объявления, чтобы получить статистически значимые результаты:
660/0,12=5500 пользователям
То есть выборка для одного тестовой группы составляет 5500 человек. Мы тестируем два варианта объявления. Поэтому и второе объявление (при распределении аудитории 50/50) должно увидеть 5500 пользователей.
Optimizely
Сравним, насколько размер выборки, полученный методом SurveyMonkey, будет отличаться от результатов онлайн-калькуляторов.
Заходим в онлайн-калькулятор и задаем там такие значения:
- Ожидаемую конверсию (Conversation rate). Берем средний показатель ожидаемой конверсии, учитывая предыдущий опыт. CR = 12% (как и в примере выше);
- Минимальное относительное изменение конверсии после изменения заголовка объявления. Принимаем этот показатель на уровне 14%. Поскольку максимальный показатель конверсии по предыдущим кампаниям был 13,7% ((13,7/12-1)*100%=14%);
- Уровень доверия. В предыдущем примере мы устанавливали его на уровне 99%. Для сравнения результатов также установим его на этом уровне.
Вводим все эти значения и получаем, что контрольная группа должна состоять из 5300 человек.
В результате мы получили почти такие же числа, как и методом SurveyMonkey. Только во втором расчете контрольная группа должна состоять из 5300 человек, а не 5500 человек.
Mindbox
Посмотрим, какой размер тестируемой выборки для нашего примера получится с помощью калькулятора Mindbox.
Вносим свои показатели в калькулятор:
- Тестируемый показатель – конверсия в заказы;
- Средняя конверсия по истории – 12%;
- Количество вариантов тестирования – 2;
- Ожидаемый абсолютный прирост конверсии – приблизительно 2%;
- Достоверность – 99%. Этот показатель демонстрирует, какой процент уверенности в верности результатов теста, если он показал разницу;
- Мощность – 80%. Это процент уверенности в результатах теста, если он не показал разницу.
По результатам Mindbox размер выборки для каждой тестируемой группы должен составлять 6 166 человек. Это больше, чем мы получили по методу SurveyMonkey (5500 человек в контрольной группе) или с помощью калькулятора Optimezely (5300 человек). Однако цифры вполне сопоставимы.
По настройке Mindbox отличается от Optimezely следующими моментами:
- ожидаемый прирост конверсии в Mindbox указывается в абсолютных величинах, а в Optimizely – в относительных;
- указывается показатель мощности. В Optimezely этот показатель не учитывается;
- в Optimezely можно проследить изменения только по показателю конверсии. Mindbox же позволяет получить выборку для тестов, в которых тестируются показатели Click rate и Open rate;
- в Mindbox можно посчитать выборку для 2–5 тестовых групп. Optimezely не предоставляет такой возможности.
Таким образом, на примере мы показали как тремя способами посчитать размер репрезентативной выборки для тестовых кампаний.
Основные сложности в тестах при расчете выборки
Недостаточное количество просмотров
Зачастую для получения статистически значимых результатов размер выборки должен составлять от 2000–3000 человек. И это большая проблема в том случае, если за неделю было всего несколько сотен переходов.
Один из вариантов сократить размер выборки – понизить уровень доверия в настройках онлайн-калькулятора до приемлемых величин (не ниже 80%). А если репрезентативная выборка определяется калькулятором Mindbox, то можно уменьшить еще и показатель мощности. В этом случае данные будут менее достоверными, но все еще не утратят своей статистической значимости.
Например, в Mindbox задаем уровень доверия 99% и мощность 98%. В результате размер выборки для одной тестируемой группы составляет 5030 человек:
Понижаем уровень достоверности до 85%, а мощность до 80%. Остальные данные оставляем без изменений.
В результате требуемый размер выборки уменьшился почти в 5 раз. Это очень ощутимое сокращения с учетом низкого трафика по рекламе.
Узкая тематика
Основная проблема узкой тематики заключается в том, что всего несколькими десятками ключевых фраз можно описать все запросы, по которым пользователи ищут услугу. Отсюда и низкий трафик.
Решить проблему можно так:
- понизить уровень доверия при расчете выборки. Как это работает, мы описали выше;
- не запускать тест на конверсию в заказы. Для рекламы в узкой тематике эта метрика не подходит. При небольшом количестве переходов и уровень конверсии в заказы будет очень низкий. При этом для получения статистически значимых результатов надо показать рекламу большему количеству пользователей, чем при выборе показателя Click Rate.
Например, при средней конверсии по истории 3% размер выборки составит 18 273 человека:
Оставляем тот же уровень достоверности и мощности. В показателях выбираем Click Rate. Устанавливаем средний по истории показатель и ожидаемый абсолютный прирост:
Получаем, что выборка для одной тестируемой группы составляет 2213 человек. Это все равно очень много для узкой тематики. Поэтому понижаем достоверность и мощность:
Таким образом, изменение тестируемой метрики и уменьшение показателей достоверности позволило нам сократить размер выборки с 18 273 до 1200 человек.
Рекламироваться в узкой тематике сложно, но есть способы, позволяющие увеличить трафик по объявлениям.
Низкий бюджет
В условиях ограниченного бюджета у рекламодателя нет возможности тестировать каждый заголовок, креатив или текст объявления.
Вот советы, которые помогут сэкономить бюджет:
- Сравнивайте разные объявления. На поступательное тестирование сначала заголовков, потом текстов объявлений, креативов и других элементов потребуется время и немалые бюджеты. Поэтому в условиях ограниченных средств лучше кардинально менять заголовки, тесты, креативы и сравнивать радикально разные варианты объявлений;
- Используйте системы автоматизации. Если стоит цель сэкономить, то можно создать тестовые объявления самостоятельно, а не платить деньги специалистам. Это позволит высвободить дополнительный ресурс на тестирование большей выборки. Быстро составить объявления можно с помощью систем автоматизации.
Например, для составления объявлений по ключевым словам можно воспользоваться инструментами медиапланирования. Они собирают семантику исходя из контента вашего сайта, слов конкурентов или данных счетчиков статистики. А потом на основании отобранных слов составляет объявления:
Вам остается только отредактировать их и запустить тестовые кампании.
Еще один вариант – использовать генератор объявлений из YML. Этот инструмент подходит интернет-магазинам, которые используют выгрузку товаров/услуг в XML.
Высокий бюджет
При высоком бюджете открываются дополнительные возможности: можно тестировать отдельно разные элементы объявления, запускать больше тестов, настраивать не две, а три и более тестовых групп – в этом случае размер выборки увеличивается.
Вот какой размер выборки может быть при двух тестовых группах:
А вот размер выборки при тестировании трех групп (при этом остальные настройки остаются неизменными же):
Но при высоком бюджете важно помнить об эффективности мероприятий. Нельзя допускать того, чтобы затраты превосходили ожидаемый эффект от тестирования. Дополнительные средства можно перенаправить на SEO или другие каналы привлечения клиентов.
Советы по расчету выборки
Вот несколько рекомендаций, которые помогут правильно рассчитать репрезентативную выборку и получить показательное тестирование:
- Наберитесь терпения. Для получения результатов может потребоваться несколько тысяч посещений или 2 недели. Лучше тестировать более крупные изменения, чтобы не ждать небольших улучшений.
- Будьте последовательны. Определите, кто ваша целевая аудитория, кому показывать рекламу, чтобы достигнуть поставленных целей. Неверный таргетинг израсходует ваш тестовый бюджет и результаты по тестовым группам будут не показательны.
- Помните о правилах подсчета выборки. При расчетах устанавливайте высокий уровень достоверности данных. Помните, что уменьшение этого показателя приводит к снижению значимости результатов.
До новых встреч!