ClientCoreБлогНа сайт

A/B-тестирование в CRM-маркетинге: что тестировать, как считать и на что опираться

Когда у бренда уже миллионная база и десятки сценариев в Mindbox, вопрос «какую тему письма выбрать» перестает быть вопросом вкуса. Каждая отправка — это деньги.

Когда у бренда уже миллионная база и десятки сценариев в Mindbox, вопрос «какую тему письма выбрать» перестает быть вопросом вкуса. Каждая отправка — это деньги. И если команда выбирает варианты «на глазок» или потому, что «прошлый раз сработало», бизнес теряет выручку буквально на ровном месте. При этом большинство A/B-тестов, которые мы видим у клиентов, либо некорректные, либо не дают ответа на тот вопрос, ради которого затевались.

Самое обидное — инструмент уже есть, он встроен в платформу, его не надо допиливать. Но пользуются им так, что лучше бы не пользовались вообще: тестируют не то, считают не так, выводы делают на 200 открытиях. Вместе с Василиной Бреусенко, CRM-маркетологом ClientCore, разбираемся, как выстроить тестирование в CRM так, чтобы оно влияло на выручку, а не украшало отчет.

Зачем вообще тестировать, если «и так работает»

Главная ловушка зрелого CRM — ощущение, что система уже настроена. Welcome-цепочка крутится, брошенные корзины догоняются, реактивация уходит раз в квартал. Метрики ровные, аудитория не жалуется. Кажется, что трогать нечего.

На практике в этот момент компания обычно теряет 15–30% потенциальной выручки канала. Просто потому, что сценарии написаны два года назад, аудитория с тех пор изменилась, а офферы никто не пересматривал. Тестирование в CRM-маркетинге — единственный способ это поймать, не полагаясь на интуицию маркетолога, которому «кажется».

Без тестов любая гипотеза о росте упирается в спор «у нас так не работает» vs «а давайте попробуем». Спор бесконечный. A/B-тест закрывает его за две недели и переводит обсуждение из плоскости мнений в плоскость цифр.

В каждом проекте начинаю с аудита того, что команда тестировала за последний год. И в 8 из 10 случаев это либо тесты тем письма с разницей в одно слово, либо "проверки", где контрольной группы вообще не было. Человек думает, что у него data-driven подход, а по факту просто отправляет письма и смотрит, что вышло.
Василина Бреусенко

Василина Бреусенко

CRM-маркетолог, ClientCore

Норма
  • тестируется 2–4 гипотезы в месяц на канал
  • у каждого теста зафиксирована метрика успеха до запуска
  • результаты складываются в общую базу знаний
Red flag
  • «мы тестируем постоянно», но никто не помнит, что именно
  • решение по тесту принимается на третий день и на 500 отправках
  • победителя выбирают по open rate, а считают деньги по выручке

Что тестировать в рассылках: иерархия влияния

Если расставить элементы письма по силе влияния на выручку, картина получается контринтуитивной. Тема и прехедер двигают open rate, но почти не двигают деньги. Кнопка и верстка влияют на CTR. Реальная выручка живет в офферах, сегментах и тайминге.

Начинать a/b тест email рассылки с темы письма — это как чинить машину с замены наклейки на бампере. Технически возможно, но к скорости не имеет отношения. Логика приоритетов такая:

1. Оффер. Скидка vs подарок vs бесплатная доставка vs ранний доступ. Разница в конверсии в заказ доходит до 40–60%. 2. Сегмент и триггер. Кому и в какой момент отправляем. Одно и то же письмо на «купили 1 раз 30 дней назад» и «купили 1 раз 90 дней назад» дает разный результат на порядок. 3. Тайминг. Час отправки, день недели, интервал между касаниями в цепочке. 4. Контент и структура. Длинное письмо vs короткое, один блок vs каталог, текст vs визуал. 5. Тема и прехедер. Влияет на доходимость до контента, но не на решение купить. 6. Кнопки, CTA, микрокопирайт. Тонкая настройка для уже работающих писем.

Тестировать нужно то, у чего больше всего пространства для роста. Если у вас CTR 1%, проблема не в кнопке.

Норма
  • приоритет отдается тестам оффера и сегментации, а не теме письма
  • гипотезы ранжируются по ожидаемому влиянию на выручку
  • микрооптимизация начинается только после проверки крупных гипотез
Red flag
  • команда месяцами тестирует формулировки темы и считает это полноценным A/B-тестированием
  • оффер и тайминг не пересматривались больше года
  • выбор следующего теста продиктован тем, «что проще запустить»

Как устроен A/B-тест в Mindbox и где обычно ошибаются

В Mindbox ab тестирование живет на уровне рассылки и на уровне сценария. Для разовых кампаний — сплит внутри отправки: указываете долю аудитории на каждый вариант (обычно 50/50 для двух вариантов или 10/10/80, если основная масса идет на победителя предыдущего теста). Для триггеров — тест внутри сценария, где система сама распределяет клиентов между ветками.

Принципиальный момент: Mindbox считает значимость автоматически, но смотреть нужно не на «зеленую галочку» в интерфейсе, а на размер выборки и продолжительность теста. Платформа покажет победителя и на 1000 отправках, если разница в open rate большая. Это не значит, что результат можно переносить на всю базу.

У одного клиента команда закрыла тест за сутки: вариант B победил с разницей в open rate 4%. Через неделю повторили тот же тест — победил вариант A. Это классика. Когда выборка маленькая, вы тестируете не варианты, а случайность. И принимаете решения на основе шума.
Василина Бреусенко

Василина Бреусенко

CRM-маркетолог, ClientCore

Что важно настроить в Mindbox корректно:

  • Целевая метрика. Не open rate. Выручка на отправку или конверсия в заказ. Open rate — диагностика, а не цель.
  • Размер групп. Минимум по 5 000–10 000 человек на вариант для email, для пушей и SMS — больше. Если база меньше, копите данные на нескольких отправках.
  • Длительность. Минимум 3–5 дней после отправки, для триггеров — 2–4 недели. Поведение растягивается во времени, ранние выводы врут.
  • Один тест — одна переменная. Если меняете и тему, и оффер, и время — вы не узнаете, что сработало.
Норма
  • выборка от 5 000 на вариант
  • одна тестируемая переменная
  • решение принимается по выручке, а не по открытиям
Red flag
  • тест на 800 контактах
  • меняли «все сразу — посмотрим, что выйдет»
  • закрыли через 12 часов, потому что «и так все понятно»

Тесты идут, а выручка не растет?

Аудит CRM-маркетинга в Mindbox — найдем, где теряются деньги

🇷🇺

Статистическая значимость без формул: на пальцах

Объясню без математики, потому что в реальной работе никто не считает t-тесты вручную — это делает платформа. Но понимать, что происходит внутри, стоит.

Представьте: вы кидаете монетку 10 раз и получаете 7 орлов. Монетка нечестная? Нет. На 10 бросках такое случается просто так. Бросили 1000 раз и получили 700 орлов — тут уже явно что-то не так.

С A/B-тестами та же история. Когда видите «вариант B на 5% лучше», важен не сам факт разницы, а уверенность, что она не случайная. Эта уверенность напрямую зависит от размера выборки и от того, насколько большой эффект. Маленькая выборка плюс маленькая разница — почти наверняка шум.

Практическое правило: если Mindbox показывает значимость 95% и выше на достаточной выборке — можно принимать решение. Если 80–90% — продолжайте набирать данные или повторите тест. Ниже 80% — у вас нет результата, как бы ни хотелось его иметь.

Меня часто спрашивают: "можно ли запустить тест на 2000 человек, у нас база маленькая". Можно, но тогда нужно либо накапливать данные за несколько отправок и объединять, либо тестировать только большие изменения — другой оффер, другой механизм. Тонкие штуки типа цвета кнопки на такой выборке не поймаются никогда.
Василина Бреусенко

Василина Бреусенко

CRM-маркетолог, ClientCore

Ещe один момент — про «подсматривание». Привычка проверять тест каждые три часа и закрывать его, как только появилась разница, — это способ обмануть самого себя. Заранее зафиксируйте, на какой выборке и через сколько дней принимаете решение. И не трогайте до этого момента.

Норма
  • порог принятия решения зафиксирован до запуска теста
  • значимость проверяется по достижении нужной выборки, а не по расписанию
  • результаты с значимостью ниже 95% не внедряются без повторной проверки
Red flag
  • тест закрывается сразу, как появилась любая разница
  • «мы проверили утром — все выглядело хорошо»
  • статистическую значимость вообще не смотрят, решают по ощущениям

Что тестировать в триггерных сценариях

В разовых рассылках тест прямолинейный: две версии, две группы, результат. В триггерах сложнее, потому что клиент попадает в сценарий не одновременно с другими, а растянуто во времени.

Самое ценное, что стоит тестировать в триггерах:

  • Задержку. Брошенная корзина через 1 час vs через 4 часа vs через 24 часа. Разница в конверсии бывает кратной.
  • Количество касаний. Одно письмо vs цепочка из трех. Часто второе и третье письма дают больше выручки, чем первое.
  • Каналы. Email vs email + push vs email + SMS. Считать нужно не только конверсию, но и стоимость канала.
  • Условия входа. Кого вообще пускать в сценарий. Часто «срезание» неподходящих сегментов поднимает конверсию сильнее, чем переписывание писем.

В триггерах смотреть нужно не на разовую конверсию письма, а на накопленную выручку с клиента за период. Цепочка может «съесть» клиента, который и так бы купил, — и это плохая цепочка. А может догнать тех, кто не купил бы, — и это хорошая.

Норма
  • тестируются задержка, количество касаний и условия входа, а не только текст письма
  • оценка триггера ведется по накопленной выручке с клиента, а не по CTR одного письма
  • сценарии пересматриваются минимум раз в полгода по результатам тестов
Red flag
  • триггерные сценарии не трогают годами, потому что «работают»
  • оценка сценария — «конверсия первого письма»
  • условия входа в сценарий не менялись с момента запуска

Uplift-тестирование: следующий уровень

Когда команда освоила корректные A/B-тесты, наступает момент перехода на uplift тест в CRM. Идея простая: обычный A/B сравнивает два варианта коммуникации между собой. Uplift сравнивает коммуникацию с ее отсутствием.

Зачем? Потому что часть клиентов купила бы и без письма. И когда мы атрибутируем им выручку от рассылки, мы обманываем себя. Uplift-тест отвечает на вопрос: «Сколько мы реально дозаработали благодаря этой коммуникации?»

Механика: берем сегмент, делим на две группы. Одна получает коммуникацию, вторая — контрольная — не получает ничего. Через период считаем выручку в обеих группах. Разница — реальный эффект CRM. В Mindbox это делается через выделение контрольной группы в сегменте или в сценарии.

Первое внедрение uplift у клиента почти всегда обнуляет несколько сценариев. Команда годами считала, что реактивация приносит миллионы, а оказывается — клиенты из контрольной группы покупают почти столько же. Это больно, но это правда. И только после такой чистки CRM-канал начинает расти, потому что ресурсы переключаются на то, что действительно работает.
Василина Бреусенко

Василина Бреусенко

CRM-маркетолог, ClientCore

Норма
  • контрольная группа 5–10% от сегмента
  • uplift считается для всех значимых сценариев минимум раз в полгода
  • решения о расширении сценария принимаются по incremental revenue, а не по открытиям
Red flag
  • контрольной группы нет вообще
  • «у нас и так все понятно, зачем нам контроль»
  • атрибуция по last-click без учета органической покупки

Хотите выжать из Mindbox максимум?

Настроим систему тестов и uplift-замеров под вашу базу

🇷🇺

Как встроить тестирование в работу команды

Тесты сами себя не запустят. Без процесса все сводится к разовым подвигам энтузиастов, после которых ничего не меняется.

Минимальная инфраструктура:

1. Бэклог гипотез. Один документ, куда падают все идеи «а что если» — с приоритетом по ожидаемому эффекту и стоимости проверки. 2. Календарь тестов. Какой тест когда запускается, когда заканчивается, кто отвечает. 3. База результатов. Один файл, где собраны все проведенные тесты: гипотеза, выборка, результат, выводы, что внедрили. Через год это становится главным активом CRM-команды. 4. Ритуал разбора. Раз в месяц команда смотрит, что протестировали, что работает, какие гипотезы из этого вырастают.

Без этого тестирование — хобби маркетолога. С этим — система, которая планомерно растит выручку канала.

Не стоит сразу запускать десять тестов параллельно. Лучше выбрать две-три самые крупные гипотезы, довести до конца, зафиксировать результат — и только потом масштабировать процесс. Качество выводов важнее количества попыток.

Норма
  • бэклог гипотез существует и регулярно пополняется
  • все результаты тестов зафиксированы с выводами и статусом внедрения
  • команда проводит ежемесячный разбор итогов тестирования
Red flag
  • тесты запускаются спонтанно, без очереди и владельца
  • результаты нигде не хранятся — «мы помним»
  • одни и те же гипотезы проверяются повторно, потому что предыдущий результат потерян

Часто задаваемые вопросы

Сколько должна длиться выборка для A/B-теста в email?

Зависит от размера базы и ожидаемого эффекта. Для большинства задач — от 5 000 контактов на вариант и минимум 3–5 дней после отправки, чтобы поведение клиентов «дозрело». Если разница между вариантами небольшая, выборку и время надо увеличивать.

Можно ли тестировать одновременно несколько элементов письма?

Технически можно через мультивариантный тест, но на практике для большинства команд это лишнее. Больше переменных — больше нужной выборки и сложнее интерпретация. Лучше идти последовательно: один тест — одна гипотеза.

Чем отличается обычный A/B-тест от uplift-теста в CRM?

Обычный A/B сравнивает два варианта коммуникации между собой и отвечает на вопрос «что лучше работает». Uplift сравнивает группу с коммуникацией и группу без коммуникации, отвечая на вопрос «работает ли это в принципе». Второй вариант показывает реальный вклад CRM в выручку, а не атрибутированный.

Что делать, если база слишком маленькая для статистически значимых тестов?

Два варианта. Первый — тестировать только большие изменения: другой оффер, другая механика, другой канал. Тонкие тесты на маленькой базе бесполезны. Второй — накапливать данные за несколько отправок одного и того же теста, объединять выборку и принимать решение по совокупности.

Над проектом работали

Василина Бреусенко

Василина Бреусенко

CRM-маркетолог, ClientCore