Планы экспериментов
Классификация экспериментальных дизайнов
Итак, цель причинных исследований - выявить результат (выраженный значениями зависимых переменных) тестового воздействия (выраженного значениями независимых переменных), очистив его от влияния помех (выраженных значениями внешних переменных). Для достижения этой цели могут применяться различные планы экспериментов.
Рассмотрим пять типов таких планов. Первые четыре ориентированы прежде всего на исключение влияния тех или иных внешних переменных на результат замера. Планы пятого типа применяются, когда само тестовое воздействие описывается не одной, а несколькими независимыми переменными, и основная проблема - подобрать наилучшее сочетание их значений.
1. Предэкспериментальные планы (Preexperimental designs). При использовании предэкспериментальных планов исследователь имеет возможность набирать объекты, по отношению к которым производятся запланированные действия, и проконтролировать момент, когда то или иное действие проводится по отношению к тому или иному объекту, но при этом набор объектов тестирования осуществляется по выбору исследователя, а не путем случайного отбора объектов тестирования. Поэтому все эти планы не защищают от смещения отбора.
Перечислим эти планы.
Одномоментные планы (One-Shot Study). Это планы типа:
X О1
Отбор объектов тестирования исследователь делает произвольно. Поэтому результат измерения может объясняться не только воздействием X, но и неконтролируемыми внешними переменными. Соответственно исследования по этому плану можно считать скорее поисковыми, нежели причинными.
Претест-посттест планы с одной группой. Вот "формула" этих планов:
О1 X О2
Эффект воздействиях выражается формулой (О2 - О1). Однако, поскольку контрольная группа при таком плане отсутствует, валидность остается под вопросом из-за возможного влияния большого числа неконтролируемых помех.
Планы статических групп (Static Group). Эти планы выражаются "формулой"
X О1
О2
Первая группа объектов тестирования называется экспериментальной (EG), а вторая - контрольной (CG).
Эффект тестового воздействия X выражается формулой (О1 - О2). Недостаток плана - чувствительность к смещению отбора (SB). Действительно, при его использовании невозможно проверить, существенны ли различия между экспериментальной и контрольной группами.
2. Истинно экспериментальные планы. При использовании истинно экспериментальных планов исследователь тоже имеет возможность набирать объекты, в отношении которых производятся запланированные действия, и контролировать момент, когда осуществляется то или иное действие по отношению к тому или иному объекту. Но в отличие от предэкспериментальных планов отбор объектов тестирования осуществляется им с использованием случайного отбора - рандомизации.
Рандомизация (Randomization) - это отбор и распределение объектов тестирования по группам с использованием последовательности случайных чисел, благодаря чему значения внешних переменных в группах становятся равными или близкими.
Эффект рандомизации сказывается лишь при достаточно большом числе отбираемых объектов тестирования. Чтобы убедиться в том, что объекты "перемешались" в достаточной степени, обычно сравнивают между собой средние значения внешних переменных в отобранных путем рандомизации группах.
Рассмотрим варианты истинно экспериментальных планов.
Посттест планы с контрольной группой (Posttest Only Control Group Design). "Формула" этих планов такова:
R X О1
R О2
Первая группа объектов тестирования, напомним, называется экспериментальной (EG), а вторая - контрольной (CG).
Эффект воздействиях определяется разностью (O1 - О2).
Такой план снимает проблему главного и интерактивного тест-эффекта, поскольку при его использовании отсутствует первый замер. В то же время план не снимает проблем, связанных с двумя другими помехами: смещением отбора (SB) и смертностью (МО). Первое, так как тут негласно предполагается, что перед отбором мы хорошо перемешали объекты и потому до тестового воздействия различия между группами отсутствовали. Проверить же это не представляется возможным. Второе, так как неизвестно, похожи ли между собой представители экспериментальной и контрольной групп, выбывшие в ходе эксперимента.
Несмотря на эти недостатки, данная разновидность планов наиболее популярна в маркетинге благодаря простоте организации и относительной дешевизне. Погрешности же стараются преодолеть путем аккуратной разработки процедур отбора.
Претест-посттест планы с контрольной группой (Pretest-Posttest Control group Design). При использовании этих планов тоже формируются экспериментальная и контрольная группы. "Формула" этих планов такова.
R О1 X О2
R О3 О4
Эффект воздействиях выражается формулой (О2 - О1) - (О4 - О3). Эти планы в отличие от предыдущих, позволяют контролировать все виды помех, кроме одного - интерактивного тест-эффекта (IT), т.е. эффекта подготовленности объектов тестирования к восприятию воздействиях благодаря предварительному замеру О1.
Например, невозможно понять, почему представители экспериментальной группы чаще выражают предпочтение по отношению к интересующему нас товару: потому ли, что им перед этим показали его рекламу, или потому, что они еще при первом интервьюировании обратили внимание, что в предложенном им списке товаров есть такой, о котором они ничего не знают, но любопытно было бы узнать. Понятно, что если верно второе предположение, то люди, которых предварительно не анкетировали, отнесутся к той же рекламе совершенно равнодушно, просто не обратят на нее внимания.
Покажем на примере этого плана, как принято анализировать, какие помехи планом контролируются, а какие - нет.
Обозначим эффект воздействия X, который мы и хотим определить, через ТЕ. Запишем, как складываются разности (О2 - O1) и (О4 - О3) из воздействий разных эффектов, напомнив предварительно смысл входящих в выражения помех:
- o история (Н) - когда за время эксперимента что-то происходит во внешней среде;
- o созревание (М) - не зависящее от эксперимента совершенствование объектов тестирования;
- o главный тест-эффект (МТ) - когда первый замер смещает результаты второго;
- o интерактивный тест-эффект (IT) - когда человек, которому задавали вопросы, по-другому воспринимает само воздействие;
- o инструментальная погрешность (I) - когда меняется анкета, интервьюеры;
- o статистическая регрессия (SR) - когда смещаются к центру крайние оценки;
- o смертность (МО) - когда между замерами выбывают некоторые объекты тестирования.
Заметим, что смещение отбора (SB) в приводимых ниже выражениях отсутствует: сходство состава экспериментальной и контрольной групп по предположению обеспечивается случайным отбором объектов тестирования R.
Итак, имеем:
Второе из приведенных выше выражений отличается от первого только отсутствием эффекта воздействия (ТЕ) и интерактивного тест-эффекта (IT). Вычитая второе равенство из первого, получим:
Итак, данный план позволяет "справиться" со всеми помехами, но не позволяет отличить эффект тестового воздействия от интерактивного тест-эффекта.
Какой же вывод следует из нашего рассмотрения истинно экспериментальных планов? Каждый из них, даже последний - наиболее сложный и дорогой из всех рассмотренных нами, не лишен недостатков.
3. Квазиэкспериментальные дизайны. Эти планы используются, когда мы не можем не только случайным образом отбирать объекты тестирования, но и контролировать, какие именно объекты тестирования подвергаются тестовому воздействию. Организационно они обычно проще и дешевле истинно экспериментальных.
План временных серий (Time Series Design). Формула этого плана может иметь такой вид:
По такой схеме осуществляется, например, замер эффективности уже не "лабораторной", а широкой рекламной кампании. Формируется исследовательская панель, у представителей которой периодически замеряется объем покупки определенного товара. Одновременно идет рекламная кампания этого товара. Усредненная по всем членам панели динамика объема его покупок и позволяет судить об эффективности рекламной кампании, несмотря на то, что узнать, когда именно каждый из участников панели встретит рекламу товара и встретит ли он ее вообще, не представляется возможным. Основной недостаток такого плана исследований - чувствительность к истории. Ведь не исключено, что этот товар просто начинает нравиться все большему и большему числу покупателей, и рекламная кампания тут не причем.
План множественных временных серий (Multiple Time Series Design). Этот план компенсирует влияние истории и выражается, например, формулой
Продолжая пример с оценкой эффективности рекламной кампании, такой план в отличие от предыдущего означает, что рекламная кампания в некоторых городах проводится, а в некоторых - нет. Другой вариант - адресная реклама через кабельные телевизионные сети, о которой говорилось выше.
Конечно, квазиэкспериментальные планы не лишены недостатков. Но, во-первых, нередко это единственное, что можно сделать, а во-вторых, возможность ошибок еще не означает их наличия.
4. Экспериментальные планы, основанные на принципе выравнивания. Выравнивание (Matching) - это иной, нежели рандомизация, метод элиминирования внешних переменных. Он состоит в разделении совокупности объектов тестирования на классы со схожими значениями внешних переменных и в последующем отборе в каждую группу требуемого числа объектов нужного типа. Соответственно он применим лишь тогда, когда известно не только, какие внешние переменные важны, но и какие значения они принимают на каждом объекте тестирования.
Недостаток этого метода связан с тем, что по всем параметрам выровнять невозможно. Если же выравнивание произвели не по тем переменным, по которым нужно, вся работа становится бесполезной.
Приведем лишь два типа планов.
Рандомизированный блочный план (Randomized Block Design). Этот план позволяет контролировать только одну внешнюю переменную, причем ее значение на каждом объекте тестирования должно быть априори известно. Объекты тестирования разбиваются на группы в соответствии со значением внешней переменной. В каждой группе делается случайный отбор подгрупп, каждой из которых назначается один из вариантов тестового воздействия. В результате появляется возможность сравнить между собой эффективность разных вариантов тестового воздействия при каждом из значений внешней переменной.
Приведем пример из области тестирования телевизионной рекламы. Оценивалось влияние трех вариантов рекламы - серьезной (А), забавной (В) и смешной (С) - на степень приверженности покупателей магазину. Респонденты были разбиты на четыре группы: не пользующиеся магазином (1), мало пользующиеся магазином (2), средне пользующиеся магазином (3) и много пользующиеся магазином (4). В каждой из этих групп было случайным образом отобрано по три подгруппы респондентов. Первой подгруппе была показана реклама (А), второй - реклама (В), третьей - реклама (С). В итоге выяснилось, что самая эффективная - реклама (В) - забавная.
Латинский квадрат (Latin Square Design). Этот план позволяет проконтролировать две внешние переменные. Диапазон изменения каждой из этих переменных разбивается на одинаковое число поддиапазонов. После этого респондентам, которые характеризуются каждым сочетанием внешних переменных, назначается один и только один вариант экспериментального воздействия (одно значение независимой переменной).
Продолжая пример с тремя вариантами рекламы, предположим, что нужно контролировать уже не одну, а две внешние переменные. Например, разобьем респондентов не только по приверженности магазину, но и по возрасту (на три возрастные категории).
Составим таблицу назначения экспериментальных воздействий (табл. 6.4). Из респондентов, соответствующих каждой клетке таблицы, отбирается по одинаковому числу, и им демонстрируется указанный в клетке вариант рекламы. (С теми, кто покупает в магазине много, эксперименты не проводятся, чтобы поддиапазонов было 3, а не 4.)
Таблица 6.4. Использование плана латинского квадрата для тестирования телевизионной рекламы
Пользуются магазином |
Варианты рекламы в возрастных группах |
||
молодые |
среднего возраста |
пожилые |
|
Много |
- |
- |
- |
Средне |
В |
А |
С |
Мало |
С |
В |
А |
Не пользуются |
А |
С |
В |
Как видно из таблицы, назначение значений независимых переменных в латинском квадрате строится по принципу расчета определителя матрицы: каждый вариант рекламы демонстрируется в клетках, которые берутся при расчете одного из берущихся со знаком "плюс" слагаемых определителя. При этом обеспечивается в точности однократное назначение воздействия каждого типа в каждой строке и в каждом столбце таблицы.
Латинский квадрат не лишен недостатков:
- o не всегда можно выделить одинаковое число уровней по каждой внешней переменной;
- o можно контролировать только две внешние переменные;
- o невозможно выяснить, существует ли в действительности эффект взаимодействия между контролируемыми внешними переменными: если он есть, такое тестирование не оправданно, а нужно, например, в каждой из девяти групп отбирать случайным образом по три подгруппы и демонстрировать им серьезную, забавную и смешную рекламу. В этом случае эксперимент потребовал бы построения 27 групп респондентов, что слишком долго и дорого.
- 5. Планы, направленные на подбор наилучшего сочетания независимых переменных. В планах четырех предыдущих типов акцент делался на очистке результатов измерения от влияния внешних переменных. Планы же последнего из рассматриваемых нами типов ориентированы прежде всего на подбор наилучшего варианта тестового воздействия, когда каждый из вариантов характеризуется определенным сочетанием значений не одной, а двух или более независимых переменных.
Если есть основания думать, что взаимовлияние этих независимых переменных отсутствует, можно с успехом применять описанный выше латинский квадрат, используя его строки и столбцы для перебора значений не внешних, как в рассмотренном нами примере, а независимых переменных. Однако нередко приходится иметь дело с неаддитивностью эффектов от отдельных независимых переменных, т.е. с ситуацией, когда эффект от совместного изменения этих переменных не равен сумме эффектов от изменения каждой из них. Например, если мы хотим подобрать наилучший для определенной группы людей напиток, то надо учитывать, что человек может в целом предпочитать холодные напитки горячим, но горячий кофе предпочитать всем остальным напиткам.
Для учета таких эффектов применяются полные и частичные факторные планы.
Полный факторный план (Factorial Design). При использовании полного факторного плана на оси каждой независимой переменной намечается несколько значений. Для каждого из всевозможных сочетаний значений, намеченных на осях всех независимых переменных, случайным образом отбираются объекты тестирования, которые и подвергаются данному варианту тестового воздействия. Например, с помощью такого плана тестировалось девять вариантов рекламного ролика для магазина. Каждый вариант отличался своим характером (серьезный, забавный или смешной) и нес определенную информационную нагрузку (высокую, среднюю или низкую). Оказалось, что если реклама несет мало информации о магазине, то лучше, чтобы она была смешной, а если много информации, то серьезной.
Как видно из примера, эксперименты по полному факторному плану позволяют маркетинговым менеджерам действовать достаточно тонко, подбирая варианты, наиболее эффективные сочетания тестовых переменных. Для обработки данных таких экспериментов обычно используется метод дисперсионного анализа [2].
Частичный факторный план (Fractional Factorial Design). Если независимых переменных несколько, то применение полного факторного плана становится малореальным из-за большого числа возможных сочетаний их значений. В таких случаях применяют частичные факторные планы, позволяющие тестировать уже не все возможные, а только интересующие исследователей сочетания значений независимых переменных.
Достоинства и недостатки причинных исследований по сравнению с описательными
К числу преимуществ причинных дизайнов следует отнести то, что они позволяют:
- 1) разбить респондентов на группы и назначить каждой из групп значения независимых переменных;
- 2) отследить временную последовательность воздействия и замера;
- 3) контролировать помехи.
Недостатками же причинных дизайнов являются:
- 1) значительные временные затраты (особенно если надо выявить результаты длительных воздействий, например, реальной рекламной кампании);
- 2) дороговизна;
- 3) сложность организации.
Тест-маркетинг (Test-Marketing иди Market Testing)
В связи с причинными исследованиями необходимо упомянуть об их важнейшей разновидности - тест-маркетинге (test-marketing или market testing), т.е. о реальных рыночных экспериментах, проводимых под контролем в специально отобранной достаточно большой части рынка. В ходе тест-маркетинга проходит проверку весь маркетинговый комплекс: товар (включая его позиционирование в глазах покупателей), цена товара, система его распространения и мероприятия по его продвижению.
Без тест-маркетинга крупномасштабные рыночные шаги обычно не предпринимаются, так как цена ошибки слишком велика. Так, в американском учебнике приводится как пример неудачи введение производимых в России брендов М&М и "Марс". Так как тест-маркетинг не был проведен, осталось неясным, была ли их реклама по телевидению слишком непродолжительной, достаточной или избыточной [30].
Перечислим ряд правил организации тест-маркетинга, которые рекомендуется соблюдать для получения на его основе надежных выводов.
Во-первых, надо стремиться, чтобы отобранная часть рынка была представительной:
- o по демографии;
- o потребительскому поведению;
- o потреблению СМИ;
- o конкурентной среде;
- o условиям дистрибуции.
Во-вторых, по опыту эта часть должна охватывать не менее 2% всего рынка.
В-третьих, эксперименты желательно проводить не в одной, а в двух или даже трех разных частях рынка.
В-четвертых, нельзя выбирать для тест-маркетинга места, где часто проводятся такие эксперименты.
В-пятых, решение о продолжительности тестирования новых брендов должно приниматься крайне осторожно. С одной стороны, продолжительность должна быть такой, чтобы первые покупатели успели совершить по повторной покупке, что нередко составляет десять (и даже более) месяцев. С другой - при слишком длительном тестировании растет вероятность, что наши эксперименты случайно, а чаще - намеренно, сорвет конкурент, выйдя на выбранную нами часть рынка со своим новым продуктом без всякого тест-маркетинга. Таким образом, тест-маркетинг следует рассматривать как один из важных инструментов конкурентной борьбы.