Меню
Главная
Авторизация/Регистрация
 
Главная arrow Маркетинг arrow Маркетинговые исследования

Потенциальные источники ошибок в описательных исследованиях

Мы рассмотрели различные методы проведения описательных исследований. Эти методы, как уже отмечалось, направлены на измерение тех или иных маркетинговых показателей. Но всякие измерения обладают погрешностью. В зависимости от того, как организовано исследование, те или иные составляющие общей погрешности меняются и это влияет на ее общую величину. При рассмотрении этих вопросов будем считать, что целью исследования является замер характеристик некоторой совокупности элементов, которую принято называть генеральной или исследуемой совокупностью. Собрать информацию о всех этих элементах не представляется возможным, поэтому случайным образом отбираются и включаются в выборку определенные элементы из исследуемой совокупности. Это первый источник ошибки. Второй источник - тот факт, что собрать информацию чаще всего удается не по всем, а только по части составляющих выборку элементов. Наконец, третий источник ошибки - то, что даже та информация, которую удается собрать, обычно не полностью соответствует истине. Поговорим теперь более подробно о содержании и структуре общей погрешности, или, пользуясь принятой в литературе по маркетинговым исследованиям терминологией, общей ошибки (рис. 5.5).

Предположим, что нам надо рассчитать среднее значение некоторой величины по идеально определенным данным обо всех без исключения элементах исследуемой совокупности. Обозначим это абсолютно точное среднее через . В действительности же в нашем распоряжении - реальные, в чем-то ошибочные данные только о той части попавших в запланированную нами выборку элементов, от которых удалось получить информацию.

Общая ошибка представляет собой разность между истинным средним в исследуемой совокупности, которое нас интересует, и средним, рассчитанным по данным, полученным в ходе исследования.

Структура общей ошибки

Рис. 5.5. Структура общей ошибки

Преобразуем приведенное выше выражение, прибавив к нему и сразу вычтя из него одну и ту же величину: - среднее, рассчитанное по идеальным данным об элементах идеальной, еще не искаженной выборки. Получим:

Мы видим, что, специальным образом группируя элементы получившегося выражения, мы разбили общую погрешность на две разности. Первое выражение в скобках отражает случайную ошибку выборки. Она связана с тем, что вместо сбора данных о всех элементах исследуемой совокупности мы строим случайную выборку из этих элементов. Второе выражение в скобках соответствует ошибкам, не связанным с выборкой. Они являются результатом, во-первых, невозможности точно реализовать построенную нами выборку (например, из-за отказа некоторых респондентов участвовать в опросе) и, во-вторых, неточности данных о части или даже о всех охваченных исследованием элементах.

Итак, случайная ошибка выборки - это разность между истинным средним по всей исследуемой совокупности и идеальным выборочным средним. Это самая "замечательная" составляющая общей погрешности исследования, поскольку ее размеры можно оценить.

Идею такой оценки поясним на примере. Пусть мы хотим узнать средний месячный доход граждан России. Соответственно нашей исследуемой (генеральной) совокупностью является N - число граждан нашей страны. Если бы мы попросили всех без исключения граждан страны назвать свой месячный доход, а каждый гражданин не только знал правильный ответ на этот вопрос, но и сообщил его интервьюеру, то при условии безошибочного ввода данных в компьютер мы получили бы истинное среднее значение изучаемого показателя (дохода).

Рассчитать эту величину по понятным причинам невозможно. Как мы поступаем? Мы пытаемся оценить ее следующим образом: строим выборку из этой совокупности размера n, случайным образом, независимо друг от друга отобрав п граждан страны. Процедуру построения случайной выборки можно представить себе так: в гигантский вращающийся барабан сложены N свернутых в трубочку бумажек с координатами всех граждан страны. После перемешивания из барабана одну за другой извлекают n таких трубочек.

Представим себе, что от всех без исключения отобранных респондентов удалось получить абсолютно точную информацию о доходе. Усреднив собранные данные, мы получим величину. Она называется выборочным средним значением дохода и, как известно из математической статистики, является оценкой его истинного среднего значения.

Поскольку вошедшие в данную выборку респонденты отобраны нами случайным образом, выборочное среднее - это одна из реализаций последовательности случайных чисел. Проведем мысленный эксперимент. Давайте представим себе, что мы построили не одну, а очень большое число выборок. Каждая выборка дала нам новое, вообще говоря, другое выборочное среднее. У этих выборочных средних есть два замечательных свойства. Они случайным образом распределены около истинного среднего дохода, причем вероятность появления выборочного среднего тем выше, чем ближе оно к истинному среднему.

По какому же статистическому закону распределены эти выборочные средние? Если размер выборки достаточно велик, то чем больше выборок мы построим, тем ближе гистограмма распределения выборочных средних к классическому "колокольчику" кривой нормального распределения (рис. 5.6). Это замечательное свойство! Ведь доходы жителей нашей страны распределены далеко не нормально (во всех смыслах!). Тем не менее усредненные по всем представителям выборки доходы имеют нормальное распределение. То же можно сказать не только о доходах, но и практически о любой маркетинговой характеристике.

В реальности никто, конечно, не строит много выборок, чтобы выяснить, около какого числа колеблются выборочные средние. Однако построив всего одну выборку и рассчитав всего один выборочный средний доход, мы можем сказать, в каком диапазоне почти наверняка находится истинный средний доход граждан страны. Но прежде надо уточнить, какой смысл мы вкладываем в понятие "почти наверняка".

В элементарной, "школьной" математике многие теоремы доказываются методом "от противного". Формулируется утверждение, противоположное тому, которое нужно доказать, и путем логических рассуждений приходят к противоречию. Противоречием при этом называется совершенно невозможная ситуация, т.е. такая, вероятность возникновения которой равна нулю. После этого делается вывод, что противоположное утверждение ошибочно, следовательно, верно утверждение, которое требовалось доказать.

Кривая нормального распределения выборочных средних значений

Рис. 5.6. Кривая нормального распределения выборочных средних значений

В статистике пошли дальше. Здесь принято считать практически невозможной ситуацию, вероятность возникновения которой хотя и не нулевая, но очень маленькая: меньше определенного, выбранного заранее порога. В частности, в маркетинговых исследованиях обычно считаются практически невозможными события, вероятность возникновения которых не превышает 0,05, т.е. которые могут произойти в среднем не чаще, чем в пяти случаях из ста.

Вернемся теперь к рис. 5.6. Из свойств нормального распределения следует, что если бы мы построили очень много выборок, то лишь приблизительно 95 выборочных средних из каждых 100 попадали бы в диапазон, окрашенный на рисунке в серый цвет, а выходили бы за пределы этого диапазона в среднем 5 выборок из 100. Отклонение от истинного значения, которое может возникать столь редко, обычно признается практически невозможным. После этого делается вывод, что с доверительной вероятностью 0,95 выборочные средние отклоняются от истинного среднего дохода населения не более чем на эту величину среднеквадратического отклонения выборочных средних значений, умноженного на 1,96 (или приблизительно на 2).

Оказывается, чтобы определить, в каком диапазоне находится истинное среднее значение дохода, достаточно построить одну выборку. Мы ведь теперь знаем, не более чем на какую величину наш замер может быть удален от истинного среднего дохода!

Осталось разобраться, как рассчитать среднеквадратическое отклонение выборочных средних. Известно, что оно в раз меньше среднеквадратического отклонения самой случайной величины, среднее значение которой мы хотим определить (в нашем случае - дохода граждан России):

(5.1)

где σ - среднеквадратическое отклонение распределения самой измеряемой случайной величины; - среднеквадратическое отклонение распределения выборочных средних; n - размер выборки.

Однако узнать среднеквадратическое отклонение самой измеряемой случайной величины (в нашем случае дохода) далеко не просто. Во-первых, надо знать средний доход в стране. (Напомним, в его определении и состоит цель исследования!) Во-вторых, надо знать отклонение дохода каждого гражданина страны от этого истинного среднего значения. В-третьих, каждое из этих отклонений нужно возвести в квадрат, полученные результаты сложить и разделить на число граждан страны. В-четвертых, нужно извлечь из полученного результата квадратный корень:

(5.2)

где σ - среднеквадратическое отклонение распределения измеряемой случайной величины; хi - значение изучаемого показателя (дохода) i-го элемента изучаемой совокупности; - истинное среднее значение изучаемого показателя (дохода); N - размер исследуемой совокупности (число граждан России).

Получается, что для нахождения случайной погрешности измерения среднего дохода надо уже знать не только истинный средний доход граждан страны, но и доход каждого отдельного гражданина! Замкнутый круг!

Итак, мы никак не можем узнать погрешность измерения дохода, но мы можем ее оценить. Если все представители выборочной совокупности опрошены, оценка среднеквадратического отклонения СО рассчитывается по формуле

(5.3)

где σ - среднеквадратическое отклонение распределения измеряемой случайной величины; s - выборочная оценка среднеквадратического отклонения распределения измеряемой случайной величины; хi - значение изучаемого показателя (дохода) i-го элемента выборки; - выборочное среднее значение изучаемого показателя (дохода); т - размер выборки.

Если опрос еще не проведен, для среднеквадратического отклонения приходится искать оценку сверху. Возможно, подобные исследования когда-нибудь уже проводились, и можно воспользоваться их результатами. Если нет, приходится "закладываться на худшее".

Пример 5.6

Расчет среднего значения

Худшим случаем с точки зрения точности измерения дохода является ситуация, когда половина граждан не имеет дохода, а половина имеет очень большой для среднего россиянина доход, например 50 000 руб. в месяц. Как среднее значение, так и среднеквадратическое отклонение дохода в этом случае равно 25 000 руб. Если, например, размер выборки составит 10 000 респондентов, получим следующую оценку случайной ошибки опроса Δ при уровне доверительной вероятности 0,95:

(5.4)

Таким образом, если наше осторожное предположение о распределении доходов населения дает не слишком завышенную оценку среднеквадратического отклонения, то опросив 10 000 респондентов по случайной выборке, можно узнать средний доход граждан страны с ошибкой выборки ±500 руб. в месяц.

Рассмотрим теперь частный случай рассмотренной ситуации: когда в результате опроса требуется определить не среднее значение некоторой величины, а долю представителей исследуемой совокупности, обладающих некоторым свойством, например дающих определенный ответ на какой-либо вопрос анкеты. (Это действительно частный случай расчета среднего значения, так как доля интересующих нас респондентов представляет собой среднее значение, рассчитанное по набору из единиц и нулей, при условии, что респондентам, выбравшим данный ответ, приписывается единица, а не выбравшим - ноль.)

Введем некоторые новые обозначения. Пусть π - доля от числа всех представителей исследуемой совокупности, которые дали бы интересующий нас ответ на вопрос. Если провести опрос случайной выборки респондентов размером п, этот ответ выберет, вообще говоря, иная доля представителей выборки. Обозначим ее р. Ясно, что р - одна из реализаций последовательности случайных чисел, которая возникла бы, если бы мы строили много выборок. Среднеквадратическое отклонение выборочных долей рассчитывается по формуле

(5.5)

Заметим, здесь мы сталкиваемся с той же проблемой, что и при расчете среднеквадратического отклонения выборочных средних по формуле (5.1): для расчета нам надо знать π - истинную долю выбравших интересующий нас ответ на вопрос, чего мы, конечно, не знаем не только до, но и после опроса. Как и в первом случае, нам придется воспользоваться оценкой. Однако в случае долей это сделать гораздо проще. Можно принять в расчетах, что π = 0,5, поскольку в этом случае ошибка выборки максимальна.

Пример 5.7

Расчет доли исследуемой совокупности

Пусть нас интересует доля граждан страны, которые на некоторый вопрос ответили бы "да". Пусть размер построенной нами выборки составляет 10 000 респондентов. Тогда ошибку выборки можно оценить величиной:

(5.6)

Таким образом, доля граждан страны, давших положительный ответ на интересующий нас вопрос при доверительной вероятности 0,95 будет определена с ошибкой выборки ±0,5%.

Заметим, что если бы в ходе опроса доля таких ответов составила бы, например, 10%, мы могли бы пересчитать величину ошибки, поставив в подкоренное выражение не 0,5, а 0,1. С учетом этих новых знаний мы оценили бы погрешность выборки величиной 0,3%.

Сделаем еще одно замечание. В формулах (5.4) и (5.6) мы рассчитывали ошибку выборки, умножив среднеквадратическое отклонение на 2. Напомним, что таким образом мы округляли число 1,96, соответствующее доверительной вероятности 0,95. Если бы мы хотели получить более высокие гарантии попадания выборочных средних и выборочных долей в найденные по этим формулам интервалы, мы могли бы предпочесть доверительную вероятность 0,99. Тогда нам нужно было бы вместо коэффициента 1,96 использовать коэффициент 2,58, а если бы, наоборот, мы посчитали бы достаточной доверительную вероятность 0,9, - коэффициент 1,64.

В общем случае используются соответственно формулы:

(5.7)

где r - коэффициент, зависящий от выбранного уровня доверительной вероятности.

Заметим, что приведенные выше формулы (5.7) верны для случая, когда размер выборки пренебрежимо мал по сравнению с числом элементов исследуемой совокупности. Если эти размеры сопоставимы, ошибка выборки будет меньше: правые части формул следует умножить на понижающий коэффициент k:

(5.8)

где N - число элементов исследуемой совокупности; п - число элементов в выборке.

Легко видеть, что коэффициент к приближается к единице, если N становится много больше n, и уменьшается при близких между собой N и п, становясь равным нулю, когда они равны. Это и неудивительно: при п = N опрошены все представители исследуемой совокупности, т.е. ошибка выборки отсутствует.

Отметим еще, что приведенные выше формулы для расчета случайной ошибки построения выборки верны лишь для случая, когда единицы отбора извлекаются из исследуемой совокупности случайным образом и независимо друг от друга. Если же это не так, например, если сначала случайным образом выбираются населенные пункты, а затем в каждом из них отбирается по несколько респондентов, то ошибка может увеличиться. Представим себе, что мы спрашиваем респондентов о том, сколько стоит определенный сорт масла в ближайшем к ним магазине. Тогда, сколько бы респондентов, например, в деревне мы ни опросили, все они назовут одну и ту же цену. Тогда ошибка выборки фактически будет определяться не исходя из числа респондентов, а исходя из числа охваченных опросом деревень. В данном случае число деревень будет "эффективным размером выборки".

Увеличение случайной ошибки выборки за счет этого фактора называется дизайн-эффектом. Для его учета определенная по приведенным выше формулам погрешность умножается на специальный коэффициент, для расчета которого существуют специальные компьютерные программы.

Для расчета этого коэффициента необходимо ввести в программу подробные данные о структуре выборки. Программа оценивает, в какой степени расходятся между собой во мнениях жители каждого из населенных пунктов по сравнению с расхождением во мнениях жителей разных населенных пунктов. Сложность состоит в том, что для каждого ответа на вопрос анкеты этот расчет будет своим и результаты соответственно тоже. Например, любимая марка автомобиля у каждого жителя деревни может быть своей.

Перейдем к рассмотрению ошибок, не связанных с выборкой. Они могут возникать по разным причинам: из-за дефектов постановки проблем, выбора подхода, шкалирования, разработки анкеты, методов проведения интервью, подготовки данных и анализа данных. Их принято разделять на ошибки из-за отсутствия ответов и ошибки ответов.

Ошибки из-за отсутствия ответов связаны с тем, что некоторые из включенных в выборку респондентов отсутствуют дома или отказываются дать интервью. Из-за этого результирующая выборка по размеру и, главное, по составу отличается от запланированной. Соответственно ошибка из-за отсутствия ответов определяется как разница между идеальным выборочным средним и гипотетическим средним, идеально правильно определенным по реально получившейся выборке.

Ошибки ответов определяются как разница между средним, идеально правильно определенным по реально получившейся выборке, и средним, реально полученным по результатам опроса. Эти ошибки могут делаться исследователем, интервьюером или респондентом.

Ошибки исследователя - это следующие виды ошибок.

1. Ошибки выбора замеряемой информации. Различие между информацией, действительно необходимой для решения проблемы, и той, которую получил исследователь. Например, вместо сбора информации о потребительском выборе нового продукта исследователь получает информацию о потребительских предпочтениях, так как процесс выбора ему невозможно или, во всяком случае, очень сложно изучать.

Но, как уже отмечалось, можно предпочитать "Альфа-Ромео", а покупать "ВАЗ"!

  • 2. Ошибки измерения информации. Различия между информацией, которую можно было бы наблюдать, и информацией, фактически наблюдаемой в результате примененного способа измерения. Например, в процессе отслеживания потребительских предпочтений исследователь применяет шкалу для замера восприятия, а не предпочтений. (Это разные вещи. Вспомним хотя бы пословицу: "Хоть плохонький, да свой".)
  • 3. Ошибки определения исследуемой совокупности. Представьте себе, например, что нужно изучить покупательское поведение состоятельных людей. Кто они такие? В разных исследованиях использовались по крайней мере три различных определения этого понятия. Первое - семьи со среднедушевым доходом более 70 тыс. руб. в месяц. Второе - верхние 20% домохозяйств по доходу. Третье - домохозяйства, способные свободно потратить больше определенной суммы. Ясно, что результаты исследования во многом зависят от того, какое определение будет принято. Иногда исследователь вынужден заменять одно - теоретически правильное - определение исследуемой совокупности другим, которым можно пользоваться практически. Так, в одном из опросов, проводившемся под руководством автора, исследуемую совокупность должны были составлять москвичи, имеющие материальную возможность приобретать бытовую технику и электронику. Заказчик считал необходимым опрашивать только лиц с доходом более 200 долл. на члена семьи в месяц. Однако, если бы интервью начиналось с такого щекотливого вопроса, как доход семьи, можно было бы заранее предположить, что доля отказавшихся дать интервью была бы очень большой. Это привело бы к резкому росту ошибок из-за отсутствия ответа. Поэтому было принято решение, что исследуемую совокупность составляют те, у кого уже есть дома какая-либо бытовая техника, например электрический чайник или утюг. Понятно, что такая исследуемая совокупность несколько отличается от целевой группы, но, думается, в данной ситуации это - "наименьшее зло".
  • 4. Ошибки основы выборок. Различие между исследуемой совокупностью, которую исследователь решил изучать, и той совокупностью, с которой он будет иметь дело в реальности, учитывая имеющийся у него список. Например, список телефонных номеров, из которого делается выборка, обычно неточен: часть телефонов в нем отсутствует, а с частью телефонов не происходит соединения.
  • 5. Ошибки анализа данных. Ошибки, возникающие в процессе превращения исходных данных опроса в исследовательские выводы. В частности, использование статистической процедуры, теоретические предпосылки которой в данном случае отсутствуют, может привести к неверной интерпретации (например, для обработки номинальных признаков использован факторный анализ).

Ошибки интервьюера - это следующие виды ошибок.

  • 1. Ошибки при выборе респондента возникают, когда инструкция по выбору респондентов противоречит плану выборки или интервьюер отклоняется от инструкции. Например, нужно опросить читателей какой-то газеты, а интервьюер опрашивает юношу, который эту газету не читает, зарегистрировав его как читателя. И это происходит только потому, что интервьюеру надо опросить определенное число 15-19-летних читателей газеты, которых найти крайне сложно.
  • 2. Ошибки при постановке вопросов делаются, когда вопросы в анкете неправильно формулируются, например звучат двусмысленно. Такое часто бывает, если не проводится пилотаж анкеты. Пилотаж может показать, где нужны дополнительные пояснения. Бывает и по-другому: интервьюер допускает вольности при обращении с приведенными в анкете текстами. В этом случае невозможно понять, действительно ли два респондента по-разному ответили на вопрос или их по-разному спрашивали.
  • 3. Ошибки записи возникают, если интервьюер неправильно расслышит, проинтерпретирует или запишет ответы респондента.
  • 4. Ошибки из-за обмана - самая "грустная" вещь. Некоторые интервьюеры подделывают отдельные ответы или даже всю анкету. Например, интервьюер не задает респонденту некоторые чувствительные вопросы, а затем придумывает ответы по своему усмотрению.

Ошибки респондента - это ошибки из-за невозможности или нежелания дать верный ответ.

  • 1. Иногда респондент не может дать точного ответа: не знает предмета, забыл правильный ответ, устал, ему скучно. Иногда виновата неудачная форма вопроса или его содержание. Например, респондента просят припомнить сорт йогурта, который он покупал в последний раз, а это было три месяца назад.
  • 2. Иногда респондент не хочет давать точного ответа, а дает социально допустимые, социально одобряемые ответы. Например, говорит, будто читает журнал "Итоги", чтобы создать о себе благоприятное впечатление.

Итак, есть много источников ошибок. Важнейший принцип маркетинговых исследований - заботиться о снижении общей ошибки, а не отдельных ее слагаемых. Например, неопытные исследователи часто увеличивают выборку, чтобы уменьшить связанные с ней ошибки. При этом нередко увеличиваются другие ошибки. Например, из-за спешки, повышенной нагрузки растут ошибки интервьюеров. Такие ошибки "хуже", чем ошибки выборки: их нельзя оценить. Более того, ошибка выборки обычно относительно невелика по сравнению с остальными. Опытный исследователь иногда намеренно увеличивает какую-либо ошибку, чтобы уменьшить суммарную. Например, проводится почтовое исследование потребительских предпочтений в отношении модной одежды. Если просто разослать анкету по многим адресам, ее заполнят и пришлют, как уже отмечалось, не более 30% респондентов, причем особых, согласившихся ответить, по мнениям которых вряд ли можно судить о мнениях всех представителей исследуемой совокупности. А поскольку бюджет проекта уже будет израсходован на широкую рассылку, ничего сделать будет нельзя. В то же время опыт показывает, что возврат анкет можно довести до 45%, если еще раз написать тем же респондентам, и до 55% - если написать им дважды. Поэтому лучше сначала разослать существенно меньше анкет, а сэкономленные средства направить на письма-напоминания. Хотя это может повысить случайную ошибку выборки, но оценка станет менее смещенной, так как сократятся ошибки, связанные с отсутствием ответов.

Другой пример: достаточно распространенное стремление найти вариант с наименьшей удельной (т.е. в расчете на одно интервью) стоимостью опроса. Не секрет, что компании с более низкой удельной стоимостью опроса экономят на всем, начиная с оплаты интервьюерам и расходов на контроль их работы. При этом, скорее всего, будут наняты неквалифицированные интервьюеры, работа которых не будет проверяться. В результате сильно вырастут ошибки, не связанные с выборкой.

 
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Популярные страницы