Меню
Главная
Авторизация/Регистрация
 
Главная arrow Маркетинг arrow Маркетинговые исследования

Вероятностные способы построения выборки

Рассмотрим теперь основные принципы, лежащие в основе четырех вероятностных способов построения выборки: двух способов случайного отбора (простого и систематического) и двух способов улучшения результатов отбора (методов стратификации и кластеризации).

Методы построения вероятностных выборок характеризуются таким показателем, как эффективность. Концепция эффективности метода отражает компромисс между затратами и точностью. Точность характеризует степень неопределенности относительно значений измеряемых характеристик. Чем выше точность, тем выше затраты. Исследователь должен постараться выбрать наиболее эффективный план построения выборки, исходя из размера отпущенных средств. Эффективность вероятностных методов можно оценивать, сравнивая точность их работы с точностью простой случайной выборки. При этом превысить эффективность простой случайной выборки удается только тем исследователям, которые до начала исследования уже обладают определенными знаниями об исследуемой совокупности, априорной информацией о ней.

Простая случайная выборка (simple random sampling, или SRS). При построении простой случайной выборки (SRS) каждый элемент исследуемой совокупности имеет известную, причем одинаковую, вероятность попасть в выборку. Более того, известна и одинакова вероятность того, что в результате отбора будет получен любой конкретный вариант выборки данного размера (n). Отсюда следует, что элементы извлекаются из основы выборки случайным образом, причем независимо друг от друга. Этот метод можно представить как лотерею, в которой имена всех возможных респондентов помещаются в барабан и перемешиваются, после чего без всяких смещений извлекаются имена "победителей".

Для выбора элементов исследуемой совокупности раньше применяли таблицы случайных чисел, а сейчас - компьютерные программы, генерирующие случайные последовательности чисел.

Метод SRS обладает рядом достоинств: он прост и легко объясним, выборочные оценки могут быть обобщены на всю исследуемую совокупность. Большинство статистических выводов базируются на предположении, что выборка получена именно с его помощью.

Но этот метод имеет и очень серьезные недостатки, ограничивающие его применение. Во-первых, часто бывает очень трудно сконструировать основу выборки так, чтобы можно было извлечь из нее простую случайную выборку. Например, не существует собранных воедино компьютеризированных списков всех жителей России. И даже если бы такие списки существовали, они ежесекундно бы устаревали. Во-вторых, выборка, полученная данным методом, часто оказывается настолько разбросанной географически, что исследование становится неприемлемым как по стоимости, так и по срокам. (Так, может "выпасть" по одному респонденту в сотнях дальних деревень, что потребует чрезвычайно высоких командировочных расходов.) В-третьих, при небольшом размере выборки рассматриваемый метод может и не обеспечивать репрезентативности. Хотя в среднем такие выборки хорошо приближают население, каждая конкретная выборка может содержать сильные диспропорции.

Систематическая случайная выборка (systematic sampling) строится так. Все N единиц отбора, образующих исследуемую совокупность, упорядочиваются в соответствии с каким-либо показателем, который известен заранее и как можно сильнее коррелирует с изучаемыми маркетинговыми характеристиками. Полученный список разделяется на n диапазонов, по числу единиц, которые следует отобрать в итоге.

Из каждого диапазона в выборку включается по одной единице отбора, причем ее номер внутри диапазона всегда один и тот же. Он определяется однократным случайным отбором в первом диапазоне. Например, если на каждый диапазон пришлось по 100 единиц отбора и в первом диапазоне случайным образом отобрана единица № 23, то выборку составят единицы отбора № 23, 123, 223, 323 и т.д.

Если показатель, по возрастанию которого упорядочиваются единицы отбора перед построением выборки, не связан с маркетинговыми характеристиками, которые должны быть изучены в ходе опроса, например если фамилии людей, составляющих исследуемую совокупность, упорядочены по алфавиту, методы систематического отбора и простого случайного отбора дают очень близкие результаты.

Но обычно единицы отбора упорядочивают по признаку, который тесно коррелирует с изучаемыми маркетинговыми характеристиками. Например, владельцы кредитных карт могут быть упорядочены по сумме неоплаченного кредита, а фирмы, относящиеся к определенной отрасли, - по сумме годовых продаж. В таких случаях систематический случайный отбор опроса снижает случайную погрешность исследования за счет гарантированного поддержания в структуре выборки правильных пропорций.

Заметим, что такого результата удается добиться за счет того, что исследователь что-то заранее знает об исследуемой совокупности.

Методы стратификации и кластеризации тоже позволяют добиться желаемых результатов (но, заметим, - разных) за счет использования исследователем априорной информации. Первый из этих методов предназначен для снижения случайной погрешности исследования, а второй - для снижения затрат.

Метод стратификации (stratified sampling)

Пример 9.8

Применение метода стратификации

Идею метода стратификации хорошо иллюстрирует следующий условный пример. Пусть нам требуется оценить средний заработок на заводе, где работают 20 тыс. человек. Предположим, что, имея доступ к информации о должности работника, мы выяснили, что на этом заводе есть пять категорий работников: один директор, три его заместителя, пятнадцать начальников цеха, 250 мастеров, а остальные рабочие. Представим себе идеальную для исследователя ситуацию, когда все работники одной категории получают в точности одинаковую зарплату. Тогда в выборку надо включить всего пять человек: директора, одного (причем неважно, какого именно) заместителя, одного начальника цеха и т.д. Узнав из опроса их зарплату и взяв ее с определенными весовыми коэффициентами, которые легко рассчитать, можно получить идеально точное представление о среднем заработке на заводе.

В реальности, конечно, столь идеального результата достичь не удается, но чем точнее исследователь разделит исследуемую совокупность на существенно различающиеся между собой и как можно более однородные внутри части, именуемые стратами, тем сильнее в итоге ему удастся снизить случайную погрешность опроса.

Построение стратифицированной выборки представляет собой двустадийный процесс, в ходе которого множество элементов, образующих исследуемую совокупность, разделяется на подмножества или страты так, что каждый ее элемент входит в одну и только одну страту. Затем в каждой страте отбирается нужное число элементов. Формально для отбора в стратах должна использоваться процедура простого случайного отбора (SRS). Практически же иногда применяют систематический отбор или другие вероятностные процедуры. Таким образом, в отличие от метода квот, здесь отбор осуществляется не по усмотрению или исходя из согласия респондентов, а вероятностными методами. Основная цель стратификации - повысить точность без увеличения цены.

Первое решение, которое принимает исследователь при использовании данного метода, касается параметров стратификации, т.е. переменных, на основе которых исследуемая совокупность делится на страты.

При отборе этих параметров исходят из следующих соображений. Во-первых, элементы, составляющие каждую страту, должны быть как можно более сходными между собой. Во-вторых, элементы, входящие в разные страты, должны быть как можно более разными. В-третьих, параметры стратификации должны быть как можно теснее связаны с интересующими исследователя характеристиками: чем теснее эта связь, тем точнее получаемые оценки. Наконец, в-четвертых, переменные стратификации должны быть такими, чтобы процесс стратификации был простым и удобным в работе и, следовательно - дешевым.

Обычно для стратификации, как и для квотирования, используют демографические характеристики, тип потребителя (например, владельцы кредитных пластиковых карт и пластиковых карт, не дающих права кредитования), размер фирмы или отрасль. Вообще, можно выбирать две и более переменных стратификации одновременно, но более двух - крайне редко, так как это сложно и дорого. Хотя число страт устанавливается по усмотрению исследователя, обычно их бывает не более шести. Если их больше, то выигрыш в точности оценок обычно оказывается меньше, чем рост затрат на стратификацию и построение выборки.

Пример 9.9

Выбор параметров стратификации

В ряду еженедельных телефонных опросов был проведен опрос 1030 респондентов (525 женщин и 505 мужчин), посвященный туризму [30]. Для стратификации использовались четыре переменные: пол, возраст, доход и место жительства. Исследование показало, что различия в отношении к путешествиям наблюдаются только между людьми разного возраста. Так, в возрасте 25-49 лет, когда с наибольшей вероятностью в семье есть дети, люди отдают предпочтение поездкам в город Орландо или в штат Флорида. У тех, кому 65 лет и более, наиболее популярны поездки в штат Вашингтон или центральный район (D.C.). Наиболее важным приоритетом путешествия являются для лиц в возрасте от 18 до 34 лет. Таким образом, полезным параметром стратификации оказался только возраст. Если бы это было известно заранее, стоимость исследования можно было бы снизить, не уменьшая точности.

Вторым важным решением, которое надо принять при построении стратифицированной выборки, - это выбор между пропорциональным и непропорциональным отбором. При пропорциональном отборе число элементов, извлекаемых из каждой страты, пропорционально ее размеру. При непропорциональном отборе из каждой страты извлекается число элементов, пропорциональное произведению относительного размера страты на стандартное отклонение распределения интересующей исследователя характеристики на всех элементах страты. Идея, лежащая в основе непропорционального отбора, проста. С одной стороны, чем больше относительный размер страты, тем сильнее она влияет на общее среднее значение интересующей исследователя характеристики и для отражения ее роли из нее надо извлечь больше элементов. С другой стороны, чтобы повысить точность, нужно извлечь больше элементов из тех страт, где сильнее колебания интересующей исследователя характеристики, и меньше - из страт, где эти колебания малы. Например, если значения исследуемой характеристики на всех элементах какой-либо страты в точности одинаковы, из нее достаточно включить в выборку лишь один элемент. Таким образом, пропорциональный отбор можно считать частным случаем непропорционального отбора, когда стандартные отклонения во всех стратах априори считаются равными.

Как мы видим, непропорциональный отбор возможен, когда можно заранее хотя бы приблизительно оценить стандартные отклонения изучаемого параметра в каждой страте. Если такой информации нет, то при определении доли выборки, приходящейся на каждую страту, исследователь может полагаться на логику и интуицию. Например, можно предположить, что крупные магазины больше различаются в плане объема продаж какого-либо товара, чем мелкие.

Есть еще один важный частный случай: если исследователя интересуют главным образом различия между стратами, то число элементов, извлекаемых из каждой страты, должно быть одинаковым.

При использовании стратифицированной выборки можно быть уверенным, что все важные подгруппы респондентов присутствуют в выборке. Это особенно важно, когда распределение измеряемой характеристики в существенной степени асимметрично. Так, поскольку годовой доход большинства американских семей составляет менее 50 тыс. долл., распределение дохода асимметрично. Очень мало семей имеют доход 125 тыс. долл. или выше. При построении простой случайной выборки вполне вероятно, что эта категория семей не будет адекватно представлена в выборке. Стратифицированная же выборка гарантирует пропорциональное представительство высокодоходных семей. Таким образом, стратифицированная выборка соединяет в себе простоту построения, свойственную простой случайной выборке, и потенциальный выигрыш в точности. Этим и объясняется популярность данного метода.

Метод кластеризации (cluster sampling). Говоря о построении простой случайной выборки, мы отмечали, что опрос по такой выборке может потребовать слишком высоких затрат за счет необходимости ехать отдельно к каждому респонденту. Метод кластеризации позволяет существенно сократить затраты на исследование без существенного роста погрешности. Первое достигается благодаря тому, что попасть в выборку могут только респонденты, которые живут в кластерах, отобранных на первом этапе отбора. В качестве кластеров могут выступать, например, районы, населенные пункты или избирательные участки.

Требования, которые предъявляются к кластерам, диаметрально противоположны требованиям, предъявляемым к стратам. Кластеры должны быть как можно более похожи между собой, а каждый кластер должен состоять из как можно более разнообразных единиц отбора. В идеале каждый кластер - уменьшенная копия всей исследуемой совокупности: тогда совершенно неважно, какие кластеры будут, а какие - не будут представлены в выборке. Чем лучше эти требования удается соблюсти, тем слабее проявляется негативная сторона экономии затрат, состоящая в некотором росте случайной погрешности исследования.

При использовании метода кластеризации, как и при использовании метода стратификации, множество элементов, образующих исследуемую совокупность, разделяется на определенное число непересекающихся подмножеств, называемых уже не стратами, а кластерами. При использовании метода стратификации в выборку обязательно попадают представители всех страт. Здесь же, наоборот, производится случайный (методом SRS) выбор кластеров, чьи элементы затем будут включаться в выборку. Если в выборку включаются все элементы отобранных кластеров, процедура называется одностадийной. Если из каждого кластера случайным образом извлекаются и включаются в выборку некоторые элементы, процедура называется двустадийной. Если перед отбором отдельных элементов внутри выбранных на первой стадии кластеров сначала выделяются более мелкие кластеры, определенное число которых вновь отбирается случайными методами, процедура называется трех- или более стадийной.

Кластеры можно отбирать либо с равной вероятностью с помощью простого случайного отбора (simple two-stage cluster sampling), либо с вероятностью, пропорциональной размеру кластеров (PPS - probability proportionate to size sampling).

Кластеризация направлена на экономию затрат без существенного снижения точности, а не на повышение точности без увеличения затрат.

В отношении же гомогенности и гетерогенности требования к кластерам диаметрально противоположны тем, которые предъявляются к стратам. Элементы внутри кластера должны быть как можно более разнообразными, гетерогенными, а сами кластеры - как можно более похожими между собой.

Важным преимуществом метода является то, что строить основу выборки необходимо не для всей исследуемой совокупности, а только для отобранных путем случайной процедуры кластеров.

Кластеры чаще всего выделяются по территориальному признаку, т.е. представляют собой районы, улицы, многоквартирные дома и т.д. Такой метод построения выборки естественно назвать территориальным (area sampling).

Пример 9.10

Использование метода кластеризации с последующим отбором одинакового числа респондентов из каждого кластера

Целью маркетингового исследования было изучить поведение состоятельных людей. Для этого на первом шаге из микрорайонов, средний доход жителей которых по данным переписи превышает 50 тыс. долл. в год, была извлечена простая случайная выборка из 800 микрорайонов. Затем в коммерческой организации были приобретены списки фамилий и адресов примерно 95% семей, проживающих в этих 800 микрорайонах. Эти домохозяйства были пронумерованы от 1 до 213 000; 9000 из них были отобраны с помощью простого случайного отбора (SRS).

Такой механизм отбора пригоден, если все кластеры примерно одинакового размера. Если это не так, могут возникать смещения оценок. Поэтому иногда размеры кластеров пытаются сделать приблизительно равными путем слияния или разделения некоторых из них. Если это невозможно, необходимо применять не простой случайный отбор (SRS), а отбор, пропорциональный размеру кластеров (PPS), причем размер кластера измеряется числом содержащихся в нем единиц отбора.

Итак, на первом шаге вероятность того, что кластер будет отобран, прямо пропорциональна его размеру. На втором шаге из каждого выбранного кластера извлекается примерно одинаковое число единиц отбора. Поэтому вероятность того, что на втором шаге будет выбрана единица отбора, входящая в один из отобранных ранее кластеров, обратно пропорциональна размеру последнего. Благодаря такой процедуре каждый элемент исследуемой совокупности может попасть в выборку с равной вероятностью.

Метод кластеризации имеет два важных преимущества: гибкость и невысокая стоимость. Часто единственная доступная основа выборки - это перечень кластеров, а не элементов целевой совокупности. Например, нельзя за разумное время и в пределах имеющихся средств составить список всех квартир в городе. Считая же кластерами избирательные участки города и зная численность их населения, можно случайным образом отобрать несколько участков и составить список находящихся там квартир. Метод кластеризации - самый дешевый и потому самый эффективный из всех вероятностных методов построения выборки.

Есть у метода кластеризации и два серьезных недостатка. Во-первых, нередко выборка получается относительно неточной, поскольку на практике очень сложно сформировать гетерогенные кластеры. Например, люди, живущие в одном доме, скорее похожи, чем не похожи друг на друга. Во-вторых, при использовании метода кластеризации бывает затруднительным построение статистик для оценки точности результатов.

 
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 
Популярные страницы