|
|
|
|
|
главная / Измерения в маркетинговых исследованияхГолубков Е.П.1. Шкалы измеренийДля сбора данных разрабатываются анкеты (вопросники). Информация для их заполнения собирается путем проведения измерений. Под измерением понимается определение количественной меры или плотности некой характеристики (свойства), представляющей интерес для исследователя. Измерение – это процедура сравнения объектов по определенным показателям или характеристикам (признакам). Измерения могут носить качественный или количественный характер и быть объективными или субъективными. Объективные качественные и количественные измерения производятся измерительными приборами, действие которых основано на использовании физических законов. Теория объективных измерений достаточно хорошо разработана. Субъективные измерения производятся человеком, который как бы выполняет роль измерительного прибора. Естественно, что при субъективном измерении на его результаты влияет психология мышления человека. Законченная теория субъективных измерений пока еще не построена. Однако можно говорить о создании общей формальной схемы как объективных, так и субъективных измерений. На основе логики и теории отношений построена теория измерений, позволяющая с единых позиций рассматривать как объективные, так и субъективные измерения. Любое измерение включает в свой состав: объекты, показатели и процедуру сравнения. Измеряются показатели (характеристики) некоторых объектов (потребители, марки продуктов, магазины, реклама и т.п.). В качестве показателей сравнения объектов используются пространственные, временные, физические, физиологические, социологические, психологические и другие свойства и характеристики объектов. Процедура сравнения включает определение отношений между объектами и способ их сравнения. Введение конкретных показателей сравнения позволяет установить отношения между объектами, например, «больше», «меньше», «равны», «хуже», «предпочтительнее» и т.д. Существуют различные способы сравнения объектов между собой, например, последовательно с одним объектом, принимаемым за эталон, или друг с другом в произвольной или упорядоченной последовательности. Как только была определена некоторая характеристика для выбранного объекта, говорят, что объект был измерен по данной характеристике. Легче измеряются объективные свойства (возраст, доход, количество выпитого пива и т.п.), чем субъективные свойства (чувства, вкусы, привычки, отношения и т.п.). В последнем случае респондент должен перевести свои оценки на шкалу плотности (на некоторую числовую систему), которую должен разработать исследователь. Измерения можно провести с помощью различных шкал. Выделяют четыре характеристики шкал: описание, порядок, расстояние и наличие начальной точки. Описание предполагает использование единственного дескриптора или опознавателя для каждой градации в шкале. Например, “да” или “нет”; “согласен” или “несогласен”; возраст респондентов. Все шкалы имеют дескрипторы, которые определяют, что измеряется. Порядок характеризует относительный размер дескрипторов (“больше чем”, “меньше чем”, “равен”). Не все шкалы обладают характеристиками порядка. Например, нельзя сказать больше или меньше “покупатель” по сравнению с “непокупателем”. Такая характеристика шкалы как расстояние используется, когда известна абсолютная разница между дескрипторами, которая может быть выражена в количественных единицах. Респондент, который купил три пачки сигарет, купил на две пачки больше по сравнению с респондентом, купившем только одну пачку. Следует отметить, что когда существует “расстояние”, то существует и порядок. Респондент, купивший три пачки сигарет, купил их “больше чем” респондент, приобретший только одну пачку. Расстояние в данном случае равно двум. Считается, что шкала имеет начальную точку, если она имеет единственное начало или нулевую точку. Например, возрастная шкала имеет истинную нулевую точку. Однако не все шкалы обладают нулевой точкой для измеряемых свойств. Часто они имею только произвольную нейтральную точку. Скажем, отвечая на вопрос о предпочтительности определенной марки автомобиля, респондент ответил, что он не имеет мнения. Градация “ не имею мнения” не характеризует истинный нулевой уровень его мнения. Каждая последующая характеристика шкалы строится на предыдущей характеристике. Таким образом , “описание” является наиболее базовой характеристикой, которая присуща любой шкале. Если шкала имеет “расстояние”, она также обладает “порядком” и “описанием”. Выделяют четыре уровня измерения, определяющих тип шкалы измерений: наименований, порядка, интервальный и отношений. Их относительная характеристика дается в табл. 1. Таб. 1: Характеристика шкал различного типа
Шкала наименований обладает только характеристикой описания; она ставит в соответствие описываемым объектам только его название, никакие количественные характеристики не используются. Объекты измерения распадаются на множество взаимоисключающих и исчерпывающих категорий. Шкала наименований устанавливает отношения равенства между объектами, которые объединяются в одну категорию. Каждой категории дается название, численное обозначение которого является элементом шкалы. Очевидно, что измерение на этом уровне всегда возможно. “Да”,”Нет” и “Согласен”,”Несогласен” являются примерами градаций таких шкал. Если респонденты были расклассифицированы по роду их деятельности (шкала наименований), то она не дает информацию типа; “больше чем”, “меньше чем”. В табл. 2 приводятся примеры вопросов, сформулированных как в шкале наименований, так и в других шкалах. Таб. 2: Примеры вопросов, сформулированных в различных шкалах измерений А. Шкала наименований
Б. Шкала порядка
В. Шкала интервалов
Шкала порядка разрешает ранжировать респондентов или их ответы. Она имеет свойства шкалы наименований в сочетании с отношением порядка. Иными словами, если каждую пару категорий шкалы наименований упорядочить относительно друг друга, то получится порядковая шкала. Для того чтобы шкальные оценки отличались от чисел в обыденном понимании, их на порядковом уровне называют рангами. Например, частоту покупки определенного товара (раз в неделю, раз в месяц или чаще). Однако такая шкала указывает только относительную разницу между измеряемыми объектами. Зачастую предполагаемого четкого различения оценок не наблюдается и респонденты не могут однозначно выбрать тот или иной ответ, т.е. некоторые соседние градации ответов накладываются друг на друга. Такую шкалу называют полуупорядоченной; она находится между шкалами наименований и порядка. Интервальная шкала обладает также характеристикой расстояния между отдельными градациями шкалы, измеряемого с помощью определенной единицы измерений, то есть используется количественная информация. На этой шкале уже не бессмысленны разности между отдельными градациями шкалы. В данном случае можно решить, равны они или нет, а если не равны, то какая из двух больше. Шкальные значения признаков можно складывать. Обычно предполагается, что шкала имеет равномерный характер (хотя это предположение требует обоснования). Например, если оцениваются продавцы магазина по шкале, имеющей градации: чрезвычайно дружествен, очень дружествен, в известной мере дружествен, в известной мере недружествен, очень, недружествен, чрезвычайно недружествен, то обычно предполагается, что расстояния между отдельными градациями являются одинаковыми (каждое значение от другого отличается на единицу – см. табл. 2). Шкала отношений является единственной шкалой, имеющей нулевую точку, поэтому можно проводить количественное сравнение полученных результатов. Такое дополнение позволяет вести речь о соотношении (пропорции) a: b для шкальных значений a и b. Например, респондент может быть в 2,5 раза старше, тратить в три раза больше денег, летать в два раза чаще по сравнению с другим респондентом (табл. 2). Выбранная шкала измерений определяет характер информации, которой будет располагать исследователь при проведении изучения какого-то объекта. Но скорее следует говорить о том, что выбор шкалы для измерений определяется характером отношений между объектами, наличием информации и целями исследования. Если, скажем, нам требуется проранжировать марки продуктов, то, как правило, не требуется определять, насколько одна марка лучше другой. Следовательно, нет необходимости при таком измерении пользоваться количественными шкалами (интервалов или отношений). Кроме того, тип шкалы предопределяет, какой вид статистического анализа можно или нельзя использовать При использовании шкалы наименований возможно нахождение частот распределения, средней тенденции по модальной частоте, вычисление коэффициентов взаимозависимости между двумя или большим числом рядов свойств, применение непараметрических критериев проверки гипотез. Среди статистических показателей на порядковом уровне пользуются показателями центральной тенденции – медианой, квартилями и др. Для выявления взаимозависимости двух признаков используются коэффициенты ранговой корреляции Спирмена и Кендэла. Над числами, принадлежащими интервальной шкале можно производить довольно разнообразные действия. Шкалу можно сжать или растянуть в любое число раз. Например, если шкала имеет деления от 0 до 100, то, разделив все числа на 100, получим шкалу со значениями из интервала от 0 до 1. Можно сдвинуть всю шкалу так, чтобы ее составляли числа от -50 до +50. Кроме рассмотренных выше алгебраических операций интервальные шкалы допускают все статистические операции, присущие порядковому уровню; возможны также вычисления средней арифметической, дисперсии т.д. Вместо ранговых коэффициентов корреляции вычисляется коэффициент парной корреляции Пирсона. Может также быть рассчитан множественный коэффициент корреляции. Все перечисленные выше расчетные операции применимы также для шкалы отношений. Надо иметь ввиду, что полученные результаты всегда можно перевести в более простую шкалу, но никогда наоборот. Например, градации “сильно несогласен” и “в какой-то мере не согласен”(интервальная шкала) легко перевести в категорию “не согласен” шкалы наименований. Использование шкал измеренийВ простейшем случае оценка измеряемого признака некоторым индивидом производится путем выбора, как правило, одного ответа из серии предложенных или путем выбора одного числового балла из некоторой совокупности чисел. Для оценки измеряемого качества иногда пользуются графическими шкалами, разделенными на равные части и снабженные словесными или числовыми обозначениями. Респондента просят сделать отметку на шкале в соответствии с его оценкой данного качества. Как указывалось выше, ранжирование объектов является другим широко используемым приемом измерения. При ранжировании производится оценивание по измеряемому качеству совокупности объектов путем их упорядочивания по степени выраженности данного признака. Первое место, как правило, соответствует наиболее высокому уровню. Каждому объекту приписывается оценка, равная его месту в данном ранжированном ряду. Достоинством ранжирования как метода субъективного измерения является простота осуществления процедур, не требующая какого-либо трудоемкого обучения экспертов. Однако практически невозможно упорядочить большое число объектов. Как показывает опыт, при числе объектов, большем 15 – 20, эксперты затрудняются в построении ранжировок. Это объясняется тем, что в процессе ранжирования эксперт должен установить взаимосвязь между всеми объектами, рассматривая их как единую совокупность, При увеличении числа объектов количество связей между ними растет пропорционально квадрату числа объектов. Сохранение в памяти и анализ большой совокупности взаимосвязей между объектами ограничиваются психологическими возможностями человека. Поэтому при ранжировании большого числа объектов эксперты могут допускать существенные ошибки. В этом случае может использоваться метод парных сравнений. Парное сравнение представляет собой процедуру установления предпочтения объектов при сравнении всех возможных пар и дальнейшее упорядочивание объектов на основе результатов сравнения.. В отличие от ранжирования, в котором осуществляется упорядочение всех объектов, парное сравнение объектов представляет собой более простую задачу. Парное сравнение, так же как и ранжирование, есть измерение в порядковой шкале. Однако данный подход является более сложным и его, скорее, применяют при опросах экспертов, а не массовых респондентов. Предположим, что выясняется отношение к таким ценностям продукта, как “польза”, “дизайн”, “качество”, “срок гарантии”, “послепродажный сервис”, “цена” и т. п. Предполагаем, что простое ранжирование (определение весов признаков) затруднено или имеет большое значение достаточно точное определение шкальных весов исследуемых признаков, поэтому прямое их экспертное определение не может быть осуществлено. Обозначим для простоты эти ценности символами А1, А2, А3,..., Ак. Респонденты (эксперты) производят сравнение данных признаков попарно, с тем чтобы установить в каждой паре наиболее важный (значимый) из них. Из символов образуем всевозможные пары: (А1А2), (А1А3) и т. д. Всего таких парных комбинаций получится к x (к – 1)/2, где к – количество оцениваемых признаков. Затем производится ранжировка объектов по результатам их парного сравнения [2 ], [4 ]. Метод парных сравнений может использоваться также при определении относительных весов целей, критериев, факторов и др., осуществляемом при проведении различных маркетинговых исследований. Во многих случаях при составлении вопросников не целесообразно с “нуля” разрабатывать шкалы измерений. Лучше воспользоваться стандартными типами шкал, используемыми в отрасли маркетинговых исследований. К числу таких шкал относится: модифицированная шкала Лайкерта, шкала для изучения жизненного стиля и семантическая дифференциальная шкала. На основе модифицированной шкалы Лайкерта (интервальная шкала), адаптированной под цели проводимого маркетингового исследования, изучается степень согласия или несогласия респондентов с определенными высказываниями. Данная шкала носит симметричный характер и измеряет интенсивность чувств респондентов. В табл. 3 приводится вопросник, основанный на шкале Лайкерта. Данный вопросник может быть использован при проведении телефонных опросов потребителей. Интервьюер зачитывает вопросы, при этом просит опрашиваемых определить степень своего согласия с каждым заявлением. Таб. 3: Вопросник для выявления мнения потребителя относительно товара определенной марки
Существуют различные варианты модификации шкалы Лайкерта, например, вводится различное число градаций (7 – 9). Шкала для изучения жизненного стиля является специальным направлением применения модифицированной шкалы Лайкерта и предназначена для изучения системы ценностей, личностных качеств, интересов, мнений относительно работы, отдыха, покупок различных людей. Такая информация позволяет принимать эффективные маркетинговые решения. Пример анкеты для изучения жизненного стиля приводится в табл. 4. Таб. 4: Анкета для изучения жизненного стиля Пожалуйста, обведите цифру, в наибольшей мере соответствующей степени вашего согласия или несогласия с каждым утверждением.
Семантическая дифференциальная шкала содержит серию двухполярных определений, характеризующих различные свойства изучаемого объекта. Так как многие маркетинговые стимулы основаны на мыслительных ассоциациях и отношениях, невыраженных явно, то данный тип шкалы часто используется при определении имиджа товарной марки, магазина и т.п. Результаты изучения мнений потребителей относительно двух ресторанов (#1 и #2) на основе семантической дифференциальной шкалы приводятся в табл. 5. Таб. 5: Сравнительная оценка двух ресторанов
Обозначения: сплошная линия – оценки ресторана #1, пунктир – ресторана #2. В табл. 5 специально все положительные или отрицательные оценки не расположены только с одной стороны, а случайным образом перемешаны. Это сделано для того, чтобы избежать “гало эффекта”. Он заключается в том, что если первый оцениваемый объект обладает первыми более высокими оценками (левая сторона анкеты) по сравнению со вторым объектом, то респондент будет иметь тенденцию и дальше ставить оценки слева. Одним из достоинств данного метода является то, что если отдельным градациям в шкале присвоить номера:1, 2, 3, и т.д., и ввести в компьютер данные разных респондентов, то конечные результаты могут быть получены в графическом виде (табл. 5). При применении вышеназванных шкал возникает вопрос о целесообразности использования нейтральной точки. Все зависит от того, имеют или нет респонденты нейтральное мнение. Однозначной рекомендации по этому вопросу дать не представляется возможным. Тоже самое можно сказать и относительно того, строить шкалу симметричной или несимметричной. Существует великое множество вариантов шкал, построенных на основе изложенных принципов. Окончательный выбор обычно делается на основе испытания уровня надежности и точности измерений, проведенных с помощью различных вариантов шкал. Надежность и достоверность измерения маркетинговой информацииОписанные выше способы построения шкал не дают полного представления о свойствах полученных оценок. Необходимы дополнительные процедуры для выявления присущих этим оценкам ошибок. Назовем это проблемой надежности измерения. Эта проблема решается путем выявления правильности измерения, устойчивости и обоснованности. При изучении правильности устанавливается общая приемлемость данного способа измерения (шкалы или системы шкал). Непосредственно понятие правильности связано с возможностью учета в результате измерения различного рода систематических ошибок. Систематические ошибки имеют некоторую стабильную природу возникновения: либо они являются постоянными, либо меняются по определенному закону. Устойчивость характеризует степень совпадения результатов измерения при повторных применениях измерительной процедуры и описывается величиной случайной ошибки. Она определяется постоянством подхода респондента к ответам на одинаковые или подобные вопросы. Например, вы являетесь одним из опрашиваемых, отвечающим на вопросы анкеты табл. 5 относительно деятельности какого-то ресторана. Из-за медленного обслуживания в данном ресторане вы опоздали на деловую встречу, поэтому вы дали самую низкую оценку по данному показателю. Спустя неделю вам позвонили и просили подтвердить, что вы действительно приняли участие в проведенном обследовании. Затем вас попросили по телефону ответить на ряд дополнительных вопросов, среди которых был вопрос о быстроте обслуживания по шкале от 1 до 7, где 7 означало самое быстрое обслуживание. Вы поставили 2, продемонстрировав высокий уровень идентичности оценок и следовательно, – устойчивость ваших оценок. Наиболее сложный вопрос надежности измерения – его обоснованность. Обоснованность связана с доказательством того, что измерено вполне определенное заданное свойство объекта, а не некоторое другое, более или менее на него похожее. При установлении надежности следует иметь в виду, что в процессе измерения участвуют три составляющие: объект измерения, измеряющие средства, с помощью которых производится отображение свойств объекта на числовую систему, и субъект (интервьюер), производящий измерение. Предпосылки надежного измерения кроются в каждой отдельной составляющей. Прежде всего, когда в качестве объекта измерения выступает человек, то он в отношении измеряемого свойства может обладать значительной степенью неопределенности. Так, зачастую у респондента нет четкой иерархии жизненных ценностей, а следовательно, нельзя получить и абсолютно точные данные, характеризующие важность для него тех или иных явлений. Он может быть плохо мотивирован, вследствие чего невнимательно отвечает на вопросы. Однако только в последнюю очередь следует искать причину ненадежности оценок в самом респонденте. С другой стороны, может быть, что способ получения оценки не в состоянии дать максимально точных значений измеряемого свойства. Например, у респондента существует развернутая иерархия ценностей, а для получения информации используется шкала с вариациями ответов только «очень важно» и «совсем неважно». Как правило, из приведенного набора все ценности помечаются ответами “очень важно”, хотя реально у респондента имеется большее число уровней значимости. Наконец, при наличии высокой точности первых двух составляющих измерения субъект, производящий измерение, допускает грубые ошибки; нечетко составлены инструкции к анкете; интервьюер каждый раз по-разному формулирует один и тот же вопрос, использую различную терминологию. Например, в процессе интервью, в ходе которого должна быть выявлена система ценностей опрашиваемого, интервьюер не смог довести до респондента суть опроса, не смог добиться доброжелательного отношения к исследованию и пр. Каждая составляющая процесса измерения может быть источником ошибки, связанной либо с устойчивостью, либо с правильностью, либо с обоснованностью. Однако, как правило, исследователь не в состоянии разделить эти ошибки по источникам их происхождения и поэтому изучает ошибки устойчивости, правильности и обоснованности всего измерительного комплекса в совокупности. При этом правильность (как отсутствие систематических ошибок) и устойчивость информации – элементарные предпосылки надежности. Наличие существенной ошибки в этом отношении уже сводит на нет проверку данных измерения на обоснованность. В отличие от правильности и устойчивости, которые могут быть измерены достаточно строго и выражены в форме числового показателя, критерии обоснованности определяются либо на основе логических рассуждений, либо на основе косвенных показателей. Обычно применяется сравнение данных одной методики с данными других методик или исследований. Прежде чем приступать к изучению таких компонентов надежности, как устойчивость и обоснованность, необходимо убедиться в правильности выбранного инструмента измерения. Возможно, что последующие этапы окажутся излишними, если в самом начале выяснится полная неспособность данного инструмента на требуемом уровне дифференцировать изучаемую совокупность, иначе говоря, если окажется, что систематически не используется какая-то часть шкалы либо та или иная градация шкалы или вопроса. И, наконец, возможно, что исходный признак не обладает дифференцирующей способностью в отношении объекта измерения. Прежде всего нужно ликвидировать или уменьшить такого рода недостатки шкалы и только затем использовать ее в исследовании. К числу недостатков используемой шкалы прежде всего следует отнести отсутствие разброса ответов по значениям шкалы. Попадание ответов в один пункт свидетельствует о полной непригодности измерительного инструмента – шкалы. Такая ситуация может возникнуть или из-за «нормативного» давления в сторону общепринятого мнения, или из-за того, что градации (значения) шкалы не имеют отношения к распределению данного свойства у рассматриваемых объектов (нерелевантны). Например, если все опрашиваемые респонденты согласны с утверждением «хорошо, когда строительный инструмент является универсальным», нет ни одного ответа «не согласен», то подобная шкала не поможет дифференцировать отношение респондентов к разным типам строительных инструментов. Использование части шкалы. Довольно часто обнаруживается, что практически работает лишь какая-то часть шкалы, какой-то один из ее полюсов с прилегающей более или менее обширной зоной. Так, если респондентам для оценки предлагается шкала, имеющая положительный и отрицательный полюса, в частности от +3 до – 3, то при оценивании какой-то заведомо положительной ситуации респонденты не используют отрицательные оценки, а дифференцируют свое мнение лишь с помощью положительных. Для того чтобы вычислить значение относительной ошибки измерения, исследователь должен знать определенно, какой же метрикой пользуется респондент – всеми семью градациями шкалы или только четырьмя положительными. Так, ошибка измерения в 1 балл мало о чем говорит, если мы не знаем, какова действительная вариация мнений. Для вопросов, имеющих качественные градации ответов, можно применять подобное требование в отношении каждого пункта шкалы: каждый из них должен набирать не менее 5% ответов, в противном случае считаем этот пункт шкалы неработающим. Требование 5%-ного уровня наполнения каждой градации шкалы не следует рассматривать как строго обязательное; в зависимости от задач исследования могут быть выдвинуты большие или меньшие значения этих уровней. Неравномерное использование отдельных пунктов шкалы. Случается, что некоторое значение признака систематически выпадает из поля зрения респондентов, хотя соседние градации, характеризующие более низкую и более высокую степень выраженности признака, имеют существенное наполнение. Аналогичная картина наблюдается и в том случае, когда респонденту предлагают шкалу, имеющую слишком большую дробность: будучи не в состоянии оперировать всеми градациями шкалы, респондент выбирает лишь несколько базовых. Например, зачастую десятибалльную шкалу респонденты расценивают как некоторую модификацию пятибалльной, предполагая, что «десять» соответствует «пяти», «восемь” – «четырем», «пять» – «трем” и т. д. При этом базовые оценки используются значительно чаще, чем другие. Для выявления указанных аномалий равномерного распределения по шкале можно предложить следующее правило: для достаточно большой доверительной вероятности (1-a >0,99) и, следовательно, в достаточно широких границах наполнение каждого значения не должно существенно отличаться от среднего из соседних наполнений. Для чего используется критерий хи-квадрат. Определение грубых ошибок. В процессе измерения иногда возникают грубые ошибки, причиной которых могут быть неправильные записи исходных данных, плохие расчеты, неквалифицированное использование измерительных средств и т. п. Это обнаруживается в том, что в рядах измерений попадаются данные, резко отличающиеся от совокупности всех остальных значений. Чтобы выяснить, нужно ли эти значения признать грубыми ошибками, устанавливают критическую границу, так чтобы вероятность того, что крайние значения превысят ее, была бы достаточно малой и соответствовала бы некоторому уровню значимости а. Это правило основано на том, что появление в выборке чрезмерно больших значений хотя и возможно как следствие естественной вариабельности значений, но маловероятно. Если окажется, что какие-то крайние значения совокупности принадлежат ей с очень малой вероятностью, то такие значения признаются грубыми ошибками и исключаются из дальнейшего рассмотрения, Выявление грубых ошибок особенно важно проводить для выборок малых объемов: не будучи исключенными из анализа, они существенно искажают параметры выборки. Для этого используются специальные статистические критерии определения грубых ошибок [4]. Итак, дифференцирующая способность шкалы как первая существенная характеристика ее надежности предполагает: обеспечение достаточного разброса данных; выявление фактического использования респондентом предложенной протяженности шкалы; анализ отдельных «выпадающих» значений; исключение грубых ошибок. После того как установлена относительная приемлемость используемых шкал в указанных аспектах, следует переходить к выявлению устойчивости измерения по этой шкале. Устойчивость измерения. Существует несколько методов оценки устойчивости измерений: повторное тестирование; включение в анкету эквивалентных вопросов и разделение выборки на две части. Часто интервьюеры в конце опроса частично его повторяют, говоря при этом: “Заканчивая нашу работу, вновь коротко пройдемся по вопросам анкеты, чтобы я мог проверить, все ли я правильно записал из ваших ответов”. Конечно речь идет не о повторении всех вопросов, а только критических из их числа. При этом надо помнить, что если интервал времени между тестированием и повторным тестированием слишком короткий, то респондент просто может помнить первоначальные ответы. Если интервал – слишком велик, то могут иметь место некоторые реальные изменения. Включение в анкету эквивалентных вопросов предполагает использование в одной анкете вопросов по той же проблеме, но сформулированных по-другому. Их респондент должен воспринимать как разные вопросы. Главная опасность данного метода заключается в степени эквивалентности вопросов; если это не достигается, то респондент отвечает на разные вопросы. Разделение выборки на две части основано на сравнении ответов на вопросы двух групп респондентов. Предполагается, что эти две группы являются идентичными по своей композиции и что средние оценки ответов для этих двух групп являются очень близкими. Все сравнения делаются только на групповой основе, поэтому сравнение внутри группы проводить невозможно. Например, среди студентов колледжа с помощью модифицированной шкалы Лайкерта с пятью градациями был проведен опрос относительно их будущей карьеры. В анкете приводилось утверждение: “ Я считаю, что меня ожидает блестящая карьера”. Ответы были обобщены, начиная с “сильно не согласен” (1 балл) и кончая “сильно согласен”(5 баллов). Затем общая выборка опрошенных была разделена на две группы и были вычислены средние оценки для этих групп. Средняя оценка была одинаковой для каждой группы и равнялась 3- м баллам. Данные результаты дали основание считать измерение надежным. Когда же проанализировали групповые ответы более внимательно, то оказалось, что в одной группе все студенты ответили “и согласен и не согласен”, а в другой – 50% ответили “сильно не согласен”, а другие 50% – “сильно согласен”. Как видно, более глубокий анализ показал, что ответы не являются идентичными. Вследствие данного недостатка этот метод оценки устойчивости измерений является наименее популярным. О высокой надежности шкалы можно говорить лишь в том случае, если повторные измерения при ее помощи одних и тех же объектов дают сходные результаты. Если устойчивость проверяют на одной и той же выборке, то часто оказывается достаточным сделать два последовательных замера с определенным временным интервалом – таким, чтобы этот промежуток не был слишком велик, чтобы сказалось изменение самого объекта, но и не слишком мал, чтобы респондент мог по памяти «подтягивать» данные второго замера к предыдущему (т. е. его протяженность зависит от объекта изучения и колеблется от двух до трех недель). Существуют различные показатели оценки устойчивости измерений. Среди них чаще всего используется средняя квадратическая ошибка. До сих пор речь шла об абсолютных ошибках, размер которых выражался в тех же единицах, что и сама измеряемая величина. Это не позволяет сравнивать ошибки измерения разных признаков по разным шкалам. Следовательно, помимо абсолютных, нужны относительные показатели ошибок измерения. В качестве показателя для приведения абсолютной ошибки в относительный вид можно использовать максимально возможную ошибку в рассматриваемой шкале, на которую делят среднеарифметические ошибки измерений. Однако зачастую этот показатель «плохо работает» из-за того, что шкала не используется на всей ее протяженности. Поэтому более показательными являются относительные ошибки, рассчитанные по фактически используемой части шкалы. Для повышения устойчивости измерения необходимо выяснить различительные возможности пунктов используемой шкалы, что предполагает четкую фиксацию респондентами отдельных значений: каждая оценка должна быть строго отделена от соседней. На практике это означает, что в последовательных пробах респонденты четко повторяют свои оценки. Следовательно, высокой различимости делений шкалы должна соответствовать малая ошибка. Но и при малом числе градаций, т. е. при низком уровне различительных возможностей шкалы, может быть низкая устойчивость, и тогда следует увеличить дробность шкалы. Так бывает, когда респонденту навязывают категорические ответы «да», «нет», а он предпочел бы менее жесткие оценки. И потому он выбирает в повторных испытаниях иногда «да», иногда «нет». В том случае, если обнаружено смешение градаций, применяют один из двух способов укрупнения шкалы. Первый способ. В итоговом варианте уменьшают дробность шкалы (например, из шкалы в 7 интервалов переходят на шкалу в 3 интервала). Второй способ. Для предъявления респонденту сохраняют прежнюю дробность шкалы и только при обработке укрупняют соответствующие ее пункты. Второй способ кажется предпочтительнее, поскольку, как правило, большая дробность шкалы побуждает респондента и к более активной реакции. При обработке данных информацию следует перекодировать в соответствии с проведенным анализом различительной способности исходной шкалы. Анализ устойчивости отдельных вопросов шкалы позволяет: а) выявить плохо сформулированные вопросы, их неадекватное понимание разными респондентами; б) уточнить интерпретацию шкалы, предложенной для оценки того или иного явления, и выявить более оптимальный вариант дробности значения шкалы. Обоснованность измерения. Проверка обоснованности шкалы предпринимается лишь после того, как установлены достаточные правильность и устойчивость измерения исходных данных. Обоснованность данных измерения – это доказательство соответствия между тем, что измерено, и тем, что должно было быть измерено. Некоторые исследователи предпочитают исходить из так называемой наличной обоснованности, т. е. обоснованности в понятиях использованной процедуры. Например, считают, что удовлетворенность товаром– это то свойство, которое содержится в ответах на вопрос: «Удовлетворены ли Вы товаром?». В серьезном маркетинговом исследовании такой сугубо эмпирический подход может оказаться неприемлемым. Остановимся на возможных формальных подходах к выяснению уровня обоснованности методики. Их можно разделить на три группы: 1) конструирование типологии в соответствии с целями исследования на базе нескольких признаков; 2) использование параллельных данных; 3) судейские процедуры. Первый вариант нельзя считать полностью формальным методом – это всего лишь некоторая схематизация логических рассуждений, начало процедуры обоснования, которая может быть на этом и закончена, а может быть подкреплена более мощными средствами. Второй вариант требует использования по крайней мере двух источников для выявления одного и того же свойства. Обоснованность определяется степенью согласованности соответствующих данных. В последнем случае мы полагаемся на компетентность судей, которым предлагается определить, измеряем ли мы нужное нам свойство или что-то иное. Конструированная типология заключается в использовании контрольных вопросов, которые в совокупности с основными дают большее приближение к содержанию изучаемого свойства, раскрывая различные его стороны. Например, можно определять удовлетворенность используемой моделью автомобиля лобовым вопросом: «Устраивает ли вас ваша нынешняя модель автомобиля?” Комбинация его с двумя другими косвенными: «Хотите ли вы перейти на другую модель?» и «Рекомендуете ли вы своему другу купить данную модель автомобиля?» позволяет произвести более надежную дифференциацию респондентов. Далее проводится типология по пяти упорядоченным группам от наиболее удовлетворенных автомобилем до наименее удовлетворенных. Использование параллельных данных заключается в разработке двух равноправных приемов измерения заданного признака. Это позволяет установить обоснованность методов относительно друг друга, т. е. повысить общую обоснованность путем сопоставления двух независимых результатов. Рассмотрим различные способы использования этого подхода и прежде всего – эквивалентные шкалы. Возможны равнозначные выборки признаков для описания измерения поведения, отношения, ценностной ориентации, т.е. какой-то установки. Эти выборки и образуют параллельные шкалы, обеспечивая параллельную надежность. Каждую шкалу рассматриваем как способ измерения некоторого свойства и в зависимости от числа параллельных шкал имеем ряд способов измерении. Респондент дает ответы одновременно по всем параллельным шкалам. При обработке такого рода данных следует выяснить два момента: 1) непротиворечивость пунктов отдельной шкалы; 2) согласованность оценок по разным шкалам. Первая проблема возникает в связи с тем, что модели ответов не представляют идеальной картины; ответы нередко противоречат друг другу. Поэтому встает вопрос, что принимать за истинное значение оценки респондента на данной шкале. Вторая проблема непосредственно касается сопоставления параллельных данных. Рассмотрим пример неудавшейся попытки повысить надежность измерения признака «удовлетворенность автомобилем» с помощью трех параллельных порядковых шкал. Приведем две из них: Шкала А
Шкала В
Пятнадцать суждений (в порядке, обозначенном слева, в начале каждой строки) предъявляются респонденту общим списком, и он должен выразить свое согласие или несогласие с каждым из них. Каждому суждению присваивается оценка, соответствующая его рангу в указанной пятибалльной шкале (справа). (Например, согласие с суждением 4 дает оценку «1», согласие с суждением 11 – оценку «5» и т. д.) Рассматриваемый здесь способ предъявления суждений списком дает возможность проанализировать пункты шкалы на непротиворечивость. При использовании упорядоченных шкал наименований обычно считается, что пункты, образующие шкалу, взаимно исключают друг друга и респондент легко найдет тот из них, который ему подходит. Изучение распределений ответов показывает, что респонденты выражают согласие с противоречивыми (с точки зрения исходной гипотезы) суждениями. Например, по шкале «В» 42 человека из 100 одновременно согласились с суждениями 13 и 12, т. е. с двумя противоположными суждениями. Наличие в ответах по шкале В противоречивых суждений приводит к необходимости считаль шкалу неприемлемой. Данный подход повышения надежности шкалы является весьма сложным. Поэтому его можно рекомендовать лишь при разработке ответственных тестов или методик, предназначенных для массового употребления или панельных исследований. Возможна проверка одного метода на нескольких респондентах. Если метод надежен, то разные респонденты дадут совпадающую информацию, но если их результаты плохо согласуются, то либо измерения ненадежны, либо результаты отдельных респондентов нельзя считать равноценными. В последнем случае надо установить, нельзя ли рассматривать какую-либо группу результатов заслуживающей больщего доверия. Решение этой задачи тем более важно, если предполагается, что одинаково допустимо получение информации любым из рассматриваемых методов. Использование параллельных методов измерения одного и того же свойства сталкивается с целым рядом трудностей. Во-первых, неясно, в какой мере оба метода измеряют одно и то же качество объекта, причем, как правило, формальных критериев для проверки такой гипотезы не существует. Следовательно, необходимо прибегнуть к содержательному (логико-теоретическому) обоснованию того или иного метода. Во-вторых, если обнаруживается, что параллельные процедуры измеряют общее свойство (данные существенно не различаются), остается вопрос о теоретическом обосновании применения этих процедур. Нельзя не признать, что сам принцип использования параллельных процедур оказывается не формальным, а скорее содержательным принципом, применение которого теоретически обосновать весьма трудно. Один из широко распространенных подходов к установлению обоснованности – это использование так называемых судей, экспертов. Исследователи обращаются к определенной группе людей с просьбой выступить в качестве компетентных лиц. Им предлагают набор признаков, предназначенный для измерения изучаемого объекта, и просят оценить правильность отнесения каждого из признаков к этому объекту. Совместная обработка мнений судей позволит присвоить признакам веса или, что то же самое, шкальные оценки в измерении изучаемого объекта. В качестве набора признаков может выступить список отдельных суждений, характеристики объекта и т. д. Процедуры судейства многообразны. В основе их могут лежать методы парных сравнений, ранжирования, последовательных интервалов и т. д. Вопрос о том, кого следует считать судьями, достаточно дискуссионен. Судьи, выбираемые в качестве представителей изучаемой совокупности, так или иначе должны представлять ее микромодель: по оценкам судей исследователь определяет, насколько адекватно будут истолкованы респондентами те или иные пункты опросной процедуры. Однако при отборе судей возникает трудноразрешимый вопрос, каково влияние собственных установок судей на их оценки, ведь эти установки могут существенно отличаться от установок обследуемых в отношении того же самого объекта. В общем виде решение проблемы состоит в том, чтобы: а) внимательно проанализировать состав судей с точки зрения адекватности их жизненного опыта и признаков социального статуса соответствующим показателям обследуемой генеральной совокупности; б) выявить эффект индивидуальных отклонений в оценках судей относительно общего распределения оценок. Наконец, следует оценить не только качество, но и объем выборочной совокупности судей. С одной стороны, это количество определяется согласованностью: если согласованность мнений судей достаточно высокая и, соответственно, ошибка измерения мала, численность судей может быть небольшой. Нужно задать значение допустимой ошибки и на основании ее рассчитать требуемый объем выборки. При обнаружении полной неопределенности объекта, т. е. в случае, когда мнения судей распределятся равномерно по всем категориям оценки, никакое увеличение объема выборки судей не спасет ситуацию и не выведет объект из состояния неопределенности. Если объект достаточно неопределенен, то большое число градаций только внесет дополнительные помехи в работу судей и не принесет более точной информации. Нужно выявить устойчивость судейских мнений с помощью повторной пробы и, соответственно, сузить число градаций. Выбор того или иного конкретного способа, метода или техники проверки на обоснованность зависит от многих обстоятельств. Прежде всего следует четко установить, возможны ли какие-то существенные отклонения от запланированной программы измерения. Если программа исследования ставит жесткие рамки, следует использовать не один, а несколько приемов проверки данных на обоснованность. Во-вторых, нужно иметь в виду, что уровни устойчивости и обоснованности данных тесно взаимосвязаны. Неустойчивая информация уже в силу недостаточной надежности по этому критерию не требует слишком строгой проверки на обоснованность. Следует обеспечить достаточную устойчивость и уже затем принять соответствующие меры для уточнения границ интерпретации данных (т. е. выявить уровень обоснованности). Многочисленные эксперименты по выявлению уровня надежности позволяют заключить, что в процессе отработки инструментов измерений со стороны их надежности целесообразна следующая последовательность основных этапов работы: а) Предварительный контроль обоснованности методов измерения первичных данных на стадии отработки методики. Здесь проверяется, насколько информация отвечает своему назначению по существу и каковы пределы последующей интерпретации данных. Для этой цели достаточны небольшие выборки в 10 – 20 наблюдений с последующей корректировкой структуры методики. б) Второй этап – пилотаж методики и тщательная проверка устойчивости исходных данных, в особенности выбранных показателей и шкал. На этом этапе нужна выборка, представляющая микромодель реальной совокупности обследуемых. в) В период этого же общего пилотажа осуществляются все необходимые операции, относящиеся к проверке уровня обоснованности. Результаты анализа данных пилотажа приводят к усовершенствованию методики, к доработке всех ее деталей и в итоге – к получению окончательного варианта методики для основного исследования. г) В начале основного исследования желательно провести проверку используемого варианта методики на устойчивость с тем, чтобы рассчитать точные показатели ее устойчивости. Последующее уточнение границ обоснованности проходит через весь анализ результатов самого исследования. Вне зависимости от использованного метода оценки надежности у исследователя имеется четыре последовательных шага по повышению надежности результатов измерений. Во-первых, в случае чрезвычайно низкой надежности измерений некоторые вопросы просто выбрасываются из анкеты, особенно когда степень надежности можно определить в процессе разработки анкеты. Во-вторых, исследователь может “свернуть” шкалы и использовать меньше градаций. Скажем, шкала Лайкерта в этом случае может включать только следующие градации: “согласен”, “не согласен”, “не имею мнения”. Обычно так поступают, когда пройден первый шаг, и когда обследование уже было проведено. В-третьих, как альтернатива второму шагу или как подход, осуществляемый после второго шага, оценка надежности проводится на индивидуальной основе. Скажем проводится прямое сравнение ответов респондентов в ходе их первоначального и повторного тестирований или с каким-то эквивалентным ответом. Ответы ненадежных респондентов просто не учитываются при проведении заключительного анализа. Очевидно, что если использовать данный подход без объективной оценки надежности респондентов, то, выбрасывая «неугодные» ответы, результаты исследования можно подогнать под желаемые. Наконец, после того как первые три шага были использованы, можно оценить уровень надежности измерений. Обычно надежность измерений характеризуется коэффициентом, изменяющемся от нуля до единицы, где единица характеризует максимальную надежность. Обычно считается, что минимально приемлемый уровень надежности характеризуют цифры 0,65–0,70, особенно если измерения проводились впервые. Очевидно, что в процессе проведения разными фирмами разнообразных и многочисленных маркетинговых исследований имела место последовательная адаптация шкал измерений и методик их проведения под цели и задачи конкретных маркетинговых исследований. Это облегчает решение задач, рассмотренных в данном разделе, и делает это скорее необходимым при проведении оригинальных маркетинговых исследований. Достоверность (validity) измерений характеризует совершенно другие аспекты, чем надежность измерений. Измерение может быть надежным, но не достоверным. Последнее характеризует точность измерений по отношению к тому, что существует в реальности. Например, респонденту задали вопрос о его годовом доходе, который составляет менее 25000 долларов. Не желая интервьюеру называть истинную цифру, респондент указал доход “более 100000 долларов”. При повторном тестировании он снова назвал данную цифру, демонстрируя высокий уровень надежности измерений. Лож не является единственной причиной низкого уровня достоверности измерений. Можно также назвать плохую память, плохое знание респондентом действительности и т.п. Рассмотрим другой пример, характеризующий различие между надежностью и достоверностью измерений. Даже часы с неточным ходом будут показывать время в один час два раза в сутки, демонстрируя высокую надежность. Однако идти они могут очень неточно, т.е. показ времени будет недостоверным. Главное направление проверки достоверности измерений заключается в получении информации из различных источников. Это может быть осуществлено по-разному. Здесь прежде всего следует отметить следующее. Надо стремиться составлять вопросы таким образом, чтобы их формулировки способствовали получению достоверных ответов. Далее в анкету могут включаться вопросы, связанные друг с другом. Например, в анкету помещается вопрос о том, в какой степени респонденту нравиться какой-то продукт питания определенной марки. И далее спрашивается, какое количество данного товара было куплено респондентом за последний месяц. Данный вопрос направлен на проверку достоверности ответа на первый вопрос. Часто для оценки достоверности измерений используется два различных метода или источников получения информации. Например, после письменного заполнения анкет ряду респондентов из первоначальной выборки дополнительно задаются те же вопросы по телефону. По схожести ответов судят о степени их достоверности. Иногда образуют на основе одних и тех же требований две выборки респондентов и для оценки степени достоверности сравнивают их ответы. Использованная литература
|