Если количественный признак у задан без какой-либо дополнительной информации, то среднее значение этого признака, определяемое по формуле у-^У/1 Л»
/€/
представляет собой разумную суммаризацию имеющихся данных. Однако если становятся известными категории номинального признака х, то можно получить более детальную информацию: средние значения у в категориях. Обозначим через Sk множество объектов в категории к признака х. Среднее значение внутри этой
категории равно ук = X Vi/^k I •
ieSk
Эти средние можно считать решением уравнения табличной регрессии по методу наименьших квадратов. Подход восстановления данных применительно к этой ситуации можно сформулировать следующим образом. Найдем внутригрупповые центральные значения ск так, чтобы минимизировать суммарную квадратичную ошибку L = Z,-€/0,-2, где = г/, - ск — невязка уравнения
«декодирующего» каждое наблюденное значение у характеристическим числом ск, представляющим категорию к (к =1,2,..., К).
Это уравнение лежит в основе табличной регрессии, называемой также кусочно-постоянной регрессией. Нетрудно показать, что оптимальная по критерию наименьших квадратов величина ск в уравнении (3.11) равна среднему значению внутри категории ук. Отсюда следует, что минимальное значение
к _
критерия L равно Lm = X X (.?/ ~Уk)2- Разделив и умножив внутреннюю сумму
k= ieSfc
на |Sk — число элементов в множестве 5А„ можно увидеть, что Lm = Na2w, где g2w — внутригрупповая (within-group) дисперсия, определяемая формулой средневзвешенного среднего дисперсий у во всех rDvnnax:
где pk = Sk/ N доля категории k, a G2k дисперсия yk в Sk.
Для дальнейшего анализа рассмотрим тождество
и просуммируем его по всем i е Sk:
Суммируя эти уравнения но k и перенося последнее выражение из правой части уравнения в левую, получим
Справа в уравнении (3.13) стоит сумма квадратов невязок модели (3.11) Lm. Это позволяет интерпретировать уравнение (3.13) как декомпозицию квадратичного разброса переменной у эта величина (слева) разделяется на два слагаемых (справа), называемых объясненной и необъяснснной частями квадратичного разброса.
Объясненная часть суммирует вклады |Sk yk2отдельных категорий /е. Величина вклада пропорциональна и частоте категории, и квадрату среднего: чем больше эти значения, тем выше вклад. Еще одна интерпретация декомпозиции (3.13) может быть сделана, если признак у центрирован, так что его среднее значение равно нулю. В этом случае, разделив уравнение (3.13) на N, получим
где ст2 — дисперсия у, самая правая сумма — минимальное значение Lrn/Nm уравнения (3.12), а левая сумма — это взвешенная сумма квадратов расстояний между общим средним у - 0 и средними внутригрупповыми значениями yk.
В статистике уравнение (3.14) хорошо известно как разложение дисперсии на внутригрупповую и межгрупповую составляющие. Оно лежит в основе широко используемого метода сравнения средних внутригрупповых значений, называемого дисперсионный анализ, по-английски ANOVA (ANalysis Of VAriance). В контексте модели табличной регрессии (3.11), имеющей смысл модели восстановления данных, разложение (3.13) представляется более подходящим.
Корреляционное отношение характеризует среднее уменьшение дисперсии признака у при прогнозировании его величины с помощью уравнения (3.11) или, иными словами, относительную долю объясненной части дисперсии. Корреляционное отношение обычно обозначается г|2 и определяется следующей формулой:
Из определения следуют следующие свойства этой величины:
— г|2 принимает значения в интервале от 0 до 1; г|2 = 1, если и только если все внутригрупповые дисперсии равны нулю,
G2k = 0 (т.е. когда у постоянно внутри каждой группы Sk)
— г|2 = 0, если и только если все о2к порядка а2.
Вопрос 3.10. Рассмотрим два количественных признака х и у. Область значений х разделим на пять интервалов одинакового размера для задания категориальной переменной хс. Существует ли какая-либо связь между коэффициентом корреляции х и у и величиной корреляционного отношения хс и у?
Ответ. Прямой связи нет, можно привести случаи, когда коэффициент корреляции больше величины корреляционного отношения, и случаи, когда меньше.