Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

Ф3.3.1. Табличная регрессия: формулировки

Если количественный признак у задан без какой-либо дополнительной информации, то среднее значение этого признака, определяемое по формуле у-^У/1 Л»

/€/

представляет собой разумную суммаризацию имеющихся данных. Однако если становятся известными категории номинального признака х, то можно получить более детальную информацию: средние значения у в категориях. Обозначим через Sk множество объектов в категории к признака х. Среднее значение внутри этой

категории равно ук = X Vi/^k I •

ieSk

Эти средние можно считать решением уравнения табличной регрессии по методу наименьших квадратов. Подход восстановления данных применительно к этой ситуации можно сформулировать следующим образом. Найдем внутригрупповые центральные значения ск так, чтобы минимизировать суммарную квадратичную ошибку L = Z,-/0,-2, где = г/, - ск невязка уравнения

«декодирующего» каждое наблюденное значение у характеристическим числом ск, представляющим категорию к (к =1,2,..., К).

Это уравнение лежит в основе табличной регрессии, называемой также кусочно-постоянной регрессией. Нетрудно показать, что оптимальная по критерию наименьших квадратов величина ск в уравнении (3.11) равна среднему значению внутри категории ук. Отсюда следует, что минимальное значение

к _

критерия L равно Lm = X X (.?/ ~Уk)2- Разделив и умножив внутреннюю сумму

k= ieSfc

на |Sk число элементов в множестве 5А„ можно увидеть, что Lm = Na2w, где g2w — внутригрупповая (within-group) дисперсия, определяемая формулой средневзвешенного среднего дисперсий у во всех rDvnnax:

где pk = Sk/ N доля категории k, a G2k дисперсия yk в Sk.

Для дальнейшего анализа рассмотрим тождество

и просуммируем его по всем i е Sk:

Суммируя эти уравнения но k и перенося последнее выражение из правой части уравнения в левую, получим

Справа в уравнении (3.13) стоит сумма квадратов невязок модели (3.11) Lm. Это позволяет интерпретировать уравнение (3.13) как декомпозицию квадратичного разброса переменной у эта величина (слева) разделяется на два слагаемых (справа), называемых объясненной и необъяснснной частями квадратичного разброса.

Объясненная часть суммирует вклады |Sk yk2отдельных категорий /е. Величина вклада пропорциональна и частоте категории, и квадрату среднего: чем больше эти значения, тем выше вклад. Еще одна интерпретация декомпозиции (3.13) может быть сделана, если признак у центрирован, так что его среднее значение равно нулю. В этом случае, разделив уравнение (3.13) на N, получим

где ст2 — дисперсия у, самая правая сумма — минимальное значение Lrn/Nm уравнения (3.12), а левая сумма — это взвешенная сумма квадратов расстояний между общим средним у - 0 и средними внутригрупповыми значениями yk.

В статистике уравнение (3.14) хорошо известно как разложение дисперсии на внутригрупповую и межгрупповую составляющие. Оно лежит в основе широко используемого метода сравнения средних внутригрупповых значений, называемого дисперсионный анализ, по-английски ANOVA (ANalysis Of VAriance). В контексте модели табличной регрессии (3.11), имеющей смысл модели восстановления данных, разложение (3.13) представляется более подходящим.

Корреляционное отношение характеризует среднее уменьшение дисперсии признака у при прогнозировании его величины с помощью уравнения (3.11) или, иными словами, относительную долю объясненной части дисперсии. Корреляционное отношение обычно обозначается г|2 и определяется следующей формулой:

Из определения следуют следующие свойства этой величины:

— г|2 принимает значения в интервале от 0 до 1; г|2 = 1, если и только если все внутригрупповые дисперсии равны нулю,

G2k = 0 (т.е. когда у постоянно внутри каждой группы Sk)

г|2 = 0, если и только если все о2к порядка а2.

Вопрос 3.10. Рассмотрим два количественных признака х и у. Область значений х разделим на пять интервалов одинакового размера для задания категориальной переменной хс. Существует ли какая-либо связь между коэффициентом корреляции х и у и величиной корреляционного отношения хс и у?

Ответ. Прямой связи нет, можно привести случаи, когда коэффициент корреляции больше величины корреляционного отношения, и случаи, когда меньше.

 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы