Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

ПЗ.2.2. Анализ степени адекватности уравнения регрессии

Функция регрессии, построенная на некотором наборе данных, должна быть проверена на адекватность. Рассмотрим три способа проверки адекватности:

  • 1) доля дисперсии целевого признака, учтенная в уравнении регрессии, коэффициент детерминации: чем его значение больше, тем точнее регрессионное уравнение описывает связь признаков;
  • 2) доверительные интервалы для параметров регрессии — их диапазоны могут дать представление об устойчивости регрессии;
  • 3) непосредственное тестирование точности прогноза как на данных, использованных для построения регрессии, так и на тех, что не использовались для ее построения.

Рабочий пример 3.1. Коэффициент детерминации

Рассмотрим целевой признак Нш и входной признак Нас в данных по прибрежным городам (см. рис. 3.1). Коэффициент корреляции между ними — 0,909. Коэффициент детерминации в случае линейной регрессии равен квадрату коэффициента корреляции, т.е. 0,9092 = 0,826. Это показывает, что линейная связь Нш и Нас снижает разброс значений Нш на 82,6% — довольно высокое значение.

Самостоятельная работа

  • 3.1.1. Найдите коэффициенты корреляции и детерминации для признаков «Длина» и «Ширина лепестка» по данным об ирисах (см. табл. 1.2). Дайте интерпретацию величины коэффициента детерминации.
  • 3.1.2. Найдите распределение, энтропию и индекс Джини для признака Бол в данных о малых городах английского побережья (см. табл. 1.5).

Если величина коэффициента детерминации мала, гипотезу о линейной зависимости признаков все же отвергнуть из-за этого одного факта нельзя. Это зависит от распределения остатков регрессии, т.е. от разности наблюдаемых значений Нш и значений, вычисленных по Нас с помощью уравнения (3.1). Это распределение должно быть Гауссовым или близким к таковому, так чтобы применение принципа максимального правдоподобия приводило к соответствующим выводам. Распределение, о котором идет речь, представлено на рис. 3.3. Оно действительно напоминает Гауссово распределение на гистограмме с 5 столбиками. Гистограмма с 10 столбиками имеет меньше сходства из-за наличия впадин — возможно, выборка слишком мала для такого уровня детализации: в среднем, только 4—5 объектов попадают в каждый из десяти столбиков.

Более простое тестирование корректности может быть проведено без обращения к какой-либо статистической теории вообще, а с использованием только лишь вычислительных средств. Бутстрэп — это способ вычисления множества оценок интересующих нас параметров с помощью случайных подвыборок из множества наблюденных данных.

Рабочий пример 3.2. Тестирование адекватности с помощью бутстрапа

Рассмотрим линейную регрессию Нш на Нас в уравнении (3.1). Насколько устойчивы найденные значения наклона и сдвига при возникновении изменений в выборке? Именно это проверяется с помощью процедуры бутстрэп. Одно испытание согласно этой процедуре включает в себя три этапа:

1. Случайно выбрать, с повторением, столько объектов, сколько их в выборке — 45 в нашем случае. Например, случайно выбрана следующая последовательность индексов наших 45 городов:

у — {26, 17, 36, 11, 29, 39, 32, 25, 27, 26, 29, 4, 4, 33, 10, 1, 5, 45, 17, 16, 13, 5, 42, 43, 28, 26, 35, 2, 37, 44, 6, 39, 33, 21, 15, И, 33, 1, 44, 30, 26, 25, 5, 37, 24}. Некоторые индексы неоднократно попали в выборку, например 26 — 4 раза, в то время как другие вовсе нс попали в нес; таких значений всего 16, как, например, 3, 7, 8. Доля отсутствующих индексов равна 16 / 45 = 0,356, что довольно близко к теоретической оценке 1 / е = 0,3679, полученной в проекте 2.2.

  • 2. Найдем 45-мерные векторы значений признаков Нас и Нш на последовательности объектов г из пункта 1.
  • 3. Найдем величины наклона и сдвига для этих новых версий признаков Нас и Нш.

Шаги вычислений в МатЛабе тс же, что и в проекте 2.2. После 400 испытаний получим по 400 величин наклона и сдвига, 20-бинные гистограммы распределений которых представлены на рис. 3.4, а и b, соответственно. Гистограммы с и d получены в результате 4000 испытаний. Легко заметен сглаживающий эффект увеличения числа испытаний: при 4000 испытаний форма гистограмм очевидно Гауссова.

Процедура бутстрэпа порождает разнообразие решений, необходимое для оценки доверия к средним значениям наклона и сдвига. Поэтому для каждого параметра можно построить доверительные границы.

Таблица 3.1

Параметры линейной регрессии Нас по Нш, найденные но исходному множеству, а также в результате 400 и 4000 испытаний бутстрэпа

Регрессия

Параметр

400 испытаний

4000 испытаний

Среднее

2,5%

97,5%

Среднее

2,5%

97,5%

Наклон

0,401

0,399

0,296

0,486

0,398

0,303

0,488

Сдвиг

0,072

0,089

-0,343

0,623

0,092

-0,400

0,594

Примечание. Для испытаний указаны средние значения, нижние и верхние 2,5%-ные квантили.

ЗА. Гистограммы распределений наклона

Рис. ЗА. Гистограммы распределений наклона (слева) и сдвига (справа), найденные после 400 испытаний (верхний ряд) и 4000 испытаний (нижний ряд) бутстрапа для регрессии количества школ Нш по населению Нас, выраженному в тысячах

Как можно получить доверительные границы, например, на 95%-ном уровне? По безопорному методу нижние и верхние 2,5%-ные квантили «вырезаются» из распределения симметричным образом, причем 95% наблюдений попадают между ними. Для случая 400 испытаний 2,5% — это 10, так что нижний квантиль относится к 11-му элементу отсортированного множества значений. Аналогично, верхний 2,5%-ный квантиль относится к 390-му элементу, отсекая «верхние» 10 значений. Для случая 4000 испытаний 2,5% — это 100, так что верхний и нижний квантили относятся к 101-му и 3900-му элементам отсортированных множеств. Они приведены в табл. 3.1 для обоих случаев, 400 и 4000 испытаний. Можно заметить, что бутстрэп приводит к довольно узким границам для величины наклона: между 0,303 и 0,488 в 95% всех испытаний (4000 испытаний); примерно тс же границы получаются и при 400 испытаниях. Величина сдвига распределена с большим разбросом, что ухудшает точность. Симметричные 95%-ные доверительные интервалы для величины сдвига: [-0,343, 0,623] при 400 и [-0,400, 0,594] при 4000 испытаниях.

Вопрос 3.1. Как здесь можно применить метод бутстрэпа с опорой, когда доверительный интервал строится так, как если бы распределения средних сдвига и наклона, полученные в результате бутстрэпа, были Гауссовы? Это бы привело к более устойчивым оценкам, нежели эмпирические распределения, используемые в безопориом бутстрэпе. Стандартные отклонения величин наклона и сдвига равны 0,0493 и 0,2606, соответственно, при 400 испытаниях бутстрэпа; они несколько меньше, 0,0477 и 0,2529, при 4000 испытаниях. Как извлечь из этого симметричный 95%-ный доверительный интервал для величин наклона и сдвига?

Подсказка: при Гауссовом распределении 95% всех значений попадают в интервал «Среднее ± 1,96 • Стандартное отклонение».

Вопрос 3.2. Можете ли вы предложить оценку дисперсии разностей между наблюдаемыми значениями Нш и вычисленными по уравнению регрессии?

Последний тест адекватности уравнения регрессии, возможно, самый трудоемкий, основывается на понятии ошибки прогноза (см. рабочий пример 3.3).

Рабочий пример 3.3. Ошибка прогноза по уравнению регрессии

Сравним наблюдаемые значения Нш с теми, которые вычислены но Нас согласно равенству (3.1). В табл. 3.2 представлены несколько примеров значений, взятых с обоих концов отсортированного признака Нас.

В среднем прогнозы довольно близки, хотя и случаются более серьезные отклонения. Легко оценить относительную ошибку: [(1 - 0,89) / 1] • 100 = 11% в первом случае, |(2 - 0,97) / 2] • 100 = 51,5% во втором случае и т.д. Средняя относительная ошибка в уравнении регрессии (3.1) составляет 30,7%. Можно ли ее сделать меньше? На первый взгляд, нет, поскольку уравнение (3.1) по своей сути минимизирует ошибку. Но ошибка, которую мы минимизируем в уравнении (3.1), является средней квадратичной, а не относительной ошибкой. Эти две ошибки, безусловно, различаются, и уравнение (3.1) не обязательно оптимально для относительной ошибки.

Наблюдаемые значения числа начальных школ по сравнению со спрогнозированным значением исходя из численности постоянного населения (данные по прибрежным городам)

Таблица 3.2

Нш наб.

Нш выч.

Нас

Нш наб.

Нш выч.

Нас

1

0,89

2040

2 2,35

5676

2

0,97

2230

2

2,90

7044

2

1,06

2452

4

4,12

10 092

2

1,19

2786

7

6,44

15 865

1

1,54

3660

4

7,05

17 390

Самостоятельная работа

  • 3.3.1. Постройте уравнение регрессии признака «Ширина лепестка» по признаку «Длина лепестка» по данным об ирисах (см. табл. 1.2), сравните спрогнозируемые значения признака «Ширина лепестка» с наблюденными значениями и рассчитайте значения относительных ошибок. Вычислите среднее значение относительной ошибки.
  • 3.3.2. Постройте уравнение регрессии признака «Ба» (число отделений банков) по признаку «Нас» (численность населения) по данным о городах английского побережья (см. табл. 1.5), сравните спрогнозируемые значения «Ба» с наблюденными значениями и рассчитайте значения относительных ошибок. Вычислите среднее значение относительной ошибки.

Классической теории оптимизации практически нечего предложить для минимизации относительной погрешности — этот критерий не относится к линейным, квадратичным, или выпуклым — а именно этим случаям уделяется основное внимание в теории. Применим подход эволюционной оптимизации, который все чаще используется для решения трудных оптимизационных задач в последнеее время. В отличие от классического подхода, конструирующего единое решение, эволюционный подход оперирует с популяцией решений, которая эволюционирует случайным образом, итерация за итерацией, в поисках лучшего решения так, как это описано в проекте 3.2. Применяя алгоритм из этого проекта для минимизации критерия относительной погрешности, можно найти другое решение, со средней относительной погрешностью в 26,4%, т.е. снижению ошибки на 4,3 единицы (1/7 относительной погрешности уравнения регрессии (3.1)). Новое решение: Нш = 0,28 • Нас + 0,33, дает меньшее отношение темпа роста числа школ к темпу роста населения, 0,28, а нс 0,4. Это еще раз показывает, что результаты анализа данных носят скорее индикативный характер, указывают направление, а не точные значения.

Задание 3.1. Огромное влияние выбросов на коэффициент корреляции

Наличие выбросов — сильно выделяющихся наблюдений — может сильно исказить картину корреляции между признаками, обычно в сторону увеличения корреляции.

Сгенерируем для примера два независимых случайных признака, один распределенный по однородному, второй — по нормальному закону:

» x=10*rand(500,l)-4;

» y=5*randn(500,l)+4.

Признак х задан на 500 объектах и меняется между -4 и 6, поскольку генератор rand производит псевдослучайные числа между 0 и 1, а последующее умножение на 10 переводит их в интервал от 0 до 10, который и сдвигается к (-4, 6) после вычитания 4. Аналогично, признак у распределен нормально с центром в точке 4 и стандартным отклонением 5. Его считаем заданным на тех же 500 объектах. Вот начало таблицы данных (полный размер 500 х 2):

Объект

X

У

1

-2,3782

8,3207

2

3,9428

4,5671

3

-0,8878

5,9918

4

1,2853

8,4198

5

-2,3435

4,9013

Поскольку определения признаков никак не связаны, корреляция между ними должна быть нулевая. Команда

»сс= согг(х,у)

приводит к значению коэффициента корреляции сс = 0,0689, которое действительно близко к нулю, но все-таки отличается от него. Почему? Из-за случайности выборки.

Теперь добавим к сгенерированным 500 объектам два выброса, т.е. сильно отличающиеся наблюдения. Для удобства оформим модификацию как другую пару признаков:

» хп=х; уп=у;% копирование старых признаков в новые » xn(501 )=-100: уп(501 )=-100;

» хп(502)=100; уп(502)=200.

Нами взяты сильно отклоняющиеся значения, но для наглядности так, чтобы не слишком отклонялись от биссектрисы прямого угла между осями координат. Теперь, при добавленных двух новых наблюдениях к имеющимся 500, сильно ли изменится корреляция между признаками? Вычисление

»cn= corr(xn,yn) приводит к значению си = 0,7910, близкому к единице! (Задание: проверьте, насколько изменится коэффициент корреляции, если выбросы будут нех501 = (-100, -100) и х502 = (100, 200), как сейчас, а еще в ,5 раз выше, т.е. (-500, -500) и (500, 1000).)

В чем дело?

Поля рассеяния признаков (л:, у) (слева) и (ли, уп) (справа)

Рис. 35. Поля рассеяния признаков (л:, у) (слева) и (ли, уп) (справа):

на правом рисунке введенные «выбросы», объекты 501 и 502, изображены звездами.

Обратите внимание на разницу в масштабах

Ситуация проясняется, если посмотреть на поля рассеяния признаков х и у (рис. 3.5). Слева — поле рассеяния исходных признаков, случайное нагромождение точек, практически нулевая корреляция. Справа — совсем другое дело! Добавление двух выбросов, изображенных для наглядности увеличенными звездочками, полностью поменяло масштаб. В новом масштабе исходные 500 объектов — не более чем случайное нагромождение реализаций как бы единой «средней» точки, а «реальная» картина связи между хп и уп определяется взаиморасположением трех «главных» сил — два выброса и клякса посередине.

Понятно, что эта глобальная картина крайне неустойчива. При случайных выборках 2/3 объектов, выбросы, как правило, в выборку нс попадут (их ведь всего два!), так что основная доля испытаний бутстрэпа (см. далее) будет давать нулевую корреляцию.

Задание 3.2. Правило Бершидского

Л. Бершидский обратил внимание на то, что поля рассеяния районов Москвы в системе двух признаков: стоимость жилья в районе и процент голосов, отданных на выборах мэра 8 сентября 2013 г., за одного из двух кандидатов (С. С. Собянина и А. Н. Навального), образуют противоположно направленные кластеры1. Рисунок 3.6 из статьи Гурьянова[1] [2] основан па официальных данных.

Поля рассеяния но результатам голосования за каждого из двух кандидатов на выборах в мэры в Москве (сентябрь 2013 г.)

Рис. 3.6. Поля рассеяния но результатам голосования за каждого из двух кандидатов на выборах в мэры в Москве (сентябрь 2013 г.)

Каждое поле проявляется в довольно четких линейных связях; одна с положительным коэффициентом корреляции, вторая — с отрицательным.

  • [1] URL: www.forbes.ru/mneniya-column/vertikal/244605-klassovyi-vybor-kak-tseny-na-zhile-predreshili-iskhod-golosovaniya-v
  • [2] Гурьянов В. Закон Бершидского: стоимость квадратного метра определила результаты выборовмэра. Квадратъ. № 44, 16 сентября 2013 г.
 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы