Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

Случай двух количественных признаков

П3.2. Линейная регрессия: представление

ПЗ.2.1. Поле рассеяния, линейная регрессия и коэффициент корреляции

В случае когда оба признака количественные, используются следующие три понятия: поле рассеяния (.scatter-plot), корреляция и регрессия. Рассмотрим их на примере двух признаков из данных о прибрежных городах: численность населения — Нас и число начальных школ — Нш. Данные взяты из табл. 1.5 (ниже — данные для 4 из 45 городов):

Город

Нас (л)

Нш (у)

(х, у)-точка

Тависток

10 222

5

(10 222,5)

Бодмин

12 553

5

(12 553,5)

Салташ

14 139

4

(14 139,4)

Бриксэм

15 865

7

(15 865,7)

Поле рассеяния или, англ, scatter-plot, — это представление объектов в виде двумерных точек на координатной плоскости каких-либо двух признаков. В левой части рис. 3.1 — поле рассеяния признаков торговых городов: населения — Нас (ось .г) и количества начальных школ — Нш (ось у).

Поле рассеяния признаков Нас и Нш

Рис. 3.1. Поле рассеяния признаков Нас и Нш:

на графике справа добавлена линия регрессии Нш по Нас

Предположим, что эти признаки связаны линейным уравнением у = ах + b, где а и b константы «наклона» и «сдвига». Действительно, число школ должно в какой-то степени зависеть от числа детей; а число детей в свою очередь — от числа жителей в городе. Это уравнение называется линейной регрессией у по х. Очевидно, что многие связи невозможно описать подобной простой формулой, поскольку обычно на у влияют и другие факторы, такие как размеры школ, возраст населения и пр. Если бы одно уравнение подходило ко всем 45 городам, это было бы настоящим чудом — в реальности же ошибки в таком равенстве будут всегда. Возможные невязки в уравнении на тех или иных городах могут быть сведены в суммарную ошибку. Задача состоит в том, чтобы выбрать наклон а и сдвиг b таким образом, чтобы суммарная ошибка, измеряемая суммой квадратов невязок по всем 45 городам, была минимальной.

Если параметры уравнения линейной регрессии оценены, уместно проверить его адекватность. Адекватная регрессия может быть использована как при прогнозировании, задача (i), так и при описании, задача (и).

В теории линейных регрессионных уравнений Гальтона-Пирсона широко применяется понятие коэффициента корреляции, отражающего уровень «линейной связи» между двумя признаками. Его квадрат, называемый коэффициентом детерминации, может быть использован для быстрой оценки уровня адекватности уравнения линейной регрессии: он характеризует долю дисперсии уу объясненную его регрессией через х. Коэффициент корреляции находится в интервале между -1 и 1, и если его величина близка к 1 или -1, то это означает, что признаки связаны линейным уравнением с точностью до малых ошибок. Коэффициент корреляции признаков Нас и Нш равен 0,909. В физике или химии высокое значение коэффициента корреляции — распространенное явление; в социальных науках — нет, так что рассматриваемый пример — скорее исключение, чем правило.

Многие другие признаки в данных о городах, такие как число почтовых отделений или докторов, также сильно связаны с признаком Нас, но, например, наличие фермерского рынка уже с Нас никак не связано. Низкое значение коэффициента корреляции, ниже 0,15, говорит о том, что размер города не является здесь существенным: вероятность наличия фермерского рынка в маленьком городе такая же, как и в большом.

Совсем низкое или нулевое значение коэффициента корреляции не всегда означает отсутствие взаимосвязи. Речь идет об отсутствии именно линейной связи. Нулевой коэффициент корреляции может соответствовать другому, более тонкому, типу функциональной зависимости. На рис. 3.2 представлены три различных поля рассеяния при нулевой корреляции в данных. Только один из них, тот, что слева, на самом деле свидетельствует о том, что между х и у нет связи, т.е. знание значения одного признака никак не помогает в прогнозе значения другого. Каждый из двух других случаев показывает довольно высокую степень связи х и у. В частности, в центре — график квадратичной зависимости, а справа — случай, когда совокупность объектов разнородна — она состоит из двух частей, таких что в каждой признаки связаны линейно, но связи взаимно противоположны.

Поля рассеяния, соответствующие нулевому или почти нулевому значению коэффициента корреляции

Рис. 3.2. Поля рассеяния, соответствующие нулевому или почти нулевому значению коэффициента корреляции:

слева — отсутствие зависимости между хиу; центр — неслучайная квадратичная зависимость у = (х - 2)2 + 5; справа — два симметричных линейных соотношения, у = 2х - 5 и у = -2х + 3, каждое из которых содержит ровно половину всех объектов

В математической части главы (подпараграф ФЗ.2.1) приводятся формулы (3.4—3.6), позволяющие вычислить параметры уравнения линейной регрессии, которое в данном случае будет иметь следующий вид: где население Нас выражено в тысячах человек, чтобы сделать наклон в тысячу раз больше того, как если бы он был выражен в абсолютных величинах. Наклон показывает, насколько изменится значение целевого признака при изменении входного признака на 1. Поскольку значения целевого признака выражены в целых числах, величину наклона можно трактовать следующим образом: рост населения в городе на 2,5 тыс. человек приведет, в среднем, к строительству одной начальной школы.

Гистограммы остатков, т.е. разностей между наблюдаемыми значениями

Рис. 3.3. Гистограммы остатков, т.е. разностей между наблюдаемыми значениями

Нш и значениями, вычисленными но Нас с использованием уравнения (2.1), с 5 столбцами (слева) и 10 столбцами (справа):

впадины на гистограмме справа могут быть связаны с тем, что выборка из 45 городов слишком мала, чтобы иметь 10 столбцов

 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы