Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

Анализ данных и математическая статистика: инженерный и научный подходы

Имеются два основных толкования термина «анализ данных». Согласно первому, наиболее популярному, анализ данных — это как бы математическая статистика «в широком смысле слова». При этом к анализу данных относятся все вычислительные методы обработки данных, в отличие от классической математической статистики, которая покрывает только математико-статистические методы. Математическая статистика следует так называемому научному подходу, согласно которому любые данные рассматриваются только в связи с некоторой заранее принятой моделью того, как устроено наблюдаемое явление или процесс. В типичном случае согласно этому подходу предполагается, что объективно существует некоторый механизм, порождающий вероятностное распределение на множестве всех исходов, а рассматриваемые данные получены в результате случайного выбора из этого распределения. Задача исследования данных в таком случае — пролить свет на распределение, из которого они получены, и на этой основе решать задачи исследования — объяснение, прогнозирование или принятие решений. С такой точкой зрения связана и терминология математической статистики. Наблюдаемые признаки в этом подходе — вовсе не признаки, а «переменные» — реализации так называемых случайных величин, анализируемых в рамках математической теории вероятностей.

Данные, как и теории, могут оказаться нефальсифицируемыми, т.е. верными для всех случаев, что проиллюстрировано на рис. 1.2.

Случай нефальсифицируемых данных

Рис. 1.2. Случай нефальсифицируемых данных

Как все понимают, при первоначальном изучении процесса или явления модельный подход не всегда возможен, так как недостаточно знаний о его структуре, механизме и пр. Вот тут-то математическая статистика и использует эвристические, инженерные методы для предварительного анализа имеющихся данных с целью хоть как-то разобраться в природе явления. При этом никто не интересуется тем, чтобы разобраться в структуре инженерных методов: зачем, ведь это не более чем подпорки для формирования правильной модели; их делают из любого подходящего материала. Подобным образом геометр, развивающий теорию «правильных» четырехугольников — квадратов, ромбов и пр. — отбрасывает все другие, неправильные фигуры, как не вписывающиеся в теорию.

Анализ данных «в узком смысле» пытается вычленить из моря всевозможных «достатистических» или «нестатистических» методов какую-то часть, поддающуюся систематизации. При этом возможны самые разнообразные критерии систематизации. Например, в дисциплине «майнинг данных» [data mining] значительная часть построений концентрируется вокруг различных уточнений понятия «интерес!юсти» наблюдений или закономерностей. Напротив, некоторые технически ориентированные исследователи кладут во главу угла используемые методы решения возникающих трудных задач оптимизации, например, «методы, инспирированные природой: генетические алгоритмы, метод роя частиц, метод муравьиной колонии и пр.», или же формы представления данных и результатов (машинные рассуждения, нечеткая логика и пр.). По мнению автора, следует базироваться на двух основных структурных элементах знания: понятиях и утверждениях о связях между понятиями. Имеется в виду, что цель анализа данных - уточнение или обогащение существующего знания об исследуемом явлении или процессе. При этом два самых прямых способа такого обогащения — это (а) порождение новых понятий из понятий, представляемых признаками, входящими в таблицу данных, и (б) порождение новых закономерностей, т.е. утверждений о связи признаков, подтвержденных данными. Эти две задачи удобно называть

(а) «агрегация» или «суммаризация» (термин, заимствованный из английского, см. summarization, и уже широко применяемый в России в некоторых приложениях инженерной информатики) и (б) «коррелирование» см. cotrelation [17]1. Оба термина понимаются в самом широком смысле. Так, к задачам агрегации (сумма- ризации) относятся: вычисление среднего значения ряда чисел, количественная оценка уровня интеллекта школьников по результатам тестирования и школьным оценкам, выявление кластера школьников со сходными оценками. Коррелирование — это отыскание взаимосвязи между разными признаками (совокупностями) признаков в таблице данных, будь это в виде аналитических соотношений, связывающих признаки, или концептуальных утверждений. Пример первого — утверждение, что «вес мужчин в килограммах примерно равен их росту в сантиметрах минус 100». Примеры второго — утверждения, что «люди пожилого возраста в среднем проводят у телевизора в день на два часа больше времени, чем люди среднего возраста» и что «новорожденные дети начинают говорить раньше, если их матери ели много рыбы во время беременности».

Имеется довольно много групп методов анализа данных, связанных общностью цели или организованным сообществом исследователей, имеющих свои издания, проводящих свои семинары и конференции, подчас сильно пересекающиеся. Рассмотрим наиболее популярные.

  • • Классификация (Classification) — построение классификации, структурирующее рассматриваемое множество явлений в совокупность отдельных классов, отражающих важные свойства этих явлений. В настоящее время этот термин также применяется к задачам отнесения отдельных объектов к заранее заданным классам.
  • • Кластер-анализ (Cluster analysis) — совокупность методов, разделяющих объекты таблицы наблюдений в множества (кластеры) таким образом, чтобы

* Подробнее об этом см. в гл. 3.

сходные объекты попадали в один и тот же кластер, а несходные — в разные кластеры.

  • • Вычислительный интеллект (Computational intelligence) — дисциплина, использующая нечеткие (fuzzy) множества; алгоритмы, инспирированные природой (nature-inspired algorithms); нейронные сети (neural nets), и другие подобные средства, чтобы имитировать человеческий интеллект в его способности адаптироваться к природе данных в процессе вычислений.
  • • Майнинг данных (Data mining) — совокупность методов для отыскания интересных закономерностей по данным, организованным в виде компьютерной базы или хранилища данных. Эти «интересные закономерности» образуют как бы вновь обнаруженное знание. Поэтому майнинг данных обычно рассматривается как часть общего процесса накопления или обнаружения знаний (knowledge discovery).
  • • Извлечение документов, извлечение информации (Document retrieval, information retrieval), часто также переводится несколько неточно как поиск документов или информации — совокупность критериев и методов для поиска и извлечения документов из баз и хранилищ данных по запросу. Эта область особенно популярна в связи с развитием поисковых систем Интернета, таких как Яндекс или Google.
  • • Факторный анализ (Factor analysis) — совокупность методов для измерения ненаблюдаемых, скрытых характеристик, таких как уровень интеллекта ученика или уровень социально-экономического развития территории, по косвенным, измеримым характеристикам объектов.
  • • Генетические алгоритмы (Genetic algorithms) — подход к глобальному поиску решений сложных задач оптимизации путем имитации процесса наследования генов в популяции. Для этого организуется процесс эволюции некоторого множества возможных решений, каждое из которых представлено в виде линейной «хромосомы». При переходе от поколения к поколению используются вероятностные механизмы генерации «брачных пар», «кросс-овсра», «мутаций», «сохранения элиты».
  • • Обнаружение знаний (Knowledge discovery) — совокупность методов для отыскания количественных формул и концептуальных утверждений, связывающих различные аспекты данных между собой.
  • • Математическая статистика (Mathematical statistics) — подход, предполагающий, что данные порождены в соответствии с некоторой вероятностной моделью и являются средством оценки тех или иных параметров модели или проверки статистических гипотез о них. С одной стороны, такая модель может быть наиболее точной формой знания о рассматриваемом явлении. С другой стороны, какую-то модель можно предположить даже и при слабом уровне знаний, а потом целенаправленно проводить эксперименты и собирать данные, чтобы подтвердить или улучшить модель.
  • • Машинное обучение (Machine learning) — направление, ориентированное на постепенное формирование решающих правил, например для предсказания принадлежности объектов к тому или иному классу. В процессе обучения параметры решающего правила меняются в зависимости от сообщений «учителя» о правильности или неправильности предсказания, сделанного для последовательно появляющихся объектов. При этом целью является повышение точности предсказания.
  • • Нейронные сети (Neural networks) — подход к моделированию связи между входными и выходными признаками, используя структуру взаимосвязанных искусственных нейронов (устройств, испускающих выходной сигнал при накоплении достаточного количества входных сигналов); параметры сети обычно подбираются в процессе машинного обучения.
  • • Инспирированные природой алгоритмы (Nature-inspired algorithms) — современные методы оптимизации сложных функций, основанные не на изучении свойств задачи, как в классической математике, а с помощью процессов последовательного изменения популяции решений таким образом, чтобы имитировать какой-либо биологический или социальный процесс (движение роя пчел или колонии муравьев, репетиция оркестра и пр.).
  • • Оптимизация (Optimization) — область вычислительной математики, в которой разрабатываются методы анализа и решения проблем отыскания минимума или максимума так называемой целевой функции. В анализе данных это обычно: (а) минимизация суммы квадратов невязок между данными наблюдений и данными модели, порождаемыми «решающим правилом», получаемым как результат анализа данных (метод наименьших квадратов), или (б) максимизация так называемой функции максимального правдоподобия.
  • • Распознавание образов (Pattern recognition) — несколько устаревшее название для дисциплины, занимающейся построением классификационных решающих правил (распознавание с учителем, supervised learning) или кластеров (распознавание без учителя, unsupeivised learning) по данным наблюдений.
  • • Социальная статистика (Social statistics) — дисциплина, связанная с методами измерения социальных и экономических индексов по выборочным данным, в том числе анкетным, или данным государственной статистики.
  • • Анализ текстов (Text analysis) — совокупность подходов и методов для автоматизации анализа текстовых документов, включая задачи установления степени сходства текстов, категоризации документов, формирования аннотаций и пр.

Более полное изложение методов и примеров решения основных задач анализа многомерных данных имеется в учебнике автора [17]. Здесь мы ограничимся в основном простейшим случаем, когда данные относятся только к одному признаку (случай 1D) — гл. 2; или к двум признакам (случай 2D) — гл. 3. Из методов многомерного анализа данных будет рассмотрен только наивный Байесовский классификатор (задача коррелирования) и метод /С-средних для кластерного анализа (задача суммаризации) — гл. 4.

Такое ограничение материала связано с желанием автора оградить читателя- нематематика от менее интуитивных математических понятий, связанных с многомерными данными, таких как векторы и матрицы, и, тем более, их свойств. Другой способ избавить читатсля-нематематика от математических абстракций — это расчленение текста на три «потока»: «представление», «формулировка», «вычисление». «Представление» рассматривает проблему анализа данных на примере, в общих чертах объясняет способ решения и комментирует полученные результаты. «Формулировка» содержит математическое описание задачи и метода ее решения. «Вычисление» показывает, как можно решить проблему вычислительно, используя систему МатЛаб, популярную вычислительную среду для проведения анализа на относительно небольших данных (до нескольких миллионов чисел). Каждый поток может изучаться относительно независимо от других, так что те читатели, которые избегают формул, могут вообще обойтись без них.

Обратим внимание на то, что указанные три потока в некотором смысле соответствуют трем типичным ролям, необходимым для успеха инженерной группы.

Одна роль — это общий взгляд на вещи, роль «визионера»; вторая — роль конструктора, который переводит общую картину в технически осуществимый проект; третья — это роль наладчика, который может перевести проект в работающий прототип изделия. Читатель может выбрать ту роль, которая ему ближе, или даже совместить все три, как это нередко бывает в жизни.

Для помощи в активизации материала текст содержит значительное количество упражнений нескольких типов, но большей части вместе с решениями. Многие упражнения оформлены как «рабочие примеры». Каждый такой пример показывает, как применить конкретный метод к конкретной таблице данных. Более сложное упражнение может потребовать, чтобы читатель сам сгенерировал данные или проинтерпретировал результаты. Такие упражнения называются «задания». Еще более сложные проблемы могут потребовать небольшого самостоятельного исследования — они называются «проекты». Кроме того, имеется некоторое количество задач, относящихся к используемым понятиям — они называются «вопросы».

Кстати говоря

  • 1.1. Различия в подходах
  • 1.1.1. Разговаривают двое:

Ты знаешь, что по статистике каждая вторая женщина изменяет своему мужу?

  • — Да что мне статистика? Мне нужны фамилии, адреса, телефоны.
  • 1.1.2. Перед учеными поставили задачу: предсказать исход скачек. Всем желающим принять участие в проекте выдали по 100 тыс. долл. Результаты:

Биолог:

— Я провел всесторонний анализ анатомии лошадей, нужно замерить вес, рост, объем мышц, объем легких, длину хвоста и цвет глаз у каждой лошади, и по моим таблицам определить, какая из них добежит первой.

Матстатистик:

Я собрал данные о забегах, начиная с XVI в. на всех ипподромах мира, и теперь по дате забега и погоде могу предсказать, какая лошадь выиграет.

Физик-теоретик:

  • — А можно получить еще 200 тыс. долл, для окончания исследований?
  • — Ну, вы хоть что-нибудь уже сделали?
  • — Конечно! Построил модель для шарообразной лошади в вакууме.
  • 1.1.3. Физик: Слушай, почему у поезда колеса круглые, а когда он едет, они стучат?

Математик: Это элементарно. Формула круга — пи эр квадрат, так вот этот квадрат как

раз и стучит.

1.1.4. Три математика и три физика собираются ехать поездом на конференцию молодых ученых в другой город. Они встречаются перед кассой на вокзале. Первыми покупают физики — но билету на человека. Математики же покупают один билет на троих.

Физики:

— В поезде контролер, двоих без билета оттуда выгонят!

Математики:

— Не выгонят. У нас есть метод.

Перед отправкой поезда математики все набиваются в один туалет. Когда контролер подходит к туалету и стучит, дверь приотворяется, оттуда высовывается рука с билетом. Контролер компостирует билет, после чего все они без проблем доезжают до пункта назначения. После конференции тс же вновь встречаются на вокзале. Физики, по примеру математиков, покупают один билет. Математики не берут ни одного.

Физики:

— А что же вы покажете контролеру?

Математики:

— У нас есть метод.

В поезде физики набиваются в один туалет, математики — в другой. Незадолго до отправления один из математиков подходит к туалету, где прячутся физики. Стучит. Высовывается рука с билетом. Математик забирает билет и возвращается к коллегам. Мораль: Не используй математический метод, если не понимаешь его сути.

1.1.5. Американец:

Вам нс кажется странным, что в Вашем городке на вокзале стоят две башни, часы на которых показывают разное время?

Англичанин:

  • — Нет, не кажется. Какой был бы смысл в том, чтобы строить две башни, если бы часы на них показывали одно и то же?
  • 1.2. Данные и их заполнение
  • 1.2.1.
  • — Как у тебя с твоей девушкой?
  • — Мы расстались.
  • — А чего?
  • — Поругались. Она кричит: «Ты не любишь меня». Я ей: «Оля, да люблю я тебя!»
  • — А она?
  • — А она Лена.
  • 1.2.2. Воскресенье. Птичий рынок. Идет человек — на поводке белый медведь. Прошел один круг по рынку, второй. Па третьем останавливает его милиция:
    • — Не положено гут с медведем ходить.

Тот отвечает:

  • — Я только хочу посмотреть в глаза тому парню, который мне в прошлом году продал маленького, беленького, пушистого хомячка.
  • 1.2.3. Бежит Заяц по лесу. Навстречу ему Медведь.
  • — Ты куда, косой? — спрашивает Медведь.
  • — Приказ по лесу вывесили. У кого пять лап, пятую отрезать, чтобы не мешала.
  • — У тебя что, пять лап?
  • — Да нет. Но руководит Осел. Он сперва отрезает, а потом начинает считать.
  • 1.2.4. Рецидивист, мужчина с многочисленными наколками, заговаривает с мальчиком, проходящим по перрону:
    • — Слышь, малец, как тебя звагь-то?
    • — Вася.
    • — Ну, надо же! И я Вася. А сколько же тебе лег?
    • — Десять.
    • — Ну, надо же! И мне как раз десять (дали). А откуда ты едешь-то?
    • — Из лагеря.
    • — Ну, надо же! И я из лагеря. А куда ты едешь?
    • — К бабе.
    • — Hv, надо же! И я к бабе!
  • 1.2.5.
  • — Милый, ты где?
  • — Я на охоте...
  • — А кто там так громко дышит?
  • — Это медведь...
  • 1.2.6.
  • — Дорогая, где чай? Я никак не могу его найти.

Ах, какой ты беспомощный! Чай в аптечке, в банке из-под какао с наклейкой «Соль»!

  • 1.2.7.
  • — Девушка, девушка, сколько вам лет?
  • — Столько, на сколько я выгляжу.
  • — Вай, не морочьте мне голову, люди столько не живут!
  • 1.2.8.
  • — Когда у вас день рождения?
  • — Одиннадцатого мая.
  • — Какого года?
  • — Любого года.
  • 1.2.9.
  • — Сколько длился каменный век?
  • — Пока не кончились камни.
  • 1.2.10.
  • — Ал-ле... Это пятьдесят... Один... Сорок шесть... Тридцать... Два?
  • — Нет!
  • — Так зачем... было трубку ... снимать?..
  • 1.2.11.

Служащий — шефу:

  • — Я работаю v вас на полставки и поэтому прошу кричать на меня вполголоса.
  • 1.2.12.
  • — Где вы работаете?
  • — На почте. Штемпелюю письма.
  • — Должно быть, это очень скучная работа?
  • — Скучная?! Что вы! Совсем нет! Ведь каждый день — новая дата.
  • 1.2.13.
  • — Слыхали?! Мужику дали 10 лет за то, что он бросил жену.
  • — Не говорите вздор! За это не дают срок. Я сам бросил двух жен — и ничего!
  • — А вы с какого этажа бросали?
  • 1.2.14.

Жена собирает мужа в командировку. Чемодан, бритва, полотенце и т.д. — все, что нужно в дороге. Муж смотрит, лежит пачка сливочного масла и гвозди! Он:

  • — Масло зачем?
  • — В дороге проголодаешься, намажешь на хлеб и покушаешь.
  • — А гвозди?
  • — Так вот же они!
 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы