Меню
Главная
Авторизация/Регистрация
 
Главная arrow Информатика arrow ВВЕДЕНИЕ В АНАЛИЗ ДАННЫХ
Посмотреть оригинал

Предисловие

Настоящее издание — не совсем обычное. Оно написано, чтобы помочь людям, желающим анализировать данные, освоить методы их первичного анализа так, чтобы по возможности обойтись без специальных математических знаний. Основной предмет учебника — методы анализа одномерных и двумерных распределений, тема, которую другие учебники «перепрыгивают», уделяя ей лишь очень небольшое внимание. Во всяком случае, автор не знает других учебников, в которых бы предмет был раскрыт с такой полнотой. «Ничего себе, полнота! - усмехнется или возмутится случайно заглянувший в книгу специалист по математико-статистическим методам. — Нс только не полнота, а наоборот, сплошная дырка. Здесь нет практически ни слова о статистике одномерных вероятностных распределений и проверке статистических гипотез о них, а ведь это десятки и сотни страниц пропущенного текста». И это будет тот самый случай, который имел в виду Козьма Прутков, предупреждая, что «специалист подобен флюсу: полнота его одностороння». Утверждение специалиста, как говорится, верно, но не правильно. Упомянутые разделы действительно пропущены — но не упущены, потому что, по мнению автора, они не входят в базовое содержание анализа данных. Методы проверки статистических гипотез играют роль, и очень важную, в специальном классе ситуаций, когда, например, агроном хочет понять, какой сорт семян, при прочих равных условиях принесет наилучший урожай, или врач пытается определить, дает ли новая методика лечения заметно лучший результат, чем существующая методика. Для ответа на подобные вопросы надо аккуратно поставить эксперимент, получить сопоставимые данные и аккуратно сравнить результаты, принимая во внимание их случайный разброс. Математическая статистика дает методы, позволяющие провести такое сравнение во многих случаях. Но это скорее боковое ответвление, а не магистральная дорога в анализе данных, и поэтому рассказ о таких методах здесь отсутствует.

Анализ данных имеет дело с такими данными, которые оказались в распоряжении исследователя более или менее случайно, не как результат целенаправленного эксперимента, а как результат чьих-то наблюдений или просто статистической сводки. Это могут быть, например, данные о социально-экономическом состоянии регионов России или стран Европы в таком-то году. Или это может быть совокупность сообщений, отправленных членами какой-либо социальной сети в течение определенного промежутка времени. В подобных ситуациях типичные вопросы таковы. Какой смысл можно извлечь из этих данных? Есть ли какая- нибудь структура в данных о рассматриваемом множестве объектов? Могут ли эти признаки помочь в прогнозировании тех? Подобная ситуация скорее характерна для путешественника, чем ученого. Ученый сидит за столом, получает воспроизводимые данные об окружающем мире и старается включить их в грандиозную научную модель этого мира. Путешественник же должен понять, как ему лучше себя вести здесь и сейчас.

Анализ данных в настоящее время нс включает проблематику изучения механизмов получения данных. Все, что нас интересует — это наличие в данных каких- либо общих паттернов. Если удастся такой паттерн обнаружить; если удастся потом убедиться, что он — не артефакт применения метода, а действительно существует в данных; если удастся понять, исходя из наших знаний о явлении, к которому относятся данные, возможную причину возникновения паттерна; и если, наконец, на этой основе удастся предложить новый метод использования явления — вот тогда можно говорить о том, что метод анализа данных работает! Впрочем, вопросы использования результатов анализа данных обычно остаются вне поля зрения специалистов по анализу данных: считается достаточным, чтобы нашелся паттерн, проливающий некий новый свет на явление, к которому относятся данные, чтобы объявить об успешности анализа.

Согласно точке зрения, подробно описанной в более полном учебнике автора [17], имеется два основных способа анализа данных: суммаризация и коррелирование. Суммаризация, как и английский оригинал, означает подытоживание, агрегирование, представление в сжатом виде. Коррелирование — это отыскание связей между различными признаками, описывающими объекты, без каких-либо попыток приписать этим связям причинный характер. Попробуем осветить это понятие чуть подробнее на следующем примере. Наблюдения показали следующую корреляцию: новорожденные дети более активны и восприимчивы у тех матерей, которые ели много рыбы во время беременности. Значит ли это, что именно рыбоедение дает эффект? Да, говорят одни: в рыбе много фосфора, а фосфор — строительный материал мозга. Нет, говорят другие: рыба тут ни при чем. Просто эти женщины — богатые, ведь рыба дорого стоит, особенно в пересчете на калории. А у богатых уход за ребенком лучше, вот он и более активен. Кто же прав? Имеющаяся информация не позволяет прийти к однозначному выводу. Все, что анализ данных может дать — это паттерн, а для выяснения причины паттерна нужны дополнительные данные, в данном случае надо изучать приток фосфора в мозг новорожденного в процессе беременности (очень сложно!) и (или) уровни благосостояния рожениц (значительно проще).

Говоря о полноте изложения материала в данном учебнике, автор имеет в виду полноту раскрытия проблематики суммаризации и коррелирования на уровне одно- и двумерных распределений. Случай одного признака рассмотрен в главе 2. Глава 3 трактует случай, когда в анализ включаются два признака. При этом отдельно проанализированы задачи коррелирования для ситуаций, в которых (а) оба признака количественные, или (б) оба признака категоризованные, или (в) один — категоризованный, а другой — количественный. Во всех трех случаях идея коррелирования проводится, исходя из основной цели — улучшения предсказания значений одного признака по значениям другого. Почему-то эта довольно популярная идея не нашла своего отражения в существующих учебниках. Поэтому изложение автором даже таких довольно традиционных тем, как линейная регрессия (ситуация (а)) и табличная регрессия (ситуация (в)) получается довольно свежим и прагматически ориентированным[1]. Что касается ситуации (б) категоризованных признаков, то здесь использована и вовсе нетрадиционная идея. За счет применения так называемых индексов Кетле удается представить коэффициент хи-квадрат, введенный К. Пирсоном для проверки гипотезы о статистической независимости категоризованных признаков, как меру их корреляции, и на этой основе визуализировать структуру связи между значениями признаков. В других учебниках читателя специально предупреждают: величина хи-квадрат не характеризует уровень связи и нс может использоваться для ее оценки; ан нет, согласно представленному подходу — может! Глава 4 дает возможность «одним глазком» взглянуть на методы анализа многомерных данных. Приводятся два очень популярных метода, один для суммаризации (метод /С-средних кластерного анализа), другой для коррелирования (наивный Байесовский1 классификатор)[2] [3]. Выбор методов определяется не только популярностью, но и возможностью избежать сложных формул и выводов при их объяснении. Все изложение иллюстрируется на примерах конкретных данных, в основном сквозных, которые приводятся в вводной главе 1 вместе с ассоциированными проблемами анализа данных.

Имеющиеся русскоязычные учебники анализа данных либо делают сильный перекос в сторону задач оценки вероятностных распределений и проверки статистических гипотез (как, например, А. С. Айвазян, И. С. Енюков, Л. Д. Мешалкин, 1983; Ю. Ы. Тюрин, А. А. Макаров, 2003; М. Б. Лагутин, 2009), либо с места в карьер переходят к реализации методов многомерного анализа данных на каком-либо прикладном пакете программ (В. II. Калинина, В. И. Соловьев, 2010; А. П. Кула- ичев, 2006), либо же слишком специальны (Н. Г. Загоруйко, 1999; Б. Г. Миркин, 1985). Данный учебник не относится ни к одной из этих категорий.

Другие особенности учебника состоят в следующем.

Во-первыху основное изложение распределено по трем относительно независимым линиям: «представление», «формулировка» и «вычисление». В данном учебнике буквы «П», «Ф» и «В» в рубрикации подпараграфов означают, что данные подпараграфы относятся к линиям «представление», «формулировка» и «вычисление» соответственно. «Представление» не содержит математических формул и на конкретных данных показывает задачу, метод ее решения, а также комментарии к результатам, когда это необходимо. Напротив, в «формулировке» сосредоточены все математические детали постановки задачи и метода. В «вычислении» объясняется, как провести вычисление с использованием вычислительной среды МатЛаб. Желательно, чтобы читатель имел доступ к этой среде. Учебная версия МатЛаба, особенно в оригинальной неруссифицированной версии, стоит совсем недорого. Использование МатЛаба в контексте рассматриваемых понятий и методов не требует программистских навыков. Азы работы на МатЛабе объясняются в приложении к данной книге. Таким образом, каждый читатель может выбрать такой способ изложения, который ему наиболее подходит.

Во-вторых, применяется четырехуровневая структура самостоятельных заданий, предназначенных для активизации работы читателя:

  • 1) «рабочие примеры», которые просто иллюстрируют работу того или иного метода; в начале каждого из них на конкретном примере показывается, как провести расчет и интерпретацию решения, когда это уместно, а затем дается задание для «самостоятельной работы» — повторить то же на других данных. Иногда задание дается в виде «вопроса» с готовым ответом — эти задания тоже следует выполнять самостоятельно; ответ приводится только для сверки;
  • 2) «задания» — более сложные задачи, в которых имеется определенный неформальный элемент, например необходимость создания нового множества данных (по определенному правилу) или же неформальный способ интерпретации;
  • 3) «проекты» — еще более сложные проблемы, в какой-то мерс имитирующие научные проекты и требующие проведения небольшого научного исследования;
  • 4) «вопросы» — математические или вычислительные проблемы для тех читателей, которые все же не боятся математики; они, как правило, снабжены ответами — либо в явном виде, либо содержатся в самой формулировке вопроса. Но это не значит, что их не надо решать самостоятельно. Надо. Ответы приводятся лишь для проверки. Всего в учебнике содержатся 27 рабочих примеров, 8 заданий, 6 проектов и 54 вопроса. Большинство решений сопровождается комментариями более общего характера, подчас далеко выходящими за рамки данного случая. Комментарии носят уникальный характер и более не повторяются. Поэтому советую внимательно знакомиться со всеми примерами конкретного анализа.

В-третьих, вводятся самые современные методы вычислительной науки, такие как бутстрэп для оценки доверия к результатам и эволюционные алгоритмы для оптимизации нелинейных критериев.

Кроме того, с учетом современной тенденции уделять и делу время, и потехе час, в учебнике представлено несколько картинок и с полсотни шуток из современного фольклора, с юмористической стороны иллюстрирующих обсуждаемые понятия. В конце каждой главы имеется небольшой раздел «Кстати говоря», в котором размещено некоторое количество анекдотов, связанных с тематикой главы.

Учебник основан на курсах автора для студентов бакалавриата и магистратуры в Биркбек-колледже Лондонского университета (2004—2010), для слушателей Школы анализа данных при Яндексе (2008—2010) и студентов бакалавриата и магистратуры отделений прикладной математики и программной инженерии Национального исследовательского университета Высшей школы экономики (2008—2013). В некоторой мере его содержание следует моему более полному англоязычному учебнику [17].

Хотя основной текст написан так, чтобы его мог освоить человек, не изучавший высшую математику, некоторое знакомство с ней, конечно, полезно. Речь идет прежде всего об азах математического анализа (понятия функции, ее производной, точек минимума), теории вероятностей (частота и условная вероятность, функция плотности) и теории множеств (понятия включения множеств и принадлежности элемента данному множеству).

Теперь несколько слов но существу содержания учебника. В нем четыре главы. В первой главе рассматриваются основные типы и примеры задач анализа данных на относительно небольших примерах данных. Во второй главе рассматриваются основные понятия одномерного анализа, т.е. анализа индивидуальных признаков. В третьей главе рассматриваются основные понятия двумерного анализа, т.е. анализа пар признаков. В четвертой главе рассматриваются два популярных метода многомерного анализа данных: наивный Байесовский классификатор и метод ^-средних кластерного анализа. В заключении на примерах анализа реальных данных показывается, что анализ данных — это далеко не все.

В результате изучения материала учебника студент будет:

знать

  • • основные понятия анализа данных и смежных дисциплин;
  • • основные понятия и методы визуализации и анализа индивидуальных признаков;
  • • основные понятия и методы анализа и визуализации пар признаков, включая ситуации, когда оба признака количественные, оба признака номинальные или один признак количественный, а второй — номинальный;
  • • наивный метод Бэйсса для классификации многомерных объектов, его обоснование и способы оценки точности прогноза;
  • • метод /С-срсдних для кластерного анализа данных, его критерий и интеллектуальную версию, основанную на автоматизации выбора числа кластеров и их начальных центров;

уметь

  • • производить предварительное преобразование данных путем бинарного перекодирования категорий номинальных признаков, центрирования и нормализации признаков;
  • • производить анализ и визуализацию распределений индивидуальных признаков, включая использование вычислительного метода бутстрэп для построения доверительного интервала среднего значения;
  • • использовать методы анализа и визуализации распределений пар признаков, включая линейную регрессию для пар количественных признаков, табличную регрессию количественного признака по номинальному признаку и анализ структуры таблицы сопряженности для пар поминальных признаков;
  • • использовать наивный метод Бэйеса для классификации документов и оценивать точность получаемого прогноза;
  • • использовать метод /С-средних, а также его интеллектуальную версию, для кластерного анализа данных;

владеть навыками

  • • компьютерного представления и предварительной обработки реальных данных и метаданных размерами до нескольких десятков признаков и нескольких сот объектов;
  • • использования МатЛаба или другой вычислительной среды для анализа и визуализации распределений индивидуальных признаков на реальных данных;
  • • использования МатЛаба или другой вычислительной среды для анализа и визуализации связей между парами признаков на реальных данных;
  • • использования МатЛаба или другой вычислительной среды для кластерного анализа многомерных реальных данных методом iC-средних и его интеллектуальной версией.

Таким образом, в результате изучения представленного материала студент должен быть компетентным в понимании основных понятий и методов, связанных с анализом данных, прежде всего в разрезе отдельных признаков или пар признаков, а также умении их применять для анализа реальных данных с использованием вычислений на современных вычислительных устройствах. Это относится и к представленным многомерным методам: наивному Байесовскому классификатору и методу iC-средних кластерного анализа с его интеллектуализированной версией. Более подробно компетенции описаны в аннотациях к отдельным главам.

Учебник ориентирован на использование в курсах анализа данных, математической статистики и машинного обучения в бакалавриате инженерных специальностей — прикладной математики, информатики, программной инженерии, а также в курсах количественных методов для неинженерных специальностей - экономики, социологии, менеджмента, географии, филологии и пр. Для нсин- женерных специальностей учебник может быть рекомендован к использованию и в магистерских программах. Кроме того, учебник может быть использован для самостоятельного изучения теми, кто по характеру своей деятельности хотел бы использовать данные и методы их анализа.

В заключение хочу выразить благодарность моим коллегам по работе в НИУ ВШЭ, сделавшими возможной и приятной работу над данным учебником, за внимание и поддержку. Речь идет прежде всего о кафедре анализа данных и искусственного интеллекта, лаборатории интеллектуальных систем и структурного анализа (заведующий кафедрой С. О. Кузнецов) и международной лаборатории анализа и выбора решений (руководитель Ф. Т. Алескеров). Е. Л. Черняк взяла на себя один из циклов вычитки рукописи. Рекомендации и многочисленные поправки редактора издательства «Юрайт» Е. В. Ткаченко были учтены при доработке рукописи. Конечно, все остающиеся ошибки — всецело на моей ответственности.

  • [1] Здесь хочется сослаться на мнение рецензента учебника [17): «Выделю только одно из многихуспешных мест учебника: я сомневаюсь, что читатель когда-либо снова встретит такое детальноеи превосходное описание корреляционных понятий» (Computing Reviews of ACM, June 2011).
  • [2] Бэйес Томас (Bayes Thomas, 1702—1761) — английский «непрофессиональный» математик,чья работа стала известна после его смерти. Написание «Бэйес» ближе к английскому произношению фамилии, «Бэйиз», чем укоренившаяся в России форма «Байес». Автор настаивает на переходек этому более корректному произношению, имея в виду, что читатели данного текста — люди международных контактов, в которых произношение «Байес» неуместно, так как воспроизводит произношение английского слова «bias», означающего «предвзятость».
  • [3] О популярности этих методов говорит, например, тот факт, что их включили в первую очередьбиблиотеки программ Махаут для проведения облачных вычислений на так называемых большихданных (URL: http://mahout.apache.org/).
 
Посмотреть оригинал
Если Вы заметили ошибку в тексте выделите слово и нажмите Shift + Enter
< Предыдущая   СОДЕРЖАНИЕ   Следующая >
 

Популярные страницы