Неструктурированные ТД

В 2008 г. в британском журнале «Nature» появился термин Big Data. Этот термин определял новый вид данных в электронной науке — в археологии, ядерной физике, биологии, медицине и др. К этим данным относятся данные измерений при проведении многочисленных физических экспериментов и обработке огромного количества документов в международном бизнесе и др. Данный термин касается наборов данных, которые превышают возможности их размещения в существующих БД и не соответствуют их форматам для представления в них. Большие данные накапливаются в хранилищах данных на разных серверах Интернета и требуют новых методов их представления и обработки при решении разного рода научных и коммерческих задач.

Проведена классификация больших данных, которая включает три группы: быстрые данные (Fast Data), их объем измеряется терабайтами; большая аналитика (Big Analytics) для данных, объем которых исчисляется петабайтами; глубокое проникновение (Deep Insight) — для данных порядка экзабайт, зеттабайт. Группы различаются не только объемами, но и качеством решений по их обработке.

Независимо от этой классификации стоит задача анализировать неструктурированные данные из класса Big Data, появившиеся в хранилищах данных, которые генерируются с разного рода датчиков исследования недр Земли и пространства, списков записей многочисленных страховых компаний, задаваемых разными изображениями, фотографиями, документами и др.

 
Посмотреть оригинал
< Пред   СОДЕРЖАНИЕ   ОРИГИНАЛ     След >