Что означают термины Большие Данные и Эра больших данных?

Данные

В последнее время в различных средствах массовой информации все чаще и чаще встречается термин "Большие Данные" и связанные с ним сообщения о начале "Эры больших данных". Сейчас мы попробуем прояснить что же на самом деле означают вышеупомянутые термины. В настоящий момент все человечество производит около 2.5 квинтиллионов байт информации в день и это слишком много для того, что бы обработать всю информацию силами обычного настольного компьютера. Поэтому добыча "самородков" полезной информации в этой огромной горе информационного мусора является одной из самых больших проблем, стоящих перед современным обществом.

Начиная с 1980-х годов информационная емкость увеличивается в два раза за 40 месяцев в пересчете на душу населения земного шара. В настоящее время совсем не трудно собрать и накопить огромные количества данных, их можно брать из любых доступных источников, из средств массовой информации, из Интернета, из квитанций онлайн-продаж и даже от считывателей RFID-идентификаторов. К примеру, сеть супермаркетов Walmart генерирует ежедневно записи о 1 миллионе продаж, известный сервис Twitter генерирует в сутки 12 терабайт информации, а эксперименты, проведенные на Большом Адронном Коллайдере (БАК) за 2010, стали источником 13 петабайт данных. И вот именно такие действительно громадные наборы разнообразных данных подразумеваются под универсальным термином "Большие Данные".

С "Большими Данными" вроде разобрались, теперь обратимся к проблеме, которую создает само их существование. Любые данные могут стать полезными лишь в том случае, если ими можно воспользоваться. Но для больших данных не подходят традиционные методы обработки информации, для них недостаточно вычислительных мощностей обычных компьютеров и функций потребительского программного обеспечения. Для того, что бы проанализировать огромный поток информации и отследить некоторые быстрые явления, такие как появление бозона Хиггса или мошенничество на кассе супермаркета явно недостаточно возможностей программ MS Access и MS Excel.

Для манипуляции наборами больших данных, для управления явлением "Больших Данных", помимо места для их хранения и коммуникационных каналов с огромной пропускной способностью, требуются аналитические инструменты нового поколения, опирающиеся на огромные вычислительные мощности, в том числе и на современные суперкомпьютеры. Примером этому может служить набор аналитического программного обеспечения Apache Hadoop Big Data Platform, который может работать на кластерах, состоящих из сотен и тысяч мощнейших серверов, реализующих модель широкомасштабной параллельной обработки и анализа баз данных.

Появление суперкомпьютеров и масштабных вычислительных систем, круглосуточно обрабатывающих огромные массивы информации, делая ее доступной восприятию и пониманию людьми, подразумевается под началом "эры больших данных". И большинство людей сами не подозревая этого практически каждый день пользуются результатами наступления этой эры, набирая фразу в строке поисковой системы, рассматривая снимки Земли в Google Earth и пользуясь другими многочисленными благами, предоставляемыми эрой цифровых технологий.

Советуем к прочтению:

Mouse Computer представила десктоп MDV-ASQ8310B-WS-P27LP

Скорости записи и чтения SSD Adata SX2000 объемом до 1600 ГБ достигают 1800 МБ/с

Установка mac os 10.8

Новый ультратонкий ноутбук Samsung Series 9 доступен по предзаказу за $1500