Анализ данных и big data. Что может Big Data? Big Data нуждаются в вашей помощи

Большие данные (или Big Data) - это совокупность методов работы с огромными объёмами структурированной или неструктурированной информации. Специалисты по работе с большими данными занимаются её обработкой и анализом для получения наглядных, воспринимаемых человеком результатов. Look At Me поговорил с профессионалами и выяснил, какова ситуация с обработкой больших данных в России, где и чему лучше учиться тем, кто хочет работать в этой сфере.

Алексей Рывкин об основных направлениях в сфере больших данных, общении с заказчиками и мире чисел

Я учился в Московском институте электронной техники. Главное, что мне удалось оттуда вынести, - это фундаментальные знания по физике и математике. Одновременно с учёбой я работал в R&D-центре, где занимался разработкой и внедрением алгоритмов помехоустойчивого кодирования для средств защищённой передачи данных. После окончания бакалавриата я поступил в магистратуру бизнес-информатики Высшей школы экономики. После этого я захотел работать в IBS. Мне повезло, что в то время в связи с большим количеством проектов шёл дополнительный набор стажёров, и после нескольких собеседований я начал работать в IBS, одной из крупнейших российских компаний этой области. За три года я прошёл путь от стажёра до архитектора корпоративных решений. Сейчас занимаюсь развитием экспертизы технологий Big Data для компаний-заказчиков из финансового и телекоммуникационного сектора.

Есть две основные специализации для людей, которые хотят работать с большими данными: аналитики и ИТ-консультанты, которые создают технологии для работы с большими данными. Кроме того, можно также говорить о профессии Big Data Analyst, т. е. людях, которые непосредственно работают с данными, с ИТ-платформой у заказчика. Раньше это были обычные аналитики-математики, которые знали статистику и математику и с помощью статистического ПО решали задачи по анализу данных. Сегодня, помимо знания статистики и математики, необходимо также понимание технологий и жизненного цикла данных. В этом, на мой взгляд, и заключается отличие современных Data Analyst от тех аналитиков, которые были прежде.

Моя специализация - ИТ-консалтинг, то есть я придумываю и предлагаю заказчикам способы решения бизнес-задач с помощью ИТ-технологий. В консалтинг приходят люди с различным опытом, но самые важные качества для этой профессии - это умение понимать потребности клиента, стремление помогать людям и организациям, хорошие коммуникационные и командные навыки (поскольку это всегда работа с клиентом и в команде), хорошие аналитические способности. Очень важна внутренняя мотивация: мы работаем в конкурентной среде, и заказчик ждёт необычных решений и заинтересованности в работе.

Большая часть времени у меня уходит на общение с заказчиками, формализацию их бизнес-потребностей и помощь в разработке наиболее подходящей технологической архитектуры. Критерии выбора здесь имеют свою особенность: помимо функциональных возможностей и ТСО (Total cost of ownership - общая стоимость владения) очень важны нефункциональные требования к системе, чаще всего это время отклика, время обработки информации. Чтобы убедить заказчика, мы часто используем подход proof of concept - предлагаем бесплатно «протестировать» технологию на какой-то задаче, на узком наборе данных, чтобы убедиться, что технология работает. Решение должно создавать для заказчика конкурентное преимущество за счёт получения дополнительных выгод (например, x-sell , кросс-продажи) или решать какую-то проблему в бизнесе, скажем, снизить высокий уровень мошенничества по кредитам.

Было бы гораздо проще, если бы клиенты приходили с готовой задачей, но пока они не понимают, что появилась революционная технология, которая может изменить рынок за пару лет

С какими проблемами приходится сталкиваться? Рынок пока не готов использовать технологии «больших данных». Было бы гораздо проще, если бы клиенты приходили с готовой задачей, но пока они не понимают, что появилась революционная технология, которая может изменить рынок за пару лет. Именно поэтому мы, по сути, работаем в режиме стартапа - не просто продаём технологии, но и каждый раз убеждаем клиентов, что нужно в эти решения инвестировать. Это такая позиция визионеров - мы показываем заказчикам, как можно поменять свой бизнес с привлечением данных и ИТ. Мы создаем этот новый рынок - рынок коммерческого ИТ-консалтинга в области Big Data.

Если человек хочет заниматься дата-анализом или ИТ-консалтингом в сфере Big Data, то первое, что важно, - это математическое или техническое образование с хорошей математической подготовкой. Также полезно освоить конкретные технологии, допустим SAS , Hadoop , язык R или решения IBM. Кроме того, нужно активно интересоваться прикладными задачами для Big Data - например, как их можно использовать для улучшенного кредитного скоринга в банке или управления жизненным циклом клиента. Эти и другие знания могут быть получены из доступных источников: например, Coursera и Big Data University . Также есть Customer Analytics Initiative в Wharton University of Pennsylvania, где опубликовано очень много интересных материалов.

Серьёзная проблема для тех, кто хочет работать в нашей области, - это явный недостаток информации о Big Data. Ты не можешь пойти в книжный магазин или в на какой-то сайт и получить, например, исчерпывающий сборник кейсов по всем применениям технологий Big Data в банках. Таких справочников не существует. Часть информации находится в книгах, ещё часть собирается на конференциях, а до чего-то приходится доходить самим.

Ещё одна проблема заключается в том, что аналитики хорошо чувствуют себя в мире чисел, но им не всегда комфортно в бизнесе. Такие люди часто интровертны, им трудно общаться, и поэтому им сложно убедительно доносить до клиентов информацию о результатах исследований. Для развития этих навыков я бы рекомендовал такие книги, как «Принцип пирамиды», «Говори на языке диаграмм». Они помогают развить презентационные навыки, лаконично и понятно излагать свои мысли.

Мне очень помогло участие в разных кейс-чемпионатах во время учебы в НИУ ВШЭ. Кейс-чемпионаты - это интеллектуальные соревнования для студентов, где нужно изучать бизнес-проблемы и предлагать их решение. Они бывают двух видов: кейс-чемпионаты консалтинговых фирм, например, McKinsey, BCG, Accenture, а также независимые кейс-чемпионаты типа Changellenge . Во время участия в них я научился видеть и решать сложные задачи - от идентификации проблемы и её структурирования до защиты рекомендаций по её решению.

Олег Михальский о российском рынке и специфике создания нового продукта в сфере больших данных

До прихода в Acronis я уже занимался запуском новых продуктов на рынок в других компаниях. Это всегда интересно и сложно одновременно, поэтому меня сразу заинтересовала возможность работы над облачными сервисами и решениями для хранения данных. В этой сфере пригодился весь мой предыдущий опыт работы в ИТ-отрасли, включая собственный стартап-проект I-accelerator . Помогло также и наличие бизнес-образования (MBA) в дополнение к базовому инженерному.

В России у крупных компаний - банков, мобильных операторов и т. д. - есть потребность в анализе больших данных, поэтому в нашей стране есть перспективы для тех, кто хочет работать в этой области. Правда, многие проекты сейчас являются интеграционными, то есть сделанными на основе зарубежных наработок или open source-технологий. В таких проектах не создаются принципиально новые подходы и технологии, а скорее адаптируются уже имеющиеся наработки. В Acronis мы пошли другим путём и, проанализировав имеющиеся альтернативы, решили вложиться в собственную разработку, создав в результате систему надёжного хранения для больших данных, которая по себестоимости не уступает, например, Amazon S3 , но работает надёжно и эффективно и на существенно меньших масштабах. Собственные разработки по большим данным есть и у крупных интернет-компаний, но они скорее ориентированы на внутренние нужды, чем удовлетворение потребностей внешних клиентов.

Важно понимать тренды и экономические силы, которые влияют на область обработки больших данных. Для этого нужно много читать, слушать выступления авторитетных специалистов в ИТ-индустрии, посещать тематические конференции. Сейчас почти каждая конференция имеет секцию про Big Data, но все они рассказывают об этом под разным углом: с точки зрения технологий, бизнеса или маркетинга. Можно пойти на проектную работу или стажировку в компанию, которая уже ведёт проекты по данной тематике. Если вы уверены в своих силах, то ещё не поздно организовать стартап в сфере Big Data.

Без постоянного контакта с рынком новая разработка рискует оказаться невостребованной

Правда, когда вы отвечаете за новый продукт, много времени уходит на аналитику рынка и общение с потенциальными клиентами, партнёрами, профессиональными аналитиками, которые знают много о клиентах и их потребностях. Без постоянного контакта с рынком новая разработка рискует оказаться невостребованной. Всегда есть много неопределённостей: вы должны понять, кто станут первыми пользователями (early adopters), что у вас есть для них ценного и как затем привлечь массовую аудиторию. Вторая по важности задача - это сформировать и донести до разработчиков чёткое и целостное видение конечного продукта, чтобы мотивировать их на работу в таких условиях, когда некоторые требования ещё могут меняться, а приоритеты зависят от обратной связи, поступающей от первых клиентов. Поэтому важная задача - это управление ожиданиями клиентов с одной стороны и разработчиков с другой. Так, чтобы ни те ни другие не потеряли интерес и довели проект до завершения. После первого успешного проекта становится проще, и главной задачей будет найти правильную модель роста для нового бизнеса.

Термин «Биг-Дата», возможно, сегодня уже узнаваем, но вокруг него все еще довольно много путаницы относительно того, что же он означает на самом деле. По правде говоря, концепция постоянно развивается и пересматривается, поскольку она остается движущей силой многих продолжающихся волн цифрового преобразования, включая искусственный интеллект, науку о данных и Интернет вещей. Но что же представляет собой технология Big-Data и как она меняет наш мир? Давайте попробуем разобраться объяснить суть технологии Биг-Даты и что она означает простыми словами.

Все началось со «взрыва» в объеме данных, которые мы создали с самого начала цифровой эпохи. Это во многом связано с развитием компьютеров, Интернета и технологий, способных «выхватывать» данные из окружающего нас мира. Данные сами по себе не являются новым изобретением. Еще до эпохи компьютеров и баз данных мы использовали бумажные записи транзакций, клиентские записи и архивные файлы, которые и являются данными. Компьютеры, в особенности электронные таблицы и базы данных, позволили нам легко и просто хранить и упорядочивать данные в больших масштабах. Внезапно информация стала доступной при помощи одного щелчка мыши.

Тем не менее, мы прошли долгий путь от первоначальных таблиц и баз данных. Сегодня через каждые два дня мы создаем столько данных, сколько мы получили с самого начала вплоть до 2000 года. Правильно, через каждые два дня. И объем данных, которые мы создаем, продолжает стремительно расти; к 2020 году объем доступной цифровой информации возрастет примерно с 5 зеттабайтов до 20 зеттабайтов.

В настоящее время почти каждое действие, которое мы предпринимаем, оставляет свой след. Мы генерируем данные всякий раз, когда выходим в Интернет, когда переносим наши смартфоны, оборудованные поисковым модулем, когда разговариваем с нашими знакомыми через социальные сети или чаты и т.д. К тому же, количество данных, сгенерированных машинным способом, также быстро растет. Данные генерируются и распространяются, когда наши «умные» домашние устройства обмениваются данными друг с другом или со своими домашними серверами. Промышленное оборудование на заводах и фабриках все чаще оснащается датчиками, которые аккумулируют и передают данные.

Термин «Big-Data» относится к сбору всех этих данных и нашей способности использовать их в своих интересах в широком спектре областей, включая бизнес.

Как работает технология Big-Data?

Биг Дата работает по принципу: чем больше вы знаете о том или ином предмете или явлении, тем более достоверно вы сможете достичь нового понимания и предсказать, что произойдет в будущем. В ходе сравнения большего количества точек данных возникают взаимосвязи, которые ранее были скрыты, и эти взаимосвязи позволяют нам учиться и принимать более взвешенные решения. Чаще всего это делается с помощью процесса, который включает в себя построение моделей на основе данных, которые мы можем собрать, и дальнейший запуск имитации, в ходе которой каждый раз настраиваются значения точек данных и отслеживается то, как они влияют на наши результаты. Этот процесс автоматизирован — современные технологии аналитики будут запускать миллионы этих симуляций, настраивая все возможные переменные до тех пор, пока не найдут модель — или идею — которые помогут решить проблему, над которой они работают.

Бил Гейтс висит над бумажным содержимым одного компакт диска

До недавнего времени данные были ограничены электронными таблицами или базами данных — и все было очень упорядочено и аккуратно. Все то, что нельзя было легко организовать в строки и столбцы, расценивалось как слишком сложное для работы и игнорировалось. Однако прогресс в области хранения и аналитики означает, что мы можем фиксировать, хранить и обрабатывать большое количество данных различного типа. В результате «данные» на сегодняшний день могут означать что угодно, начиная базами данных, и заканчивая фотографиями, видео, звукозаписями, письменными текстами и данными датчиков.

Чтобы понять все эти беспорядочные данные, проекты, имеющие в основе Биг Дату, зачастую используют ультрасовременную аналитику с привлечением искусственного интеллекта и компьютерного обучения. Обучая вычислительные машины определять, что же представляют собой конкретные данные — например, посредством распознавания образов или обработки естественного языка – мы можем научить их определять модели гораздо быстрее и достовернее, чем мы сами.

Как используется Биг-Дата?

Этот постоянно увеличивающийся поток информации о данных датчиков, текстовых, голосовых, фото- и видеоданных означает, что теперь мы можем использовать данные теми способами, которые невозможно было представить еще несколько лет назад. Это привносит революционные изменения в мир бизнеса едва ли не в каждой отрасли. Сегодня компании могут с невероятной точностью предсказать, какие конкретные категории клиентов захотят сделать приобретение, и когда. Биг Дата также помогает компаниям выполнять свою деятельность намного эффективнее.

Даже вне сферы бизнеса проекты, связанные с Big-Data, уже помогают изменить наш мир различными путями:

Улучшая здравоохранение — медицина, управляемая данными, способна анализировать огромное количество медицинской информации и изображений для моделей, которые могут помочь обнаружить заболевание на ранней стадии и разработать новые лекарства.
Прогнозируя и реагируя на природные и техногенные катастрофы. Данные датчиков можно проанализировать, чтобы предсказать, где могут произойти землетрясения, а модели поведения человека дают подсказки, которые помогают организациям оказывать помощь выжившим. Технология Биг Даты также используется для отслеживания и защиты потока беженцев из зон военных действий по всему миру.
Предотвращая преступность. Полицейские силы все чаще используют стратегии, основанные на данных, которые включают их собственную разведывательную информацию и информацию из открытого доступа для более эффективного использования ресурсов и принятия сдерживающих мер там, где это необходимо.

Лучшие книги о технологии Big-Data

Все лгут. Поисковики, Big Data и Интернет знают о вас всё .
BIG DATA. Вся технология в одной книге .
Индустрия счастья. Как Big Data и новые технологии помогают добавить эмоцию в товары и услуги .
Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики .

Проблемы с Big-Data

Биг Дата дает нам беспрецедентные идеи и возможности, но также поднимает проблемы и вопросы, которые необходимо решить:

Конфиденциальность данных – Big-Data, которую мы сегодня генерируем, содержит много информации о нашей личной жизни, на конфиденциальность которой мы имеем полное право. Все чаще и чаще нас просят найти баланс между количеством персональных данных, которые мы раскрываем, и удобством, которое предлагают приложения и услуги, основанные на использовании Биг Даты.
Защита данных — даже если мы решаем, что нас устраивает то, что у кого-то есть наши данные для определенной цели, можем ли мы доверять ему сохранность и безопасность наших данных?
Дискриминация данных — когда вся информация будет известна, станет ли приемлемой дискриминация людей на основе данных из их личной жизни? Мы уже используем оценки кредитоспособности, чтобы решить, кто может брать деньги, и страхование тоже в значительной степени зависит от данных. Нам стоит ожидать, что нас будут анализировать и оценивать более подробно, однако следует позаботиться о том, чтобы это не усложняло жизнь тех людей, которые располагают меньшими ресурсами и ограниченным доступом к информации.

Выполнение этих задач является важной составляющей Биг Даты, и их необходимо решать организациям, которые хотят использовать такие данные. Неспособность осуществить это может сделать бизнес уязвимым, причем не только с точки зрения его репутации, но также с юридической и финансовой стороны.

Глядя в будущее

Данные меняют наш мир и нашу жизнь небывалыми темпами. Если Big-Data способна на все это сегодня — просто представьте, на что она будет способна завтра. Объем доступных нам данных только увеличится, а технология аналитики станет еще более продвинутой.

Для бизнеса способность применять Биг Дату будет становиться все более решающей в ближайшие годы. Только те компании, которые рассматривают данные как стратегический актив, выживут и будут процветать. Те же, кто игнорирует эту революцию, рискуют остаться позади.

У каждой промышленной революции были свои символы: чугун и пар, сталь и поточное производство, полимеры и электроника, а очередная революция пройдет под знаком композитных материалов и данных. Big Data - ложный след или будущее индустрии?

20.12.2011 Леонид Черняк

Символами первой промышленной революции были чугун и пар, второй - сталь и поточное производство, третьей - полимерные материалы, алюминий и электроника, а очередная революция пройдет под знаком композитных материалов и данных. Big Data -это ложный след или будущее индустрии?

Уже более трех лет много говорят и пишут о Больших Данных (Big Data) в сочетании со словом «проблема», усиливая таинственность этой темы. За это время «проблема» оказалась в фокусе внимания подавляющего большинства крупных производителей, в расчете на обнаружение ее решения создается множество стартапов, а все ведущие отраслевые аналитики трубят о том, насколько сейчас важно умение работать с большими объемами данных для обеспечения конкурентоспособности. Подобная, не слишком аргументированная, массовость провоцирует инакомыслие, и можно встретить немало скептических высказываний на ту же тему, а иногда к Big Data даже прикладывают эпитет red herring (букв. «копченая селедка» - ложный след, отвлекающий маневр).

Так что же такое Big Data? Проще всего представить Big Data в виде стихийно обрушившейся и невесть откуда взявшейся лавины данных или свести проблему к новым технологиям, радикально изменяющим информационную среду, а может быть, вместе с Big Data мы переживаем очередной этап в технологической революции? Скорее всего, и то, и другое, и третье, и еще пока неведомое. Показательно, что из более чем четыре миллиона страниц в Web, содержащих словосочетание Big Data, один миллион содержит еще и слово definition - как минимум четверть пишущих о Big Data пытается дать свое определение. Такая массовая заинтересованность свидетельствует в пользу того, что, скорее всего, в Big Data есть что-то качественно иное, чем то, к чему подталкивает обыденное сознание.

Предыстория

То, что подавляющая часть упоминаний Big Data так или иначе связана с бизнесом, может ввести в заблуждение. На самом деле термин родился отнюдь не в корпоративной среде, а заимствован аналитиками из научных публикаций. Big Data относится к числу немногих названий, имеющих вполне достоверную дату своего рождения - 3 сентября 2008 года, когда вышел специальный номер старейшего британского научного журнала Nature, посвященный поиску ответа на вопрос «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?». Специальный номер подытоживает предшествующие дискуссии о роли данных в науке вообще и в электронной науке (e-science) в частности.

Роль данных в науке стала предметом обсуждения очень давно - первым об обработке данных еще в XVIII веке писал английский астроном Томас Симпсон в труде «О преимуществах использования чисел в астрономических наблюдениях», но только в конце прошлого столетия интерес к этой теме приобрел заметную остроту, а на передний план обработка данных вышла в конце прошлого века, когда обнаружилось, что компьютерные методы могут применяться практически во всех науках от археологии до ядерной физики. Как следствие, заметно меняются и сами научные методы. Не случайно появился неологизм libratory, образованный от слов library (библиотека) и laboratory (лаборатория), который отражает изменения, касающиеся представления о том, что можно считать результатом исследования. До сих пор на суд коллег представлялись только полученные конечные результаты, а не сырые экспериментальные данные, а теперь, когда в «цифру» могут быть переведены самые разные данные, когда имеются разнообразные цифровые носители, то объектом публикации могут быть различного рода измеренные данные, причем особое значение приобретает возможность повторной обработки в libratory ранее накопленных данных. А далее складывается положительная обратная связь, за счет которой процесс накопления научных данных постоянно ускоряется. Именно поэтому, осознавая масштаб грядущих изменений, редактор номера Nature Клиффорд Линч предложил для новой парадигмы специальное название Большие Данные, выбранное им по аналогии с такими метафорами, как Большая Рефть, Большая Руда и т. п., отражающими не столько количество чего-то, сколько переход количества в качество.

Большие Данные и бизнес

Не прошло и года, как термин Big Data попал на страницы ведущих бизнес-изданий, в которых, однако, использовались уже совсем иные метафоры. Big Data сравнивают с минеральными ресурсами - the new oil (новая нефть), goldrush (золотая лихорадка), data mining (разработка данных), чем подчеркивается роль данных как источника скрытой информации; с природными катаклизмами - data tornado (ураган данных), data deluge (наводнение данных), data tidal wave (половодье данных), видя в них угрозу; улавливая связь с промышленным производством - data exhaust (выброс данных), firehose (шланг данных), Industrial Revolution (промышленная революция). В бизнесе, как и в науке, большие объемы данных тоже не есть что-то совершенно новое - уже давно говорили о необходимости работы с большими объемами данных, например в связи с распространением радиочастотной идентификации (RFID) и социальных сетей, и так же, как и в науке, здесь не хватало только яркой метафоры для определения происходящего. Вот почему в 2010 году появились первые продукты, претендующие на попадание в категорию Big Data, - нашлось подходящее название для уже существующих вещей. Показательно, что в версию 2011 Hype Cycle, характеризующую состояние и перспективы новых технологий, аналитики Gartner ввели еще одну позицию Big Data and Extreme Information Processing and Management с оценкой срока массового внедрения соответствующих решений от двух до пяти лет.

Почему Большие Данные оказались проблемой?

С момента появления термина Big Data прошло уже три года, но если в науке все более или менее ясно, то место Big Data в бизнесе остается неопределенным, не случайно так часто говорят о «проблеме Больших Данных», причем не просто о проблеме, но ко всему прочему еще и плохо определенной. Нередко проблему упрощают, интерпретируя наподобие закона Мура, с той лишь разницей, что в данном случае мы имеем дело с феноменом удвоения количества данных за год, или гиперболизируют, представляя чуть ли не как стихийное бедствие, с которым срочно нужно каким-то способом справиться. Данных действительно становится все больше и больше, но при всем этом упускается из виду то обстоятельство, что проблема отнюдь не внешняя, она вызвана не столько обрушившимися в невероятном количестве данными, сколько неспособностью старыми методами справиться с новыми объемами, и, что самое главное, нами самими создаваемыми. Наблюдается странный дисбаланс - способность порождать данные оказалась сильнее, чем способность их перерабатывать. Причина возникновения этого перекоса заключается, скорее всего, в том, что за 65 лет истории компьютеров мы так и не поняли, что же такое данные и как они связаны с результатами обработки. Странно, математики столетиями разбираются с основными понятиями своей науки, такими как число и системы счисления, привлекая к этому философов, а в нашем случае данные и информация, отнюдь не тривиальные вещи, оставлены без внимания и отданы на откуп интуитивному восприятию. Вот и получилось, что все эти 65 лет невероятными темпами развивались собственно технологии работы с данными и почти не развивалась кибернетика и теория информации, оставшиеся на уровне 50-х годов, когда ламповые компьютеры использовались исключительно для расчетов. Действительно, наблюдаемая сейчас суета вокруг Big Data при внимательном вызывает скептическую улыбку.

Масштабирование и многоуровневое хранение

Облака, большие данные, аналитика – эти три фактора современных ИТ не только взаимосвязаны, но сегодня уже не могут существовать друг без друга. Работа с Большими Данными невозможна без облачных хранилищ и облачных вычислений – появление облачных технологий не только в виде идеи, а уже в виде законченных и реализованных проектов стало спусковым крючком для запуска нового витка спирали увеличения интереса к аналитике Больших Данных. Если говорить о влиянии на индустрию в целом, то сегодня стали очевидны возросшие требования к масштабированию систем хранения. Это действительно необходимое условие – ведь заранее сложно предсказать, для каких аналитических процессов понадобятся те или иные данные и насколько интенсивно будет загружено существующее хранилище. Кроме этого, становятся одинаково важны требования как по вертикальному, так и горизонтальному масштабированию.

В новом поколении своих систем хранения компания Fujitsu уделила большое внимание именно аспектам масштабирования и многоуровнего хранения данных. Практика показывает, что сегодня для выполнения аналитических задач требуется сильно загружать системы, однако бизнес требует, чтобы все сервисы, приложения и сами данные всегда оставались доступными. Кроме этого, требования к результатам аналитических исследований сегодня очень высоки – грамотно, правильно и своевременно проведенные аналитические процессы позволяют существенно улучшить результаты работы бизнеса в целом.

– Александр Яковлев ([email protected]), менеджер по маркетингу продукции Fujitsu (Москва).

Игнорированием роли данных и информации, как предметов исследования, была заложена та самая мина, которая взорвалась сейчас, в момент, когда изменились потребности, когда счетная нагрузка на компьютеры оказалась намного меньше, чем другие виды работ, выполняемые над данными, а цель этих действий заключается в получении новой информации и новых знаний из уже существующих массивов данных. Вот почему вне восстановления связей цепочки «данные - информация - знание» говорить о решении проблемы Больших Данных бессмысленно. Данные обрабатываются для получения информации, которой должно быть ровно столько, чтобы человек мог превратить ее в знание.

За последние десятилетия серьезных работ по связям сырых данных с полезной информацией не было, а то, что мы привычно называем теорией информации Клода Шеннона, является не чем иным, как статистической теорией передачи сигналов, и к информации, воспринимаемой человеком, не имеет никакого отношения. Есть множество отдельных публикаций, отражающих частные точки зрения, но нет полноценной современной теории информации. В результате подавляющее число специалистов вообще не делает различия между данными и информацией. Вокруг все только констатируют, что данных много или очень много, но зрелого представления, чего именно много, какими путями следует решать возникшую проблему, нет ни у кого - а все потому, что технические возможности работы с данными явно опередили уровень развития способностей к их использованию. Только у одного автора, редактора журнала Web 2.0 Journal Дайона Хинчклифа, имеется классификация Больших Данных, позволяющая соотнести технологии с результатом, который ждут от обработки Больших Данных, но и она далеко не удовлетворительна.

Хинчклиф делит подходы к Big Data на три группы: Быстрые Данные (Fast Data), их объем измеряется терабайтами; Большая Аналитика (Big Analytics) - петабайтные данные и Глубокое Проникновение (Deep Insight) - экзабайты, зеттабайты. Группы различаются между собой не только оперируемыми объемами данных, но и качеством решения по их обработки.

Обработка для Fast Data не предполагает получения новых знаний, ее результаты соотносятся с априорными знаниями и позволяют судить о том, как протекают те или иные процессы, она позволяет лучше и детальнее увидеть происходящее, подтвердить или отвергнуть какие-то гипотезы. Только небольшая часть из существующих сейчас технологий подходит для решения задач Fast Data, в этот список попадают некоторые технологии работы с хранилищами (продукты Greenplum, Netezza, Oracle Exadata, Teradata, СУБД типа Verica и kdb). Скорость работы этих технологий должна возрастать синхронно с ростом объемов данных.

Задачи, решаемые средствами Big Analytics, заметно отличаются, причем не только количественно, но и качественно, а соответствующие технологии должны помогать в получении новых знаний - они служат для преобразования зафиксированной в данных информации в новое знание. Однако на этом среднем уровне не предполагается наличие искусственного интеллекта при выборе решений или каких-либо автономных действий аналитической системы - она строится по принципу «обучения с учителем». Иначе говоря, весь ее аналитический потенциал закладывается в нее в процессе обучения. Самый очевидный пример - машина , играющая в Jeopardy!. Классическими представителями такой аналитики являются продукты MATLAB, SAS, Revolution R, Apache Hive, SciPy Apache и Mahout.

Высший уровень, Deep Insight, предполагает обучение без учителя (unsupervised learning) и использование современных методов аналитики, а также различные способы визуализации. На этом уровне возможно обнаружение знаний и закономерностей, априорно неизвестных.

Аналитика Больших Данных

С течением времени компьютерные приложения становятся все ближе к реальному миру во всем его многообразии, отсюда рост объемов входных данных и отсюда же потребность в их аналитике, причем в режиме, максимально приближенном к реальному времени. Конвергенция этих двух тенденций привела к возникновению направления аналитика Больших Данных (Big Data Analytics).

Победа компьютера Watson стала блестящей демонстрацией возможностей Big Data Analytics - мы вступаем в интереснейшую эпоху, когда компьютер впервые используется не столько как инструмент для ускорения расчетов, а как помощник, расширяющий человеческие возможности в выборе информации и принятии решений. Казавшиеся утопическими замыслы Ванневара Буша, Джозефа Ликлайдера и Дага Энгельбарта начинают сбываться, но происходит это не совсем так, как это виделось десятки лет назад - сила компьютера не в превосходстве над человеком по логическим возможностям, на что особенно уповали ученые, а в существенно большей способности обрабатывать гигантские объемы данных. Нечто подобное было в противоборстве Гарри Каспарова с Deep Blue, компьютер не был более искусным игроком, но он мог быстрее перебирать большее количество вариантов.

Гигантские объемы в сочетании с высокой скоростью, отличающие Big Data Analytics от других приложений, требуют соответствующих компьютеров, и сегодня практически все основные производители предлагают специализированные программно-аппаратные системы: SAP HANA, Oracle Big Data Appliance, Oracle Exadata Database Machine и Oracle Exalytics Business Intelligence Machine, Teradata Extreme Performance Appliance, NetApp E-Series Storage Technology, IBM Netezza Data Appliance, EMC Greenplum, Vertica Analytics Platform на базе HP Converged Infrastructure. Помимо этого в игру вступило множество небольших и начинающих компаний: Cloudera, DataStax, Northscale, Splunk, Palantir, Factual, Kognitio, Datameer, TellApart, Paraccel, Hortonworks.

Обратная связь

Качественно новые приложения Big Data Analytics требуют для себя не только новых технологий, но и качественного иного уровня системного мышления, а вот с этим наблюдаются трудности - разработчики решений Big Data Analytics часто заново открывают истины, известные с 50-х годов. В итоге нередко аналитика рассматривается в отрыве от средств подготовки исходных данных, визуализации и других технологий предоставления результатов человеку. Даже такая уважаемая организация, как The Data Warehousing Institute, рассматривает аналитику в отрыве от всего остального: по ее данным, уже сейчас 38% предприятий исследуют возможность использования Advanced Analytics в практике управления, а еще 50% намереваются сделать это в течение ближайших трех лет. Такой интерес обосновывается приведением множества аргументов из бизнеса, хотя можно сказать и проще - предприятиям в новых условиях требуется более совершенная система управления, и начинать ее создание надо с установления обратной связи, то есть с системы, помогающей в принятии решений, а в будущем, может быть, удастся автоматизировать и собственно приятие решений. Удивительно, но все сказанное укладывается в методику создания автоматизированных систем управления технологическими объектами, известную с 60-х годов.

Новые средства для анализа требуются потому, что данных становится не просто больше, чем раньше, а больше их внешних и внутренних источников, теперь они сложнее и разнообразнее (структурированные, неструктурированные и квазиструктурированные), используются различные схемы индексации (реляционные, многомерные, noSQL). Прежними способами справиться с данными уже невозможно - Big Data Analytics распространяется на большие и сложные массивы, поэтому еще используют термины Discovery Analytics (открывающая аналитика) и Exploratory Analytics (объясняющая аналитика). Как ни называть, суть одна - обратная связь, снабжающая в приемлемом виде лиц, принимающих решение, сведениями о различного рода процессах.

Компоненты

Для сбора сырых данных используются соответствующие аппаратные и программные технологии, какие именно - зависит от природы объекта управления (RFID, сведения из социальных сетей, разнообразные текстовые документы и т. п.). Эти данные поступают на вход аналитической машины (регулятора в цепи обратной связи, если продолжать аналогию с кибернетикой). Этот регулятор базируется на программно-аппаратной платформе, на которой работает собственно аналитическое ПО, он не обеспечивает выработки управляющих воздействий, достаточных для автоматического управления, поэтому в контур включаются ученые по данным (data scientist) или инженеры в области данных. Их функцию можно сравнить с той ролью, которую играют, например, специалисты в области электротехники, использующие знания из физики в приложении к созданию электрических машин. Задача инженеров заключается в управлении процессом преобразования данных в информацию, используемую для принятия решений, - они-то и замыкают цепочку обратной связи. Из четырех компонентов Big Data Analytics в данном случае нас интересует только один - программно-аппаратная платформа (системы этого типа называют Analytic Appliance или Data Warehouse Appliance).

На протяжении ряда лет единственным производителем аналитических специализированных машин была Teradata, но не она была первой - еще в конце 70-х годов тогдашний лидер британской компьютерной индустрии компания ICL предприняла не слишком удачную попытку создать контентно-адресуемое хранилище (Content-Addressable Data Store), в основе которого была СУБД IDMS. Но первой создать «машину баз данных» удалось компании Britton-Lee в 1983 году на базе мультипроцессорной конфигурации процессоров семейства Zilog Z80. В последующем Britton-Lee была куплена Teradata, с 1984 года выпускавшая компьютеры MPP-архитектуры для систем поддержки принятия решений и хранилищ данных. А первым представителем нового поколения поставщиков подобных комплексов стала компания Netezza - в ее решении Netezza Performance Server использовались стандартные серверы-лезвия вместе со специализированными лезвиями Snippet Processing Unit.

Аналитика в СУБД

Аналитика здесь - прежде всего прогнозная , или предиктивная (Predictive Analysis, РА). В большинстве существующих реализаций исходными для систем РА являются данные, ранее накопленные в хранилищах данных. Для анализа данные сначала перемещают в промежуточные витрины (Independent Data Mart, IDM), где представление данных не зависит от использующих их приложений, а затем те же данные переносятся в специализированные аналитические витрины (Аnalytical Data Mart, ADM), и уже с ними работают специалисты, применяя различные инструменты разработки, или добычи данных (Data Mining). Такая многоступенчатая модель вполне приемлема для относительно небольших объемов данных, но при их увеличении и при повышении требований к оперативности в такого рода моделях обнаруживается ряд недостатков. Помимо необходимости в перемещении данных существование множества независимых ADM приводит к усложнению физической и логической инфраструктуры, разрастается количеств используемых инструментов моделирования, полученные разными аналитиками результаты оказываются несогласованны, далеко не оптимально используются вычислительные мощности и каналы. Кроме того, раздельное существование хранилищ и ADM делает практически невозможной аналитику во времени, приближенном к реальному.

Выходом может быть подход, получивший название In-Database Analytics или No-Copy Analytics, предполагающий использование для целей аналитики данных, непосредственно находящихся в базе. Такие СУБД иногда называют аналитическими и параллельными. Подход стал особенно привлекателен с появлением технологий MapReduce и Hadoop. В новых приложениях поколения класса In-Database Analytics все виды разработки данных и другие виды интенсивной работы выполняются непосредственно над данными, находящимися в хранилище. Очевидно, что это заметно ускоряет процессы и позволяет выполнять в реальном времени такие приложения, как распознавание образов, кластеризация, регрессионный анализ, различного рода прогнозирование. Ускорение достигается не только за счет избавления от перемещений из хранилища в витрины, но главным образом за счет использования различных методов распараллеливания, в том числе кластерных систем с неограниченным масштабированием. Решения типа In-Database Analytics открывают возможность для использования облачных технологий в приложении к аналитике. Следующим шагом может стать технология SAP HANA (High Performance Analytic Appliance), суть которой в размещении данных для анализа в оперативной памяти.

Основные поставщики...

К 2010 году основными поставщиками ПО для In-Database Analytics были компании Aster Data (Aster nCluster), Greenplum (Greenplum Database), IBM (InfoSphere Warehouse; IBM DB2), Microsoft (SQL Server 2008), Netezza (Netezza Performance System, PostGresSQL), Oracle (Oracle Database 11g/10g, Oracle Exadata), SenSage (SenSage/columnar), Sybase (Sybase IQ), Teradata и Vertica Systems (Vertica Analytic Database). Все это хорошо известные компании, за исключением стартапа из Кремниевой долины SenSage. Продукты заметно различаются по типу данных, с которыми они могут работать, по функциональным возможностям, интерфейсам, по применяемому аналитическому ПО и по их способности работать в облаках. Лидером по зрелости решений является Teradata, а по авангардности - Aster Data. Список поставщиков аналитического ПО короче - в локальных конфигурациях могут работать продукты компаний KXEN, SAS, SPSS и TIBCO, а в облаках - Amazon, Cascading, Google, Yahoo! и Сloudera.

Год 2010-й стал поворотным в области предиктивной аналитики, сравнимым с 2007 годом, когда IBM приобрела Cognos, SAP - Business Object, а Oracle - Hyperion. Все началось с того, что EMC приобрела Greenplum, затем IBM - Netezza, HP - Vertica, Teradata купила Aster Data и SAP купила Sybase.

…и новые возможности

Аналитическая парадигма открывает принципиально новые возможности, что успешно доказали два инженера из Кёльна, создавшие компанию ParStream (официальное имя empulse GmbH). Вдвоем им удалось создать аналитическую платформу на базе процессоров как универсальных, так и графических процессоров, конкурентную с предшественниками. Четыре года назад Михаэль Хюммепль и Джорг Бинерт, работавшие прежде в Accenture, получили заказ от германской туристической фирмы, которой для формирования туров требовалась система, способная за 100 миллисекунд выбирать запись, содержащую 20 параметров, в базе из 6 млрд записей. Ни одно из существующих решений с такой задачей справиться не может, хотя с аналогичными проблемами сталкиваются везде, где требуется оперативный анализ содержимого очень больших баз данных. Компания ParStream родилась из предпосылки применения технологий высокопроизводительных вычислений к Big Data Analytics. Хюммепль и Бинерт начали с того, что написали собственное ядро СУБД, рассчитанное для работы на кластере x86-архитектуры, поддерживающем операции с данными в виде параллельных потоков, отсюда и название ParStream. Они избрали в качестве исходной установки работу только со структурированными данными, что собственно и открывает возможность для относительно простого распараллеливания. По своему замыслу эта база данных ближе к новому проекту Google Dremel, чем к MapReduce или Hadoop, которые не адаптированы к запросам в реальном времени. Начав с платформы x86/Linux, Хюммепль и Бинерт вскоре убедились, что их база данных может поддерживаться и графические процессоры nVidia Fermi.

Big Data и Data Processing

Чтобы понять, чего же следует ожидать от того, что назвали Big Data, следует выйти за границы современного узкого «айтишного» мировоззрения и попытаться увидеть происходящее в более широкой историко-технологической ретроспективе, например попробовать найти аналогии с технологиями, имеющими более длительную историю. Ведь, назвав предмет нашей деятельности технологией, надо и относиться к нему как к технологии. Практически все известные материальные технологии сводятся к переработке, обработке или сборке специфического для них исходного сырья или каких-то иных компонентов с целью получения качественно новых продуктов - что-то имеется на входе технологического процесса и нечто на выходе.

Особенность нематериальных информационных технологий состоит в том, что здесь не столь очевидна технологическая цепочка, не ясно, что является сырьем, что результатом, что поступает на вход и что получается на выходе. Проще всего сказать, что на входе сырые данные, а на выходе полезная информация. В целом почти верно, однако связь между этими двумя сущностями чрезвычайно сложна; если же остаться на уровне здоровой прагматики, то можно ограничиться следующими соображениями. Данные - это выраженные в разной форме сырые факты, которые сами по себе не несут полезного смысла до тех пор, пока не поставлены в контекст, должным образом не организованы и не упорядочены в процессе обработки. Информация появляется в результате анализа обработанных данных человеком, этот анализ придает данным смысл и обеспечивает им потребительские качеств. Данные - это неорганизованные факты, которые необходимо превращать в информацию. До последнего времени представления об обработке данных (data processing) сводились к органичному кругу алгоритмических, логических или статистических операций над относительно небольшими объемами данных. Однако по мере сближения компьютерных технологий с реальным миром возрастает потребность превращений данных из реального мира в информацию о реальном мире, обрабатываемых данных становится больше, и требования к скорости обработки возрастают.

Логически информационные технологии мало чем отличаются от материальных технологий, на входе сырые данные, на выходе - структурированные, в форме, более удобной для восприятия человеком, извлечения из них информации и силой интеллекта превращения информации в полезное знание. Компьютеры назвали компьютерами за их способность считать, вспомним первое приложение для ENIAC - обработка данных стрельбы из орудия и превращение их в артиллерийские таблицы. То есть компьютер перерабатывал сырые данные, извлекал полезные и записывал их в форме, приемлемой для использования. Перед нами не что иное, как обычный технологический процесс. Вообще говоря, вместо привившегося термина Information Technology следовало бы чаще употреблять более точный Data Processing.

На информационные технологии должны распространяться общие закономерности, в согласии с которыми развиваются все остальные технологии, а это прежде всего увеличение количества перерабатываемого сырья и повышение качества переработки. Так происходит везде, независимо от того, что именно служит сырьем, а что результатом, будь то металлургия, нефтехимия, биотехнологии, полупроводниковые технологии и т. д. Общим является еще и то, что ни одно из технологических направлений не развивается монотонно, рано или поздно возникают моменты ускоренного развития, скачки. Быстрые переходы могут происходить в тех случаях, когда вовне возникает потребность, а внутри технологий есть способность ее удовлетворить. Компьютеры нельзя было строить на вакуумных лампах - и появились полупроводники, автомобилям нужно много бензина - открыли крекинг-процесс, и таких примеров множество. Таким образом, под именем Big Data скрывается намечающийся качественный переход в компьютерных технологиях, способный повлечь за собой серьезные изменения, не случайно его называют новой промышленной революцией. Big Data - очередная техническая революция со всеми вытекающими последствиями.

Первый опыт в Data Processing датируется IV тысячелетием до нашей эры, когда появилось пиктографическое письмо. С тех пор сложилось несколько основных направлений работы с данными, самым мощным было и остается текстовое, от первых глиняных табличек до SSD, от библиотек середины первого тысячелетия до нашей эры до современных библиотек, затем появились различного рода математические численные методы от папирусов с доказательством теоремы Пифагора и табличных приемов упрощения расчетов до современных компьютеров. По мере развития общества стали копиться различного рода табличные данные, автоматизация работы с которыми началась с табуляторов, а в XIX и ХХ веке было предложено множество новых методов создания и накопления данных. Необходимость работы с большими объемами данных понимали давно, но не было средств, отсюда утопические проекты типа «Либрариума» Поля Отле, или фантастическая система для прогнозирования погоды с использованием труда 60 тыс. людей-расчетчиков.

Сегодня компьютер превратился в универсальный инструмент для работы с данными, хотя задумывался он только лишь для автоматизации расчетов. Идея применить компьютер для Data Processing зародилась в IBM через десять лет после изобретения цифровых программируемых компьютеров, а до этого для обработки данных использовались перфораторные устройства типа Unit Record, изобретенные Германом Холлеритом. Их называли Unit Record, то есть единичная запись - каждая карта содержала всю запись, относящуюся к какому-то одному объекту. Первые компьютеры не умели работать с Большими Данными - лишь с появлением накопителей на дисках и лентах они смогли составить конкуренцию машино-счетным станциям, просуществовавшим до конца 60-х годов. Кстати, в реляционных базах данных явным образом прослеживается наследие Unit Record.

Простота – залог успеха

Рост объемов сырых данных вместе с необходимостью их анализа в режиме реального времени требуют создания и внедрения инструментов, позволяющих эффективно решать так называемую задачу Big Data Analytics. Технологии компании Information Builders позволяют работать с данными, поступающими из любых источников в режиме реального времени, благодаря множеству различных адаптеров и архитектуре Enterprise Service Bus. Инструмент WebFOCUS позволяет анализировать данные «на лету» и дает возможность визуализировать результаты лучшим для пользователя способом.

Основываясь на технологии RSTAT, компания Information Builders создала продукт для предиктивной аналитики, позволяющий проводить сценарное прогнозирование: «Что будет, если» и «Что необходимо для».

Технологии бизнес-аналитики пришли и в Россию, однако лишь немногие российские компании используют именно предиктивный анализ, что вызвано низкой культурой использования бизнес-аналитики на отечественных предприятиях и сложностью восприятия существующих методов анализа бизнес-пользователем. Учитывая это, компания Information Builders предлагает сегодня продукты, которые аналитиками Gartner оцениваются как самые простые в использовании.

– Михаил Строев ([email protected]), директор по развитию бизнеса в России и СНГ InfoBuild CIS (Москва).

Данные повсюду

По мере постепенного превращения компьютеров из счетных устройств в универсальные машины для обработки данных, примерно после 1970 года, стали появляться новые термины: данные как продукты (data product); инструменты для работы с данными (data tool); приложения, реализуемые посредством соответствующей организации (data application); наука о данных (data science); ученые, работающие с данными (data scientist), и даже журналисты, которые доносят сведения, содержащиеся в данных, до широкой публики (data journalist).

Большое распространение сегодня получили приложения класса data application, которые не просто выполняют операции над данными, а извлекают из них дополнительные ценности и создают продукты в виде данных. К числу первых приложений этого типа относится база аудиодисков CDDB, которая в отличие от традиционных баз данных создана путем экстрагирования данных из дисков и сочетания их с метаданными (названия дисков, треков и т. п.). Эта база лежит в основе сервиса Apple iTunes. Одним из факторов коммерческого успеха Google также стало осознание роли data application - владение данными позволяет этой компании многое «знать», используя данные, лежащие вне искомой страницы (алгоритм PageRank). В Google достаточно просто решена проблема корректности правописания - для этого создана база данных ошибок и исправлений, а пользователю предлагаются исправления, которые он может принять или отклонить. Аналогичный подход применяется и для распознавания при речевом вводе - в его основе накопленные аудиоданные.

В 2009 году во время вспышки свиного гриппа анализ запросов к поисковым машинам позволил проследить процесс распространения эпидемии. По пути Google пошли многие компании (Facebook, LinkedIn, Amazon и др.), не только предоставляющие услуги, но и использующие накопленные данные в иных целях. Возможность обрабатывать данные такого типа дала толчок к появлению еще одной науки о населении - citizen science. Результаты, полученные путем всестороннего анализа данных о населении, позволяют получить гораздо более глубокие знания о людях и принимать более обоснованные административные и коммерческие решения. Совокупность данных и средств работы с ними сейчас называют infoware.

Машина для Больших Данных

Хранилища данных, интернет-магазины, биллинговые системы или любая другая платформа, которую можно отнести к проектам Больших Данных, обычно обладает уникальной спецификой, и при ее проектировании главным является интеграция с промышленными данными, обеспечение процессов накопления данных, их организации и аналитики.

Компания Oracle предоставила интегрированное решение Oracle Big Data Appliance поддержки цепочки обработки Больших Данных, состоящее из оптимизированного оборудования с полным стеком программного обеспечения и 18 серверов Sun X4270 M2. Межсоединение строится на базе Infiniband 40 Гбит/с и 10-Gigabit Ethernet. Oracle Big Data Appliance включает в себя комбинацию как открытого, так и специализированного ПО от Oracle.

Хранилища типа ключ-значение или NoSQL СУБД признаны сегодня основными для мира Больших Данных и оптимизированы для быстрого накопления данных и доступа к ним. В качестве такой СУБД для Oracle Big Data Appliance используется СУБД на базе Oracle Berkley DB, хранящая информацию о топологии системы хранения, распределяющая данные и понимающая, где могут быть размещены данные с наименьшими временными затратами.

Решение Oracle Loader for Hadoop позволяет с помощью технологии MapReduce создавать оптимизированные наборы данных для их загрузки и анализа в СУБД Oracle 11g. Данные генерируются в «родном» формате СУБД Oracle, что позволяет минимизировать использование системных ресурсов. Обработка отформатированных данных осуществляется на кластере, а затем данные могут быть доступны с рабочих мест пользователей традиционной РСУБД с помощью стандартных команд SQL или средств бизнес-аналитики. Интеграция данных Hadoop и Oracle СУБД осуществляется при помощи решения Oracle Data Integrator.

Oracle Big Data Appliance поставляется с открытым дистрибутивом Apache Hadoop, включая файловую систему HDFS и другие компоненты, открытым дистрибутивом статистического пакета R для анализа сырых данных и системой Oracle Enterprise Linux 5.6. Предприятия, уже использующие Hadoop, могут интегрировать данные, размещенные на HDFS в СУБД Oracle с помощью функционала внешних таблиц, причем нет необходимости сразу загружать данные в СУБД – внешние данные могут быть использованы в связке с внутренними данными базы Oracle при помощи команд SQL.

Подключение между Oracle Big Data Appliance и Oracle Exadata через Infiniband обеспечивает высокоскоростную передачу данных для пакетной обработки или SQL-запросов. Oracle Exadata обеспечивает необходимую производительность как для хранилищ данных, так и для приложений оперативной обработки транзакций.

Новый продукт Oracle Exalytics может быть использован для решения задач бизнес аналитики и оптимизирован для использования Oracle Business Intelligence Enterprise Edition с обработкой в оперативной памяти.

– Владимир Демкин ([email protected]), ведущий консультант по направлению Oracle Exadata компании Oracle СНГ (Москва).

Наука и специалисты

Автор доклада «Что такое наука о данных?» (What is Data Science?), вышедшего в серии O’Reilly Radar Report, Майк Лукидис написал: «Будущее принадлежит компаниям и людям, способным превратить данные в продукты». Это высказывание невольно вызывает в памяти известные слова Ротшильда «Кто владеет информацией – тот владеет миром», произнесенные им, когда он раньше других узнал о поражении Наполеона при Ватерлоо и провернул аферу с ценными бумагами. Сегодня этот афоризм стоит перефразировать: «Миром владеет тот, кто владеет данными и технологиями их анализа». Живший немного позже Карл Маркс показал, что промышленная революция разделила людей на две группы - на владеющих средствами производства и тех, кто работает на них. В общих чертах сейчас происходит нечто подобное, но теперь предметом владения и разделения функций являются не средства производства материальных ценностей, а средства производства данных и информации. И вот тут-то и возникают проблемы - оказывается, владеть данными намного сложнее, чем владеть материальными активами, первые довольно просто тиражируются и вероятность их хищения гораздо выше, чем кражи материальных предметов. Кроме того, существуют легальные приемы разведки - при наличии достаточного объема и соответствующих аналитических методов можно «вычислить» то, что скрыто. Вот почему сейчас такое внимание уделяется аналитике Больших Данных Big Data Analytics (см. врезку) и средствам защиты от нее.

Различные виды деятельности с данными, и прежде всего владение методами извлечения информации, называют наукой о данных (data science), что, во всяком случае в переводе на русский, несколько дезориентирует, поскольку скорее относится не к некоторой новой академической науке, а к междисциплинарному набору знаний и навыков, необходимых для извлечения знаний. Состав подобного набора в значительной мере зависит от области, но можно выделить более или менее обобщенные квалификационные требования к специалистам, которых называют data scientist. Лучше всего это удалось сделать Дрю Конвей, который в прошлом занимался анализом данных о террористических угрозах в одной из спецслужб США. Основные тезисы его диссертации опубликованы в ежеквартальном журнале IQT Quarterly, который издавается компанией In-Q-Tel, выполняющей посредническую функцию между ЦРУ США и научными организациями.

Свою модель Конвей изобразил в виде диаграммы Венна (см. рисунок), представляющей три области знания и умений, которыми нужно владеть и обладать, чтобы стать специалистом по данным. Хакерские навыки не следует понимать как злоумышленные действия, в данном случае так названо сочетание владения определенным инструментарием с особым аналитическим складом ума, как у Эркюля Пуаро, или, возможно, эту способность можно назвать дедуктивным методом Шерлока Холмса. В отличие от великих сыщиков нужно еще быть экспертом в ряде математических направлений и понимать предмет. Машинное обучение образуется на пересечении первых двух областей, на пересечении второй и третьей - традиционные методы. Третья зона пересечения опасна спекулятивностью, без математических методов не может быть объективного видения. На пересечении всех трех зон лежит наука о данных.

Диаграмма Конвея дает упрощенную картину; во-первых, на пересечении хакерского и математического кругов лежит не только машинное обучение, во-вторых, размер последнего круга намного больше, сегодня он включает множество дисциплин и технологий. Машинным обучением называют только одну из областей искусственного интеллекта, связанную с построением алгоритмов, способных к обучению, она делится на две подобласти: прецедентное, или индуктивное обучение, выявляющее скрытые закономерности в данных, и дедуктивное, нацеленное на формализацию экспертных знаний. Еще машинное обучение делится на обучение с учителем (Supervised Learning), когда изучаются методы классификации, основанные на заранее подготовленных тренировочных наборах данных, и без учителя (Unsupervised Learning), когда внутренние закономерности ищутся посредством кластерного анализа.

Итак, Big Data - это не спекулятивные размышления, а символ настигающей технической революции. Необходимость в аналитической работе с большими данными заметно изменит лицо ИТ-индустрии и стимулирует появление новых программных и аппаратных платформ. Уже сегодня для анализа больших объемов данных применяются самые передовые методы: искусственные нейронные сети - модели, построенные по принципу организации и функционирования биологических нейронных сетей; методы предиктивной аналитики, статистики и Natural Language Processing (направления искусственного интеллекта и математической лингвистики, изучающего проблемы компьютерного анализа и синтеза естественных языков). Используются также и методы, привлекающие людей-экспертов, или краудсорсинг, А/В тестирование, сентимент-анализ и др. Для визуализации результатов применяются известные методы, например облака тегов и совсем новые Clustergram, History Flow и Spatial Information Flow.

Со стороны технологий Больших Данных поддерживаются распределенными файловыми системами Google File System, Cassandra, HBase, Lustre и ZFS, программными конструкциями MapReduce и Hadoop и множеством других решений. По оценкам экспертов, например McKinsey Institute, под влиянием Больших Данных наибольшей трансформации подвергнется сфера производства, здравоохранения, торговли, административного управления и наблюдения за индивидуальными перемещениями.

В свое время я услышал термин “Big Data” от Германа Грефа (глава Сбербанка). Мол, они сейчас у себя активно работают над внедрением, потому что это поможет им сократить время работы с каждым клиентом.

Второй раз я столкнулся с этим понятием в интернет-магазине клиента, над которым мы работали и увеличивали ассортимент с пары тысяч до пары десятков тысяч товарных позиций.

Третий раз, когда увидел, что в Yandex требуется аналитик big data. Тогда я решил поглубже разобраться в этой теме и заодно написать статью, которая расскажет что это за термин такой, который будоражит умы ТОП-менеджеров и интернет-пространство.

VVV или VVVVV

Обычно любую свою статью я начинаю с пояснения что же это за термин такой. Эта статья не станет исключением.

Однако, это вызвано прежде всего не желанием показать какой я умный, а тем, что тема по-настоящему сложная и требует тщательного пояснения.

К примеру, Вы можете почитать что такое big data в Википедии, ничего не понять, а потом вернуться в эту статью, чтобы все таки разобраться в определении и применимости для бизнеса. Итак, начнём с описания, а потом к примерам для бизнеса.

Big data это большие данные. Удивительно, да? Реально, с английского это переводится как “большие данные”. Но это определение, можно сказать, для чайников.

Важно . Технология big data это подход/метод обработки большего числа данных для получения новой информации, которые тяжело обработать обычными способами.

Данные могут быть как обработанными (структурированными), так и разрозненными (то есть неструктурированными).

Сам термин появился относительно недавно. В 2008 году в научном журнале этот подход предсказывался как нечто необходимое для работы с большим объемом информации, которая увеличивается в геометрической прогрессии.

К примеру, ежегодно информация в интернете, которую нужно хранить, ну и само собой обрабатывать, увеличивается на 40%. Еще раз. +40% каждый год появляется в интернете новой информации.

Если распечатанные документы понятны и способы обработки их тоже понятны (перенести в электронный вид, сшить в одну папку, пронумеровать), то что делать с информацией, которая представлена в совершенно других “носителях” и других объёмах:

интернет-документы;
блоги и социальные сети;
аудио/видео источники;
измерительные устройства;

Есть характеристики, которые позволяют отнести информацию и данные именно к big data.

То есть не все данные могут быть пригодны для аналитики. В этих характеристиках как раз и заложено ключевое понятие биг дата. Все они умещаются в три V.

Объем (от англ. volume). Данные измеряются в величине физического объема “документа”, подлежащего анализу;
Скорость (от англ. velocity). Данные не стоят в своем развитии, а постоянно прирастают, именно поэтому и требуется их быстрая обработка для получения результатов;
Многообразие (от англ. variety). Данные могут быть не одноформатными. То есть могут быть разрозненными, структурированным или структурированными частично.

Однако, периодически к VVV добавляют и четвертую V (veracity - достоверность/правдоподобность данных) и даже пятую V (в некоторых вариантах это - viability - жизнеспособность, в других же это - value - ценность).

Где-то я видел даже 7V, которые характеризуют данные, относящиеся к биг дата. Но на мой взгляд это из серии (где периодически добавляются P, хотя для понимания достаточно начальных 4-х).

НАС УЖЕ БОЛЕЕ 29 000 чел.
ВКЛЮЧАЙТЕСЬ

Кому же это надо?

Встает логичный вопрос, как можно использовать информацию (если что, биг дата это сотни и тысячи терабайт)? Даже не так.

Вот есть информация. Так для чего придумали тогда биг дата? Какое применение у big data в маркетинге и в бизнесе?

Обычные базы данных не могут хранить и обрабатывать (я сейчас говорю даже не про аналитику, а просто хранение и обработку) огромного количества информации.
Биг дата же решает эту главную задачу. Успешно хранит и управляет информацией с большим объемом;
Структурирует сведения, приходящие из различных источников (видео, изображений, аудио и текстовых документов), в один единый, понятный и удобоваримый вид;
Формирование аналитики и создание точных прогнозов на основании структурированной и обработанной информации.

Это сложно. Если говорить просто, то любой маркетолог, который понимает, что если изучить большой объем информации (о Вас, Вашей компании, Ваших конкурентах, Вашей отрасли), то можно получить очень приличные результаты:

Полное понимание Вашей компании и Вашего бизнеса со стороны цифр;
Изучить своих конкурентов. А это, в свою очередь, даст возможность вырваться вперед за счет преобладания над ними;
Узнать новую информацию о своих клиентах.

И именно потому что технология big data дает следующие результаты, все с ней и носятся.

Пытаются прикрутить это дело в свою компанию, чтобы получить увеличение продаж и уменьшение издержек. А если конкретно, то:

Увеличение кросс продаж и дополнительных продаж за счет лучшего знания предпочтений клиентов;
Поиск популярных товаров и причин почему их покупают (и наоборот);
Усовершенствование продукта или услуги;
Улучшение уровня обслуживания;
Повышение лояльности и клиентоориентированности;
Предупреждение мошенничества (больше актуально для банковской сферы);
Снижение лишних расходов.

Самый распространенный пример, который приводится во всех источниках - это, конечно ж, компания Apple, которая собирает данные о своих пользователях (телефон, часы, компьютер).

Именно из-за наличия эко-системы корпорация столько знает о своих пользователях и в дальнейшем использует это для получения прибыли.

Эти и другие примеры использования Вы можете прочитать в любой другой статье кроме этой.

Идём в будущее

Я же Вам расскажу о другом проекте. Вернее о человеке, который строит будущее, используя big data решения.

Это Илон Маск и его компания Tesla. Его главная мечта - сделать автомобили автономными, то есть Вы садитесь за руль, включаете автопилот от Москвы до Владивостока и… засыпаете, потому что Вам совершенно не нужно управлять автомобилем, ведь он все сделает сам.

Казалось бы, фантастика? Но нет! Просто Илон поступил гораздо мудрее, чем Google, которые управляют автомобилями с помощью десятков спутников. И пошел другим путем:

В каждый продаваемый автомобиль ставится компьютер, который собирают всю информацию.
Всю - это значит вообще всю. О водителе, стиле его вождения, дорогах вокруг, движении других автомобилей. Объем таких данных доходит до 20-30 ГБ в час;
Далее эта информация по спутниковой связи передается в центральный компьютер, который занимается обработкой этих данных;
На основе данных big data, которые обрабатывает данный компьютер, строится модель беспилотного автомобиля.

К слову, если у Google дела идут довольно скверно и их автомобили все время попадают в аварии, то у Маска, за счет того что идет работа с big data, дела обстоят гораздо лучше, ведь тестовые модели показывают очень неплохие результаты.

Но… Это все из экономики. Что мы все о прибыли, да о прибыли? Многое, что может решить биг дата, совершенно не связано с заработком и деньгами.

Статистика Google, как раз таки основанная на big data, показывает интересную вещь.

Перед тем как медики объявляют о начале эпидемии заболевания в каком-то регионе, в этом регионе существенно возрастает количество поисковых запросов о лечении данного заболевания.

Таким образом, правильное изучение данных и их анализ может сформировать прогнозы и предсказать начало эпидемии (и, соответственно, ее предотвращение) гораздо быстрее, чем заключение официальных органов и их действия.

Применение в России

Однако, Россия как всегда немного “притормаживает”. Так само определение big data в России появилось не более, чем 5 лет назад (я сейчас именно про обычные компании).

И это не смотря на то, что это один из самых быстрорастущих рынков в мире (наркотики и оружие нервно курят в сторонке), ведь ежегодно рынок программного обеспечения для сбора и анализа big data прирастает на 32%.

Чтобы охарактеризовать рынок big data в России, мне вспоминается одна старая шутка. Биг дата это как секс до 18 лет.

Все об этом говорят, вокруг этого много шумихи и мало реальных действий, и всем стыдно признаться, что сами-то они этим не занимаются. И правда, вокруг этого много шумихи, но мало реальных действий.

Хотя известная исследовательская компания Gartner уже в 2015 году объявила, что биг дата это уже не возрастающий тренд (как кстати и искусственный интеллект), а вполне самостоятельные инструменты для анализа и развития передовых технологий.

Наиболее активные ниши, где применяется big data в России, это банки/страхование (недаром я начал статью с главы Сбербанка), телекоммуникационная сфера, ритейл, недвижимость и… государственный сектор.

Для примера расскажу более подробно о паре секторов экономики, которые используют алгоритмы big data.

Банки

Начнём с банков и той информации, которую они собирают о нас и наших действиях. Для примера я взял ТОП-5 российских банков, которые активно инвестируют в big data:

Сбербанк;
Газпромбанк;
ВТБ 24;
Альфа Банк;
Тинькофф банк.

Особенно приятно видеть в числе российских лидеров Альфа Банк. Как минимум, приятно осознавать, что банк, официальным партнером которого ты являешься, понимает необходимость внедрения новых маркетинговых инструментов в свою компанию.

Но примеры использования и удачного внедрения big data я хочу показать на банке, который мне нравится за нестандартный взгляд и поступки его основателя.

Я говорю про Тинькофф банк. Их главной задачей стояла разработка системы для анализа больших данных в режиме реального времени из-за разросшейся клиентской базы.

Результаты: время внутренних процессов сократилось минимум в 10 раз, а для некоторых - более, чем в 100 раз.

Ну и небольшое отвлечение. Знаете почему я заговорил про нестандартные выходки и поступки Олега Тинькова?

Просто на мой взгляд именно они помогли ему превратиться из бизнесмена средней руки, коих тысячи в России, в одного из самых известных и узнаваемых предпринимателей. В подтверждение посмотрите это необычное и интересное видео:

Недвижимость

В недвижимости все гораздо сложнее. И это именно тот пример, который я хочу Вам привести для понимания биг даты в пределах обычного бизнеса. Исходные данные:

Большой объем текстовой документации;
Открытые источники (частные спутники, передающие данные об изменениях земли);
Огромный объем неконтролируемой информации в Интернет;
Постоянные изменения в источниках и данных.

И на основе этого нужно подготовить и оценить стоимость земельного участка, например, под уральской деревней. У профессионала на это уйдет неделя.

У Российского общества оценщиков & РОСЭКО, собственно которые и внедрили себе анализ big data с помощью программного обеспечения, уйдет на это не более 30 минут неторопливой работы. Сравните, неделя и 30 минут. Колоссальная разница.

Ну и на закуску

Конечно же огромные объемы информации не могут храниться и обрабатываться на простых жестких дисках.

А программное обеспечение, которое структурирует и анализирует данные - это вообще интеллектуальная собственность и каждый раз авторская разработка. Однако, есть инструменты, на основе которых создается вся эта прелесть:

Hadoop & MapReduce;
NoSQL базы данных;
Инструменты класса Data Discovery.

Если честно, я не смогу Вам внятно объяснить чем они отличаются друг от друга, так как знакомству и работе с этими вещами учат в физико-математических институтах.

Зачем тогда я об этом заговорил, если не смогу объяснить? Помните во всех кино грабители заходят в любой банк и видят огромное число всяких железяк, подключенных к проводам?

То же самое и в биг дате. К примеру, вот модель, которая является на данный момент одним из самых лидеров на рынке.

Инструмент Биг дата

Стоимость в максимальной комплектации доходит до 27 миллионов рублей за стойку. Это, конечно, люксовая версия. Я это к тому, чтобы Вы заранее примерили создание big data в своем бизнесе.

Коротко о главном

Вы можете спросить зачем же вам, малому и среднему бизнесу работа с биг дата?

На это я отвечу Вам цитатой одного человека: “В ближайшее время клиентами будут востребованы компании, которые лучше понимают их поведение, привычки и максимально соответствуют им”.

Но давайте взглянем правде в глаза. Чтобы внедрить биг дата в малом бизнесе, это надо обладать не только большими бюджетами на разработку и внедрение софта, но и на содержание специалистов, хотя бы таких как аналитик big data и сисадмин.

И это я сейчас молчу о том, что у Вас должны быть такие данные для обработки.

Окей. Для малого бизнеса тема почти не применима. Но это не значит, что Вам нужно забыть все что прочитали выше.

Просто изучайте не свои данные, а результаты аналитики данных известных как зарубежных, так и российских компаний.

К примеру, розничная сеть Target с помощью аналитики по big data выяснила, что беременные женщины перед вторым триместром беременности (с 1-й по 12-ю неделю беременности) активно скупают НЕароматизированные средства.

Благодаря этим данным они отправляют им купоны со скидками на неароматизированные средства с ограниченным сроком действия.

А если Вы ну прям совсем небольшое кафе, к примеру? Да очень просто. Используйте приложение лояльности.

И через некоторое время и благодаря накопленной информации, Вы сможете не только предлагать клиентам релевантные их потребностям блюда, но и увидеть самые непродающиеся и самые маржинальные блюда буквально парой щелчков мышки.

Отсюда вывод. Внедрять биг дата малому бизнесу вряд ли стоит, а вот использовать результаты и наработки других компаний - обязательно.

По материалам research&trends

Big Data, «Большие данные» вот уже несколько лет как стали притчей во языцех в IT-и маркетинговой прессе. И понятно: цифровые технологии пронизали жизнь современного человека, «все пишется». Объем данных о самых разных сторонах жизни растет, и одновременно растут возможности хранения информации.

Глобальные технологии для хранения информации

Источник: Hilbert and Lopez, `The world"s technological capacity to store, communicate, and compute information,`Science, 2011 Global.

Большинство экспертов сходятся во мнении, что ускорение роста объема данных является объективной реальностью. Социальные сети, мобильные устройства, данные с измерительных устройств, бизнес-информация – вот лишь несколько видов источников, способных генерировать гигантские объемы информации. По данным исследования IDC Digital Universe , опубликованного в 2012 году, ближайшие 8 лет количество данных в мире достигнет 40 Зб (zettabytes) что эквивалентно 5200 Гб на каждого жителя планеты.

Рост собираемой цифровой информации в США

Источник: IDC

Значительную часть информации создают не люди, а роботы, взаимодействующие как друг с другом, так и с другими сетями данных – такие, как, например, сенсоры и интеллектуальные устройства. При таких темпах роста количество данных в мире, по прогнозам исследователей, будет ежегодно удваиваться. Количество виртуальных и физических серверов в мире вырастет десятикратно за счет расширения и создания новых data-центров. В связи с этим растет потребность в эффективном использовании и монетизации этих данных. Поскольку использование Big Data в бизнесе требует немалых инвестиций, то надо ясно понимать ситуацию. А она, в сущности, проста: повысить эффективность бизнеса можно сокращая расходы или/и увеличивая объем продаж.

Для чего нужны Big Data

Парадигма Big Data определяет три основных типа задач.

Хранение и управление объемом данных в сотни терабайт или петабайт, которые обычные реляционные базы данных не позволяют эффективно использовать.
Организация неструктурированной информации, состоящей из текстов, изображений, видео и других типов данных.
Анализ Big Data, который ставит вопрос о способах работы с неструктурированной информацией, генерацию аналитических отчетов, а также внедрение прогностических моделей.

Рынок проектов Big Data пересекается с рынком бизнес-аналитики (BA), объем которого в мире, по оценкам экспертов, в 2012 году составил около 100 млрд. долларов. Он включает в себя компоненты сетевых технологий, серверов, программного обеспечения и технических услуг.

Также использование технологий Big Data актуально для решений класса гарантирования доходов (RA), предназначенных для автоматизации деятельности компаний. Современные системы гарантирования доходов включают в себя инструменты обнаружения несоответствий и углубленного анализа данных, позволяющие своевременно обнаружить возможные потери, либо искажение информации, способные привести к снижению финансовых результатов. На этом фоне российские компании, подтверждающие наличие спроса технологий Big Data на отечественном рынке, отмечают, что факторами, которые стимулируют развитие Big Data в России, являются рост данных, ускорение принятия управленческих решений и повышение их качества.

Что мешает работать с Big Data

Сегодня анализируется только 0,5% накопленных цифровых данных, несмотря на то, что объективно существуют общеотраслевые задачи, которые можно было бы решить с помощью аналитических решений класса Big Data. Развитые IT-рынки уже имеют результаты, по которым можно оценить ожидания, связанные с накоплением и обработкой больших данных.

Одним из главных факторов, который тормозит внедрение Big Data - проектов, помимо высокой стоимости, считается проблема выбора обрабатываемых данных : то есть определение того, какие данные необходимо извлекать, хранить и анализировать, а какие – не принимать во внимание.

Многие представители бизнеса отмечают, что сложности при внедрении Big Data-проектов связаны с нехваткой специалистов – маркетологов и аналитиков. От качества работы сотрудников, занимающихся глубинной и предикативной аналитикой, напрямую зависит скорость возврата инвестиций в Big Data. Огромный потенциал уже существующих в организации данных часто не может быть эффективно использован самими маркетологами из-за устаревших бизнес-процессов или внутренних регламентов. Поэтому часто проекты Big Data воспринимаются бизнесом как сложные не только в реализации, но и в оценке результатов: ценности собранных данных. Специфика работы с данными требует от маркетологов и аналитиков переключения внимания с технологий и создания отчетов на решение конкретных бизнес-задач.

В связи с большим объемом и высокой скоростью потока данных, процесс их сбора предполагает процедуры ETL в режиме реального времени. Для справки: ETL – от англ. Extract , Transform , Load - дословно «извлечение, преобразование, загрузка») - один из основных процессов в управлении хранилищами данных, который включает в себя: извлечение данных из внешних источников, их трансформацию и очистку с целью соответствия нуждам ETL следует рассматривать не только как процесс переноса данных из одного приложения в другое, но и как инструмент подготовки данных к анализу.

И тогда вопросы обеспечения безопасности данных, поступающих из внешних источников, должны иметь решения, соответствующие объемам собираемой информации. Так как методы анализа Big Data развиваются пока только вслед за ростом объема данных, большую роль играет свойство аналитических платформ использовать новые методы подготовки и агрегирования данных. Это говорит о том, что, например, данные о потенциальных покупателях или массивное хранилище данных с историей кликов на сайтах online-магазинов могут быть интересны для решения разных задач.

Трудности не останавливают

Несмотря на все сложности с внедрением Big Data, бизнес намерен увеличивать вложения в это направление. Как следует из данных Gartner , в 2013 году 64% крупнейших мировых компаний уже инвестировали, либо имеют планы инвестировать в развертывание технологий в области Big Data для своего бизнеса, тогда, как в 2012 году таких было 58%. По данным исследования Gartner, лидерами инвестирующих в Big Data отраслей являются медиа компании, телеком, банковский сектор и сервисные компании. Успешные результаты внедрения Big Data уже достигнуты многими крупными игроками в сфере розничной торговли в части использования данных, полученных с помощью инструментов радиочастотной идентификации, систем логистики и репленишмента (от англ. replenishment - накопление, пополнение – R&T), а также из программ лояльности. Удачный опыт ритейла стимулирует другие отрасли рынка находить новые эффективные способы монетизации больших данных, чтобы превратить их анализ в ресурс, работающий на развитие бизнеса. Благодаря этому, по прогнозам экспертов, в период до 2020 года инвестиции в управление, хранение снизятся на каждый гигабайт данных с 2$ до 0,2$, а вот на изучение и анализ технологических свойств Big Data вырастут всего на 40%.

Расходы, представленные в различных инвестиционных проектах в области Big Data, имеют разный характер. Статьи затрат зависят от видов продуктов, которые выбираются, исходя из определенных решений. Наибольшая часть затрат в инвестиционных проектах, по мнению специалистов, приходится на продукты, связанные со сбором, структурированием данных, очисткой и управлением информацией.

Как это делается

Существует множество комбинаций программного и аппаратного обеспечения, которые позволяют создавать эффективные решения Big Data для различных бизнес дисциплин: от социальных медиа и мобильных приложений, до интеллектуального анализа и визуализации коммерческих данных. Важное достоинство Big Data – это совместимость новых инструментов с широко используемыми в бизнесе базами данных, что особенно важно при работе с кросс-дисциплинарными проектами, например, такими как организация мульти-канальных продаж и поддержки покупателей.

Последовательность работы с Big Data состоит из сбора данных, структурирования полученной информации с помощью отчетов и дашбордов (dashboard), создания инсайтов и контекстов, а также формулирования рекомендаций к действию. Так как работа с Big Data подразумевает большие затраты на сбор данных, результат обработки которых заранее неизвестен, основной задачей является четкое понимание, для чего нужны данные, а не то, как много их есть в наличии. В этом случае сбор данных превращается в процесс получения исключительно нужной для решения конкретных задач информации.

Например, у телекоммуникационных провайдеров агрегируется огромное количество данных, в том числе о геолокации, которые постоянно пополняются. Эта информация может представлять коммерческий интерес для рекламных агентств, которые могут использовать ее для показа таргетированной и локальной рекламы, а также для ритейлеров и банков. Подобные данные могут сыграть важную роль при решении открытия торговой точки в определенной локации на основе данных о наличии мощного целевого потока людей. Есть пример измерения эффективности рекламы на outdoor-щитах в Лондоне. Сейчас охват подобной рекламы можно измерить лишь поставив возле рекламных конструкций людей со специальным устройством, подсчитывающим прохожих. По сравнению с таким видом измерения эффективности рекламы, у мобильного оператора куда больше возможностей – он точно знает местонахождение своих абонентов, ему известны их демографические характеристики, пол, возраст, семейное положение, и т.д.

На основе таких данных, в будущем открывается перспектива менять содержание рекламного сообщения, используя предпочтения конкретного человека, проходящего мимо рекламного щита. Если данные показывают, что проходящий мимо человек много путешествует, то ему можно будет показать рекламу курорта. Организаторы футбольного матча могут оценить количество болельщиков только когда те придут на матч. Но если бы они имели возможность запросить у оператора сотовой связи информацию, где посетители находились за час, день или месяц до матча, то это дало бы организаторам возможность планировать места для размещения рекламы следующих матчей.

Другой пример – как банки могут использовать Big Data для предотвращения мошенничества. Если клиент заявляет об утере карты, а при совершении покупки с ее помощью банк видит в режиме реального времени месторасположение телефона клиента в зоне покупки, где происходит транзакция, банк может проверить информацию по заявлению клиента, не пытался ли он обмануть его. Либо противоположная ситуация, когда клиент совершает покупку в магазине, банк видит, что карта, по которой происходит транзакция, и телефон клиента находятся в одном месте, банк может сделать вывод, что картой пользуется ее владелец. Благодаря подобным преимуществам Big Data, расширяются границы, которыми наделены традиционные хранилища данных.

Для успешного принятия решения о внедрении решений Big Data компании необходимо рассчитать инвестиционный кейс и это вызывает большие трудности из-за множества неизвестных составляющих. Парадоксом аналитики в подобных случаях становится прогнозирование будущего на основе прошлого, данные о котором зачастую отсутствуют. В этом случае важным фактором является четкое планирование своих первоначальных действий:

Во-первых, необходимо определить одну конкретную задачу бизнеса, для решения которой будут использоваться технологии Big Data, эта задача станет стержнем определения верности выбранной концепции. Необходимо сосредоточиться на сборе данных, связанных именно с этой задачей, а в ходе проверки концепции вы сможете использовать различные инструменты, процессы и методы управления, которые позволят принимать более обоснованные решения в будущем.
Во-вторых, маловероятно, что компания без навыков и опыта аналитики данных сможет успешно реализовать проект Big Data. Необходимые знания всегда вытекают из предыдущего опыта аналитики, что является основным фактором, влияющим на качество работы с данными. Важную роль играет культура использования данных, так как часто анализ информации открывает суровую правду о бизнесе, и чтобы принять эту правду и работать с ней, необходимы выработанные методы работы с данными.
В третьих, ценность технологий Big Data заключается в предоставлении инсайтов Хорошие аналитики остаются дефицитом на рынке. Ими принято называть специалистов, имеющих глубокое понимание коммерческого смысла данных и знающих, как правильно их применять. Анализ данных является средством для достижения целей бизнеса, и чтобы понять ценность Big Data, необходима соответствующая модель поведения и понимание своих действий. В этом случае большие данные дадут массу полезной информации о потребителях, на основе которой можно принять полезные для бизнеса решения.

Несмотря на то, что российский рынок Big Data только начинает формироваться, отдельные проекты в этой области уже реализуются достаточно успешно. Некоторые из них успешны в области сбора данных как, например, проекты для ФНС и банка «Тинькофф Кредитные Системы», другие - в части анализа данных и практического применения его результатов: это проект Synqera.

В банке «Тинькофф Кредитные Системы» был реализован проект по внедрению платформы EMC2 Greenplum, которая является инструментом для массивно-параллельных вычислений. В течение последних лет у банка выросли требования к скорости обработки накопленной информации и анализа данных в режиме реального времени, вызванные высокими темпами роста количества пользователей кредитных карт. Банк объявил о планах расширения использования технологий Big Data, в частности для обработки неструктурированных данных и работы с корпоративной информацией, получаемой из разных источников.

В ФНС России в настоящий момент идет создание аналитического слоя федерального хранилища данных. На его основе создается единое информационное пространство и технология доступа к налоговым данным для статистической и аналитической обработки. В ходе реализации проекта выполняются работы по централизации аналитической информации с более чем 1200 источниками местного уровня ИФНС.

Еще одним интересным примером анализа больших данных в режиме реального времени является российский стартап Synqera, который разработал платформу Simplate. Решение основано на обработке больших массивов данных, программа анализирует информацию о покупателях, историю их покупок, возраст, пол и даже настроение. На кассах в сети косметических магазинов были установлены сенсорные экраны с датчиками, распознающими эмоции покупателей. Программа определяет настроение человека, анализирует информацию о нем, определяет время суток и сканирует базу скидок магазина, после чего отправляет покупателю таргетированные сообщения об акциях и специальных предложениях. Это решение повышает покупательскую лояльность и увеличивает продажи ритейлеров.

Если говорить об иностранных успешных кейсах, то в этом плане интересен опыт применения технологий Big Data в компании Dunkin`Donuts, использующей данные в режиме реального времени для продажи продукции. Цифровые дисплеи в магазинах отображают предложения, сменяющие друг друга каждую минуту, в зависимости от времени суток и наличия продукции. По кассовым чекам компания получает данные, какие именно предложения получили наибольший отклик у покупателей. Данный подход обработки данных позволил увеличить прибыль и оборачиваемость товаров на складе.

Как показывает опыт внедрения Big Data-проектов, эта область призвана успешно решать современные бизнес-задачи. При этом важным фактором достижения коммерческих целей при работе с большими данными является выбор правильной стратегии, которая включает в себя аналитику, выявляющую запросы потребителей, а также использование инновационных технологий в области Big Data.

По данным глобального опроса, ежегодно проводимого Econsultancy и Adobe с 2012 года среди маркетологов компаний, «большие данные», характеризующие действия людей в Интернете, могут многое. Они способны оптимизировать оффлайновые бизнес-процессы, помочь понять как владельцы мобильных девайсов пользуются ими для поиска информации или просто «сделать маркетинг лучше», т.е. эффективнее. Причем, последняя функция год от года все популярнее, как это следует из приведенной нами диаграммы.

Основные области работы интернет-маркетологов с точки зрения отношений с покупателями

Источник : Econsultancy and Adobe, опубликовано – emarketer.com

Заметим, что национальность респондентов большого значения не имеет. Как показывает опрос, проведенный KPMG в 2013 году, доля «оптимистов», т.е. тех, кто использует Big Data при разработке бизнес-стратегии, составляет 56%, причем, колебания от региона к региону невелики: от 63% в североамериканских странах до 50% в EMEA.

Использование Big Data в различных регионах мира

Источник : KPMG, опубликовано – emarketer.com

Между тем, отношение маркетологов к подобным «модным трендам» в чем-то напоминает известный анекдот:

Скажи, Вано, ты помидоры любишь?
- Поесть люблю, а так – нет.

Несмотря на то, что маркетологи на словах «любят» Big Data и вроде бы даже их используют, на самом деле, «все сложно», как пишут о своих сердечных привязанностях в соцсетях.

По данным опроса, проведенного компанией Circle Research в январе 2014 года среди европейских маркетологов, 4 из 5 опрошенных не используют Big Data (при том, что они их, конечно, «любят»). Причины разные. Закоренелых скептиков немного – 17% и ровно столько же, сколько и их антиподов, т.е. тех, кто уверенно отвечает: «Да». Остальные – это колеблющиеся и сомневающиеся, «болото». Они уходят от прямого ответа под благовидными предлогами в духе того, что «пока нет, но скоро» или «подождем, пока остальные начнут».

Использование Big Data маркетологами, Европа, январь 2014

Источник: dnx, опубликовано – emarketer. com

Что же их смущает? Сущие пустяки. Некоторые (их ровно половина) попросту не верят этим данным. Другие (их тоже немало – 55%) затрудняются в соотнесении между собой множеств «данных» и «пользователей». У кого-то просто (выразимся политкорректно) внутрикорпоративный беспорядок: данные бесхозно гуляют между маркетинговыми отделами и IT структурами. У других софт не справляется с наплывом работы. И так далее. Поскольку суммарные доли существенно превышают 100%, понятно, что ситуация «множественных барьеров» встречается нередко.

Барьеры, препятствующие использованию Big Data в маркетинге

Источник: dnx, опубликовано – emarketer. com

Таким образом, приходится констатировать, что пока «Большие данные» - это большой потенциал, которым еще надо суметь воспользоваться. Кстати говоря, именно это может быть и стало причиной того, что Big Data утрачивают ореол «модного тренда», как об этом свидетельствуют данные опроса, проведенного уже упомянутой нами компании Econsultancy.

Самые значимые тренды в диджитал-маркетинге 2013-2014

Источник : Econsultancy and Adobe

На смену им выходит другой король – контент-маркетинг. Надолго ли?

Нельзя сказать, что Большие Данные – это какое-то принципиально новое явление. Большие источники данных существуют уже много лет: базы данных по покупкам клиентов, кредитным историям, образу жизни. И в течение многих лет ученые использовали эти данные, чтобы помогать компаниям оценивать риск и прогнозировать будущие потребности клиентов. Однако сегодня ситуация изменилась в двух аспектах:

Появились более сложные инструменты и методы для анализа и сочетания различных наборов данных;

Эти аналитические инструменты дополнены целой лавиной новых источников данных, вызванной переходом на цифровые технологии практически всех методов сбора и измерения данных.

Диапазон доступной информации одновременно и вдохновляет, и пугает исследователей, выросших в структурированной исследовательской среде. Потребительские настроения фиксируются сайтами и всевозможными разновидностями социальных медиа. Факт просмотра рекламы фиксируется не только телевизионными приставками, но и с помощью цифровых тегов и мобильных устройств, общающихся с телевизором.

Поведенческие данные (такие как число звонков, покупательские привычки и покупки) теперь доступны в режиме реального времени. Таким образом, многое из того, что раньше можно было получить с помощью исследований, сегодня можно узнать с помощью источников больших данных. И все эти информационные активы генерируются постоянно, независимо от каких бы то ни было исследовательских процессов. Эти изменения и заставляют нас задаться вопросом: смогут ли большие данные заменить собой классические исследования рынка.

Дело не в данных, дело в вопросах и ответах

Прежде чем заказывать похоронный звон по классическим исследованиям, мы должны напомнить себе, что решающее значение имеет не наличие тех или иных активов данных, а нечто иное. Что именно? Наша способность отвечать на вопросы, вот что. У нового мира больших данных есть одна забавная черта: результаты, полученные на основе новых информационных активов, приводят к появлению еще большего количества вопросов, а на эти вопросы, как правило, лучше всего отвечают традиционные исследования. Таким образом, по мере роста больших данных мы видим параллельный рост наличия и потребности в «маленьких данных» (small data), которые могут дать ответы на вопросы из мира больших данных.

Рассмотрим ситуацию: крупный рекламодатель проводит постоянный мониторинг трафика в магазинах и объемов продаж в режиме реального времени. Существующие исследовательские методики (в рамках которых мы опрашиваем участников исследовательских панелей об их мотивациях к покупке и поведении в точках продаж) помогают нам лучше нацелиться на определенные сегменты покупателей. Эти методики могут быть расширены – они могут включать в себя более широкий диапазон активов больших данных вплоть до того, что большие данные становятся средством пассивного наблюдения, а исследования – методом постоянного узкоцелевого исследования изменений или событий, требующих изучения. Именно так большие данные могут освободить исследования от лишней рутины. Первичные исследования уже не должны фокусироваться на том, что происходит (это сделают большие данные). Вместо этого первичные исследования могут сосредоточиться на объяснении того, почему мы наблюдаем те или иные тенденции или отклонения от тенденций. Исследователь сможет меньше думать о получении данных, и больше – о том, как их проанализировать и использовать.

В то же время мы видим, что большие данные позволяют решать одну из наших самых больших проблем – проблему чрезмерно длинных исследований. Изучение самих исследований показало, что чрезмерно раздутые исследовательские инструменты оказывают негативное воздействие на качество данных. Хотя многие специалисты в течение длительного времени признавали наличие этой проблемы, они неизменно отвечали на это фразой: «Но ведь эта информация нужна мне для высшего руководства», и длинные опросы продолжались.

В мире больших данных, где количественные показатели можно получить с помощью пассивного наблюдения, этот вопрос становится спорным. Опять же, давайте вспомним обо всех этих исследованиях, касающихся потребления. Если большие данные дают нам инсайты о потреблении с помощью пассивного наблюдения, то первичным исследованиям в форме опросов уже не надо собирать такого рода информацию, и мы сможем, наконец, подкрепить свое видение коротких опросов не только благими пожеланиями, но и чем-то реальным.

Big Data нуждаются в вашей помощи

Наконец, «большие» - это лишь одна из характеристик больших данных. Характеристика «большие» относится к размеру и масштабу данных. Конечно, это основная характеристика, поскольку объем этих данных выходит за рамки всего того, с чем мы работали прежде. Но другие характеристики этих новых потоков данных также важны: они зачастую плохо форматированы, неструктурированны (или, в лучшем случае, структурированы частично) и полны неопределенности. Развивающаяся область управления данными, метко названная «анализ сущностей» (entity analytics), призвана решить проблему преодоления шума в больших данных. Ее задача – проанализировать эти наборы данных и выяснить, сколько наблюдений относится к одному и тому же человеку, какие наблюдения являются текущими, и какие из них – пригодны для использования.

Такой вид очистки данных необходим для того, чтобы удалить шум или ошибочные данные при работе с активами больших или небольших данных, но этого недостаточно. Мы также должны создать контекст вокруг активов больших данных на основе нашего предыдущего опыта, аналитики и знания категории. На самом деле, многие аналитики указывают на способность управлять неопределенностью, присущей большим данным, как источник конкурентного преимущества, так как она позволяет принимать более эффективные решения.

И вот тут-то первичные исследования не только оказываются освобожденными от рутины благодаря большим данным, но и вносят свой вклад в создание контента и анализ в рамках больших данных.

Ярким примером этого может служить приложение нашей новой принципиально иной рамочной модели капитала бренда к социальным медиа (речь идет о разработанном в Millward Brown новом подходе к измерению ценности бренда The Meaningfully Different Framework – «Парадигма значимых отличий » - R & T ). Эта модель проверена на поведении в рамках конкретных рынков, реализована на стандартной основе, и ее легко применить в других маркетинговых направлениях и информационных системах для поддержки принятия решений. Другими словами, наша модель капитала бренда, опирающаяся на исследования методом опросов (хотя и не только на них) обладает всеми свойствами, необходимыми для преодоления неструктурированного, несвязного и неопределенного характера больших данных.

Рассмотрим данные по потребительским настроениям, предоставляемые социальными медиа. В сыром виде пики и спады потребительских настроений очень часто минимально коррелируют с параметрами капитала бренда и поведения, полученными в оффлайне: в данных просто слишком много шума. Но мы можем уменьшить этот шум, применяя наши модели потребительского смысла, дифференциации брендов, динамики и отличительных черт к сырым данным потребительских настроений – это способ обработки и агрегации данных социальных медиа по этим измерениям.

После того, как данные организованы в соответствии с нашей рамочной моделью, выявленные тренды обычно совпадают с параметрами капитала бренда и поведения, полученными в оффлайне. По сути, данные социальных медиа не могут говорить сами за себя. Чтобы использовать их для указанной цели требуется наш опыт и модели, выстроенные вокруг брендов. Когда социальные медиа дают нам уникальную информацию, выраженную на том языке, который потребители используют для описания брендов, мы должны использовать этот язык при создании своих исследований, чтобы сделать первичные исследования гораздо более эффективными.

Преимущества освобожденных исследований

Это возвращает нас к тому, что большие данные не столько заменяют исследования, сколько освобождают их. Исследователи будут освобождены от необходимости создавать новое исследование по каждому новому случаю. Постоянно растущие активы больших данных могут быть использованы для разных тем исследований, что позволяет последующим первичным исследованиям углубиться в тему и заполнить имеющиеся пробелы. Исследователи будут освобождены от необходимости полагаться на чрезмерно раздутые опросы. Вместо этого они смогут использовать краткие опросы и сосредоточиться на самых важных параметрах, что повышает качество данных.

Благодаря такому освобождению исследователи смогут использовать свои отработанные принципы и идеи, чтобы добавить точности и смысла активам больших данных, что приведет к появлению новых областей для исследований методом опроса. Этот цикл должен привести к более глубокому пониманию по целому ряду стратегических вопросов и, в конечном счете, к движению в сторону того, что всегда должно быть нашей главной целью - информировать и улучшать качество решений, касающихся бренда и коммуникаций.