Анализ на данни и големи данни. Какво могат да направят Big Data? Big Data се нуждае от вашата помощ

Big data (или Big Data) е набор от методи за работа с огромни обеми структурирана или неструктурирана информация. Специалистите по големи данни ги обработват и анализират, за да получат визуални, възприемани от човека резултати. Look At Me разговаря с професионалисти и разбра каква е ситуацията с обработката на големи данни в Русия, къде и какво е най-добре да учат тези, които искат да работят в тази област.

Алексей Ривкин за основните тенденции в областта на големите данни, комуникацията с клиентите и света на числата

Учих в Московския институт по електронни технологии. Основното, което успях да изнеса оттам, бяха фундаментални знания по физика и математика. Успоредно с обучението си работих в R&D центъра, където участвах в разработването и внедряването на шумоустойчиви кодиращи алгоритми за сигурно предаване на данни. След като завърших бакалавърската си степен, влязох в магистърска програма по бизнес информатика във Висшето училище по икономика. След това исках да работя в IBS. Имах късмет, че по това време, поради голям брой проекти, имаше допълнително набиране на стажанти и след няколко интервюта започнах работа в IBS, една от най-големите руски компании в тази област. За три години преминах от стажант в архитект на корпоративни решения. В момента развивам експертиза в технологиите за големи данни за клиентски компании от финансовия и телекомуникационния сектор.

Има две основни специализации за хора, които искат да работят с големи данни: анализатори и ИТ консултанти, които създават технологии за работа с големи данни. Освен това можем да говорим и за професията Big Data Analyst, т.е. хора, които директно работят с данни, с ИТ платформата на клиента. Преди това бяха обикновени математически анализатори, които познаваха статистиката и математиката и използваха статистически софтуер за решаване на проблеми с анализа на данни. Днес, в допълнение към познанията по статистика и математика, е необходимо и разбиране на технологията и жизнения цикъл на данните. Според мен това е разликата между съвременните анализатори на данни и онези анализатори, които са дошли преди.

Специализацията ми е ИТ консултиране, тоест измислям и предлагам на клиентите начини за решаване на бизнес проблеми с помощта на ИТ технологии. При консултациите идват хора с различен опит, но най-важните качества за тази професия са умението да разбираш нуждите на клиента, желанието да помагаш на хората и организациите, добрата комуникация и екипни умения (тъй като винаги се работи с клиента и в екип), добри аналитични умения. Вътрешната мотивация е много важна: работим в конкурентна среда и клиентът очаква необичайни решения и интерес към работата.

По-голямата част от времето ми прекарвам в комуникация с клиенти, формализиране на техните бизнес нужди и подпомагане на разработването на най-подходящата технологична архитектура. Критериите за избор тук имат своя собствена особеност: в допълнение към функционалността и TCO (Обща цена на притежание), нефункционалните изисквания към системата са много важни, най-често това са времето за реакция и времето за обработка на информацията. За да убедим клиента, често използваме подход за доказване на концепцията - предлагаме да „тестваме“ технологията безплатно върху някаква задача, върху тесен набор от данни, за да се уверим, че технологията работи. Решението трябва да създаде конкурентно предимство за клиента чрез получаване на допълнителни предимства (например x-sell, кръстосани продажби) или да реши някакъв бизнес проблем, да речем, да намали високото ниво на измами с кредити.

Би било много по-лесно, ако клиентите идват с готова задача,но досега не разбират, че се е появила революционна технология, която може да промени пазара за няколко години

С какви проблеми се сблъсквате? Пазарът все още не е готов да използва технологиите за големи данни. Би било много по-лесно, ако клиентите идват с готова задача, но досега не разбират, че се е появила революционна технология, която може да промени пазара за няколко години. Ето защо по същество работим в режим на стартиране - ние не просто продаваме технологии, но всеки път убеждаваме клиентите, че трябва да инвестират в тези решения. Това е позицията на визионерите - ние показваме на клиентите как могат да променят бизнеса си, използвайки данни и ИТ. Ние създаваме този нов пазар – пазарът за търговски ИТ консултации в областта на Big Data.

Ако човек иска да се занимава с анализ на данни или ИТ консултации в областта на Big Data, тогава първото нещо, което е важно е математическото или техническо образование с добра математическа подготовка. Също така е полезно да овладеете специфични технологии, например SAS, Hadoop, R език или IBM решения. Освен това трябва активно да се интересувате от приложения за големи данни – например как могат да се използват за подобрен кредитен рейтинг в банка или управление на жизнения цикъл на клиента. Това и други знания могат да бъдат получени от налични източници: например Coursera и Big Data University. Има и Customer Analytics Initiative към Wharton University of Pennsylvania, където са публикувани много интересни материали.

Основен проблем за тези, които искат да работят в нашата сфера, е явната липса на информация за Big Data. Не можете да отидете в книжарница или някой уебсайт и да получите например изчерпателна колекция от случаи за всички приложения на технологиите за големи данни в банките. Няма такива директории. Част от информацията е в книги, част е събрана на конференции, а част трябва да разберете сами.

Друг проблем е, че анализаторите се чувстват комфортно в света на числата, но не винаги се чувстват комфортно в бизнеса. Тези хора често са интровертни и изпитват затруднения в общуването, което ги затруднява да съобщават резултатите от изследванията убедително на клиентите. За да развиете тези умения, бих препоръчал книги като Принципът на пирамидата, Говорете на езика на диаграмите. Те помагат за развиване на презентационни умения и изразяване на вашите мисли кратко и ясно.

Много ми помогна участието в различни кейс шампионати, докато следвах в Националния изследователски университет Висше училище по икономика. Кейс шампионатите са интелектуални състезания за студенти, където те трябва да изучават бизнес проблеми и да предлагат решения за тях. Има два вида: шампионати по казуси на консултантски фирми, например McKinsey, BCG, Accenture, както и шампионати по независими казуси като Changellenge. Участвайки в тях, се научих да виждам и решавам сложни проблеми – от идентифицирането на проблем и структурирането му до защитаването на препоръки за неговото решаване.

Олег Михалски за руския пазар и спецификата на създаването на нов продукт в областта на големите данни

Преди да се присъединя към Acronis, вече участвах в пускането на нови продукти на пазара в други компании. Винаги е интересно и трудно в същото време, така че веднага се заинтересувах от възможността да работя облачни услугии решения за съхранение. Целият ми предишен опит в ИТ индустрията, включително собственият ми стартиращ проект I-accelerator, ми беше полезен в тази област. Наличието на бизнес образование (MBA) в допълнение към основната инженерна степен също помогна.

В Русия големи компании- банки, мобилни оператори и др. - има нужда от анализ на големи данни, така че у нас има перспективи за тези, които искат да работят в тази сфера. Вярно е, че много проекти сега са интеграционни проекти, тоест направени на базата на чужди разработки или технологии с отворен код. В такива проекти не се създават принципно нови подходи и технологии, а по-скоро се адаптират съществуващи разработки. В Acronis поехме по различен път и след като анализирахме наличните алтернативи, решихме да инвестираме в собственото си развитие, което доведе до система сигурно съхранениеза големи данни, който не отстъпва по цена на например Amazon S3, но работи надеждно и ефективно и в значително по-малък мащаб. Големите интернет компании също имат свои собствени разработки в областта на големите данни, но те са по-фокусирани върху вътрешните нужди, отколкото задоволяването на нуждите на външни клиенти.

Важно е да се разберат тенденциите и икономическите сили, които влияят върху областта на големите данни. За да направите това, трябва да четете много, да слушате изказвания на авторитетни експерти в ИТ индустрията и да посещавате тематични конференции. Вече почти всяка конференция има раздел за Big Data, но всички те говорят за това от различен ъгъл: от технологична, бизнес или маркетингова гледна точка. Можете да отидете на работа по проекти или на стаж във фирма, която вече води проекти по тази тема. Ако сте уверени в способностите си, тогава не е твърде късно да организирате стартиране в областта на Big Data.

Без постоянен контакт с пазарановото развитие рискува да остане непотърсено

Вярно е, че когато отговаряте за нов продукт, много време се отделя за пазарни анализи и комуникация с потенциални клиенти, партньори и професионални анализатори, които знаят много за клиентите и техните нужди. Без постоянен контакт с пазара, новото развитие рискува да остане непотърсено. Винаги има много несигурности: трябва да разберете кои ще бъдат ранните осиновители, какво имате да им предложите и как след това да привлечете масова аудитория. Втората най-важна задача е да се формулира и предаде на разработчиците ясна и цялостна визия за крайния продукт, за да ги мотивира да работят в условия, в които някои изисквания все още могат да се променят, а приоритетите зависят от обратна връзка, идващи от първите клиенти. Ето защо важна задача е управлението на очакванията на клиентите от една страна и разработчиците от друга. Така че нито единият, нито другият да загубят интерес и да доведат проекта докрай. След първото успешен проектстава по-лесно и основното предизвикателство ще бъде да се намери правилният модел на растеж за новия бизнес.

Терминът „Големи данни“ може да е разпознаваем днес, но все още има доста объркване около него относно това какво всъщност означава. Всъщност концепцията непрекъснато се развива и предефинира, тъй като остава движещата сила зад много продължаващи вълни на цифрова трансформация, вкл. изкуствен интелект, наука за данните и интернет на нещата. Но какво представлява технологията Big-Data и как тя променя нашия свят? Нека се опитаме да разберем същността на технологията Big Data и какво означава тя с прости думи.

Всичко започна с експлозия в количеството данни, които сме създали от зората на дигиталната ера. Това до голяма степен се дължи на развитието на компютрите, интернет и технологиите, които могат да „грабят“ данни от света около нас. Данните сами по себе си не са ново изобретение. Дори преди ерата на компютрите и базите данни ние използвахме хартиени записи на транзакции, записи на клиенти и архивни файлове, които представляват данни. Компютрите, особено електронните таблици и базите данни, ни улесниха да съхраняваме и организираме данни в голям мащаб. Изведнъж информацията беше достъпна само с едно кликване.

Въпреки това се справихме дълги разстоянияот оригиналните таблици и бази данни. Днес на всеки два дни създаваме толкова данни, колкото сме получили от самото начало до 2000 година. Точно така, на всеки два дни. И количеството данни, които създаваме, продължава да расте експоненциално; до 2020 г. количеството налична цифрова информация ще се увеличи от приблизително 5 зетабайта на 20 зетабайта.

В днешно време почти всяко действие, което предприемаме, оставя своя отпечатък. Ние генерираме данни всеки път, когато влизаме онлайн, когато носим смартфоните си, оборудвани с търсачка, когато говорим с приятелите си чрез социални мрежи или чатове и т.н. Освен това количеството машинно генерирани данни също нараства бързо. Данните се генерират и споделят, когато нашите умни домашни устройства комуникират помежду си или със своите домашни сървъри. Индустриалното оборудване в заводите и фабриките все повече се оборудва със сензори, които натрупват и предават данни.

Терминът „Големи данни“ се отнася до събирането на всички тези данни и способността ни да ги използваме в наша полза в широк обхватобласти, включително бизнес.

Как работи технологията Big-Data?

Големите данни работят на принципа: колкото повече знаете за конкретен предмет или явление, толкова по-надеждно можете да постигнете ново разбиране и да предвидите какво ще се случи в бъдеще. По време на сравнението Повече ▼точки от данни, възникват връзки, които преди са били скрити, и тези връзки ни позволяват да се учим и да вземаме по-добри решения. Най-често това се прави чрез процес, който включва изграждане на модели въз основа на данните, които можем да съберем, и след това стартиране на симулации, които настройват стойностите на точките от данни всеки път и проследяват как те влияят на нашите резултати. Този процес е автоматизиран - модерни технологиианализаторите ще проведат милиони от тези симулации, променяйки всяка възможна променлива, докато намерят модел или идея, която решава проблема, върху който работят.

Бил Гейтс виси над хартиеното съдържание на един компактдиск

Доскоро данните бяха ограничени до електронни таблици или бази данни - и всичко беше много организирано и спретнато. Всичко, което не можеше лесно да се организира в редове и колони, се смяташе за твърде сложно за работа и беше игнорирано. Напредъкът в съхранението и анализа обаче означава, че можем да улавяме, съхраняваме и обработваме големи количества данни различни видове. В резултат на това „данните“ днес могат да означават всичко – от бази данни до снимки, видеоклипове, звукозаписи, писмени текстове и сензорни данни.

За да осмислят всички тези объркани данни, проектите, базирани на големи данни, често използват авангардни анализи, използвайки изкуствен интелект и компютърно обучение. Като научим изчислителните машини да определят какви са конкретните данни - чрез разпознаване на модели или обработка на естествен език, например - можем да ги научим да идентифицират модели много по-бързо и по-надеждно, отколкото ние самите.

Как се използват големи данни?

Този непрекъснато нарастващ поток от сензорни данни, текст, глас, снимки и видео данни означава, че сега можем да използваме данни по начини, които биха били невъобразими само преди няколко години. Това носи революционни промени в света на бизнеса в почти всяка индустрия. Днес компаниите могат да предвидят с невероятна точност кои конкретни категории клиенти ще искат да направят покупка и кога. Големите данни също помагат на компаниите да извършват своите дейности много по-ефективно.

Дори извън бизнеса, проектите, свързани с Big Data, вече помагат да променим нашия свят по различни начини:

Подобряване на здравеопазването – Медицината, управлявана от данни, има способността да анализира огромно количество медицинска информация и изображения в модели, които могат да помогнат за откриване на заболяване на ранен етап и разработване на нови лекарства.
Прогнозиране и реагиране при природни и причинени от човека бедствия. Данните от сензори могат да бъдат анализирани, за да се предвиди къде има вероятност да се случат земетресения, а моделите на човешкото поведение предоставят улики, които помагат на организациите да предоставят помощ на оцелелите. Технологията Big Data също се използва за проследяване и защита на потока от бежанци от военни зони по света.
Предотвратяване на престъпността. Полицейските сили все повече използват стратегии, базирани на данни, които включват тяхната собствена разузнавателна информация и информация от свободен достъпза по-ефективно използване на ресурсите и предприемане на възпиращи мерки, когато е необходимо.

Най-добрите книги за технологията Big-Data

Всички лъжат. Търсачките, Big Data и Интернет знаят всичко за вас.
ГОЛЯМА ИНФОРМАЦИЯ. Всички технологии в една книга.
Индустрия на щастието. Как големите данни и новите технологии помагат да се добави емоция към продуктите и услугите.
Революция в аналитиката. Как да подобрите бизнеса си в ерата на Big Data с помощта на оперативен анализ.

Проблеми с Big Data

Големите данни ни дават безпрецедентни идеи и възможности, но също така повдигат проблеми и въпроси, които трябва да бъдат разгледани:

Поверителност на данните – Големите данни, които генерираме днес, съдържат много информация за нашия личен живот, на чиято поверителност имаме пълно право. Все повече и повече от нас се иска да балансираме количеството лични данни, които разкриваме, с удобството, което предлагат базираните на големи данни приложения и услуги.
Сигурност на данните - Дори и да решим, че сме доволни от това, че някой разполага с нашите данни за конкретна цел, можем ли да му се доверим, че ще пази данните ни в безопасност и сигурност?
Дискриминация на данни - след като цялата информация е известна, ще бъде ли приемливо да се дискриминират хора въз основа на данни от личния им живот? Вече използваме кредитни рейтинги, за да решим кой може да вземе пари назаем, а застраховката също е силно управлявана от данни. Трябва да очакваме да бъдем анализирани и оценени по-подробно, но трябва да внимаваме това да не прави живота по-труден за тези хора, които имат по-малко ресурси и ограничен достъпкъм информация.

Изпълнението на тези задачи е важен компонент на Big Data и трябва да бъде адресирано от организации, които искат да използват такива данни. Неспазването на това може да направи бизнеса уязвим не само по отношение на неговата репутация, но също така юридически и финансово.

С поглед към бъдещето

Данните променят нашия свят и живота ни с безпрецедентна скорост. Ако Big Data са способни на всичко това днес, само си представете на какво ще бъдат способни утре. Количеството данни, с които разполагаме, само ще се увеличава, а технологията за анализ ще става още по-напреднала.

За бизнеса способността за прилагане на Big Data ще става все по-важна през следващите години. Само онези компании, които гледат на данните като на стратегически актив, ще оцелеят и ще процъфтяват. Тези, които пренебрегват тази революция, рискуват да бъдат изоставени.

Всяка индустриална революция имаше своите символи: чугун и пара, стомана и масово производство, полимери и електроника, а следващата революция ще бъде под знака на композитните материали и данни. Big Data – фалшива следа или бъдещето на индустрията?

20.12.2011 Леонид Черняк

Символите на първата индустриална революция бяха чугунът и парата, втората - стоманата и поточното производство, третата - полимерните материали, алуминият и електрониката, а следващата революция ще бъде под знака на композитните материали и данни. Големите данни фалшива следа ли са или бъдещето на индустрията?

Вече повече от три години се говори и пише много Голяма информация(Големи данни), комбинирани с думата „проблем“, добавяйки към мистерията на темата. През това време „проблемът“ стана център на вниманието на огромното мнозинство големи производители, много стартиращи фирми се създават с надеждата да открият решение за него и всички водещи анализатори в индустрията тръбят колко важна е способността да се работи с големи обеми данни сега, за да се гарантира конкурентоспособност. Такъв, не много добре аргументиран, масов характер предизвиква несъгласие и могат да се срещнат много скептични изказвания по същата тема, а понякога епитетът „червена херинга“ дори се прилага към Big Data (буквално „пушена херинга“ - невярно пътека, червена херинга).

И така, какво е Big Data? Най-лесният начин е да си представим Големите данни като лавина от данни, които спонтанно се сринаха и дойдоха от нищото, или да намалим проблема до нови технологии, които радикално променят информационна среда, или може би, заедно с Big Data, преживяваме следващия етап от технологичната революция? Най-вероятно и това, и друго, и трето, и нещо все още неизвестно. Показателно е, че от повече от четири милиона страници в мрежата, съдържащи фразата Големи данни, един милион съдържат и думата дефиниция - поне една четвърт от тези, които пишат за Големи данни, се опитват да дадат свое собствено определение. Такъв масов интерес показва, че най-вероятно има нещо качествено различно в Big Data от това, към което обикновеното съзнание се стреми.

Заден план

Фактът, че по-голямата част от препратките към Big Data са свързани с бизнеса по един или друг начин, може да бъде подвеждащ. Всъщност терминът не е роден през корпоративна среда, но е заимствано от анализатори от научни публикации. Big Data е едно от малкото имена, които имат напълно достоверна дата на раждане - 3 септември 2008 г., когато е публикуван специален брой на най-старото британско научно списание Nature, посветен на намирането на отговор на въпроса „Как технологиите, които отварят възможността за работа с големи обеми да повлияе на бъдещето на науката?“ данни? Специалният брой обобщава предишни дискусии за ролята на данните в науката като цяло и в електронната наука (е-наука) в частност.

Ролята на данните в науката е обект на дискусия от много дълго време - английският астроном Томас Симпсън е първият, който пише за обработката на данни още през 18 век в своя труд „За предимствата на използването на числа в астрономическите наблюдения“ , но едва в края на миналия век интересът към тази тема придоби забележима неотложност и обработката на данни излезе на преден план в края на миналия век, когато беше открито, че компютърните методи могат да се използват в почти всички науки, от археологията към ядрената физика. В резултат на това самите научни методи се променят значително. Неслучайно се появява неологизмът libratory, образуван от думите библиотека (библиотека) и лаборатория (лаборатория), който отразява промените по отношение на представата за това какво може да се счита за резултат от изследване. Досега само крайните получени резултати, а не суровите експериментални данни, бяха представени на преценката на колегите, а сега, когато различни данни могат да бъдат преобразувани в „цифрови“, когато има различни цифрови медии, тогава обектът на публикацията може да бъде различни видове измерени данни и От особено значение е възможността за повторна обработка на предварително натрупани данни в библиотеката. И тогава се развива положителна обратна връзка, поради което процесът на натрупване на научни данни непрекъснато се ускорява. Ето защо, осъзнавайки мащаба на предстоящите промени, редакторът на броя на Nature Клифърд Линч предлага специално име за новата парадигма Big Data, избрано от него по аналогия с метафори като Голям петрол, Голяма руда, и т.н., отразяващи не толкова количеството на нещо, колкото прехода от количество към качество?

Големи данни и бизнес

Измина по-малко от година, откакто терминът Big Data се появи на страниците на водещи бизнес издания, които обаче използват съвсем други метафори. Големите данни се сравняват с минералните ресурси - новият петрол, златната треска, извличането на данни, което подчертава ролята на данните като източник скрита информация; с природни бедствия - data tornado (data hurricane), data potop (data flood), data tidal wave (data flood), виждайки ги като заплаха; хващане на връзката с индустриалното производство - data exhaust (data release), firehose (data hose), Industrial Revolution (индустриална революция). В бизнеса, както и в науката, големите обеми от данни също не са нещо съвсем ново - за необходимостта от работа с големи обеми от данни се говори отдавна, например във връзка с разпространението на радиочестотната идентификация (RFID) и социалните мрежи и точно както и в науката, всичко, което липсваше, беше ярка метафора, която да дефинира какво се случва. Ето защо през 2010 г. се появиха първите продукти, които претендираха да попадат в категорията Big Data - намери се подходящо име за вече съществуващи неща. Показателно е, че във версията на Hype Cycle от 2011 г., която характеризира състоянието и перспективите на новите технологии, анализаторите на Gartner въведоха друга позиция, Big Data и екстремна обработка и управление на информация, с оценка на периода за масово внедряване на съответните решения от две до пет години.

Защо големите данни се превърнаха в проблем?

Изминаха три години от появата на термина Big Data, но ако в науката всичко е повече или по-малко ясно, мястото на Big Data в бизнеса остава несигурно.Неслучайно толкова често се говори за „проблема с Big Data“ и не само за проблема, но и за всичко останало също е лошо дефинирано. Проблемът често се опростява, тълкува се като закона на Мур, с единствената разлика, че в този случай имаме работа с феномена на удвояване на количеството данни на година или го преувеличават, представяйки го едва ли не като природно бедствие, което спешно трябва да да се третира по някакъв начин. Наистина има все повече и повече данни, но при всичко това се губи от поглед факта, че проблемът в никакъв случай не е външен, той е причинен не толкова от невероятното количество данни, които са се сринали, а от неспособността на старите методи за справяне с нови обеми и, най-важното, създадени от нас самите. Има странен дисбаланс - способността за генериране на данни се оказа по-силна от способността за обработката им. Причината за този дисбаланс най-вероятно е, че за 65 години компютърна история все още не сме разбрали какво представляват данните и как те се свързват с резултатите от обработката. Странно, математиците от векове се занимават с основните понятия на тяхната наука, като числото и бройните системи, като въвличат в това и философите, а в нашия случай данните и информацията, в никакъв случай нетривиални неща, са оставени без внимание и предадени към интуитивното възприятие. Така се оказа, че през всичките тези 65 години самата технология за обработка на данни се е развила с невероятни темпове, а кибернетиката и теорията на информацията почти не са се развили, оставайки на нивото от 50-те години, когато компютрите с вакуумни тръби се използват изключително за изчисления. Наистина, сегашният шум около Big Data, ако се вгледате внимателно, предизвиква скептична усмивка.

Мащабиране и подреждане

Облаци, големи данни, анализи – тези три фактора на съвременните ИТ не само са взаимосвързани, но днес вече не могат да съществуват един без друг. Работата с Big Data е невъзможна без облачно съхранение и облачни изчисления- външен вид облачни технологиине само под формата на идея, но вече под формата на завършени и реализирани проекти се превърна в спусък за стартиране на нов кръг от спиралата на нарастващ интерес към анализите на Big Data. Ако говорим за въздействието върху индустрията като цяло, днес станаха очевидни повишените изисквания за мащабиране на системите за съхранение. Наистина е необходимо условие– в края на краищата е трудно да се предвиди предварително кои аналитични процеси ще изискват определени данни и колко интензивно ще бъде натоварено съществуващото хранилище. Освен това изискванията за вертикално и хоризонтално мащабиране стават еднакво важни.

В новото поколение на своите системи за съхранение Fujitsu обърна голямо внимание на аспектите на мащабирането и многостепенното съхранение на данни. Практиката показва, че днес, за да изпълняват аналитични задачи, системите трябва да бъдат силно натоварени, но бизнесът изисква всички услуги, приложения и самите данни винаги да са налични. В допълнение, изискванията към резултатите от аналитичните изследвания днес са много високи - компетентните, правилни и навременни аналитични процеси могат значително да подобрят бизнес резултатите като цяло.

– Александър Яковлев ([имейл защитен]), продуктов маркетинг мениджър във Fujitsu (Москва).

Чрез пренебрегване на ролята на данните и информацията като обекти на изследване беше заложена мината, която избухна сега, във време, когато нуждите са се променили, когато изчислителното натоварване на компютрите се оказа много по-малко от други видове работа, извършвана върху данни , а целта на тези действия е получаването на нова информация и нови знания от съществуващите набори от данни. Ето защо, без да се възстановят връзките във веригата „данни - информация - знания“, е безсмислено да се говори за решаване на проблема с големите данни. Данните се обработват, за да се произведе информация, която е достатъчна, за да може човек да я превърне в знание.

През последните десетилетия не е имало сериозна работа върху връзката на необработените данни с полезна информация и това, което обикновено наричаме информационната теория на Клод Шанън, не е нищо повече от статистическа теория за предаване на сигнал и няма нищо общо с информацията, възприемана от хора. Има много отделни публикации, отразяващи частни гледни точки, но няма пълноценна съвременна теория на информацията. В резултат на това по-голямата част от специалистите изобщо не правят разлика между данни и информация. Всички наоколо само заявяват, че има много или много данни, но никой няма зряла представа какво точно има много, по какви начини трябва да се реши възникналият проблем - и всичко това, защото технически възможностиработата с данни очевидно е изпреварила нивото на развитие на способностите за тяхното използване. Само един автор, редакторът на Web 2.0 Journal Dion Hinchcliffe, има класификация на Big Data, която позволява да се свържат технологиите с очаквания резултат от обработката на Big Data, но тя далеч не е задоволителна.

Хинчклиф разделя подходите към Big Data на три групи: Fast Data, обемът им се измерва в терабайти; Big Analytics - петабайт данни и Deep Insight - екзабайт, зетабайт. Групите се различават една от друга не само по количеството данни, които обработват, но и по качеството на решението за обработката им.

Обработката за бързи данни не предполага придобиване на нови знания, нейните резултати са свързани с априорни знания и позволяват да се прецени как протичат определени процеси; позволява ви да видите какво се случва по-добре и по-подробно, да потвърдите или отхвърлите някои хипотези. Само малка част от съществуващите в момента технологии са подходящи за решаване на проблеми с бързи данни; този списък включва някои технологии за работа с хранилища (продукти на Greenplum, Netezza, Oracle Exadata, Teradata, СУБД като Verica и kdb). Скоростта на тези технологии трябва да се увеличи в тандем с нарастването на обема на данните.

Проблемите, решавани от инструментите на Big Analytics, са значително различни не само количествено, но и качествено, а съответните технологии трябва да помогнат за получаване на нови знания - те служат за трансформиране на информацията, записана в данните, в нови знания. Въпреки това, на това средно ниво не се предполага наличието на изкуствен интелект при избора на решения или каквито и да било автономни действия на аналитичната система - тя е изградена на принципа на „обучение под наблюдение“. С други думи, целият й аналитичен потенциал е вграден в нея по време на учебния процес. Най-очевидният пример е машина, която играе Jeopardy!. Класически представители на подобни анализи са продуктите MATLAB, SAS, Revolution R, Apache Hive, SciPy Apache и Mahout.

Най-високото ниво, Deep Insight, включва обучение без надзор и използване на съвременни методи за анализ, както и различни методи за визуализация. На това ниво е възможно да се открият знания и модели, които са априори неизвестни.

Анализ на големи данни

С течение на времето компютърни приложениясе доближават до реалния свят в цялото му многообразие, оттук и нарастването на обема на входните данни и оттам необходимостта от тяхната аналитичност, и то в режим, максимално близък до реалното време. Сближаването на тези две тенденции доведе до появата на Анализ на големи данни(Анализ на големи данни).

Победата на компютъра Watson беше брилянтна демонстрация на възможностите на Big Data Analytics - навлизаме в интересна ера, когато компютърът за първи път се използва не толкова като инструмент за ускоряване на изчисленията, а като помощник, който разширява човешки способности при подбор на информация и вземане на решения. Привидно утопичните планове на Ваневар Буш, Джоузеф Ликлайдър и Дъг Енгелбарт започват да се сбъдват, но това не се случва точно както се виждаше преди десетилетия - силата на компютъра не е превъзходство над хората в логическите способности, на което учените особено се надяваха за, но със значително по-голяма способност да обработва огромни количества данни. Нещо подобно се случи в конфронтацията между Гари Каспаров и Deep Blue, компютърът не беше по-умел играч, но можеше да премине през повече опции по-бързо.

Гигантски обеми, съчетани с висока скорост, отличаващи Big Data Analytics от други приложения, изискват подходящи компютри и днес почти всички големи производители предлагат специализиран софтуер и хардуерни системи: SAP HANA, Oracle Big Data Appliance, Oracle Exadata Database Machine и Oracle Exalytics Business Intelligence Machine, Teradata Extreme Performance Appliance, NetApp E-Series Storage Technology, IBM Netezza Data Appliance, EMC Greenplum, Vertica Analytics Platform, базирана на HP Converged Infrastructure. Освен това много малки и стартиращи компании са влезли в играта: Cloudera, DataStax, Northscale, Splunk, Palantir, Factual, Kognitio, Datameer, TellApart, Paraccel, Hortonworks.

Обратна връзка

Качествено новите приложения за анализ на големи данни изискват не само нови технологии, но и качествено различно ниво на системно мислене, но има трудности с това - разработчиците на решения за анализ на големи данни често преоткриват истини, известни от 50-те години на миналия век. В резултат на това анализите често се разглеждат изолирано от средствата за подготовка на изходни данни, визуализация и други технологии за предоставяне на резултати на хората. Дори уважавана организация като The Data Warehousing Institute разглежда анализите изолирано: според нейните данни 38% от предприятията вече проучват използването на Advanced Analytics в своите управленски практики, а други 50% възнамеряват да го направят през следващите три години. Този интерес е оправдан с цитирането на много аргументи от бизнеса, макар че може да се каже по-просто - предприятията в новите условия изискват по-модерна система за управление и нейното създаване трябва да започне с установяването на обратна връзка, тоест със система, която помага при вземането на решения и в бъдеще може би ще бъде възможно да се автоматизира действителното вземане на решения. Изненадващо, всичко казано се вписва в методологията на създаване автоматизирани системиуправление на технологични обекти, познати още от 60-те години.

Необходими са нови инструменти за анализ, защото има не само повече данни от преди, но и повече външни и вътрешни източници, сега те са по-сложни и разнообразни (структурирани, неструктурирани и квазиструктурирани), използват се различни схеми на индексиране (релационни, многомерни, NoSQL). Вече не е възможно да се работи с данни, като се използват предишните методи - Big Data Analytics се разширява до големи и сложни масиви, поради което се използват и термините Discovery Analytics (откриване на анализ) и Exploratory Analytics (обяснителен анализ). Както и да го наречете, същността е една и съща - обратна връзка, предоставяща на вземащите решения информация за различни видове процеси в приемлива форма.

Компоненти

За събиране на необработени данни, подходящ хардуер и софтуерни технологии, кои точно зависи от естеството на обекта на контрол (RFID, информация от социални мрежи, различни текстови документи и др.). Тези данни отиват на входа на аналитичния двигател (регулатора във веригата за обратна връзка, ако продължим аналогията с кибернетиката). Този контролер е базиран на хардуерна и софтуерна платформа, върху която работи самият аналитичен софтуер; той не предоставя контролни действия, достатъчни за автоматично управление, така че учените по данни или инженерите по данни са включени в цикъла. Тяхната функция може да се сравни с ролята, която играят например специалистите в областта на електротехниката, които използват познания от физиката, приложени към създаването на електрически машини. Работата на инженерите е да управляват процеса на трансформиране на данни в информация, използвана за вземане на решения - те завършват веригата за обратна връзка. От четирите компонента на Big Data Analytics в случая ни интересува само един – хардуерната и софтуерната платформа (системите от този тип се наричат Analytic Appliance или Data Warehouse Appliance).

Години наред единственият производител на специализирани аналитични машини беше Teradata, но не беше първият - още в края на 70-те тогавашният лидер на британската компютърна индустрия ICL направи не особено успешен опит да създаде Content - Адресируемо хранилище на данни, което се основава на IDMS DBMS. Но Britton-Lee беше първият, който създаде „машина за бази данни“ през 1983 г., базирана на многопроцесорната конфигурация на фамилията процесори Zilog Z80. Впоследствие Britton-Lee беше придобит от Teradata, която от 1984 г. произвежда компютри с MPP-архитектура за системи за подпомагане на вземането на решения и хранилища за данни. И първият представител на ново поколение доставчици на такива комплекси беше Netezza - нейното решение Netezza Performance Server използва стандартни блейд сървъри заедно със специализирани блейдове Snippet Processing Unit.

Анализ в СУБД

Анализът тук е на първо място прогноза, или предсказващ(Предсказуем анализ, RA). В повечето съществуващи реализации първоначалните данни за RA системите са данни, натрупани преди това в хранилища за данни. За анализ данните първо се преместват в междинни витрини (Independent Data Mart, IDM), където представянето на данните не зависи от приложенията, които ги използват, а след това същите данни се прехвърлят в специализирани аналитични витрини (Analytical Data Mart, ADM) , а с него работят специалисти, използващи различни инструменти за разработка, или извличане на данни (Data Mining). Такъв многоетапен модел е доста приемлив за сравнително малки големи обемиданни, но с нарастването им и с нарастващите изисквания за ефективност се разкриват редица недостатъци в такива модели. В допълнение към необходимостта от преместване на данни, съществуването на много независими ADM води до сложност на физическата и логическата инфраструктура, броят на използваните инструменти за моделиране нараства, резултатите, получени от различни анализатори, са противоречиви, а изчислителната мощност и каналите са използвани далеч от оптималното. В допълнение, отделното съществуване на съхранение и ADM прави анализите в почти реално време практически невъзможни.

Решението може да бъде подход, наречен In-Database Analytics или No-Copy Analytics, който включва използване на данни директно в базата данни за целите на анализа. Такива СУБД понякога се наричат аналитични и паралелни. Подходът стана особено привлекателен с навлизането на технологиите MapReduce и Hadoop. В новото поколение приложения за In-Database Analytics цялото инженерство на данни и друга интензивна работа се извършва директно върху данните в склада. Очевидно това значително ускорява процесите и позволява приложения като разпознаване на модели, групиране, регресионен анализ и различни видове прогнозиране да се изпълняват в реално време. Ускорението се постига не само чрез елиминиране на трансферите от хранилище към витрини, но главно чрез използване на различни методи за паралелизиране, в т.ч. клъстерни системис неограничено мащабиране. Решения като In-Database Analytics отварят възможността за използване на облачни технологии в аналитични приложения. Следваща стъпкаможе да бъде технологията SAP HANA (High Performance Analytic Appliance), чиято същност е да поставя данни за анализ в RAM.

Основни доставчици...

До 2010 г. основните доставчици на софтуер за In-Database Analytics бяха Aster Data (Aster nCluster), Greenplum (Greenplum Database), IBM (InfoSphere Warehouse; IBM DB2), Microsoft ( SQL сървър 2008), Netezza (Netezza Performance System, PostGresSQL), Oracle (Oracle Database 11g/10g, Oracle Exadata), SenSage (SenSage/колона), Sybase (Sybase IQ), Teradata и Vertica Systems (Vertica Analytic Database). Това са всички добре известни компании, с изключение на стартъпа SenSage от Силициевата долина. Продуктите се различават значително по вида на данните, с които могат да работят, функционалност, интерфейси, използвания аналитичен софтуер и способността им да работят в облаци. Лидер по зрялост на решенията е Teradata, а по авангардност - Aster Data. Списъкът с доставчици на аналитичен софтуер е по-кратък – в локални конфигурации могат да работят продукти на KXEN, SAS, SPSS и TIBCO, а в облаци – Amazon, Cascading, Google, Yahoo! и Клаудера.

2010 г. беше повратна точка в областта на прогнозния анализ, сравнима с 2007 г., когато IBM придоби Cognos, SAP придоби Business Object, а Oracle придоби Hyperion. Всичко започна с придобиването на EMC Greenplum, след това IBM - Netezza, HP - Vertica, Teradata купи Aster Data и SAP купи Sybase.

...и нови възможности

Аналитичната парадигма отваря фундаментално нови възможности, което беше успешно доказано от двама инженери от Кьолн, създали компанията ParStream (официално име empulse GmbH). Заедно те успяха да създадат аналитична платформа, базирана както на процесори с общо предназначение, така и на графични процесори, конкурентни на своите предшественици. Преди четири години Майкъл Хумепл и Йорг Бинерт, бивши служители на Accenture, получиха поръчка от немска туристическа компания, която се нуждаеше от система за създаване на обиколки, които могат да избират запис, съдържащ 20 параметъра в база данни от 6 милиарда записа за 100 милисекунди. Никой от съществуващи решенияне може да се справи с такава задача, въпреки че подобни проблеми се срещат навсякъде, където се изисква оперативен анализ на съдържанието на много големи бази данни. ParStream се роди от предпоставката за прилагане на високопроизводителни изчислителни технологии към Big Data Analytics. Hümmepl и Bienert започнаха с написването на собствено ядро на база данни, проектирано да работи на клъстер с архитектура x86, който поддържа операции с данни под формата на паралелни потоци, оттук и името ParStream. Те избраха да работят само със структурирани данни като първоначална настройка, което всъщност отваря възможността за относително проста паралелизация. Дизайнът на тази база данни е по-близо до новия проект Dremel на Google, отколкото до MapReduce или Hadoop, които не са пригодени за заявки в реално време. Започвайки с платформата x86/Linux, Hümmepl и Bienert скоро се убедиха, че тяхната база данни може да бъде поддържана графични процесори nVidia Fermi.

Големи данни и обработка на данни

За да разберете какво да очаквате от това, което се нарича Big Data, трябва да излезете отвъд границите на съвременния тесен „ИТ“ светоглед и да се опитате да видите какво се случва в по-широка историческа и технологична ретроспекция, например, опитайте се да намерите аналогии с технологиите които имат по-дълга история. В края на краищата, като сме нарекли предмета на нашата дейност технология, ние трябва да го третираме като технология. Почти всички познати материални технологии се свеждат до обработка, обработка или сглобяване на специфични суровини или други компоненти, за да се получат качествено нови продукти - нещо е на входа на технологичния процес и нещо на изхода.

Особеността на нематериалните информационни технологии е, че тук технологичната верига не е толкова очевидна, не е ясно какво е суровината, какъв е резултатът, какъв е входът и какъв е изходът. Най-лесният начин да се каже, че входът е необработена информация, а изходът е полезна информация. Като цяло почти вярно, но връзката между тези две същности е изключително сложна; Ако останем на нивото на здравия прагматизъм, можем да се ограничим до следните съображения. Данните са необработени факти, изразени в различни форми, които сами по себе си не носят полезно значение, докато не бъдат поставени в контекст, правилно организирани и подредени чрез обработка. Информацията се появява в резултат на човешки анализ на обработените данни, този анализ осмисля данните и им придава потребителски качества. Данните са неорганизирани факти, които трябва да бъдат превърнати в информация. Доскоро идеите за обработка на данни(обработка на данни) бяха сведени до органична гама от алгоритмични, логически или статистически операции върху относително малки количества данни. Въпреки това, тъй като компютърните технологии се доближават до реалния свят, необходимостта от трансформиране на данни от реалния свят в информация за реалния свят нараства, обемът на обработваните данни става все по-голям и изискванията за скорост на обработка нарастват.

Логично информационни технологиине се различава много от материалните технологии, входът е необработени данни, изходът е структуриран, във форма, по-удобна за възприемане от човека, извличане на информация от тях и използване на силата на интелигентността за трансформиране на информацията в полезно знание. Компютрите бяха наречени компютри заради способността им да броят, спомнете си първото приложение за ENIAC - обработка на данни за стрелба от оръжия и превръщането им в артилерийски таблици. Тоест компютърът е обработил необработените данни, извлякъл е полезни данни и ги е записал във форма, приемлива за използване. Пред нас не е нищо повече от обикновено технологичен процес. Най-общо казано, вместо утвърдения термин Информационни технологии, трябва да се използва по-често по-прецизното Обработка на данни.

Информационните технологии трябва да се подчиняват на общи модели, в съответствие с които се развиват всички други технологии, и това е преди всичко увеличаване на количеството на преработените суровини и повишаване на качеството на обработката. Това се случва навсякъде, независимо какво точно служи като суровина и какъв е резултатът, било то металургия, нефтохимия, биотехнологии, полупроводникови технологии и т.н. Общото е също, че никоя от технологичните области не се развива монотонно, рано или моментално. ускорено развитие и скокове възникват късно. Бързи преходиможе да възникне в случаите, когато възниква необходимост отвън и в рамките на технологията има способността да се задоволи. Компютрите не могат да бъдат изградени върху вакуумни тръби - и се появяват полупроводници, колите се нуждаят от много бензин - процесът на крекинг е открит и има много такива примери. Така под името Big Data се крие очертаващият се качествен преход в компютърните технологии, който може да доведе до сериозни промени, неслучайно се нарича новата индустриална революция. Big Data е поредната техническа революция с всички произтичащи от това последствия.

Първият опит в обработката на данни датира от 4-то хилядолетие пр.н.е., когато се появява пиктографската писменост. Оттогава се появиха няколко основни области на работа с данни, най-мощната беше и остава текстовата, от първите глинени плочки до SSD, от библиотеките от средата на първото хилядолетие пр. н. е. до съвременните библиотеки, след това различни видове математически числени методиот папируси с доказателството на Питагоровата теорема и таблични техники за опростяване на изчисленията до модерни компютри. С развитието на обществото започнаха да се натрупват различни видове таблични данни, автоматизацията на работата с които започна с табулаторите, а през 19-ти и 20-ти век бяха предложени много нови методи за създаване и натрупване на данни. Необходимостта от работа с големи обеми данни беше разбрана от дълго време, но нямаше средства, следователно утопични проекти като „Librarium“ на Пол Отлет или фантастична система за прогнозиране на времето, използваща труда на 60 хиляди хора-калкулатори.

Днес компютърът се е превърнал в универсален инструмент за работа с данни, въпреки че е предназначен само за автоматизиране на изчисления. Идеята за използване на компютър за обработка на данни възниква в IBM десет години след изобретяването на цифровите програмируеми компютри, а преди това за обработка на данни са използвани перфориращи устройства като Unit Record, изобретен от Херман Холерит. Те се наричаха Unit Record, тоест единичен запис - всяка карта съдържаше целия запис, отнасящ се до един обект. Първите компютри не можеха да работят с големи данни - едва с появата на дискови и лентови устройства за съхранение те успяха да се конкурират с машинно-изчислителните станции, които съществуваха до края на 60-те години. Между другото, наследството на Unit Record е ясно видимо в релационните бази данни.

Простотата е ключът към успеха

Нарастването на обемите необработени данни, заедно с необходимостта от анализирането им в реално време, изисква създаването и внедряването на инструменти, които могат ефективно да разрешат така наречения проблем с Big Data Analytics. Технологиите на Information Builders ви позволяват да работите с данни, идващи от всеки източник в реално време, благодарение на много различни адаптери и архитектура на Enterprise Service Bus. Инструментът WebFOCUS ви позволява да анализирате данни в движение и ви позволява да визуализирате резултатите по най-добрия начин за потребителя.

Въз основа на технологията RSTAT, Information Builders създаде продукт за прогнозен анализ, който позволява прогнозиране на сценарии: „Какво ще се случи, ако“ и „За какво ще е необходимо“.

Технологиите за бизнес анализи дойдоха в Русия, но само няколко руски компанииТе използват прогнозен анализ, което се дължи на ниската култура на използване на бизнес анализи в местните предприятия и трудността при възприемане на съществуващите методи за анализ от бизнес потребителите. Имайки това предвид, Information Builders днес предлага продукти, които са оценени от Gartner като най-лесните за използване.

– Михаил Строев([имейл защитен]), директор по бизнес развитие в Русия и ОНД в InfoBuild CIS (Москва).

Данните са навсякъде

Тъй като компютрите постепенно се трансформираха от изчислителни устройства в универсални машини за обработка на данни, след около 1970 г. започнаха да се появяват нови термини: данните като продукти; инструменти за работа с данни (data tool); приложения, реализирани чрез съответната организация (приложение за данни); наука за данни; учени, които работят с данни (учен по данни), и дори журналисти, които предават информацията, съдържаща се в данните, на широката общественост (журналист по данни).

Приложенията от класа приложения за данни, които не само извършват операции с данни, но извличат допълнителни стойности от тях и създават продукти под формата на данни, станаха широко разпространени днес. Едно от първите приложения от този тип е базата данни CDDB за аудио дискове, която за разлика от традиционните бази данни се създава чрез извличане на данни от дискове и комбинирането им с метаданни (имена на дискове, имена на песни и т.н.). Тази база е в основата на услугата Apple iTunes. Един от факторите за търговския успех на Google беше и осъзнаването на ролята на приложението за данни - собствеността върху данните позволява на тази компания да „знае“ много, използвайки данни, които се намират извън търсената страница (алгоритъм на PageRank). Google реши проблема с правилния правопис съвсем просто - за това е създадена база данни с грешки и корекции и на потребителя се предлагат корекции, които той може да приеме или отхвърли. Подобен подход се използва за разпознаване по време на говорно въвеждане - базира се на натрупани аудио данни.

През 2009 г., по време на епидемията от свински грип, анализът на заявките към търсачките позволи да се проследи разпространението на епидемията. Много компании последваха пътя на Google (Facebook, LinkedIn, Amazon и др.), като не само предоставяха услуги, но и използваха натрупаните данни за други цели. Възможността за обработка на този тип данни дава тласък на появата на друга наука за населението – citizen science. Резултатите, получени чрез цялостен анализ на данните за населението, дават много повече дълбоко познаниеза хората и да вземат по-информирани административни и бизнес решения. Наборът от данни и инструменти за работа с тях вече се нарича infoware.

Машина за големи данни

Складовете за данни, онлайн магазините, системите за таксуване или всяка друга платформа, която може да се класифицира като Big Data проекти, обикновено имат уникални специфики и при проектирането им основното е интеграцията с индустриални данни, осигуряващи процесите на натрупване на данни, организация и анализ.

Oracle предостави интегрирано решение Oracle Big Data Appliance за поддръжка на веригата за обработка на големи данни, състоящо се от оптимизиран хардуер с пълен стек софтуери 18 сървъра Sun X4270 M2. Взаимната връзка е базирана на 40 Gbps Infiniband и 10-Gigabit Ethernet. Oracle Big Data Appliance включва комбинация от софтуер с отворен код и потребителски софтуер от Oracle.

Хранилищата на ключ-стойност или NoSQL СУБД са признати днес като основни за света на големите данни и са оптимизирани за бързо натрупване на данни и достъп. Като такава СУБД за Oracle Big Data Appliance се използва СУБД, базирана на Oracle Berkley DB, която съхранява информация за топологията на системата за съхранение, разпределя данни и разбира къде могат да бъдат поставени данните с най-малко време.

Решението Oracle Loader for Hadoop ви позволява да използвате технологията MapReduce за създаване на оптимизирани набори от данни за зареждане и анализ в СУБД на Oracle 11g. Данните се генерират в „родния“ формат на СУБД Oracle, което минимизира използването на системни ресурси. Форматираните данни се обработват в клъстера и след това данните могат да бъдат достъпни от традиционните потребителски настолни компютри на RDBMS с помощта на стандартни SQL команди или инструменти за бизнес разузнаване. Интегрирането на данни на Hadoop и Oracle DBMS се извършва с помощта на решението Oracle Data Integrator.

Oracle Big Data Appliance идва с отворена дистрибуция на Apache Hadoop, включително файловата система HDFS и други компоненти, отворена дистрибуция на R статистически пакет за анализ на необработени данни и Oracle Enterprise Linux 5.6. Предприятията, които вече използват Hadoop, могат да интегрират данни, хоствани на HDFS, в СУБД на Oracle, като използват функционалността на външни таблици и няма нужда незабавно да зареждат данните в СУБД - външните данни могат да се използват заедно с вътрешните данни в базата данни на Oracle, използвайки SQL команди.

Свързването между Oracle Big Data Appliance и Oracle Exadata чрез Infiniband осигурява високоскоростен трансфер на данни за пакетна обработкаили SQL заявки. Oracle Exadata осигурява производителността, от която се нуждаете както за хранилище на данни, така и за приложения за онлайн обработка на транзакции.

Новият продукт Oracle Exalytics може да се използва за решаване на проблеми с бизнес анализа и е оптимизиран за използване с Oracle Business Intelligence Enterprise Edition с обработка в паметта.

– Владимир Демкин ([имейл защитен]), водещ консултант в посока Oracle Exadata на Oracle CIS (Москва).

Наука и специалисти

Автор на доклада „Какво е Data Science?“ (Какво е Data Science?), публикуван в поредицата O'Reilly Radar Report, Майк Лукидис пише: „Бъдещето принадлежи на компаниите и хората, които могат да превърнат данните в продукти.“ Това твърдение неволно напомня за известните думи на Ротшилд „Който притежава информацията, притежава света“, изречени от него, когато той пръв научи за поражението на Наполеон при Ватерло и направи измама с ценни книжа. Днес този афоризъм си струва да бъде преформулиран: „Светът е собственост на тези, които притежават данните и технологиите за техния анализ.“ Карл Маркс, който е живял малко по-късно, показва, че индустриалната революция разделя хората на две групи - тези, които притежават средствата за производство, и тези, които работят за тях. В общи линии нещо подобно се случва и сега, но сега обект на собственост и разделение на функциите са не средствата за производство на материални ценности, а средствата за производство на данни и информация. И тук възникват проблемите – оказва се, че притежаването на данни е много по-трудно от притежаването на материални активи, първите се възпроизвеждат доста лесно и вероятността от кражбата им е много по-голяма от кражбата на материални вещи. Освен това има техники за правно разузнаване - с достатъчно обем и подходящи аналитични методи можете да „разберете“ какво е скрито. Ето защо сега се обръща такова внимание на Big Data Analytics (вижте страничната лента) и средствата за защита срещу него.

Различни видове дейности с данни и най-вече владеенето на методи за извличане на информация се наричат наука за данните, което, поне преведено на руски, е донякъде подвеждащо, тъй като по-скоро се отнася не за някаква нова академична наука, а за интердисциплинарен набор от знания и умения, необходими за извличане на знания. Съставът на такъв набор до голяма степен зависи от областта, но можем да идентифицираме повече или по-малко обобщени квалификационни изисквания за специалисти, наречени учени по данни. Това направи най-добре Дрю Конуей, който в миналото анализира данни за терористични заплахи в една от американските разузнавателни служби. Основните тези на дисертацията му са публикувани в тримесечното списание IQT Quarterly, което се издава от In-Q-Tel, посредник между ЦРУ на САЩ и научни организации.

Конуей изобразява своя модел под формата на диаграма на Вен (вижте фигурата), представляваща три области на знания и умения, които трябва да бъдат усвоени и усвоени, за да станете учен по данни. Хакерските умения не трябва да се разбират като злонамерени действия, в този случай комбинацията от владеене на определени инструменти със специален аналитичен ум, като Еркюл Поаро, се нарича така или може би тази способност може да се нарече дедуктивен методШерлок Холмс. За разлика от големите детективи, вие също трябва да сте експерт в редица математически области и да разбирате темата. Машинното обучение се формира в пресечната точка на първите две области, в пресечната точка на втората и третата - традиционни методи. Третата зона на пресичане е опасна поради спекулативността, без математически методи не може да има обективна визия. В пресечната точка на трите зони се намира науката за данните.

Диаграмата на Конуей дава опростена картина; Първо, в пресечната точка на хакерските и математическите кръгове се намира не само машинно обучениеВторо, размерът на последния кръг е много по-голям, днес той включва много дисциплини и технологии. Машинното обучение се отнася само до една от областите на изкуствения интелект, свързани с изграждането на алгоритми, способни да учат; то е разделено на две подобласти: прецедентно или индуктивно обучение, което разкрива скрити модели в данните, и дедуктивно, насочено към формализиране на експертни знания . Машинното обучение също се разделя на контролирано обучение (Supervised Learning), когато се изучават методи за класификация, базирани на предварително подготвени набори от данни за обучение, и обучение без надзор (Unsupervised Learning), когато се търсят вътрешни модели чрез клъстерен анализ.

Така че Big Data не е спекулативно мислене, а символ на настъпващата техническа революция. Нуждата от аналитична работа с големи данни значително ще промени облика на ИТ индустрията и ще стимулира появата на нови софтуерни и хардуерни платформи. Вече днес се използват най-модерните методи за анализ на големи обеми от данни: изкуствени невронни мрежи - модели, изградени на принципа на организация и функциониране на биологични невронни мрежи; методи за прогнозен анализ, статистика и обработка на естествения език (клон на изкуствения интелект и математическата лингвистика, който изучава проблемите на компютърния анализ и синтеза на естествени езици). Използват се и методи, които включват човешки експерти или краудсорсинг, A/B тестване, анализ на настроението и т. н. Използват се добре познати методи за визуализиране на резултатите, например облаци от етикети и напълно нови Clustergram, History Flow и Spatial Information Flow .

От страна на Big Data технологиите те се поддържат от разпределен файл Google системиФайлова система, софтуерни конструкции Cassandra, HBase, Luster и ZFS, MapReduce и Hadoop и много други решения. Според експерти, като института McKinsey, под влиянието на Big Data най-голяма трансформация ще претърпят областите на производството, здравеопазването, търговията, административното управление и наблюдението на индивидуалните движения.

По едно време чух термина „Големи данни“ от Герман Греф (шеф на Сбербанк). Казват, че сега работят активно по внедряването, защото това ще им помогне да намалят времето, в което работят с всеки клиент.

Вторият път, когато се натъкнах на тази концепция беше в онлайн магазин на клиент, върху който работихме и увеличихме асортимента от няколко хиляди до няколко десетки хиляди артикула.

Третият път видях, че Yandex изисква анализатор на големи данни. Тогава реших да се задълбоча в тази тема и в същото време да напиша статия, която ще разкаже какъв термин вълнува умовете на ТОП мениджърите и интернет пространството.

VVV или VVVVV

Обикновено започвам всяка своя статия с обяснение какъв е този термин. Тази статия няма да бъде изключение.

Това обаче се дължи преди всичко не на желанието да покажа колко съм умен, а на факта, че темата е наистина сложна и изисква внимателно обяснение.

Например, можете да прочетете какво представляват големите данни в Уикипедия, да не разберете нищо и след това да се върнете към тази статия, за да разберете дефиницията и приложимостта за бизнеса. И така, нека започнем с описание и след това с примери за бизнеса.

Големите данни са големи данни. Удивително, нали? Всъщност това се превежда от английски като „големи данни“. Но това определение, може да се каже, е за манекени.

важно. Технологията за големи данни е подход/метод за обработка на повече данни за получаване на нова информация, която е трудна за обработка с помощта на конвенционални методи.

Данните могат да бъдат обработени (структурирани) или разпръснати (т.е. неструктурирани).

Самият термин се появи сравнително наскоро. През 2008 г. научно списание прогнозира, че този подход е необходим за работа с големи количества информация, които нарастват експоненциално.

Така например всяка година информацията в интернет, която трябва да се съхранява и разбира се обработва, се увеличава с 40%. Отново. +40% Нова информация се появява в Интернет всяка година.

Ако отпечатаните документи са ясни и методите за обработката им също са ясни (прехвърлете в електронен изглед, шийте в една папка, номер), тогава какво да правите с информация, която е представена в напълно различни „носители“ и други обеми:

Интернет документи;
блогове и социални мрежи;
аудио/видео източници;
измервателни уреди;

Има характеристики, които позволяват информацията и данните да бъдат класифицирани като големи данни.

Тоест не всички данни може да са подходящи за анализ. Тези характеристики точно съдържат ключовата концепция за големите данни. Всички те се вписват в три Vs.

Обем (от английски том). Данните се измерват по отношение на физическия обем на „документа“, който трябва да се анализира;
Скорост (от английската скорост). Данните не стоят неподвижни в своето развитие, а непрекъснато нарастват, поради което е необходима бърза обработка за получаване на резултати;
Вариете (от английското разнообразие). Данните може да не са в същия формат. Тоест те могат да бъдат разпръснати, структурирани или частично структурирани.

Въпреки това, от време на време към VVV се добавя четвърто V (достоверност) и дори пето V (в някои случаи това е жизнеспособност, в други е стойност).

Някъде дори видях 7V, което характеризира данни, свързани с големи данни. Но според мен това е от серия (където периодично се добавят P, въпреки че първоначалните 4 са достатъчни за разбиране).

ВЕЧЕ СМЕ ПОВЕЧЕ ОТ 29 000 души.
ВКЛЮЧИ

Кому е нужно това?

Възниква логичен въпрос: как можете да използвате информацията (ако изобщо големите данни са стотици и хиляди терабайти)? Дори не това.

Ето информацията. Тогава защо беше измислена голяма дата? Каква е ползата от големи данни в маркетинга и бизнеса?

Конвенционалните бази данни не могат да съхраняват и обработват (в момента дори не говоря за анализи, а просто за съхранение и обработка) на огромни количества информация.
Големите данни решават този основен проблем. Успешно съхранява и управлява големи обеми информация;
Структурира информация, идваща от различни източници (видео, изображения, аудио и текстови документи), в една единствена, разбираема и смилаема форма;
Генериране на анализи и създаване на точни прогнози на базата на структурирана и обработена информация.

Сложно е. Казано по-просто, всеки търговец, който разбира, че ако изучавате голямо количество информация (за вас, вашата компания, вашите конкуренти, вашата индустрия), можете да получите много прилични резултати:

Пълно разбиране на вашата компания и вашия бизнес от страна на числата;
Проучете вашите конкуренти. А това от своя страна ще даде възможност да се изпревари, като ги доминира;
Открийте нова информация за вашите клиенти.

И точно защото технологията за големи данни дава следните резултати, всички се втурват с нея.

Те се опитват да включат този бизнес в своята компания, за да увеличат продажбите и да намалят разходите. И ако конкретно, тогава:

Увеличаване на кръстосаните продажби и допълнителни продажби поради по-добро познаване на предпочитанията на клиентите;
Търсене на популярни продукти и причини, поради които хората ги купуват (и обратното);
Подобряване на продукт или услуга;
Подобряване нивото на обслужване;
Повишаване на лоялността и фокуса върху клиента;
Предотвратяване на измами (по-актуално за банковия сектор);
Намаляване на ненужните разходи.

Най-често срещаният пример, който се дава във всички източници, е, разбира се, компанията Apple, която събира данни за своите потребители (телефон, часовник, компютър).

Именно поради наличието на екосистема корпорацията знае толкова много за своите потребители и впоследствие използва това, за да реализира печалба.

Можете да прочетете тези и други примери за използване във всяка друга статия освен тази.

Да отидем в бъдещето

Ще ви разкажа за друг проект. Или по-скоро за човек, който гради бъдещето, използвайки решения за големи данни.

Това е Илон Мъск и неговата компания Tesla. Основната му мечта е да направи автомобилите автономни, тоест сядаш зад волана, включваш автопилота от Москва до Владивосток и... заспиваш, защото изобщо не е нужно да караш колата, защото тя ще направи всичко само по себе си.

Ще изглежда фантастично? Но не! Просто Илон постъпи много по-мъдро от Google, който контролира колите с помощта на десетки сателити. И той тръгна в другата посока:

Всяка продадена кола е оборудвана с компютър, който събира цялата информация.
Всичко - това означава всичко. За шофьора, неговия стил на шофиране, пътищата около него, движението на други автомобили. Обемът на такива данни достига 20-30 GB на час;
След това тази информация се предава чрез сателитна комуникация до централен компютъркой обработва тези данни;
Въз основа на обработени големи данни този компютър, се изгражда модел на безпилотен автомобил.

Между другото, ако Google се справя доста зле и колите им постоянно катастрофират, то Мъск, поради факта, че работи с големи данни, се справя много по-добре, защото тестовите модели показват много добри резултати.

Но... Всичко е въпрос на икономика. Какво сме всички за печалбата, освен за печалбата? Много неща, които една голяма среща може да реши, са напълно несвързани с печалбите и парите.

Статистиката на Google, базирана на големи данни, показва интересно нещо.

Преди лекарите да обявят началото на епидемия от заболяване в определен регион, броят на хората в този регион нараства значително. заявки за търсенеотносно лечението на това заболяване.

По този начин правилното проучване на данните и техният анализ могат да формират прогнози и да предскажат началото на епидемия (и съответно нейното предотвратяване) много по-бързо от заключенията на официалните органи и техните действия.

Приложение в Русия

Русия обаче, както винаги, малко се „бави“. Така че самото определение за големи данни в Русия се появи преди не повече от 5 години (сега говоря за обикновени компании).

И това въпреки факта, че това е един от най-бързо развиващите се пазари в света (наркотиците и оръжията нервно димят встрани), защото всяка година пазарът на софтуер за събиране и анализ на големи данни нараства с 32%.

За да характеризирам пазара на големи данни в Русия, си спомням един стар виц. Голямата среща е като да правиш секс преди да навършиш 18.

Всички говорят за това, има много шум около него и малко реални действия и всички се срамуват да признаят, че самите те не го правят. Наистина има много шум около това, но малко реални действия.

Въпреки че известната изследователска компания Gartner вече обяви през 2015 г., че големите данни вече не са нарастваща тенденция (като изкуствения интелект, между другото), а напълно независими инструменти за анализ и развитие на напреднали технологии.

Най-активните ниши, в които се използват големи данни в Русия, са банките/застраховането (не напразно започнах статията с ръководителя на Сбербанк), телекомуникационният сектор, търговията на дребно, недвижимите имоти и... публичният сектор.

Като пример ще ви разкажа по-подробно за няколко икономически сектора, които използват алгоритми за големи данни.

банки

Да започнем с банките и информацията, която събират за нас и нашите действия. Като пример взех ТОП 5 руски банки, които активно инвестират в големи данни:

Сбербанк;
Газпромбанк;
ВТБ 24;
Алфа Банк;
Tinkoff Bank.

Особено приятно е да се види Alfa Bank сред руските лидери. Най-малкото е хубаво да знаете, че банката, на която сте официален партньор, разбира необходимостта от въвеждане на нови маркетингови инструменти в своята компания.

Но искам да покажа примери за използване и успешно внедряване на големи данни в банка, която харесвам заради нетрадиционния поглед и действия на нейния основател.

Говоря за Tinkoff Bank. Тяхното основно предизвикателство беше да разработят система за анализ на големи данни в реално време поради нарастващата им клиентска база.

Резултати: времето на вътрешните процеси е намалено най-малко 10 пъти, а при някои - над 100 пъти.

Е, малко разсейване. Знаете ли защо започнах да говоря за необичайните лудории и действия на Олег Тинков?

Просто според мен именно те му помогнаха да се превърне от посредствен бизнесмен, каквито има хиляди в Русия, в един от най-известните и разпознаваеми предприемачи. За да потвърдите това, вижте това необичайно и интересно видео:

Недвижим имот

В недвижимите имоти всичко е много по-сложно. И точно това е примерът, който искам да ви дам, за да разберете големите срещи в обикновения бизнес. Първоначални данни:

Голям обем текстова документация;
Отворени източници (частни спътници, предаващи данни за земните промени);
Огромно количество неконтролирана информация в интернет;
Постоянни промени в източниците и данните.

И въз основа на това е необходимо да се подготви и оцени стойността на парцел, например близо до уралско село. Това ще отнеме на професионалист една седмица.

Руското дружество на оценителите & ROSEKO, което всъщност внедри анализ на големи данни с помощта на софтуер, ще отнеме не повече от 30 минути спокойна работа. Сравнете, седмица и 30 минути. Огромна разлика.

Е, за лека закуска

Разбира се, огромни количества информация не могат да се съхраняват и обработват на прости твърди дискове.

А софтуерът, който структурира и анализира данни, обикновено е интелектуална собственост и всеки път е разработка на автора. Има обаче инструменти, на базата на които се създава цялата тази красота:

Hadoop & MapReduce;
NoSQL бази данни;
Клас инструменти за откриване на данни.

Честно казано, няма да мога да ви обясня ясно как се различават едно от друго, тъй като запознаването и работата с тези неща се преподава във физико-математическите институти.

Защо тогава говорих за това, ако не можех да го обясня? Спомняте ли си във всички филми, обирджиите влизат във всяка банка и виждат огромен брой всякакви хардуерни части, свързани с кабели?

Същото е и в голямата среща. Ето например един модел, който в момента е един от лидерите на пазара.

Инструмент за големи срещи

Цената на максималната конфигурация достига 27 милиона рубли на стелаж. Това, разбира се, е луксозната версия. Искам предварително да изпробвате създаването на големи данни във вашия бизнес.

Накратко за основното

Може да попитате защо вие, малък и среден бизнес, трябва да работите с големи данни?

На това ще ви отговоря с цитат от един човек: „В близко бъдеще клиентите ще търсят компании, които по-добре разбират тяхното поведение и навици и най-добре им подхождат.“

Но нека си признаем. За да внедрите големи данни в малък бизнес, трябва да имате не само големи бюджети за разработка и внедряване на софтуер, но и за поддръжка на специалисти, поне като анализатор на големи данни и системен администратор.

И сега мълча за това, че трябва да имате такива данни за обработка.

ДОБРЕ. Темата е почти неприложима за малкия бизнес. Но това не означава, че трябва да забравите всичко, което прочетохте по-горе.

Просто изучавайте не вашите данни, а резултатите от анализа на данни от известни чуждестранни и руски компании.

Например веригата за търговия на дребно Target, използвайки анализ на големи данни, установи, че бременните жени преди втория триместър на бременността (от 1-ва до 12-та седмица на бременността) активно купуват продукти с аромат на ООН.

Използвайки тези данни, те им изпращат купони с ограничени във времето отстъпки за продукти без аромат.

Ами ако сте просто много малко кафене, например? Да, много просто. Използвайте приложение за лоялност.

И след известно време и благодарение на натрупаната информация ще можете не само да предлагате на клиентите ястия, които отговарят на техните нужди, но и да видите най-непродадените ястия с най-висок марж само с няколко кликвания на мишката.

Оттук и заключението. Малко вероятно е малък бизнес да внедрява големи данни, но е наложително да се използват резултатите и разработките на други компании.

По материали от Research&Trends

Големите данни са обект на разговори в ИТ и маркетинг пресата от няколко години. И е ясно: цифрови технологиипроникнат живот модерен човек, „всичко е написано“. Обемът на данните за различни аспекти на живота нараства, а в същото време възможностите за съхранение на информация нарастват.

Глобални технологии за съхранение на информация

Източник: Хилбърт и Лопес, „Технологичният капацитет на света за съхраняване, комуникация и изчисляване на информация“, Наука, 2011 г. в световен мащаб.

Повечето експерти са съгласни, че ускоряването на растежа на данните е обективна реалност. Социална медия, мобилни устройства, данни от измервателни уреди, бизнес информация - това са само няколко вида източници, които могат да генерират гигантски обеми информация. Според изследването IDCЦифрова вселена, публикуван през 2012 г., през следващите 8 години количеството данни в света ще достигне 40 ZB (зетабайта), което се равнява на 5200 GB за всеки жител на планетата.

Разрастване на събирането на цифрова информация в САЩ

Източник: IDC

Голяма част от информацията се създава не от хора, а от роботи, взаимодействащи както помежду си, така и с други мрежи за данни, като сензори и смарт устройства. При този темп на растеж количеството данни в света, според изследователите, ще се удвоява всяка година. Броят на виртуалните и физически сървъри в света ще се увеличи десетократно поради разширяването и създаването на нови центрове за данни. В резултат на това има нарастваща нужда от ефективно използване и монетизиране на тези данни. Тъй като използването на Big Data в бизнеса изисква значителни инвестиции, трябва ясно да разберете ситуацията. И по същество е просто: можете да увеличите ефективността на бизнеса чрез намаляване на разходите и/или увеличаване на обема на продажбите.

Защо се нуждаем от големи данни?

Парадигмата на големите данни дефинира три основни типа проблеми.

Съхраняване и управление на обеми от данни от стотици терабайти или петабайти, които са типични релационни бази данниданните не могат да се използват ефективно.
Организирайте неструктурирана информация, състояща се от текстове, изображения, видеоклипове и други видове данни.
Big Data анализ, който поставя въпроса за начините за работа с неструктурирана информация, генериране на аналитични отчети, както и внедряване на прогнозни модели.

Пазарът на проекти за големи данни се пресича с пазара на бизнес анализи (BA), чийто глобален обем, според експерти, възлиза на около 100 милиарда долара през 2012 г. Той включва компоненти мрежови технологии, сървъри, софтуер и технически услуги.

Също така, използването на Big Data технологии е подходящо за решения от класа за осигуряване на доходи (RA), предназначени да автоматизират дейностите на компаниите. Съвременни системигаранциите за доходи включват инструменти за откриване на несъответствия и задълбочен анализ на данните, позволяващи своевременно откриване на възможни загуби или изкривяване на информация, които биха могли да доведат до намаление финансови резултати. На този фон руските компании, потвърждавайки наличието на търсене на технологии за големи данни на вътрешния пазар, отбелязват, че факторите, които стимулират развитието на големи данни в Русия, са растеж на данните, ускоряване на приемането управленски решенияи подобряване на качеството им.

Какво ви пречи да работите с Big Data

Днес само 0,5% от натрупаните цифрови данни се анализират, въпреки факта, че има обективни проблеми в цялата индустрия, които могат да бъдат разрешени с помощта на аналитични решения от клас Big Data. Развитите ИТ пазари вече имат резултати, които могат да се използват за оценка на очакванията, свързани с натрупването и обработката на големи данни.

Разглежда се един от основните фактори, които забавят изпълнението на проекти с големи данни, в допълнение към високата цена проблем при избора на обработени данни: тоест определяне кои данни трябва да бъдат извлечени, съхранени и анализирани и кои трябва да бъдат игнорирани.

Много представители на бизнеса отбелязват, че трудностите при реализирането на проекти за големи данни са свързани с липсата на специалисти - маркетолози и анализатори. Скоростта на възвръщаемост на инвестициите в Big Data пряко зависи от качеството на работа на служителите, ангажирани в задълбочени и прогнозни анализи. Огромният потенциал на данните, които вече съществуват в една организация, често не може да бъде използван ефективно от самите търговци поради остарели бизнес процеси или вътрешни разпоредби. Поради това проектите за големи данни често се възприемат от бизнеса като трудни не само за изпълнение, но и за оценка на резултатите: стойността на събраните данни. Специфичният характер на работата с данни изисква търговците и анализаторите да пренасочат вниманието си от технологиите и създаването на отчети към решаването на конкретни бизнес проблеми.

Поради големия обем и високата скорост на потока от данни, процесът на събиране на данни включва ETL процедури в реално време. За справка:ETL – отАнглийскиЕкстракт, Трансформирайте, Заредете- буквално "извличане, трансформиране, зареждане") - един от основните процеси в управлението складове за данни, което включва: извличане на данни от външни източници, тяхната трансформация и почистване за задоволяване на нуждите ETL трябва да се разглежда не само като процес на преместване на данни от едно приложение в друго, но и като инструмент за подготовка на данни за анализ.

И тогава въпросите за гарантиране на сигурността на данните, идващи от външни източници, трябва да имат решения, които съответстват на обема на събраната информация. Тъй като методите за анализ на големи данни се развиват само след нарастването на обема на данните, способността на аналитичните платформи да използват нови методи за подготовка и агрегиране на данни играе голяма роля. Това предполага, че например данни за потенциални купувачи или масивно хранилище с данни с история на кликванията върху сайтове за онлайн пазаруване може да представлява интерес за решаване на различни проблеми.

Трудностите не спират

Въпреки всички трудности с внедряването на Big Data, бизнесът възнамерява да увеличи инвестициите в тази област. Както следва от данните на Gartner, през 2013 г. 64% от най-големите компании в света вече са инвестирали или планират да инвестират в внедряването на технологии за големи данни за своя бизнес, докато през 2012 г. те са били 58%. Според изследването на Gartner лидерите в индустриите, инвестиращи в Big Data, са медийни компании, телекомуникации, банки и компании за услуги. Успешни резултати от прилагането на Big Data вече са постигнати от много големи играчи в областта на дребноотносно използването на данни, получени с помощта на инструменти за радиочестотна идентификация, логистика и системи за преместване (от англ. попълване- натрупване, попълване - R&T), както и от програми за лоялност. Успешният опит в търговията на дребно насърчава други пазарни сектори да намерят нови ефективни начинимонетизиране на големи данни, за да превърне анализа им в ресурс, който работи за развитието на бизнеса. Благодарение на това, според експертите, в периода до 2020 г. инвестициите в управление и съхранение на гигабайт данни ще намалеят от $2 на $0,2, но за изследване и анализ на технологичните свойства на Big Data ще се увеличат само с 40%.

Представените разходи в различни инвестиционни проекти в областта на Big Data са от различно естество. Разходните артикули зависят от видовете продукти, които са избрани въз основа определени решения. Най-голямата част от разходите в инвестиционните проекти, според експерти, се падат на продукти, свързани със събиране, структуриране на данни, почистване и управление на информация.

Как се прави

Има много комбинации от софтуер и хардуер, които ви позволяват да създавате ефективни решения Big Data за различни бизнес дисциплини: от социални медии и мобилни приложения, до извличане на бизнес данни и визуализация. Важно предимство на Big Data е съвместимостта на новите инструменти с бази данни, широко използвани в бизнеса, което е особено важно при работа с междудисциплинарни проекти, като организиране на многоканални продажби и поддръжка на клиенти.

Последователността на работа с Big Data се състои от събиране на данни, структуриране на получената информация с помощта на отчети и табла за управление, създаване на прозрения и контексти и формулиране на препоръки за действие. Тъй като работата с Big Data е свързана с големи разходи за събиране на данни, резултатът от обработката на които е предварително неизвестен, основната задача е ясно да се разбере за какво са данните, а не колко от тях са налични. В този случай събирането на данни се превръща в процес на получаване на информация, изключително необходима за решаване на конкретни проблеми.

Например доставчиците на телекомуникационни услуги събират огромно количество данни, включително геолокация, която се актуализира постоянно. Тази информация може да бъде от търговски интерес за рекламните агенции, които могат да я използват за предоставяне на целева и местна реклама, както и за търговци на дребно и банки. Такива данни могат да играят важна роля при вземането на решение за откриване на търговски обект на определено място въз основа на данни за наличието на мощен целеви поток от хора. Има пример за измерване на ефективността на рекламата върху външни билбордове в Лондон. Сега обсегът на такава реклама може да се измери само чрез поставяне на хора със специално устройство в близост до рекламни конструкции, които броят минувачите. В сравнение с този тип измерване на рекламната ефективност, мобилен оператормного повече възможности - той знае точно местоположението на своите абонати, знае техните демографски характеристики, пол, възраст, семейно положение и т.н.

Въз основа на тези данни в бъдеще има перспектива да се промени съдържанието на рекламното съобщение, като се използват предпочитанията на конкретно лице, минаващо покрай билборда. Ако данните покажат, че преминаващ човек пътува много, тогава може да му се покаже реклама на курорт. Организаторите на футболен мач могат само да преценят броя на феновете, когато дойдат на мача. Но ако имаха възможност да поискат от оператора клетъчни комуникацииинформация за това къде са били посетителите час, ден или месец преди мача, това ще даде възможност на организаторите да планират места за рекламиране на следващите мачове.

Друг пример е как банките могат да използват големи данни за предотвратяване на измами. Ако клиентът съобщи за загуба на картата и при извършване на покупка с нея, банката вижда в реално време местоположението на телефона на клиента в зоната за покупка, където се извършва транзакцията, банката може да провери информацията в приложението на клиента за да види дали се опитва да го измами. Или обратната ситуация, когато клиент прави покупка в магазин, банката вижда, че картата, използвана за транзакцията, и телефонът на клиента са на едно и също място, банката може да заключи, че собственикът на картата я използва. Благодарение на тези предимства на Big Data, границите на традиционните хранилища за данни се разширяват.

За да вземе успешно решение за внедряване на Big Data решения, една компания трябва да изчисли инвестиционен случай, а това създава големи трудности поради много непознати компоненти. Парадоксът на анализа в такива случаи е предсказване на бъдещето въз основа на миналото, данни за което често липсват. В този случай важен фактор е ясното планиране на вашите първоначални действия:

Първо, необходимо е да се определи един конкретен бизнес проблем, за който ще се използват технологиите за големи данни; тази задача ще бъде в основата на определянето на правилността на избраната концепция. Трябва да се съсредоточите върху събирането на данни, свързани с тази конкретна задача, и по време на доказването на концепцията можете да използвате различни инструменти, процеси и техники за управление, които ще ви позволят да вземате по-информирани решения в бъдеще.
Второ, малко вероятно е компания без умения и опит за анализ на данни да може успешно да реализира проект за големи данни. Необходимите знания винаги произтичат от предишен опит в анализите, който е основният фактор, влияещ върху качеството на работа с данни. Важна роляКултурата на използване на данни играе роля, тъй като често анализът на информация разкрива трудни истини за бизнеса и за да приемете тази истина и да работите с нея, са необходими разработени методи за работа с данни.
Трето, стойността на технологиите за големи данни се крие в предоставянето на прозрения Добрите анализатори остават недостиг на пазара. Те обикновено се наричат специалисти, които имат дълбоко разбиране за търговското значение на данните и знаят как да ги използват правилно. Анализът на данни е средство за постигане на бизнес цели и за да разберете стойността на Big Data, трябва да се държите съответно и да разбирате действията си. В този случай големите данни ще осигурят много полезна информацияза потребителите, въз основа на които могат да се вземат решения, полезни за бизнеса.

Макар че руски пазарГолемите данни едва започват да се оформят, отделни проекти в тази област вече се изпълняват доста успешно. Някои от тях са успешни в областта на събирането на данни, като проекти за Федералната данъчна служба и Tinkoff Credit Systems Bank, други - по отношение на анализа на данни и практическо приложениенеговите резултати: това е проектът Synqera.

Tinkoff Credit Systems Bank реализира проект за внедряване на платформата EMC2 Greenplum, която е инструмент за масови паралелни изчисления. По време на последните годиниБанката има повишени изисквания към скоростта на обработка на натрупаната информация и анализ на данни в реално време, причинени от високия темп на нарастване на броя на потребителите кредитни карти. Банката обяви планове за разширяване на използването на технологиите за големи данни, по-специално за обработка на неструктурирани данни и работа с корпоративна информация, получена от различни източници.

В момента Федералната данъчна служба на Русия създава аналитичен слой за федералното хранилище на данни. На негова основа се създава единно информационно пространство и технология за достъп до данъчни данни за статистическа и аналитична обработка. По време на изпълнението на проекта се работи за централизиране на аналитична информация от повече от 1200 източника на местно ниво на Федералната данъчна служба.

Друг интересен пример за анализ на големи данни в реално време е руският стартъп Synqera, който разработи платформата Simplate. Решението се основава на обработка на големи количества данни, програмата анализира информация за клиентите, тяхната история на покупки, възраст, пол и дори настроение. На касите във верига козметични магазини са монтирани сензорни екранисъс сензори, които разпознават емоциите на клиента. Програмата определя настроението на човек, анализира информация за него, определя времето от деня и сканира базата данни с отстъпки на магазина, след което изпраща целеви съобщения до купувача за промоции и специални оферти. Това решение повишава лоялността на клиентите и увеличава продажбите на търговците.

Ако говорим за чуждестранни успешни случаи, тогава опитът от използването на технологиите за големи данни в компанията Dunkin`Donuts, която използва данни в реално време за продажба на продукти, е интересен в това отношение. Цифровите дисплеи в магазините показват оферти, които се променят всяка минута, в зависимост от времето на деня и наличността на продукта. С помощта на касовите бележки компанията получава данни кои оферти са получили най-голям отзвук от клиентите. Този подход за обработка на данни ни позволи да увеличим печалбите и оборота на стоките в склада.

Както показва опитът от изпълнението на проекти за големи данни, тази област е предназначена за успешно решаване на съвременни бизнес проблеми. В същото време важен фактор за постигане на търговски цели при работа с Big Data е изборът на правилната стратегия, която включва анализи, които идентифицират нуждите на потребителите, както и използването на иновативни технологии в областта на Big Data.

Според глобално проучване, провеждано ежегодно от Econsultancy и Adobe от 2012 г. сред корпоративни търговци, „големите данни“, които характеризират действията на хората в Интернет, могат да направят много. Те могат да оптимизират офлайн бизнес процесите, да помогнат да се разбере как собствениците на мобилни устройства ги използват за търсене на информация или просто да „направят маркетинга по-добър“, т.е. по-ефикасно. Освен това последната функция става все по-популярна от година на година, както следва от диаграмата, която представихме.

Основните области на работа на интернет търговците по отношение на връзките с клиентите

Източник: Econsultancy и Adobe, изд– emarketer.com

Имайте предвид, че националността на респондентите от голямо значениене притежава. Както показва проучване, проведено от KPMG през 2013 г., делът на „оптимистите“, т.е. тези, които използват Big Data при разработване на бизнес стратегия, са 56%, а вариациите от регион на регион са малки: от 63% в страните от Северна Америка до 50% в EMEA.

Използване на големи данни в различни региони на света

Източник: KPMG, изд– emarketer.com

Междувременно отношението на търговците към такива „модни тенденции“ донякъде напомня на добре позната шега:

Кажи, Вано, обичаш ли домати?
- Обичам да ям, но не така.

Въпреки факта, че търговците вербално „обичат“ Big Data и изглежда дори ги използват, в действителност „всичко е сложно“, както пишат за сърдечните си привързаности в социалните мрежи.

Според проучване, проведено от Circle Research през януари 2014 г. сред европейски търговци, 4 от 5 респонденти не използват Big Data (въпреки че те, разбира се, „го обичат“). Причините са различни. Малко са закоравелите скептици - 17% и точно толкова са техните антиподи, т.е. онези, които уверено отговарят: „Да“. Останалите се колебаят и съмняват, „блатото“. Те избягват директен отговор под правдоподобни предлози като „още не, но скоро“ или „ще изчакаме, докато другите започнат“.

Използване на големи данни от търговци, Европа, януари 2014 г

източник:dnx, публикувано –emarketer.com

Какво ги обърква? Чисти глупости. Някои (точно половината от тях) просто не вярват на тези данни. Други (също има доста от тях - 55%) намират за трудно да съпоставят набори от „данни“ и „потребители“ един с друг. Някои хора просто имат (политически коректно казано) вътрешна корпоративна бъркотия: данните се лутат без надзор между маркетинговите отдели и ИТ структурите. За други софтуерът не може да се справи с наплива от работа. И така нататък. Тъй като общите дялове значително надхвърлят 100%, е ясно, че ситуацията на „множество бариери“ не е необичайна.

Бариери пред използването на Big Data в маркетинга

източник:dnx, публикувано –emarketer.com

По този начин трябва да признаем, че докато „Големи данни“ е голям потенциал, който все още трябва да се възползва. Между другото, това може да е причината Big Data да губи ореола си на „модна тенденция“, както се вижда от проучване, проведено от компанията Econsultancy, за което вече споменахме.

Най-значимите тенденции в дигиталния маркетинг 2013-2014

Източник: Econsultancy и Adobe

На тяхно място идва друг цар – контент маркетинга. Колко дълго?

Не може да се каже, че Big Data е някакво фундаментално ново явление. Големи източници на данни съществуват от много години: бази данни за покупки на клиенти, кредитна история, начин на живот. И години наред учените използват тези данни, за да помогнат на компаниите да оценят риска и да предскажат бъдещите нужди на клиентите. Днес обаче ситуацията се е променила в два аспекта:

Появиха се по-сложни инструменти и техники за анализиране и комбиниране на различни набори от данни;

Тези аналитични инструменти се допълват от лавина от нови източници на данни, водени от цифровизацията на почти всички методи за събиране на данни и измерване.

Обхватът на наличната информация е едновременно вдъхновяващ и плашещ за изследователите, израснали в структурирана изследователска среда. Настроенията на потребителите се улавят от уебсайтове и всякакви социални медии. Фактът на гледане на реклама се записва не само от декодери, но и с помощта на цифрови етикети и мобилни устройствакомуникация с телевизора.

Данните за поведението (като обем на разговорите, навици за пазаруване и покупки) вече са достъпни в реално време. По този начин голяма част от това, което преди можеше да бъде получено чрез изследване, сега може да се научи с помощта на големи източници на данни. И всички тези информационни активи се генерират постоянно, независимо от каквито и да е изследователски процеси. Тези промени ни карат да се чудим дали големите данни могат да заменят класическото пазарно проучване.

Не става въпрос за данните, а за въпросите и отговорите.

Преди да осъдим класическото изследване, трябва да си напомним, че не наличието на определени активи от данни е критично, а нещо друго. Какво точно? Способността ни да отговаряме на въпроси, ето какво. Едно забавно нещо в новия свят на големите данни е, че резултатите, получени от нови активи от данни, водят до още повече въпроси и тези въпроси обикновено намират най-добър отговор от традиционните изследвания. По този начин, с нарастването на големите данни, виждаме паралелно увеличаване на наличността и нуждата от „малки данни“, които могат да дадат отговори на въпроси от света на големите данни.

Помислете за ситуацията: голям рекламодател непрекъснато следи трафика на магазина и обемите на продажбите в реално време. Съществуващите изследователски методологии (при които анкетираме участниците в панелите относно техните мотивации за покупка и поведение на място за продажба) ни помагат да се насочваме по-добре към специфични сегменти на купувачите. Тези техники могат да бъдат разширени, за да включват повече широк обхватактиви с големи данни до точката, в която големите данни се превръщат в средство за пасивно наблюдение, а изследването - в метод за постоянно, тясно насочено изследване на промени или събития, които изискват проучване. Ето как големите данни могат да освободят изследванията от ненужната рутина. Първичните изследвания вече не трябва да се фокусират върху случващото се (големите данни ще направят това). Вместо това първичните изследвания могат да се фокусират върху обяснението защо наблюдаваме определени тенденции или отклонения от тенденциите. Изследователят ще може да мисли по-малко за получаване на данни и повече за това как да ги анализира и използва.

В същото време виждаме, че големите данни могат да решат един от най-големите ни проблеми: проблемът с прекалено дългите проучвания. Проверката на самите проучвания показа, че прекалено раздутите изследователски инструменти имат отрицателно въздействие върху качеството на данните. Въпреки че много експерти отдавна са признали този проблем, те неизменно отговарят с фразата „Но имам нужда от тази информация за висшето ръководство“ и дългите интервюта продължават.

В света на големите данни, където количествените показатели могат да бъдат получени чрез пасивно наблюдение, този въпрос става спорен. Отново, нека помислим за всички тези проучвания относно консумацията. Ако големите данни ни дават представа за потреблението чрез пасивно наблюдение, тогава първичните проучвания вече не трябва да събират този вид информация и най-накрая можем да подкрепим нашата визия за кратки проучвания с нещо повече от пожелателно мислене.

Big Data се нуждае от вашата помощ

И накрая, „голям“ е само една характеристика на големите данни. Характеристиката „голям“ се отнася до размера и мащаба на данните. Разбира се, това е основната характеристика, тъй като обемът на тези данни надхвърля всичко, с което сме работили преди. Но други характеристики на тези нови потоци от данни също са важни: те често са лошо форматирани, неструктурирани (или в най-добрия случай частично структурирани) и пълни с несигурност. Нововъзникваща област на управление на данни, уместно наречена анализ на обекти, се занимава с проблема с пресичането на шума в големите данни. Неговата работа е да анализира тези набори от данни и да разбере колко наблюдения се отнасят за едно и също лице, кои наблюдения са текущи и кои са използваеми.

Този тип почистване на данни е необходимо за премахване на шум или грешни данни при работа с големи или малки активи от данни, но не е достатъчно. Трябва също така да създадем контекст около активите с големи данни въз основа на нашия предишен опит, анализи и знания за категориите. Всъщност много анализатори посочват способността за управление на несигурността, присъща на големите данни, като източник на конкурентно предимство, тъй като позволява вземането на по-добри решения.

Това е мястото, където първичните изследвания не само се оказват освободени от големите данни, но също така допринасят за създаването и анализа на съдържание в големите данни.

Основен пример за това е приложението на нашата нова фундаментално различна рамка за капитал на марката към социалните медии (говорим за разработен вМилуърд кафявонов подход за измерване на капитала на маркатаThe Смислено Различен рамка– „Парадигмата на значимата разлика“ –Р & T ). Този модел е тестван за поведение в рамките на конкретни пазари, прилага се на стандартна основа и е лесен за прилагане към други. маркетингови областиИ информационни системиза подкрепа при вземане на решения. С други думи, нашият модел на капитала на марката, базиран на (макар и не изключително въз основа) на проучване, има всички характеристики, необходими за преодоляване на неструктурирания, несвързан и несигурен характер на големите данни.

Помислете за данните за потребителските настроения, предоставени от социалните медии. В необработена форма пиковете и спадовете в потребителските настроения много често са минимално свързани с офлайн измерванията на капитала и поведението на марката: просто има твърде много шум в данните. Но ние можем да намалим този шум, като приложим нашите модели за потребителско значение, диференциация на марката, динамика и отличителност към необработени данни за потребителските настроения – начин за обработка и агрегиране на данни от социалните медии по тези измерения.

След като данните са организирани според нашата рамка, идентифицираните тенденции обикновено се привеждат в съответствие с офлайн стойността на марката и поведенческите мерки. По същество данните от социалните медии не могат да говорят сами за себе си. Използването им за тази цел изисква нашия опит и модели, изградени около марки. Когато социалните медии ни предоставят уникална информация, изразена на езика, който потребителите използват, за да опишат марките, ние трябва да използваме този език, когато създаваме нашите изследвания, за да направим първичните изследвания много по-ефективни.

Предимства на освободените изследвания

Това ни връща към това как големите данни не толкова заместват изследванията, колкото ги освобождават. Изследователите ще бъдат освободени от необходимостта да създават ново проучване за всеки нов случай. Постоянно растящите активи с големи данни могат да се използват за различни изследователски теми, което позволява последващи първични изследвания да навлязат по-дълбоко в темата и да запълнят съществуващите пропуски. Изследователите ще бъдат освободени от необходимостта да разчитат на прекалено завишени проучвания. Вместо това те могат да използват кратки анкети и да се фокусират върху най-важните параметри, което подобрява качеството на данните.

С това освобождаване изследователите ще могат да използват установените си принципи и идеи, за да добавят прецизност и значение на активите с големи данни, което води до нови области за проучвания. Този цикъл трябва да доведе до по-добро разбиране на редица стратегически въпроси и, в крайна сметка, движение към това, което винаги трябва да бъде нашата основна цел - да информираме и да подобрим качеството на марката и комуникационните решения.