Индустрия с големи данни. Големите данни защитават закона и реда. Вътрешни фирмени данни

Само мързеливите не говорят за големи данни, но едва ли разбират какво е това и как работи. Да започнем с най-простото - терминологията. Говорейки на руски, големите данни са различни инструменти, подходи и методи за обработка както на структурирани, така и на неструктурирани данни, за да се използват за конкретни задачи и цели.

Неструктурираните данни са информация, която няма предварително определена структура или не е организирана в определен ред.

Терминът „големи данни“ беше въведен от редактора на списание Nature Клифърд Линч през 2008 г. в специален брой, посветен на експлозивното нарастване на световните обеми информация. Въпреки че, разбира се, самите големи данни съществуваха и преди. Според експерти категорията Big data включва повечето потоци от данни над 100 GB на ден.

Прочетете също:

Днес този прост термин крие само две думи - съхранение и обработка на данни.

Големи данни - с прости думи

IN модерен святГолемите данни са социално-икономически феномен, който се свързва с появата на нови технологични възможности за анализиране на огромни количества данни.

Прочетете също:

За по-лесно разбиране си представете супермаркет, в който всички стоки не са в реда, в който сте свикнали. Хляб до плодовете, доматено пюре до замразената пица, течност за запалване пред стойката за тампони, която съдържа освен всичко друго авокадо, тофу или гъби шийтаке. Големите данни поставят всичко на мястото си и ви помагат да намерите ядково мляко, да разберете цената и срока на годност, както и кой освен вас купува това мляко и защо е по-добро от кравето.

Кенет Кукиър: Големите данни са по-добри данни

Технология за големи данни

Обработват се огромни обеми данни, за да може човек да получи конкретни и необходими резултати за по-нататъшното им ефективно използване.

Прочетете също:

Всъщност Big data е решение на проблеми и алтернатива на традиционните системи за управление на данни.

Техники и методи за анализ, приложими към големи данни според McKinsey:

Краудсорсинг;

Смесване и интегриране на данни;

Машинно обучение;

Изкуствени невронни мрежи;

Разпознаване на шаблон;

Прогностичен анализ;

Симулационно моделиране;

Пространствен анализ;

Статистически анализ;
Визуализация на аналитични данни.

Хоризонталната мащабируемост, която позволява обработката на данни, е основният принцип на обработката на големи данни. Данните се разпределят между изчислителни възли и обработката се извършва без влошаване на производителността. McKinsey също включи системи за релационно управление и Business Intelligence в контекста на приложимостта.

Технологии:

NoSQL;
MapReduce;
Hadoop;
Хардуерни решения.

Прочетете също:

За големите данни има традиционни определящи характеристики, разработени от Meta Group още през 2001 г., които се наричат „ Три V»:

Сила на звука- размерът на физическия обем.
Скорост- темп на растеж и необходимост от бърза обработка на данните за получаване на резултати.
Разнообразие- възможността за едновременна обработка на различни видове данни.

Големи данни: приложения и възможности

Невъзможно е да се обработват обемите от разнородна и бързо пристигаща цифрова информация с традиционни инструменти. Самият анализ на данни ви позволява да видите определени и незабележими модели, които човек не може да види. Това ни позволява да оптимизираме всички сфери на живота си – от контролирани от правителствотокъм производството и телекомуникациите.

Например, някои компании преди няколко години защитиха клиентите си от измами и да се грижиш за парите на клиента означава да се грижиш за собствените си пари.

Сюзън Етлигер: Какво ще кажете за големите данни?

Решения, базирани на големи данни: Sberbank, Beeline и други компании

Beeline разполага с огромно количество данни за абонатите, които те използват не само за работа с тях, но и за създаване на аналитични продукти, като външни консултации или IPTV анализи. Beeline сегментира базата данни и защити клиентите от финансови измами и вируси, използвайки HDFS и Apache Spark за съхранение и Rapidminer и Python за обработка на данни.

Прочетете също:

Или нека си спомним Сбербанк със стария им случай, наречен AS SAFI. Това е система, която анализира снимки, за да идентифицира банковите клиенти и да предотврати измами. Системата е въведена през 2014 г., системата се основава на сравняване на снимки от базата данни, които стигат до там от уеб камери на щандове благодарение на компютърно зрение. В основата на системата е биометрична платформа. Благодарение на това случаите на измами са намалели 10 пъти.

Големи данни в света

До 2020 г. според прогнозите човечеството ще генерира 40-44 зетабайта информация. А до 2025 г. ще нарасне 10 пъти, според доклада The Data Age 2025, изготвен от анализатори от IDC. Докладът отбелязва, че повечето от данните ще бъдат генерирани от самите фирми, а не от обикновените потребители.

Анализаторите вярват, че данните ще се превърнат в жизненоважен актив, а сигурността в критична основа в живота. Авторите на работата също са уверени, че технологията ще промени икономическия пейзаж и редовен потребителще комуникира със свързани устройства около 4800 пъти на ден.

Пазар на големи данни в Русия

Големите данни обикновено идват от три източника:

Интернет (социални мрежи, форуми, блогове, медии и други сайтове);
Архив на корпоративни документи;
Показания от сензори, инструменти и други устройства.

Големи данни в банките

В допълнение към описаната по-горе система, стратегията на Сбербанк за 2014-2018 г. включва: говори за значението на анализирането на супер данни за качествено обслужване на клиенти, управление на риска и оптимизиране на разходите. Сега банката използва големи данни за управление на рисковете, борба с измамите, сегментиране и оценка на кредитоспособността на клиентите, управление на персонала, прогнозиране на опашки в клонове, изчисляване на бонуси за служители и други задачи.

VTB24 използва големи данни, за да сегментира и управлява изходящите потоци на клиенти, да генерира финансови отчети и да анализира отзиви в социални мрежи и форуми. За целта той използва решения от Teradata, SAS Visual Analytics и SAS Marketing Optimizer.

Колона от преподаватели по HSE за митове и случаи на работа с големи данни

Към отметки

Преподавателите в Училището по нови медии към Националния изследователски университет Висше училище по икономика Константин Романов и Александър Пятигорски, който е и директор на дигиталната трансформация в Beeline, написаха колона за сайта за основните погрешни схващания за големите данни - примери за използване технологията и инструментите. Авторите предполагат, че изданието ще помогне на мениджърите на компаниите да разберат тази концепция.

Митове и погрешни схващания за големите данни

Големите данни не са маркетинг

Срок Голяма информациястана много модерен - използва се в милиони ситуации и в стотици различни интерпретации, често несвързани с това, което представлява. Понятията често се подменят в главите на хората и Big Data се бърка с маркетингов продукт. Освен това в някои компании Big Data е част от маркетинговия отдел. Резултатът от анализа на големи данни наистина може да бъде източник за маркетингова дейност, но нищо повече. Нека да видим как работи.

Ако идентифицирахме списък с тези, които са закупили стоки на стойност над три хиляди рубли в нашия магазин преди два месеца и след това изпратиха на тези потребители някаква оферта, тогава това е типичен маркетинг. Ние извличаме ясен модел от структурните данни и го използваме за увеличаване на продажбите.

Ако обаче комбинираме CRM данни с поточна информация от например Instagram и ги анализираме, ще открием модел: човекът, който е намалил активността си в сряда вечерта и на чиито последна снимкаИзобразени са котенца, трябва да се направи определено предложение. Това вече ще е Big Data. Намерихме тригер, предадохме го на търговците и те го използваха за собствените си цели.

От това следва, че технологията обикновено работи с неструктурирани данни и дори данните да са структурирани, системата продължава да търси скрити модели в тях, което маркетингът не прави.

Големите данни не са ИТ

Втората крайност на тази история: Големите данни често се бъркат с ИТ. Това се дължи на факта, че в руски компанииПо правило ИТ специалистите са двигателите на всички технологии, включително големите данни. Следователно, ако всичко се случва в този отдел, компанията като цяло остава с впечатлението, че това е някаква ИТ дейност.

Всъщност тук има фундаментална разлика: Big Data е дейност, насочена към получаване на конкретен продукт, който изобщо не е свързан с ИТ, въпреки че технологията не може да съществува без него.

Big Data не винаги е събиране и анализ на информация

Има още едно погрешно схващане за големите данни. Всеки разбира, че тази технология включва големи количества данни, но не винаги е ясно какъв вид данни има предвид. Всеки може да събира и използва информация; сега това е възможно не само във филми за, но и във всяка, дори много малка компания. Единственият въпрос е какво точно да съберете и как да го използвате в своя полза.

Но трябва да се разбере, че технологията Big Data няма да бъде събиране и анализ на абсолютно всякаква информация. Например, ако събирате данни за конкретен човек в социалните мрежи, това няма да е Big Data.

Какво всъщност е Big Data?

Big Data се състои от три елемента:

данни;
анализи;
технологии.

Big Data не е само един от тези компоненти, а комбинация от трите елемента. Хората често заместват понятията: някои вярват, че Big Data са само данни, други смятат, че това са технологии. Но всъщност, без значение колко данни събирате, не можете да направите нищо с тях необходими технологиии анализатори. Ако има добри анализи, но няма данни, е още по-лошо.

Ако говорим за данни, това не са само текстове, но и всички снимки, публикувани в Instagram, и като цяло всичко, което може да се анализира и използва за различни цели и задачи. С други думи, Data се отнася до огромни обеми вътрешни и външни данни от различни структури.

Нужен е и анализ, защото задачата на Big Data е да изгради някакви модели. Тоест анализът е идентифициране на скрити зависимости и търсене на нови въпроси и отговори въз основа на анализа на целия обем от разнородни данни. Освен това Big Data поставя въпроси, които не могат да бъдат директно извлечени от тези данни.

Когато става въпрос за изображения, фактът, че публикувате снимка, на която сте облечени със синя тениска, не означава нищо. Но ако използвате фотография за моделиране на големи данни, може да откриете, че точно сега трябва да предложите заем, защото във вашия социална групатакова поведение показва определено явление в действията. Следователно „голи“ данни без анализи, без идентифициране на скрити и неочевидни зависимости не са Big Data.

Така че имаме големи данни. Масивът им е огромен. Имаме и анализатор. Но как можем да сме сигурни, че от тези необработени данни ще стигнем до конкретно решение? За целта се нуждаем от технологии, които ни позволяват не само да ги съхраняваме (а това беше невъзможно преди), но и да ги анализираме.

Просто казано, ако имате много данни, ще ви трябват технологии, например Hadoop, които правят възможно съхраняването на цялата информация в оригиналната й форма за по-късен анализ. Този вид технология възникна в интернет гигантите, тъй като те бяха първите, които се сблъскаха с проблема със съхраняването на голямо количество данни и анализирането им за последваща монетизация.

В допълнение към инструментите за оптимизирано и евтино съхранение на данни, имате нужда от аналитични инструменти, както и добавки към използваната платформа. Например, цяла екосистема от свързани проекти и технологии вече се е формирала около Hadoop. Ето някои от тях:

Pig е декларативен език за анализ на данни.
Hive - анализ на данни с помощта на език, подобен на SQL.
Oozie - работен процес на Hadoop.
Hbase е база данни (нерелационна), подобна на Google Big Table.
Mahout - машинно обучение.
Sqoop - прехвърляне на данни от RSDB към Hadoop и обратно.
Flume - прехвърляне на регистрационни файлове към HDFS.
Zookeeper, MRUnit, Avro, Giraph, Ambari, Cassandra, HCatalog, Fuse-DFS и т.н.

Всички тези инструменти са достъпни за всички безплатно, но има и редица платени добавки.

Освен това са необходими специалисти: разработчик и анализатор (т.нар. Data Scientist). Необходим е и мениджър, който да разбере как да приложи този анализ за решаване на конкретен проблем, защото сам по себе си той е напълно безсмислен, ако не е интегриран в бизнес процесите.

И тримата служители трябва да работят в екип. Мениджър, който дава на специалист по Data Science задачата да намери определен модел, трябва да разбере, че не винаги ще намери точно това, от което се нуждае. В този случай мениджърът трябва да слуша внимателно какво е открил Data Scientist, тъй като често неговите открития се оказват по-интересни и полезни за бизнеса. Вашата работа е да приложите това към бизнес и да направите продукт от него.

Въпреки факта, че сега има много различни видове машини и технологии, крайното решение винаги остава за човека. За да направите това, информацията трябва да бъде визуализирана по някакъв начин. Има доста инструменти за това.

Най-показателният пример са геоаналитичните доклади. Компанията Beeline работи много с правителствата на различни градове и региони. Много често тези организации поръчват доклади като „Задръстване на определено място“.

Ясно е, че такъв доклад трябва да достигне до държавните органи в проста и разбираема форма. Ако им предоставим огромна и напълно неразбираема таблица (т.е. информация във вида, в който я получаваме), те едва ли ще купят такъв отчет - той ще бъде напълно безполезен, те няма да получат от него знанието, че искаха да получат.

Следователно, колкото и добри да са специалистите по данни и каквито и модели да открият, вие няма да можете да работите с тези данни без добри инструменти за визуализация.

Източници на данни

Масивът от получени данни е много голям, така че може да се раздели на няколко групи.

Вътрешни фирмени данни

Въпреки че 80% от събраните данни принадлежат към тази група, този източник не винаги се използва. Често това са данни, които на пръв поглед изобщо не са необходими на никого, например регистрационни файлове. Но ако ги погледнете от различен ъгъл, понякога можете да откриете неочаквани модели в тях.

Shareware източници

Това включва данни от социални мрежи, интернет и всичко, което може да бъде достъпно безплатно. Защо е безплатна за споделяне? От една страна, тези данни са достъпни за всички, но ако сте голяма компания, тогава достигането им до размера на абонатна база от десетки хиляди, стотици или милиони клиенти вече не е лесна задача. Следователно на пазара има платени услуги за предоставяне на тези данни.

Платени източници

Това включва компании, които продават данни за пари. Това може да са телекоми, DMP, интернет компании, кредитни бюра и агрегатори. В Русия телекомите не продават данни. Първо, това е икономически неизгодно, и второ, това е забранено от закона. Следователно те продават резултатите от тяхната обработка, например геоаналитични доклади.

Отворени данни

Държавата се съобразява с бизнеса и му дава възможност да използва данните, които събира. Това е развито в по-голяма степен на Запад, но Русия в това отношение също е в крак с времето. Например, има Портал за отворени данни на правителството на Москва, където се публикува информация за различни съоръжения на градската инфраструктура.

За жителите и гостите на Москва данните се представят в таблична и картографска форма, а за разработчиците - в специални машинночетими формати. Докато проектът работи в ограничен режим, той се развива, което означава, че е и източник на данни, които можете да използвате за вашите бизнес задачи.

Проучване

Както вече беше отбелязано, задачата на Big Data е да намери модел. Често изследванията, проведени по света, могат да се превърнат в опорна точка за намиране на конкретен модел - можете да получите конкретен резултат и да се опитате да приложите подобна логика за вашите собствени цели.

Големите данни са област, в която не са приложими всички закони на математиката. Например "1" + "1" не е "2", а много повече, защото чрез смесване на източници на данни ефектът може да бъде значително подобрен.

Примери за продукти

Много хора са запознати с услугата за избор на музика Spotify. Страхотен е, защото не пита потребителите какво е настроението им днес, а по-скоро го изчислява въз основа на източниците, с които разполага. Той винаги знае какво ви трябва сега - джаз или хард рок. Ето какво ключова разлика, което му осигурява фенове и го отличава от другите услуги.

Такива продукти обикновено се наричат сетивни продукти – такива, които усещат своите клиенти.

Технологията Big Data се използва и в автомобилната индустрия. Например Tesla прави това - последният им модел има автопилот. Компанията се стреми да създаде кола, която сама ще отведе пътника там, където трябва. Без Big Data това е невъзможно, защото ако използваме само данните, които получаваме директно, както прави човек, тогава колата няма да може да се подобри.

Когато сами караме кола, ние използваме нашите неврони, за да вземаме решения въз основа на много фактори, които дори не забелязваме. Например, може да не осъзнаваме защо сме решили да не ускоряваме веднага на зелен светофар, но след това се оказва, че решението е било правилно - кола е профучала покрай вас с бясна скорост и сте избегнали инцидент.

Можете също така да дадете пример за използване на Big Data в спорта. През 2002 г. генералният мениджър на бейзболния отбор на Оукланд Атлетикс, Били Бийн, решава да разчупи парадигмата как да набира спортисти - той подбира и обучава играчи "по числа".

Обикновено мениджърите гледат на успеха на играчите, но в в такъв случайвсичко беше различно - за да получи резултати, мениджърът проучи какви комбинации от спортисти са му необходими, като обърна внимание на индивидуалните характеристики. Освен това той избра спортисти, които сами по себе си нямаха голям потенциал, но отборът като цяло се оказа толкова успешен, че спечели двадесет мача подред.

Режисьорът Бенет Милър впоследствие направи филм, посветен на тази история - „Човекът, който промени всичко“ с участието на Брад Пит.

Технологията Big Data е полезна и във финансовия сектор. Нито един човек в света не може самостоятелно и точно да определи дали си струва да даде заем на някого. За да се вземе решение, се извършва скоринг, тоест изгражда се вероятностен модел, от който може да се разбере дали този човек ще върне парите или не. След това точкуването се прилага на всички етапи: можете например да изчислите това в определен моментлицето ще спре да плаща.

Големите данни ви позволяват не само да печелите пари, но и да ги спестявате. По-специално тази технология помогна на германското министерство на труда да намали разходите за обезщетения за безработица с 10 милиарда евро, тъй като след анализ на информацията стана ясно, че 20% от обезщетенията са изплатени незаслужено.

Технологии се използват и в медицината (това е особено характерно за Израел). С помощта на Big Data можете да извършите много по-точен анализ, отколкото може да направи лекар с тридесет години опит.

Всеки лекар, когато поставя диагноза, разчита само на собствения си опит. Когато машината прави това, то идва от опита на хиляди такива лекари и всички съществуващи истории на случаи. Той взема предвид от какъв материал е направена къщата на пациента, в кой район живее жертвата, какъв вид дим има и т.н. Тоест отчита много фактори, които лекарите не отчитат.

Пример за използването на големи данни в здравеопазването е проектът Artemis, който се изпълнява от Детската болница в Торонто. Това Информационна система, който събира и анализира данни за бебета в реално време. Машината ви позволява да анализирате 1260 здравни показателя на всяко дете всяка секунда. Този проект е насочен към прогнозиране на нестабилното състояние на детето и предотвратяване на заболявания при децата.

Големите данни също започват да се използват в Русия: например Yandex има подразделение за големи данни. Компанията, съвместно с AstraZeneca и Руското дружество по клинична онкология RUSSCO, стартира платформата RAY, предназначена за генетици и молекулярни биолози. Проектът ни позволява да подобрим методите за диагностициране на рак и идентифициране на предразположеността към рак. Платформата ще стартира през декември 2016 г.

По едно време чух термина „Големи данни“ от Герман Греф (шеф на Сбербанк). Казват, че сега работят активно по внедряването, защото това ще им помогне да намалят времето, в което работят с всеки клиент.

Вторият път, когато се натъкнах на тази концепция беше в онлайн магазин на клиент, върху който работихме и увеличихме асортимента от няколко хиляди до няколко десетки хиляди артикула.

Третият път видях, че Yandex изисква анализатор на големи данни. Тогава реших да се задълбоча в тази тема и в същото време да напиша статия, която ще разкаже какъв термин вълнува умовете на ТОП мениджърите и интернет пространството.

VVV или VVVVV

Обикновено започвам всяка своя статия с обяснение какъв е този термин. Тази статия няма да бъде изключение.

Това обаче се дължи преди всичко не на желанието да покажа колко съм умен, а на факта, че темата е наистина сложна и изисква внимателно обяснение.

Например, можете да прочетете какво представляват големите данни в Уикипедия, да не разберете нищо и след това да се върнете към тази статия, за да разберете дефиницията и приложимостта за бизнеса. И така, нека започнем с описание и след това с примери за бизнеса.

Големите данни са големи данни. Удивително, нали? Всъщност това се превежда от английски като „големи данни“. Но това определение, може да се каже, е за манекени.

важно. Технологията за големи данни е подход/метод за обработка на повече данни за получаване на нова информация, която е трудна за обработка с помощта на конвенционални методи.

Данните могат да бъдат обработени (структурирани) или разпръснати (т.е. неструктурирани).

Самият термин се появи сравнително наскоро. През 2008 г. научно списание прогнозира, че този подход е необходим за работа с големи количества информация, които нарастват експоненциално.

Така например всяка година информацията в интернет, която трябва да се съхранява и разбира се обработва, се увеличава с 40%. Отново. +40% Нова информация се появява в Интернет всяка година.

Ако отпечатаните документи са ясни и методите за обработката им също са ясни (прехвърлете в електронен изглед, шийте в една папка, номер), тогава какво да правите с информация, която е представена в напълно различни „носители“ и други обеми:

Интернет документи;
блогове и социална медия;
аудио/видео източници;
измервателни уреди;

Има характеристики, които позволяват информацията и данните да бъдат класифицирани като големи данни.

Тоест не всички данни може да са подходящи за анализ. Тези характеристики точно съдържат ключовата концепция за големите данни. Всички те се вписват в три Vs.

Обем (от английски том). Данните се измерват по отношение на физическия обем на „документа“, който трябва да се анализира;
Скорост (от английската скорост). Данните не стоят неподвижни в своето развитие, а непрекъснато нарастват, поради което е необходима бърза обработка за получаване на резултати;
Вариете (от английското разнообразие). Данните може да не са в същия формат. Тоест те могат да бъдат разпръснати, структурирани или частично структурирани.

Въпреки това, от време на време към VVV се добавя четвърто V (достоверност) и дори пето V (в някои случаи това е жизнеспособност, в други е стойност).

Някъде дори видях 7V, което характеризира данни, свързани с големи данни. Но според мен това е от серия (където периодично се добавят P, въпреки че първоначалните 4 са достатъчни за разбиране).

ВЕЧЕ СМЕ ПОВЕЧЕ ОТ 29 000 души.
ВКЛЮЧИ

Кому е нужно това?

Възниква логичен въпрос: как можете да използвате информацията (ако изобщо големите данни са стотици и хиляди терабайти)? Дори не това.

Ето информацията. Тогава защо беше измислена голяма дата? Каква е ползата от големи данни в маркетинга и бизнеса?

Конвенционалните бази данни не могат да съхраняват и обработват (в момента дори не говоря за анализи, а просто за съхранение и обработка) на огромни количества информация.
Големите данни решават този основен проблем. Успешно съхранява и управлява големи обеми информация;
Структурира информация, идваща от различни източници (видео, изображения, аудио и текстови документи), в една единствена, разбираема и смилаема форма;
Генериране на анализи и създаване на точни прогнози на базата на структурирана и обработена информация.

Сложно е. Казано по-просто, всеки търговец, който разбира, че ако изучавате голямо количество информация (за вас, вашата компания, вашите конкуренти, вашата индустрия), можете да получите много прилични резултати:

Пълно разбиране на вашата компания и вашия бизнес от страна на числата;
Проучете вашите конкуренти. А това от своя страна ще даде възможност да се изпревари, като ги доминира;
Да знам нова информацияза вашите клиенти.

И точно защото технологията за големи данни дава следните резултати, всички се втурват с нея.

Те се опитват да включат този бизнес в своята компания, за да увеличат продажбите и да намалят разходите. И ако конкретно, тогава:

Увеличаване на кръстосаните продажби и допълнителни продажби поради по-добро познаване на предпочитанията на клиентите;
Търсене на популярни продукти и причини, поради които хората ги купуват (и обратното);
Подобряване на продукт или услуга;
Подобряване нивото на обслужване;
Повишаване на лоялността и фокуса върху клиента;
Предотвратяване на измами (по-актуално за банковия сектор);
Намаляване на ненужните разходи.

Най-често срещаният пример, който се дава във всички източници, е, разбира се, компанията Apple, която събира данни за своите потребители (телефон, часовник, компютър).

Именно поради наличието на екосистема корпорацията знае толкова много за своите потребители и впоследствие използва това, за да реализира печалба.

Можете да прочетете тези и други примери за използване във всяка друга статия освен тази.

Да отидем в бъдещето

Ще ви разкажа за друг проект. Или по-скоро за човек, който гради бъдещето, използвайки решения за големи данни.

Това е Илон Мъск и неговата компания Tesla. Основната му мечта е да направи автомобилите автономни, тоест сядаш зад волана, включваш автопилота от Москва до Владивосток и... заспиваш, защото изобщо не е нужно да караш колата, защото тя ще направи всичко само по себе си.

Ще изглежда фантастично? Но не! Просто Илон постъпи много по-мъдро от Google, който контролира колите с помощта на десетки сателити. И той тръгна в другата посока:

Всяка продадена кола е оборудвана с компютър, който събира цялата информация.
Всичко - това означава всичко. За шофьора, неговия стил на шофиране, пътищата около него, движението на други автомобили. Обемът на такива данни достига 20-30 GB на час;
По-нататък тази информация на сателитни комуникациипрехвърлен към централен компютъркой обработва тези данни;
Въз основа на обработени големи данни този компютър, се изгражда модел на безпилотен автомобил.

Между другото, ако Google се справя доста зле и колите им постоянно катастрофират, то Мъск, поради факта, че работи с големи данни, се справя много по-добре, защото тестовите модели показват много добри резултати.

Но... Всичко е въпрос на икономика. Какво сме всички за печалбата, освен за печалбата? Много неща, които една голяма среща може да реши, са напълно несвързани с печалбите и парите.

Статистиката на Google, базирана на големи данни, показва интересно нещо.

Преди лекарите да обявят началото на епидемия от заболяване в определен регион, броят на хората в този регион нараства значително. заявки за търсенеотносно лечението на това заболяване.

По този начин правилното проучване на данните и техният анализ могат да формират прогнози и да предскажат началото на епидемия (и съответно нейното предотвратяване) много по-бързо от заключенията на официалните органи и техните действия.

Приложение в Русия

Русия обаче, както винаги, малко се „бави“. Така че самото определение за големи данни в Русия се появи преди не повече от 5 години (сега говоря за обикновени компании).

И това въпреки факта, че това е един от най-бързо развиващите се пазари в света (наркотиците и оръжията нервно димят встрани), защото всяка година пазарът на софтуер за събиране и анализ на големи данни нараства с 32%.

За да характеризирам пазара на големи данни в Русия, си спомням един стар виц. Голямата среща е като да правиш секс преди да навършиш 18.

Всички говорят за това, има много шум около него и малко реални действия и всички се срамуват да признаят, че самите те не го правят. Наистина има много шум около това, но малко реални действия.

Въпреки че известната изследователска компания Gartner вече обяви през 2015 г., че големите данни вече не са нарастваща тенденция (като изкуствения интелект, между другото), а напълно независими инструменти за анализ и развитие на напреднали технологии.

Най-активните ниши, в които се използват големи данни в Русия, са банките/застраховането (не напразно започнах статията с ръководителя на Сбербанк), телекомуникационният сектор, търговията на дребно, недвижимите имоти и... публичният сектор.

Като пример ще ви разкажа по-подробно за няколко икономически сектора, които използват алгоритми за големи данни.

банки

Да започнем с банките и информацията, която събират за нас и нашите действия. Като пример взех ТОП 5 руски банки, които активно инвестират в големи данни:

Сбербанк;
Газпромбанк;
ВТБ 24;
Алфа Банк;
Tinkoff Bank.

Особено приятно е да се види Alfa Bank сред руските лидери. Най-малкото е хубаво да знаете, че банката, на която сте официален партньор, разбира необходимостта от въвеждане на нови маркетингови инструменти в своята компания.

Но искам да покажа примери за използване и успешно внедряване на големи данни в банка, която харесвам заради нетрадиционния поглед и действия на нейния основател.

Говоря за Tinkoff Bank. Тяхното основно предизвикателство беше да разработят система за анализ на големи данни в реално време поради нарастващата им клиентска база.

Резултати: времето на вътрешните процеси е намалено най-малко 10 пъти, а при някои - над 100 пъти.

Е, малко разсейване. Знаете ли защо започнах да говоря за необичайните лудории и действия на Олег Тинков?

Просто според мен именно те му помогнаха да се превърне от посредствен бизнесмен, каквито има хиляди в Русия, в един от най-известните и разпознаваеми предприемачи. За да потвърдите това, вижте този необичаен и интересно видео:

Недвижим имот

В недвижимите имоти всичко е много по-сложно. И точно това е примерът, който искам да ви дам, за да разберете големите срещи в обикновения бизнес. Първоначални данни:

Голям обем текстова документация;
Отворени източници (частни спътници, предаващи данни за земните промени);
Огромно количество неконтролирана информация в интернет;
Постоянни промени в източниците и данните.

И въз основа на това е необходимо да се подготви и оцени стойността на парцел, например близо до уралско село. Това ще отнеме на професионалист една седмица.

Руското дружество на оценителите & ROSEKO, което всъщност внедри анализ на големи данни с помощта на софтуер, ще отнеме не повече от 30 минути спокойна работа. Сравнете, седмица и 30 минути. Огромна разлика.

Е, за лека закуска

Разбира се, огромни количества информация не могат да се съхраняват и обработват на прости твърди дискове.

А софтуер, който структурира и анализира данни - това по принцип е интелектуална собственост и всеки път авторска разработка. Има обаче инструменти, на базата на които се създава цялата тази красота:

Hadoop & MapReduce;
NoSQL бази данни;
Клас инструменти за откриване на данни.

Честно казано, няма да мога да ви обясня ясно как се различават едно от друго, тъй като запознаването и работата с тези неща се преподава във физико-математическите институти.

Защо тогава говорих за това, ако не можех да го обясня? Спомняте ли си във всички филми, обирджиите влизат във всяка банка и виждат огромен брой всякакви хардуерни части, свързани с кабели?

Същото е и в голямата среща. Ето например един модел, който в момента е един от лидерите на пазара.

Инструмент за големи срещи

Цената на максималната конфигурация достига 27 милиона рубли на стелаж. Това, разбира се, е луксозната версия. Искам предварително да изпробвате създаването на големи данни във вашия бизнес.

Накратко за основното

Може да попитате защо вие, малък и среден бизнес, трябва да работите с големи данни?

На това ще ви отговоря с цитат от един човек: „В близко бъдеще клиентите ще търсят компании, които по-добре разбират тяхното поведение и навици и най-добре им подхождат.“

Но нека си признаем. За да внедрите големи данни в малък бизнес, трябва да имате не само големи бюджети за разработка и внедряване на софтуер, но и за поддръжка на специалисти, поне като анализатор на големи данни и системен администратор.

И сега мълча за това, че трябва да имате такива данни за обработка.

ДОБРЕ. Темата е почти неприложима за малкия бизнес. Но това не означава, че трябва да забравите всичко, което прочетохте по-горе.

Просто изучавайте не вашите данни, а резултатите от анализа на данни от известни чуждестранни и руски компании.

Например веригата за търговия на дребно Target, използвайки анализ на големи данни, установи, че бременните жени преди втория триместър на бременността (от 1-ва до 12-та седмица на бременността) активно купуват продукти с аромат на ООН.

Използвайки тези данни, те им изпращат купони с ограничени във времето отстъпки за продукти без аромат.

Ами ако сте просто много малко кафене, например? Да, много просто. Използвайте приложение за лоялност.

И след известно време и благодарение на натрупаната информация ще можете не само да предлагате на клиентите ястия, които отговарят на техните нужди, но и да видите най-непродадените ястия с най-висок марж само с няколко кликвания на мишката.

Оттук и заключението. Малко вероятно е малък бизнес да внедрява големи данни, но е наложително да се използват резултатите и разработките на други компании.

Терминът „Големи данни“ може да е разпознаваем днес, но все още има доста объркване около него относно това какво всъщност означава. В интерес на истината концепцията непрекъснато се развива и се предефинира, тъй като остава движещата сила зад много продължаващи вълни на цифрова трансформация, включително изкуствен интелект, наука за данни и Интернет на нещата. Но какво представлява технологията Big-Data и как тя променя нашия свят? Нека се опитаме да разберем същността на технологията Big Data и какво означава тя с прости думи.

Всичко започна с експлозия в количеството данни, които сме създали от зората на дигиталната ера. Това до голяма степен се дължи на развитието на компютрите, интернет и технологиите, които могат да „грабят“ данни от света около нас. Данните сами по себе си не са ново изобретение. Дори преди ерата на компютрите и базите данни ние използвахме хартиени записи на транзакции, записи на клиенти и архивни файлове, които представляват данни. Компютрите, особено електронните таблици и базите данни, ни улесниха да съхраняваме и организираме данни в голям мащаб. Изведнъж информацията беше достъпна само с едно кликване.

Въпреки това се справихме дълги разстоянияот оригиналните таблици и бази данни. Днес на всеки два дни създаваме толкова данни, колкото сме получили от самото начало до 2000 година. Точно така, на всеки два дни. И количеството данни, които създаваме, продължава да расте експоненциално; до 2020 г. количеството налична цифрова информация ще се увеличи от приблизително 5 зетабайта на 20 зетабайта.

В днешно време почти всяко действие, което предприемаме, оставя своя отпечатък. Ние генерираме данни всеки път, когато влизаме онлайн, когато носим смартфоните си, оборудвани с търсачка, когато говорим с приятелите си чрез социални мрежи или чатове и т.н. Освен това количеството машинно генерирани данни също нараства бързо. Данните се генерират и споделят, когато нашите умни домашни устройства комуникират помежду си или със своите домашни сървъри. Индустриалното оборудване в заводите и фабриките все повече се оборудва със сензори, които натрупват и предават данни.

Терминът „Големи данни“ се отнася до събирането на всички тези данни и способността ни да ги използваме в наша полза в широк обхватобласти, включително бизнес.

Как работи технологията Big-Data?

Големите данни работят на принципа: колкото повече знаете за конкретен предмет или явление, толкова по-надеждно можете да постигнете ново разбиране и да предвидите какво ще се случи в бъдеще. По време на сравнението Повече ▼точки от данни, възникват връзки, които преди са били скрити, и тези връзки ни позволяват да се учим и да вземаме по-добри решения. Най-често това се прави чрез процес, който включва изграждане на модели въз основа на данните, които можем да съберем, и след това стартиране на симулации, които настройват стойностите на точките от данни всеки път и проследяват как те влияят на нашите резултати. Този процес е автоматизиран - модерни технологиианализаторите ще проведат милиони от тези симулации, променяйки всяка възможна променлива, докато намерят модел или идея, която решава проблема, върху който работят.

Бил Гейтс виси над хартиеното съдържание на един компактдиск

Доскоро данните бяха ограничени до електронни таблици или бази данни - и всичко беше много организирано и спретнато. Всичко, което не можеше лесно да се организира в редове и колони, се смяташе за твърде сложно за работа и беше игнорирано. Напредъкът в съхранението и анализа обаче означава, че можем да улавяме, съхраняваме и обработваме големи количества данни различни видове. В резултат на това „данните“ днес могат да означават всичко – от бази данни до снимки, видеоклипове, звукозаписи, писмени текстове и сензорни данни.

За да осмислят всички тези объркани данни, проектите, базирани на големи данни, често използват авангардни анализи, използващи изкуствен интелекти компютърно обучение. Като научим изчислителните машини да определят какви са конкретните данни - чрез разпознаване на модели или обработка на естествен език, например - можем да ги научим да идентифицират модели много по-бързо и по-надеждно, отколкото ние самите.

Как се използват големи данни?

Този непрекъснато нарастващ поток от сензорни данни, текст, глас, снимки и видео данни означава, че сега можем да използваме данни по начини, които биха били невъобразими само преди няколко години. Това носи революционни промени в света на бизнеса в почти всяка индустрия. Днес компаниите могат да предвидят с невероятна точност кои конкретни категории клиенти ще искат да направят покупка и кога. Големите данни също помагат на компаниите да извършват своите дейности много по-ефективно.

Дори извън бизнеса, проектите, свързани с Big Data, вече помагат да променим нашия свят по различни начини:

Подобряване на здравеопазването – Медицината, управлявана от данни, има способността да анализира огромно количество медицинска информация и изображения в модели, които могат да помогнат за откриване на заболяване на ранен етап и разработване на нови лекарства.
Прогнозиране и реагиране при природни и причинени от човека бедствия. Данните от сензори могат да бъдат анализирани, за да се предвиди къде има вероятност да се случат земетресения, а моделите на човешкото поведение предоставят улики, които помагат на организациите да предоставят помощ на оцелелите. Технологията Big Data също се използва за проследяване и защита на потока от бежанци от военни зони по света.
Предотвратяване на престъпността. Полицейските сили все повече използват стратегии, базирани на данни, които включват тяхната собствена разузнавателна информация и информация от свободен достъпза по-ефективно използване на ресурсите и предприемане на възпиращи мерки, когато е необходимо.

Най-добрите книги за технологията Big-Data

Всички лъжат. Търсачките, Big Data и Интернет знаят всичко за вас.
ГОЛЯМА ИНФОРМАЦИЯ. Всички технологии в една книга.
Индустрия на щастието. Как големите данни и новите технологии помагат да се добави емоция към продуктите и услугите.
Революция в аналитиката. Как да подобрите бизнеса си в ерата на Big Data с помощта на оперативен анализ.

Проблеми с Big Data

Големите данни ни дават безпрецедентни идеи и възможности, но също така повдигат проблеми и въпроси, които трябва да бъдат разгледани:

Поверителност на данните – Големите данни, които генерираме днес, съдържат много информация за нашия личен живот, на чиято поверителност имаме пълно право. Все повече и повече от нас се иска да балансираме количеството лични данни, които разкриваме, с удобството, което предлагат базираните на големи данни приложения и услуги.
Сигурност на данните - Дори и да решим, че сме доволни от това, че някой разполага с нашите данни за конкретна цел, можем ли да му се доверим, че ще пази данните ни в безопасност и сигурност?
Дискриминация на данни - след като цялата информация е известна, ще бъде ли приемливо да се дискриминират хора въз основа на данни от личния им живот? Вече използваме кредитни рейтинги, за да решим кой може да вземе пари назаем, а застраховката също е силно управлявана от данни. Трябва да очакваме да бъдем анализирани и оценени по-подробно, но трябва да внимаваме това да не прави живота по-труден за тези хора, които имат по-малко ресурси и ограничен достъпкъм информация.

Изпълнението на тези задачи е важен компонент на Big Data и трябва да бъде адресирано от организации, които искат да използват такива данни. Неспазването на това може да направи бизнеса уязвим не само по отношение на неговата репутация, но също така юридически и финансово.

С поглед към бъдещето

Данните променят нашия свят и живота ни с безпрецедентна скорост. Ако Big Data са способни на всичко това днес, само си представете на какво ще бъдат способни утре. Количеството данни, с които разполагаме, само ще се увеличава, а технологията за анализ ще става още по-напреднала.

За бизнеса способността за прилагане на Big Data ще става все по-важна през следващите години. Само онези компании, които гледат на данните като на стратегически актив, ще оцелеят и ще процъфтяват. Тези, които пренебрегват тази революция, рискуват да бъдат изоставени.

Обикновено, когато говорят за сериозна аналитична обработка, особено ако използват термина Data Mining, те имат предвид, че има огромно количество данни. IN общ случайТова не е вярно, защото доста често трябва да обработвате малки набори от данни и намирането на модели в тях не е по-лесно, отколкото в стотици милиони записи. Въпреки че няма съмнение, че необходимостта от търсене на модели в големи бази данни усложнява и без това нетривиалната задача на анализа.

Тази ситуация е особено типична за бизнеса, свързан с търговия на дребно, телекомуникации, банки, интернет. Техните бази данни натрупват огромно количество информация, свързана с транзакции: чекове, плащания, обаждания, регистрационни файлове и др.

Не съществува универсални методианализ или алгоритми, подходящи за всякакви случаи и всякакво количество информация. Методите за анализ на данни се различават значително по производителност, качество на резултатите, лекота на използване и изисквания към данните. Оптимизацията може да се извърши на различни нива: оборудване, бази данни, аналитична платформа, подготовка на изходни данни, специализирани алгоритми. Анализът на голям обем данни изисква специален подход, тъй като... Технически е трудно да се обработват само с „груба сила“, т.е. използване на по-мощно оборудване.

Разбира се, можете да увеличите скоростта на обработка на данни поради по-ефективно оборудване, особено след като използват модерни сървъри и работни станции многоядрени процесори, RAMзначителен размер и мощен дискови масиви. Има обаче много други методи за обработка големи обемиданни, които позволяват повишена мащабируемост и не изискват безкрайни хардуерни надстройки.

Възможности на СУБД

Съвременните бази данни включват различни механизми, чието използване значително ще увеличи скоростта на аналитичната обработка:

Изчисление на предварителни данни. Информацията, която най-често се използва за анализ, може да бъде изчислена предварително (например през нощта) и съхранена във форма, подготвена за обработка на сървъра на базата данни под формата на многомерни кубове, материализирани изгледи и специални таблици.
Кеширане на таблици в RAM. Данни, които заемат малко място, но често са достъпни по време на процеса на анализ, например директории, могат да бъдат кеширани в RAM с помощта на инструменти за бази данни. Това намалява многократно извикванията към по-бавната дискова подсистема.
Разделяне на таблици на дялове и таблични пространства. Можете да поставите данни, индекси и помощни таблици на отделни дискове. Това ще позволи на СУБД да чете и записва информация на дискове паралелно. Освен това таблиците могат да бъдат разделени на дялове, така че при достъп до данни да има минимален брой дискови операции. Например, ако най-често анализираме данни за последния месец, тогава можем логично да използваме една таблица с исторически данни, но физически да я разделим на няколко дяла, така че при достъп до месечните данни да се чете малък дял и да няма достъпи към всички исторически данни.

Това е само част от възможностите, които съвременните СУБД предоставят. Можете да увеличите скоростта на извличане на информация от база данни по дузина други начини: рационално индексиране, изграждане на планове за заявки, паралелна обработка SQL заявки, използването на клъстери, подготовка на анализирани данни с помощта на съхранени процедури и тригери от страна на сървъра на базата данни и др. Нещо повече, много от тези механизми могат да се използват, като се използват не само „тежки“ СУБД, но и безплатни бази данни.

Комбиниране на модели

Възможностите за увеличаване на скоростта не се ограничават до оптимизиране на работата на базата данни, много може да се направи чрез комбиниране различни модели. Известно е, че скоростта на обработка е значително свързана със сложността на използвания математически апарат. Колкото по-опростени механизми за анализ се използват, толкова по-бързо се анализират данните.

Възможно е да се конструира сценарий за обработка на данни по такъв начин, че данните да бъдат „прекарани“ през сито от модели. Тук се прилага проста идея: не губете време да обработвате това, което не е необходимо да анализирате.

Първо се използват най-простите алгоритми. Част от данните, които могат да бъдат обработени с такива алгоритми и които е безсмислено да се обработват с по-сложни методи, се анализират и изключват от по-нататъшна обработка. Останалите данни се прехвърлят към следващия етап на обработка, където се използват по-сложни алгоритми и така нататък по веригата. В последния възел на скрипта за обработка се използват най-сложните алгоритми, но обемът на анализираните данни е многократно по-малък от първоначалната извадка. Като резултат общо временеобходимото за обработка на всички данни е намалено с порядъци.

Нека дадем практически пример за използването на този подход. При решаването на проблема с прогнозирането на търсенето първоначално се препоръчва да се извърши XYZ анализ, който ви позволява да определите колко стабилно е търсенето на различни стоки. Продуктите от група X се продават доста последователно, така че прилагането на алгоритми за прогнозиране към тях ни позволява да получим висококачествена прогноза. Продуктите от група Y се продават по-малко последователно, може би си струва да се изградят модели за тях не за всяка статия, а за групата, това ви позволява да изгладите времевите редове и да осигурите работата на алгоритъма за прогнозиране. Продуктите от група Z се продават хаотично, така че изобщо не е необходимо да се изграждат прогнозни модели за тях; необходимостта от тях трябва да се изчислява въз основа на прости формули, например средни месечни продажби.

Според статистиката около 70% от асортимента се състои от продукти от група Z. Други около 25% са продукти от група Y, а само около 5% са продукти от група X. Така конструирането и приложението на сложни модели е актуално за максимум 30% от продуктите. Следователно използването на описания по-горе подход ще намали времето за анализ и прогнозиране 5-10 пъти.

Паралелна обработка

Друга ефективна стратегия за обработка на големи количества данни е да се разделят данните на сегменти и да се изградят модели за всеки сегмент поотделно, след което да се комбинират резултатите. Най-често в големи обеми от данни могат да бъдат идентифицирани няколко подмножества, които се различават едно от друго. Това могат да бъдат например групи от клиенти, продукти, които се държат по подобен начин и за които е препоръчително да се изгради един модел.

В този случай, вместо да изграждате един сложен модел за всеки, можете да изградите няколко прости за всеки сегмент. Този подход ви позволява да увеличите скоростта на анализа и да намалите изискванията за памет чрез обработка на по-малки количества данни с едно преминаване. Освен това в този случай аналитичната обработка може да бъде успоредна, което също има положителен ефект върху изразходваното време. Освен това различни анализатори могат да изграждат модели за всеки сегмент.

В допълнение към увеличаването на скоростта, този подход има още едно важно предимство - няколко относително прости модела поотделно са по-лесни за създаване и поддръжка от един голям. Можете да изпълнявате модели на етапи, като по този начин получавате първите резултати за възможно най-кратко време.

Представителни проби

Ако са налични големи обеми данни, не цялата информация може да се използва за изграждане на модел, а определено подмножество - представителна извадка. Правилно подготвената представителна проба съдържа необходимата информация за изграждане на висококачествен модел.

Процесът на аналитична обработка е разделен на 2 части: изграждане на модел и прилагане на конструирания модел към нови данни. Изграждането на сложен модел е ресурсоемък процес. В зависимост от използвания алгоритъм данните се кешират, сканират се хиляди пъти, изчисляват се много помощни параметри и т.н. Прилагането на вече изграден модел към нови данни изисква десетки и стотици пъти по-малко ресурси. Много често това се свежда до изчисляване на няколко прости функции.

По този начин, ако моделът е изграден върху относително малки набори и впоследствие приложен към целия набор от данни, тогава времето за получаване на резултата ще бъде намалено с порядъци в сравнение с опит за пълна обработка на целия съществуващ набор от данни.

За получаване на представителни проби има специални методи, например вземане на проби. Използването им дава възможност да се увеличи скоростта на аналитичната обработка, без да се жертва качеството на анализа.

Резюме

Описаните подходи са само малка част от методите, които ви позволяват да анализирате огромни количества данни. Има и други методи, например използването на специални мащабируеми алгоритми, йерархични модели, обучение на прозорци и др.

Анализ огромни базиУправлението на данни е нетривиална задача, която в повечето случаи не може да бъде разрешена директно, но съвременните бази данни и аналитични платформи предлагат много методи за решаване на този проблем. Когато се използват разумно, системите са способни да обработват терабайти данни с приемлива скорост.