complete guide big data analytics
Това е изчерпателно ръководство за Big Data Analytics с неговите случаи на употреба, архитектура, примери и сравнение с Big Data и Data Science:
Анализът на големи данни придоби популярност, тъй като корпорации като Facebook, Google и Amazon създадоха свои собствени парадигми за разпределена обработка и анализ на данни, за да разберат склонността на своите клиенти към извличане на стойност от големи данни.
В този урок ние обясняваме анализа на големите данни и го сравняваме с Big Data и Data Science. Ще разгледаме необходимите атрибути, които бизнесът трябва да има в стратегията си за големи данни и в методологията, която работи. Ще споменем и най-новите тенденции и някои случаи на анализ на данните.
Както е показано на изображението по-долу, Анализ изисква човек да използва ИТ умения, бизнес умения и наука за данни. Анализът на големи данни е в центъра на използването на стойности от големи данни и помага при извличането на консумативи за организация.
[изображение източник ]
Какво ще научите:
- Какво е Анализ на големи данни
- Заключение
Какво е Анализ на големи данни
Big Data Analytics се занимава с използването на колекция от статистически техники, инструменти и процедури за анализ на Big Data.
Препоръчва се Четене => Въведение в големите данни
Анализът помага за извличането на ценни модели и значими прозрения от големи данни в подкрепа на вземането на решения, ръководени от данни. Именно поради появата на нови източници на данни като социални медии и IoT данни, големите данни и анализи станаха популярни.
Тази тенденция поражда област от практики и изследвания, наречена „наука за данни“, която обхваща техниките, инструментите, технологиите и процесите за извличане на данни, почистване, моделиране и визуализация.
Big Data Vs Big Data Analytics Vs Data Science
ДА СЕ сравнение между големи данни, наука за данни и анализ на големи данни може да се разбере от таблицата по-долу.
Основа | Голяма информация | Наука за данните | Анализ на големи данни |
---|---|---|---|
Инструменти и технологии | Екосистема Hadoop, CDH, Cassandra, MongoDB, Java, Python, Talend, SQL, Rapid Miner | R, Python, Jupyter, Data Science Workbench, IBM SPSS, Tableau | Spark, Storm, Knime, Data Wrapper, Lumify, HPCC, Qubole, Microsoft HDInsight |
Работни роли и умения | Поддръжка на инфраструктура за съхранение, обработка на данни и знания за Hadoop и нейната интеграция с други инструменти. | Преобразуване на данни, Инженеринг на данни, Пренасочване на данни, Моделиране на данни и Визуализация | BI и Advanced Analytics, статистика, моделиране на данни и машинно обучение, математически умения, комуникация, консултации. |
Обозначения | Архитект на големи данни Разработчик на големи данни Инженер за големи данни | Data Scientist Инженер по машинно обучение | Анализатор на големи данни Бизнес анализатор Инженер по бизнес разузнаване Специалист по бизнес анализи Програмист за визуализация на данни Мениджър на Google Анализ |
Приблизително Средна годишна заплата в щатски долари | 100 000 | 90 000 | 70 000 |
Предложено четене = >> Наука за данни срещу компютърни науки
Какво трябва да има всяка стратегия за анализ на големи данни
Добре дефинираната, интегрирана и всеобхватна стратегия допринася и подпомага вземането на ценни решения, основани на данни в организацията. В този раздел изброихме най-важните стъпки, които трябва да бъдат взети предвид при дефинирането на стратегия за анализ на големи данни.
Стъпка 1: Оценка
Оценката, която вече е съобразена с бизнес целите, изисква включване на ключови заинтересовани страни, създаване на екип от членове с правилния набор от умения, оценка на политиките, хората, процесите и активите на технологиите и данните. Ако е необходимо, в този процес може да се включат клиенти на оценените.
Стъпка 2: Приоритизиране
След оценката трябва да се извлекат случаи на употреба, да се даде приоритет на тях, като се използват прогнозни анализи за големи данни, предписателни анализи и когнитивни анализи. Можете също така да използвате инструмент като матрицата за приоритизиране и допълнително да филтрирате случаите на употреба с помощта на обратна връзка и принос от ключови заинтересовани страни.
Стъпка 3: Пътна карта
В тази стъпка се изисква да създадете времева карта и да я публикувате за всички. Пътната карта трябва да включва всички подробности относно сложността, средствата, присъщите ползи от случаите на използване и картографираните проекти.
Стъпка 4: Управление на промените
Внедряването на управление на промените изисква човек да управлява наличността на данните, целостта, сигурността и използваемостта. Ефективна програма за управление на промените, използваща всяко съществуващо управление на данни, стимулира дейностите и членовете въз основа на непрекъснат мониторинг.
Стъпка 5: Десен комплект умения
Идентифицирането на правилния набор от умения е от решаващо значение за успеха на организацията на фона на настоящите тенденции в бранша. Следователно, човек трябва да следва правилните лидери и да въведе образователни програми за обучение на критични заинтересовани страни.
Стъпка 6: Надеждност, мащабируемост и сигурност
Правилният подход и ефективната стратегия за анализ на големи данни правят процеса на анализ надежден, с ефективно използване на интерпретируеми модели, включващи принципите на науката за данните. Стратегията за анализ на големи данни трябва да включва и аспекти на сигурността от самото начало за стабилна и тясно интегрирана тръба за анализ.
Конвейер за данни и процес за анализ на данни
При планирането на конвейера за анализ на данни има три основни аспекта, които човек трябва да вземе предвид. Те са както следва:
- Вход: Формат на данните и избора на технология за обработка, тя се основава на същността на данните, т.е. дали данните са времеви редове и качество.
- Изход: Избор на конектори , отчети и визуализация зависи от техническата експертиза на крайните потребители и техните изисквания за потребление на данни.
- Сила на звука: Решения за мащабиране се планират въз основа на обема данни, за да се избегне претоварване на системата за обработка на големи данни.
Сега нека обсъдим един типичен процес и етапите за конвейер за анализ на големи данни.
Етап 1: Поглъщане на данни
Поглъщането на данни е първата и най-значима стъпка в конвейера за данни. Той разглежда три аспекта на данните.
- Източник на данни - Важно е по отношение на избора на архитектурата на тръбопровода за големи данни.
- Структура на данните - Сериализацията е ключът към поддържането на хомогенна структура по целия тръбопровод.
- Чистота на данните - Анализът е толкова добър, колкото данните, без проблеми като липсващи стойности и отклонения и т.н.
Етап 2: ETL / Складиране
Следващият важен модул са инструментите за съхранение на данни за извършване на ETL (Extract Transform Load). Съхранението на данни в подходящ център за данни зависи от,
- Хардуер
- Управленски опит
- Бюджет
[изображение източник ]
Изпробвани времена инструменти за ETL / Складиране в центрове за данни са:
- Apache Hadoop
- Apache Hive
- Apache паркет
- Presto Query engine
Облачните компании като Google, AWS, Microsoft Azure предоставят тези инструменти на заплащане на база и спестяват първоначални капиталови разходи.
Етап 3: Анализ и визуализация
Като се има предвид ограничението на Hadoop за бързо заявяване, трябва да се използват платформи за анализ и инструменти, които позволяват бързо и ad-hoc заявка с необходимата визуализация на резултатите.
>> Препоръчително четене: Инструменти за големи данни
Етап 4: Мониторинг
След създаване на инфраструктура за поглъщане, съхранение и анализ с инструменти за визуализация, следващата стъпка е да разполагате с инструменти за мониторинг на ИТ и данни. Те включват:
- Използване на CPU или GPU
- Потребление на памет и ресурси
- Мрежи
Някои инструменти, които си струва да се обмислят са:
- Куче за данни
- Графана
Инструментите за мониторинг са незаменими в тръбопровода за анализ на големи данни и помагат да се наблюдава качеството и целостта на конвейера.
Архитектура на Big Data Analytics
Диаграмата на архитектурата по-долу показва как съвременните технологии използват както неструктурирани, така и структурирани източници на данни за обработка на Hadoop & Map-намаляване, аналитични системи в паметта и анализи в реално време, за да донесат комбинирани резултати за операции в реално време и вземане на решения.
[изображение източник ]
Текущи тенденции в анализа на данни
В този раздел изброихме основните аспекти, които да търсим, когато прилагаме или следваме тенденциите на анализа на големи данни в индустрията.
# 1) Източници на големи данни
Има предимно три източника на големи данни. Те са включени по-долу:
- Социални данни: Данни, генерирани поради използването на социални медии. Тези данни помагат за разбирането на чувства и поведение на клиентите и може да бъде полезен в маркетинговия анализ.
- Данни за машината: Тези данни се събират от промишлено оборудване и приложения, използващи IoT сензори. Помага за разбирането хора поведение и дава информация за процеси .
- Транзакционни данни: Той се генерира в резултат на офлайн и онлайн дейности на потребителите по отношение на платежни нареждания, фактури, разписки и др. Повечето от този вид данни се нуждаят предварителна обработка и почистване преди да може да се използва за анализ.
# 2) SQL / NoSQL съхранение на данни
В сравнение с традиционните бази данни или RDBMS, NoSQL бази данни се оказват по-добри за задачи, необходими за анализ на големи данни.
Базите данни NoSQL по своята същност могат да се справят доста добре с неструктурирани данни и не се ограничават до скъпи модификации на схемата, вертикално мащабиране и смущения в свойствата на ACID.
# 3) Предсказуем анализ
Predictive Analytics предлага персонализирана статистика, която води организациите да генерират нови клиентски отговори или покупки и възможности за кръстосани продажби. Организациите използват прогностичен анализ, за да правят прогнози за отделни елементи на гранулирани нива, за да предскажат бъдещи резултати и да предотвратят потенциални проблеми. Това допълнително се комбинира с исторически данни и се превръща в предписващ анализ.
Някои области, в които анализът за прогнозиране на големи данни се използва успешно, са бизнесът, защитата на децата, системите за подпомагане на клинични решения, прогнозиране на портфолио, прогнози на икономическо ниво и поемане.
# 4) Дълбоко обучение
Големите данни са огромни за конвенционалните изчисления. Оказва се, че традиционните техники за машинно обучение на анализа на данните се изравняват с увеличаването на разнообразието и обема на данните.
Анализът се сблъсква с предизвикателства по отношение на вариациите на формата, силно разпределените входни източници, небалансираните входни данни и бързо движещите се поточни данни, а алгоритмите за дълбоко обучение доста ефективно се справят с такива предизвикателства.
Дълбокото обучение намери ефективното си използване при семантично индексиране, провеждане на дискриминационни задачи, семантично изображение и видеомаркиране, социално насочване, а също и в йерархични подходи на многостепенно обучение в областите на разпознаване на обекти, маркиране на данни, извличане на информация и естествен език обработка.
# 5) Езера на данни
Съхраняването на различни набори от данни в различни системи и комбинирането им за анализ с традиционните подходи за управление на данни се оказват скъпи и са почти невъзможни. Поради това организациите създават езера на данни, които съхраняват данни в техния суров, естествен формат за анализи, които могат да бъдат използвани.
Изображението по-долу показва пример за езеро с данни в архитектурата за големи данни.
[изображение източник ]
Анализи на големи данни
По-долу сме изброили някои широко разпространени случаи на употреба:
# 1) Анализ на клиентите
Анализът на големи данни е полезен за различни цели, като например микромаркетинг, индивидуален маркетинг, по-фина сегментация и масово персонализиране за клиентите на даден бизнес. Бизнесът може да създаде стратегии за персонализиране на своите продукти и услуги в съответствие със склонността на клиентите да продават или кръстосано продават подобна или различна гама от продукти и услуги.
# 2) Анализ на операциите
Оперативният анализ помага за подобряване на цялостното вземане на решения и бизнес резултати, като използва съществуващите данни и ги обогатява с данните за машината и IoT.
Например, Анализът на големи данни в здравеопазването даде възможност да се изправим пред предизвикателства и нови възможности, свързани с оптимизиране на разходите за здравеопазване, подобряване на мониторинга на клиничните изпитвания, прогнозиране и планиране на отговорите на епидемии от заболявания като COVID-19.
# 3) Предотвратяване на измами
Анализът на големи данни се вижда с потенциал да донесе огромна полза, като помага да се предвидят и намалят опитите за измами, главно във финансовия и застрахователния сектор.
Например, Застрахователните компании събират в реално време данни за демографията, печалбите, медицинските искове, разходите за адвокати, времето, гласовите записи на клиент и бележките в кол центъра. Конкретни подробности в реално време помагат за извличането на прогнозни модели, като комбинират информацията, спомената по-горе, с исторически данни, за да идентифицират спекулираните измамни претенции рано.
# 4) Оптимизиране на цените
Компаниите използват анализ на големи данни, за да увеличат маржовете на печалба, като намерят най-добрата цена на ниво продукт, а не на ниво категория. Големите компании смятат, че е твърде поразително, за да получат подробни подробности и сложност на ценовите променливи, които се променят редовно за хиляди продукти.
Стратегия за оптимизиране на цените, анализирана от анализа, като динамично точкуване на сделки, позволява на компаниите да определят цени за клъстери продукти и сегменти въз основа на техните данни и прозрения на нива на отделни сделки, за да спечелят бързи печалби от взискателни клиенти.
често задавани въпроси
В # 1) Анализът на големи данни добра ли е кариерата?
Отговор: Това е добавена стойност за всяка организация, което й позволява да взема информирани решения и осигурява предимство пред конкурентите. Преместването в кариерата на Big Data увеличава шансовете ви да станете ключов взимащ решения за организация.
В # 2) Защо анализът на големите данни е важен?
Отговор: Той помага на организациите да създават нови възможности за растеж и изцяло нови категории продукти, които могат да комбинират и анализират индустриални данни. Тези компании разполагат с достатъчно информация за продуктите и услугите, купувачите и доставчиците, предпочитанията на потребителите, които могат да бъдат уловени и анализирани.
В # 3) Какво се изисква за анализ на големи данни?
Отговор: Гамата от технологии, с които един добър анализатор на големи данни трябва да е запознат, е огромна. За да овладее анализа на големи данни, е необходимо разбиране на различни инструменти, софтуер, хардуер и платформи. Например, Електронни таблици, SQL заявки и R / R Studio и Python са някои от основните инструменти.
На ниво предприятие инструменти като MATLAB, SPSS, SAS и Congnos са важни в допълнение към Linux, Hadoop, Java, Scala, Python, Spark, Hadoop и HIVE.
Цели:
В # 4) Коя от базите данни, дадени по-долу, не е база данни NoSQL?
- MongoDB
- PostgreSQL
- CouchDB
- HBase
Отговор: PostgreSQL
В # 5) Касандра ли е NoSQL?
- Вярно
- Невярно
Отговор: Вярно
В # 6) Кое от изброеното не е собственост на Hadoop?
най-добрият софтуер за виртуална машина за Windows
- Отворен код
- Въз основа на Java
- Разпределена обработка
- Реално време
Отговор: Реално време
В # 7) Изберете всички дейности, които НЕ се извършват от Data Scientist.
- Изградете модели за машинно обучение и подобрете тяхното представяне.
- Оценка на статистически модели за валидиране на анализи
- Обобщете разширените анализи с помощта на инструменти за визуализация на данни
- Представяне на резултатите от техническия анализ на вътрешни екипи и бизнес клиенти
Отговор: Представяне на резултатите от техническия анализ на вътрешни екипи и бизнес клиенти
Допълнително четене = >> Основни разлики между Data Analyst и Data Scientist
В # 8) Кои дейности се извършват от анализатор на данни?
- Почистете и организирайте сурови данни
- Намиране на интересни тенденции в данните
- създайте табла за управление и визуализации за лесна интерпретация
- Всички изброени
Отговор: Всички изброени
В # 9) Кое от изброеното се извършва от инженер на данни?
- Интегриране на нови източници на данни към съществуващия конвейер за анализ на данни
- Разработването на API за консумация на данни
- мониторинг и тестване на системата за продължаване на работата
- Всички изброени
Отговор: Всички изброени
В # 10) Правилната последователност на потока от данни за анализ е
- Източници на данни, Подготовка на данни, Преобразуване на данни, Проектиране на алгоритъм, Анализ на данни
- Източници на данни, Трансформация на данни, Дизайн на алгоритъм, Подготовка на данни, Анализ на данни
- Източници на данни, Проектиране на алгоритъм, Подготовка на данни, Преобразуване на данни, Анализ на данни
- Източници на данни, Подготовка на данни, Дизайн на алгоритъм, Трансформация на данни, Анализ на данни
Отговор: Източници на данни, Подготовка на данни, Преобразуване на данни, Проектиране на алгоритъм, Анализ на данни
В # 11) Анализът на данни е линеен процес.
- Вярно
- Невярно
Отговор: Невярно
В # 12) Проучвателният анализ НЕ Е
- Отговор подробни първоначални въпроси за анализ на данни
- Определете проблеми с набора от данни
- Разработете скица на отговор на въпроса
- Определете дали данните са верни за отговор на въпрос
Отговор: Отговорподробни първоначални въпроси за анализ на данни
Въпрос # 13) Въпросът за предвиждане е друго име, дадено на Изводен въпрос.
- Вярно
- Невярно
Отговор: Невярно
Заключение
Ние разгледахме най-важните аспекти на анализа на големи данни. Обяснихме най-разпространените случаи на употреба и тенденциите в индустрията за анализ на големи данни, за да извлечем максимални ползи.
Препоръчително четене
- Топ 7 НАЙ-ДОБРИТЕ компании за анализ на данни през 2021 г. [актуализиран списък от 2021 г.]
- Топ 15 инструменти за големи данни (инструменти за анализ на големи данни) през 2021 г.
- 10 най-добри инструмента за анализ на данни за перфектно управление на данни [2021 СПИСЪК]
- Топ 10 на инструментите за наука за данни през 2021 г. за премахване на програмирането
- Урок за големи данни за начинаещи | Какво представляват големите данни?
- Топ 13 най-добри компании за големи данни от 2021 г.
- 10 най-добри инструмента за моделиране на данни за управление на сложни дизайни
- 10+ най-добри инструмента за управление на данни, които да отговорят на вашите нужди от данни през 2021 г.