big data tutorial beginners what is big data
Този урок обяснява всичко за основите на големите данни. Урокът включва предимства, предизвикателства, технологии и инструменти, заедно с приложения на големи данни:
каква операционна система трябва да използвам
В този дигитален свят с технологичен напредък ежедневно обменяме големи количества данни, както в Терабайти или Петабайт .
Ако обменяме това количество данни ежедневно, тогава трябва да ги поддържаме и да ги съхраняваме някъде. Решението за обработка на големи обеми данни с висока скорост и различно разнообразие е Голяма информация.
Той може да обработва сложни данни, идващи от множество източници като различни бази данни, уебсайтове, джаджи и др. Също така, той може да свързва и да съпоставя данните, идващи от различни източници. Наистина дава по-бърз достъп до данните ( Например, социална медия).
Списък с уроци в тази поредица от големи данни
Урок # 1: Какво представляват големите данни? (Този урок)
Урок # 2: Какво е Hadoop? Урок за Apache Hadoop за начинаещи
Урок № 3: Hadoop HDFS - Разпределена файлова система на Hadoop
Урок № 4: Ръководство за архитектура на Hadoop и команди HDFS
Урок № 5: Hadoop MapReduce Урок с примери | Какво е MapReduce?
Урок № 6: Apache Hadoop YARN Урок за начинаещи | Какво е прежда?
Урок # 7: Изчерпателен урок за тестване на Hadoop | Ръководство за тестване на големи данни
Какво ще научите:
Какво представляват големите данни?
Думата Huge не е достатъчна, за да обясни BigData, някои характеристики класифицират данните в BigData.
Имаме три основни характеристики на BigData и ако някакви данни отговарят на тези характеристики, те ще бъдат третирани като BigData. Аз t е комбинацията от трите V, споменати по-долу:
- Сила на звука
- Скорост
- Разнообразие
Сила на звука : Данните трябва да бъдат с огромен обем. Big Data има решението да поддържа голямо количество данни, които са в Terabyte или Petabyte. Можем да извършваме CRUD (Създаване, четене, актуализиране и изтриване) операции на BigData лесно и ефективно.
Скорост : Той е отговорен за по-бърз достъп до данни. Например, в днешно време социалните медии се нуждаят от бърз обмен на данни за част от времето и BigData е най-доброто решение за това. Следователно скоростта е друга характеристика и това е скоростта на обработка на данните.
Разнообразие : В социалните медии имаме работа с неструктурирани данни като аудио или видео записи, изображения и др. Също така различни сектори като банковия домейн се нуждаят от структурирани и полуструктурирани данни. BigData е решението за поддържане на двата типа данни на едно място.
Разнообразие означава различни видове данни като структурирани / неструктурирани данни, идващи от множество източници.
Структурирани данни : Данните, които имат правилна структура или тази, която може лесно да се съхранява в таблична форма във всякакви релационни бази данни като Oracle, SQL Server или MySQL, са известни като структурирани данни. Ние можем да го обработим или анализираме лесно и ефективно.
Пример за структурирани данни са данните, съхранявани в релационна база данни, които могат да се управляват с помощта на SQL (език за структурирани заявки). Например, Данните на служителите (име, идентификационен номер, обозначение и заплата) могат да се съхраняват в табличен формат.
В традиционната база данни можем да извършваме операции или да обработваме неструктурирани или полуструктурирани данни само след като са форматирани или се впишат в релационната база данни. Примери от структурираните данни са ERP, CRM и др.
Полуструктурирани данни: Полуструктурирани данни са данните, които не са напълно форматирани. Той не се съхранява в таблици с данни или в друга база данни. Но все пак можем лесно да го подготвим и обработим, тъй като тези данни съдържат тагове или стойности, разделени със запетая и т.н. Пример на полуструктурирани данни са XML файлове, CSV файлове и др.
Неструктурирани данни: Неструктурирани данни са данните, които нямат никаква структура. Може да бъде под всякаква форма, няма предварително дефиниран модел на данни. Не можем да го съхраняваме в традиционните бази данни. Сложно е да се търси и обработва.
Освен това обемът на неструктурирани данни е много голям. Пример на неструктурирани данни е тяло на електронна поща, аудио, видео, изображения, постигнати документи и др.
Предизвикателства на традиционните бази данни
- Традиционната база данни не поддържа различни данни, т.е.не е в състояние да обработва неструктурирани и полуструктурирани данни.
- Традиционната база данни е бавна, докато се справя с голямо количество данни.
- В традиционните бази данни обработката или анализът на голямо количество данни е много труден.
- Традиционната база данни е в състояние да съхранява данни, които са в терабайта или петабайта.
- Традиционната база данни не може да обработва исторически данни и отчети.
- След известно време е необходимо почистване на базата данни.
- Разходите за поддържане на голямо количество данни са много високи при традиционната база данни.
- Точността на данните е по-малка в традиционната база данни, тъй като в нея не се поддържат пълни исторически данни.
Голяма информацияПредимства пред традиционната база данни
най-добрият редактор на python mac os x
- Големите данни отговарят за обработката, управлението и обработката на различни видове данни като структурирани, полуструктурирани и неструктурирани.
- Това е рентабилно по отношение на поддържането на голямо количество данни. Работи върху разпределена система от бази данни.
- Можем да запазваме големи количества данни за дълго време, използвайки техниките BigData. Така че е лесно да се обработват исторически данни и да се генерират точни отчети.
- Скоростта на обработка на данни е много бърза и по този начин социалните медии използват техники за големи данни.
- Точността на данните е голямо предимство на Big Data.
- Позволява на потребителите да вземат ефективни решения за своя бизнес въз основа на текущи и исторически данни.
- Обработката на грешки, контрол на версиите и опитът на клиентите са много ефективни в BigData.
Предложено четене => Big Data срещу Big Data Analytics срещу Data Science
Предизвикателства и рискове в BigData
Предизвикателства:
- Едно от основните предизвикателства в Big Data е управлението на големи количества данни. В днешно време данните постъпват в система от различни източници с разнообразие. Така че е много голямо предизвикателство за компаниите да го управляват правилно. Например, за да се генерира отчет, който съдържа данни от последните 20 години, е необходимо да се запазят и поддържат последните 20 години данни на системата. За да се предостави точен отчет, е необходимо да се въведат само съответните данни в системата. Той не трябва да съдържа неподходящи или ненужни данни, в противен случай поддържането на това количество данни ще бъде голямо предизвикателство за компаниите.
- Друго предизвикателство с тази технология е синхронизирането на различни видове данни. Както всички знаем, Big Data поддържа структурирани, неструктурирани и полуструктурирани данни, идващи от различни източници, синхронизирането им и получаването на последователност на данните е много трудно.
- Следващото предизвикателство, пред което са изправени компаниите, е липсата на експерти, които могат да помогнат и приложат проблемите, пред които са изправени в системата. В тази област има голяма разлика в таланта.
- Обработката на аспекта за съответствие е скъпа.
- Събирането, обединяването, съхранението, анализирането и отчитането на данни на BigData има огромни разходи. Организацията трябва да може да управлява всички тези разходи.
Рискове:
- Той може да обработва различни данни, но ако компаниите не могат да разберат правилно изискванията и да контролират източника на данни, това ще доведе до недостатъчни резултати. В резултат на това ще са необходими много време и пари, за да се проучат и коригират резултатите.
- Сигурността на данните е друг риск при BigData. При голям обем данни има по-големи шансове някой да ги открадне. Хакерите на данни могат да крадат и продават важна информация (включително исторически данни) на компанията.
- Освен това поверителността на данните е друг риск за BigData. Ако искаме да защитим личните и чувствителни данни от хакери, те трябва да бъдат защитени и трябва да преминат всички политики за поверителност.
Технологии за големи данни
Следват технологиите, които могат да се използват за управление на големи данни:
- Apache Hadoop
- Microsoft HDInsight
- Няма SQL
- Кошера
- Sqoop
- BigData в Excel
Подробно описание на тези технологии ще бъде разгледано в предстоящите ни уроци.
Инструменти за използване на концепции за големи данни
По-долу са изброени инструментите с отворен код, които могат да помогнат за използването на концепции за големи данни:
# 1) Apache Hadoop
# 2) Лумифицирайте
# 3) Apache Storm
#4) Apache Samoa
# 5) Elasticsearch
# 6) MongoDB
# 7) HPCC система BigData
Приложения на големи данни
Следват домейните, в които се използва:
- Банкиране
- Медии и развлечения
- Доставчици на здравни услуги
- Застраховка
- Образование
- На дребно
- производство
- Правителство
BigData And Data Warehouse
Data Warehouse е основна концепция, която трябва да разберем, преди да обсъдим тестването на Hadoop или BigData.
Нека разберем Data Warehouse от пример в реално време. Например , има компания, която е установила клоновете си в три различни държави, да приемем клон в Индия, Австралия и Япония.
Във всеки клон всички клиентски данни се съхраняват в локалната база данни. Тези локални бази данни могат да бъдат нормални класически RDBMS като Oracle или MySQL или SQL Server и т.н. и всички клиентски данни ще се съхраняват в тях ежедневно.
Сега, на всеки тримесечие, полугодие или годишно, организацията иска да анализира тези данни за развитие на бизнеса. За да направи същото, организацията ще събере всички тези данни от множество източници и след това ще ги събере на едно място и това място се извиква 'Склад за данни'.
Data Warehouse е вид база данни, която съдържа всички данни, изтеглени от множество източници или множество типове бази данни чрез „ETL“ (кой е Е xtract, т ransform и L oad) процес. След като данните са готови в хранилището на данни, можем да ги използваме за аналитични цели.
Така че за анализ можем да генерираме отчети от наличните в хранилището данни данни. С помощта на инструментите за бизнес разузнаване могат да се генерират множество диаграми и отчети.
Изискваме Data Warehouse за аналитични цели, за да развием бизнеса и да вземем подходящи решения за организациите.
функция time () c ++
В този процес се случват три неща, първото е, че сме изтеглили данните от множество източници и сме ги поставили на едно място, което е Data Warehouse.
Тук използваме процеса „ETL“, като по този начин, докато зареждаме данните от множество източници на едно място, ще ги приложим в корените на трансформацията и след това можем да използваме различни видове ETL инструменти тук.
След като данните са готови в хранилището на данни, можем да генерираме различни отчети за анализ на бизнес данните, като използваме Инструменти за бизнес разузнаване (BI) или ги наричаме също Инструменти за отчитане. Инструментите като Tableau или Cognos могат да се използват за генериране на отчети и табла за анализиране на данните за бизнеса.
OLTP И OLAP
Нека да разберем какво представляват OLTP и какво OLAP?
Извикват се бази данни, които се поддържат локално и се използват за транзакционни цели OLTP, т.е. онлайн обработка на транзакции. Ежедневните транзакции ще се съхраняват тук и ще се актуализират незабавно и затова ги нарекохме OLTP система.
Тук използваме традиционни бази данни, имаме множество таблици и има връзки, като по този начин всичко се планира систематично според базата данни. Ние не използваме тези данни за аналитични цели. Тук можем да използваме класически бази данни RDMBS като Oracle, MySQL, SQL Server и др.
Когато стигнем до частта Data Warehouse, използваме Teradata или Hadoop Systems, които също са вид база данни, но данните в DataWarehouse обикновено се използват за аналитични цели и се наричат OLAP или Онлайн аналитична обработка.
Тук данните могат да се актуализират на тримесечие, полугодие или годишно. Понякога данните се актуализират и 'Offerly', където Offerly означава, че данните се актуализират и извличат за анализ според изискванията на клиента.
Също така данните за анализ не се актуализират ежедневно, защото ще получаваме данните от множество източници по график и можем да изпълняваме тази ETL задача. Ето как работи системата за онлайн аналитична обработка.
Тук отново BI Tools или Reporting Tools могат да генерират отчети, както и табла за управление, и въз основа на това бизнес хората ще вземат решенията за подобряване на своя бизнес.
Къде се появява BigData в картината?
BigData са данните, които надхвърлят капацитета за съхранение и обработка на конвенционалните бази данни и са във формат Структуриран и Неструктуриран, така че не могат да бъдат обработвани от локални RDBMS системи.
Този вид данни ще бъдат генерирани в TeraBytes (TB) или PetaBytes (PB) или извън тях и в днешно време те бързо се увеличават. Има множество източници за получаване на този вид данни като Facebook, WhatsApp (които са свързани със социалните мрежи); Amazon, Flipkart, свързани с електронната търговия; Gmail, Yahoo, Rediff, свързани с имейли и Google и други търсачки. Също така получаваме големи данни от мобилни телефони като SMS данни, Записване на обаждания, Дневници на обажданията и др.
Заключение
Големите данни са решението за ефективно и сигурно боравене с големи количества данни. Отговорност е да поддържа и исторически данни. Има много предимства на тази технология, поради което всяка компания иска да премине към големите данни
Автор: Вайшали Тарей, технически ръководител @ Syntel
Препоръчително четене
- Data Mart Урок - Видове, примери и изпълнение на Data Mart
- Топ 10 Инструменти за проектиране на бази данни за изграждане на сложни модели данни
- 20+ MongoDB урок за начинаещи: Безплатен курс на MongoDB
- Какво представлява езерото с данни | Хранилище за данни срещу езерото за данни
- Топ 10 Инструменти за тестване и проверка на структурирани данни за SEO
- Размерен модел на данни в хранилището на данни - Урок с примери
- Извличане на данни: процес, техники и основни проблеми при анализа на данни
- Как да извършите тестване на данни в SoapUI Pro - Урок SoapUI # 14