what is data lake data warehouse vs data lake
Този урок обяснява всичко за езерото за данни, включително неговите нужди, определение, архитектура, предимства и разлики между езерото за данни и хранилището за данни:
Терминът „Data Lake“ се използва доста често в днешния ИТ свят. Замисляли ли сте се какво е това и откъде точно идва терминът?
В ерата на информационните технологии, където данните се увеличават денем и нощем в много форми, концепцията за езерото на данни става със сигурност важна и полезна.
Нека разгледаме подробно какво представлява езерото за данни и какви са неговите предимства, употреба и т.н. тук.
Какво ще научите:
- Какво представлява езерото с данни и как работи?
- Аналогия на езерото с данни
- Пазар на езерото с данни - растеж, тенденции и прогнози
- Защо е необходимо езерото с данни?
- Разлика между хранилището на данни срещу езерото на данни
- Архитектура на езерото с данни
- Основни характеристики на езерото с данни
- Ползи
- Предизвикателства и рискове
- Изпълнение
- Доставчици на езеро за данни
- Заключение
Какво представлява езерото с данни и как работи?
Езерото за данни е система или централизирано хранилище на данни, което ви позволява да съхранявате всичките си структурирани, полуструктурирани, неструктурирани и двоични данни в неговия естествен / естествен / суров формат.
Структурираните данни могат да включват таблици от RDBMS; полуструктурираните данни включват CSV файлове, XML файлове, регистрационни файлове, JSON и др .; неструктурираните данни могат да включват PDF файлове, текстови документи, текстови файлове, имейли и др .; и двоичните данни могат да включват аудио, видео, файлове с изображения.
Той следва плоска архитектура за съхранение на данни. Обикновено данните се съхраняват под формата на обектни петна или файлове.
(изображение източник )
С езерото за данни можете да съхранявате цялото си предприятие, както е на едно място, без да е необходимо първо да структурирате данните. Можете директно да изпълнявате различни видове анализи върху него, включително машинно обучение, анализ в реално време, локално движение на данни, движение в реално време, табла за управление и визуализации.
Той съхранява всички данни в него в оригиналната форма и предполага, че анализът ще се случи по-късно, при поискване.
Аналогия на езерото с данни
(изображение източник )
Терминът Data Lake е измислен от Джеймс Диксън, тогавашният технически директор в Пентахо. Той определя data mart (подмножество на хранилище за данни) като подобен на бутилка за вода, пълна с пречистена, дестилирана вода, опакована и структурирана за директна и лесна употреба.
От друга страна, той е аналог на водоем в естествената му форма. Данните преминават от потоците (различни бизнес функции / системи източници) към езерото. Потребителите на езеро за данни, т.е.потребителите имат достъп до езерото, за да анализират, изследват, събират проби и се гмуркат.
Точно както водата в езерото обслужва различни нужди на хората като риболов, разходка с лодка, осигуряване на питейна вода и т.н., по същия начин архитектурата на езерото за данни служи за много цели.
е oculus rift съвместим с ps4
Учен по данни може да го използва, за да изследва данните и да създаде хипотеза. Той предлага възможност на анализаторите на данни да анализират данни и да откриват модели. Той предоставя режим на бизнес потребителите и заинтересованите страни за проучване на данни.
Той също така предлага възможност на анализаторите на доклади да изготвят доклади и да ги представят на бизнеса. Напротив, хранилището за данни е пакетирало данни за точно определени цели точно като бутилка бислери, която може да се използва само за питейна вода.
Пазар на езерото с данни - растеж, тенденции и прогнози
Пазарът на езеро за данни се разделя на базата на продукт (решение или услуга), внедряване (предварително или облачно), индустрия на клиентите (търговия на дребно, банки, комунални услуги, застраховане, ИТ, здравеопазване, телекомуникации, издателство, производство) и географски региони.
Според доклада, публикуван от Mordor Intelligence, по-долу е моментната снимка на пазара за езерото с данни:
(изображение източник )
# 1) Обобщение на пазара
Пазарът на езера за данни е оценен на 3,74 милиарда щатски долара през 2019 г. и се очаква да достигне 17,60 милиарда щатски долара до 2025 г. при CAGR (Съставен годишен темп на растеж) от 29,9% през прогнозния период 2020 - 2025 г.
Тези резервоари за данни все повече се превръщат като икономичен вариант за много организации над хранилищата на данни. За разлика от езерата на данните, съхранението на данни изисква допълнителна обработка на данните преди влизане в склада.
Разходите за управление на езерото с данни са по-малки в сравнение със хранилището на данни, поради много обработка и пространство, необходимо за създаване на базата данни за складове.
# 2) Основни играчи
Предвижда се пазарът на Data Lake да бъде консолидиран пазар, доминиран от петимата ключови играчи, както се вижда на изображението по-долу.
# 3) Ключови тенденции
- Очаква се използването му значително да нарасне в банковия сектор. Банките възприемат езера на данни, за да предоставят в движение анализ. Освен това помага за разтварянето на много силози в банковия сектор.
- Тъй като има огромно увеличение на цифровите плащания / използването на мобилни портфейли по целия свят, възможностите за анализ на големи данни и по този начин възможността за тях се увеличават.
- Очаква се, че Северна Америка ще бъде широко възприета за езерата с данни. Изследване, направено от Capgemini, казва, че над 60% от финансовите организации в САЩ смятат, че анализът на големи данни действа като диференциатор за бизнеса и им дава конкурентно предимство. Над 90% от организациите смятат, че инвестирането в проекти за големи данни увеличава шансовете за успех в бъдеще.
- Те са необходими за използването на приложения за интелигентни измервателни уреди, а в САЩ се очаква около 90 милиона интелигентни измервателни уреди да бъдат инсталирани през 2021 г. Следователно има прогнозирано голямо търсене за тях.
Защо е необходимо езерото с данни?
Целта на езерото за данни е да даде необработен изглед на данните (данните в най-чистата им форма).
Примери
В днешно време много големи компании, включително Google, Amazon, Cloudera, Oracle, Microsoft и няколко други, имат предложения за езеро за данни.
Много организации използват услуги за съхранение в облак като Azure Data Lake или Amazon S3. Компаниите също използват разпределена файлова система като Apache Hadoop. Концепцията за езерото с лични данни, което ви позволява да управлявате и споделяте свои собствени големи данни, също се е развила.
Ако говорим за промишлена употреба, то тя е много подходяща за сферата на здравеопазването. Поради неструктурирания формат на много данни в здравеопазването ( Например, Бележки от лекар, клинични данни, история на заболяванията на пациентите и др.) И изискването за прозрения в реално време, езерото с данни е чудесна възможност за съхранение на данни.
Той предлага гъвкави решения и в образователния сектор, където данните са много обширни и много сурови.
В транспортния сектор, главно в управлението на веригата за доставки или логистиката, той помага при изготвянето на прогнози и реализирането на ползи за намаляване на разходите.
Авиационната и електроенергийната индустрия също използват езера с данни.
коя компания в момента е лидер в услугите за уеб хостинг, базирани на облак?
Пример за прилагането му е GE Predix (разработен от General Electric), която е индустриална платформа за езеро на данни, предлагаща силни компетенции за управление на данни за създаване, внедряване и управление на индустриални приложения, които се свързват с индустриални активи, събират и анализират данни и предоставят в реално време прозрения за подобряване на индустриалната инфраструктура и процеси.
Разлика между хранилището на данни срещу езерото на данни
Често хората се затрудняват да разберат как езерото се различава от хранилището за данни. Те също така твърдят, че това е същото като хранилището на данни. Но това не е реалността.
Единственото общо между езерото от данни и хранилището на данни е, че и двете са хранилища за съхранение на данни. Почивайте си, те са различни. Те имат различни случаи на употреба и цели.
Разликите са изяснени по-долу:
Езеро с данни | Склад за данни | |
---|---|---|
Анализ | Езерото от данни може да се използва за машинно обучение, профилиране на данни за откриване на данни и прогнозен анализ. | Хранилище за данни може да се използва за Business Intelligence, визуализации и партидно отчитане. |
Данни | Езерото с данни ще съхранява в него всички сурови данни. Той може да бъде структуриран, неструктуриран или полуструктуриран. Възможно е някои от данните в езерото с данни никога да не бъдат използвани. | Хранилището на данни включва само тези данни, които се обработват и усъвършенстват, т.е.структурирани данни, които са необходими за докладване и решаване на конкретни бизнес проблеми. |
Потребители | По принцип потребителите на езерото за данни са изследователи на данни и разработчици на данни. | По принцип потребителите на хранилището за данни са професионалисти в бизнеса, оперативни потребители и бизнес анализатори. |
Достъпност | Езерото за данни е изключително достъпно и лесно и бързо за актуализиране, тъй като те нямат никаква структура. | В хранилището за данни актуализирането на данните е по-сложна и скъпа операция, тъй като хранилищата на данни са структурирани по дизайн. |
Схема | Схема за запис. Проектиран преди внедряването на DW. | Схема за четене. Написано по време на анализа. |
Архитектура | Плоска архитектура | Йерархична архитектура |
Предназначение | Целта на суровите данни, съхранявани в езерата на данни, не е фиксирана или не е определена. Понякога данните могат да се вливат в езерото за данни, като се има предвид някаква конкретна бъдеща употреба или просто за да са на разположение на данните. Езерото с данни има по-малко организирани и по-малко филтрирани данни. | Обработените данни, съхранявани в хранилището за данни, имат конкретна и определена цел. DW организира и филтрира данни. Следователно, изисква по-малко място за съхранение от езерото за данни. |
Съхранение | Проектиран за съхранение на ниска цена. Хардуерът на езерото за данни е много различен от хардуера на хранилището за данни. Той използва готови сървъри, съчетани с евтино съхранение. Това прави езерото с данни доста икономично и мащабируемо до терабайта и петабайта. Това се прави, за да се запазят всички данни в езерото с данни, за да можете да се върнете във времето във всеки момент, за да направите анализ. | Скъпо за големи обеми данни. Хранилището за данни има скъпо дисково съхранение, за да го направи високоефективен. Следователно, за да се запази пространството, моделът на данните се опростява и само данните, които наистина са необходими за вземане на бизнес решения, се съхраняват в хранилището за данни. |
Поддръжка за типове данни | Езерото за данни поддържа много добре нетрадиционни типове данни като сървърни дневници, данни от сензори, активност в социалната мрежа, текст, изображения, мултимедия и др. Всички данни се съхраняват независимо от източника и структурата. | По принцип хранилището за данни се състои от данни, извлечени от транзакционни системи. Той не поддържа много добре нетрадиционните типове данни. Съхранението и консумирането на нетрадиционни данни може да бъде скъпо и трудно със хранилището за данни. |
Сигурност | Сигурността на езерата на данни е на етап „узряване“, тъй като това е сравнително нова концепция от хранилището на данни. | Сигурността на складовете за данни е на етап „узряване“. |
Ловкост | Силно пъргав; конфигурирайте и преконфигурирайте според нуждите. | По-малко пъргав; фиксирана конфигурация. |
Архитектура на езерото с данни
Диаграма на архитектурата
По-горе е идейната архитектурна схема на езерото с данни. В най-лявата част можете да видите, че разполагаме с източници на данни, които могат да бъдат структурирани, полуструктурирани или неструктурирани.
Тези източници на данни се комбинират в хранилище за сурови данни, което използва данни в необработена форма, т.е. данни без никакви трансформации. Това е евтино, постоянно и мащабируемо съхранение.
След това имаме аналитични пясъчници, които могат да се използват за откриване на данни, проучвателен анализ на данни и прогнозно моделиране. По принцип това се използва от изследователите на данни за изследване на данни, изграждане на нова хипотеза и дефиниране на случаи на употреба.
След това има механизъм за групова обработка, който обработва суровите данни в използваема от потребителя форма, т.е.в структуриран формат, който може да се използва за докладване на крайните потребители.
Тогава имаме механизъм за обработка в реално време, който се взема в поточно предаване на данни и ги трансформира.
Основни характеристики на езерото с данни
За да бъде класифицирано като Data Lake, хранилището за големи данни трябва да притежава следните три атрибута:
# 1) Едно общо хранилище с данни, обикновено поместено в разпределена файлова система (DFS).
Данните на Hadoop поддържат данните в естествената им форма и улавят промени в данните и относителната семантика по време на жизнения цикъл на данните. Този подход е особено полезен за проверки за съответствие и вътрешни одити.
Това е подобрение над конвенционалния Enterprise Data Warehouse, при което когато данните преминават през трансформации, агрегиране и модификации, е трудно да се поставят данни като цяло, когато е необходимо, а компаниите се стремят да открият източника / произхода на данните.
# 2) Включва възможностите за планиране и планиране на задания (Например, чрез всеки инструмент за планиране като YARN и др.).
Изпълнението на работното натоварване е съществена необходимост за предприятието Hadoop, а YARN предлага управление на ресурси и централна платформа за осигуряване на постоянни процеси, сигурност и инструменти за управление на данни в клъстерите на Hadoop, като се уверите, че аналитичните работни потоци притежават необходимото ниво на достъп до данни и изчислителна мощ.
# 3) Състои се от набор от помощни програми и функции, необходими за консумация, обработка или работа с данните.
Лесната и бърза достъпност за потребителите е една от ключовите черти на езерото с данни, поради причината организациите да съхраняват данните в естествен или чист вид.
Под каквато и форма да са данните, т.е.структурирани, неструктурирани или полуструктурирани, те се вмъкват, както са в езерото с данни. Той позволява на собствениците на данни да комбинират данни за клиенти, доставчици и операции, като се отърват от всякакви технически или политически бариери за споделяне на данни.
Ползи
(изображение източник )
- Универсален : Достатъчно компетентен да съхранява всички видове структурирани / неструктурирани данни, вариращи от CRM данни до дейности в социалната мрежа.
- Повече гъвкавост на схемата : Не се нуждае от планиране или предварителни познания за анализ на данни. Той съхранява всички данни в оригинален вид и предполага, че анализът ще се случи по-късно при поискване. Това е много полезно за OLAP. Например, езерото с данни на Hadoop ви позволява да бъдете без схеми, където можете да отделите схемата от данни.
- Анализ на решенията в реално време : Те се радват на огромното количество последователни данни и алгоритми за задълбочено обучение, за да достигнат до анализ на решенията в реално време. Възможност за получаване на стойност от неограничени типове данни.
- Мащабируемо: Те са много по-мащабируеми от традиционните хранилища за данни и освен това са по-евтини.
- Разширен анализ / Съвместимост с SQL и други езици: С езерата на данните има многобройни начини за запитване на данните. За разлика от традиционните хранилища за данни, които поддържат само SQL за прост анализ, те ви предоставят много други опции и езикова поддръжка за анализ на данни. Те са съвместими и с инструменти за машинно обучение като Spark MLlib.
- Демократизирайте данните: Демократизиран достъп до данни чрез единна, интегрирана представа за данни в цялата организация, като същевременно се използва ефективна платформа за управление на данни. Това гарантира универсалната наличност на данни.
- По-добро качество на данните: Като цяло получавате по-добро качество на данните с езера на данни чрез технологични предимства като съхранение на данни в естествен формат, мащабируемост, гъвкавост, гъвкавост на схемата, поддръжка на SQL и други езици и разширен анализ
Предизвикателства и рискове
Езерата на данни предлагат много предимства. Но да, има и няколко предизвикателства и рискове, свързани с тях, които организацията трябва да разгледа внимателно.
Те са:
- Ако не са правилно проектирани, те могат да се превърнат в блата с данни. Понякога организациите просто продължават да изхвърлят неограничени данни в тези езера, без да имат предвид някаква стратегия и цел.
- Понякога анализаторите, които искат да използват данните, нямат знания как да го направят, тъй като е доста трудно да се прави добив в езера с данни. По този начин те губят актуалност и инерция след известно време. Организациите трябва да работят върху премахването на тази бариера за анализаторите.
- Тъй като имаме много неорганизирани данни в езерата на данни, те не са достатъчно свежи или актуални, за да се използват в производството. Следователно данните в тези езера остават в пилотен режим и никога не се пускат в производство.
- Неструктурираните данни могат да доведат до неизползваеми данни.
- Понякога организациите изпитват, че това не оказва значително влияние върху бизнеса по отношение на направените инвестиции. Това изисква промяна в мисленето. За да възникнат въздействия, компаниите трябва да насърчават мениджърите и лидерите да вземат решения въз основа на анализите, получени от тези резервоари за данни.
- Сигурността и контролът на достъпа също са един от рисковете, когато работите с тях. Някои от данните, които може да изискват поверителност и разпоредби, се поставят в езерата на данни без никакъв надзор.
Изпълнение
В едно предприятие е съвсем разумно изпълнението на езерото с данни да се извършва гъвкаво.
Тоест, за първо внедряване на Data Lake MVP го тества от потребителите по отношение на качество, лесен достъп, съхранение и аналитични възможности, получава обратни връзки и след това добавя сложните изисквания и функции, за да добави стойност към езерото.
Като цяло организацията преминава през следните четири основни етапа на изпълнение:
(изображение източник )
Етап 1:
Езерото с основните данни: На този етап екипът се спира на основната архитектура, технология (базирана на облак или наследство) и практики за сигурност и управление на езерото с данни. Той е способен да съхранява всички сурови данни, идващи от различни корпоративни източници, и да комбинира вътрешните и външните данни, за да достави обогатена информация.
Етап 2:
Пясъчникът: Подобряване на аналитичната способност: На този етап изследователите на данни получават достъп до резервоара за данни, за да извършат предварителни експерименти за използване на сурови данни и да проектират аналитични модели, за да отговорят на бизнес нуждите.
Етап 3:
Въпроси и отговори за интервю за oracle dba
Складове за данни и сътрудничество в Lake Lake: На този етап организацията започва да използва езерото за данни в синхрон със съществуващите хранилища за данни. Данните с нисък приоритет се изпращат до тях, така че лимитът за съхранение на хранилищата с данни да не бъде надвишен.
Представя перспектива за получаване на прозрения от студени данни или за запитване за откриване на информация, която не се индексира от конвенционалните бази данни.
Етап 4:
Приемане от край до край на Lake Lake: Това е последният етап на придобиване на зрялост, в който той се превръща в ключов елемент от архитектурата на данните на организацията и ефективно насочва операцията за търсене. По това време езерото с данни би заместило EDW и те ще станат единственият източник на всички корпоративни данни.
Организацията може да направи следното чрез езерото с данни:
- Създайте сложни решения за моделиране на данни и анализ за различни бизнес нужди.
- Проектирайте интерактивни табла за управление, които обединяват разбирането от езерото с данни плюс различни приложения и източници на данни.
- Внедрете усъвършенствани програми за анализ или роботика, тъй като те се справят с изчислителни операции.
Към този момент тя има силни мерки за сигурност и управление.
Доставчици на езеро за данни
Има различни доставчици, предоставящи инструменти за езеро за данни в индустрията.
(изображение източник )
Ако разгледаме големите компании:
- Изчислителна техника предоставя интелигентен инструмент за езеро за данни. BDM (Управление на големи данни) 10.2.2 е най-новата налична версия.
- Има наречен доставчик гледач който също предоставя инструмента.
- Компанията Talend който е популярен за техните ETL инструменти също предоставя инструмента Data Lake.
- След това имаме инструмент с отворен код, наречен Кайло от Терадата компания. Екипът, наречен ‘Think Big’, екип на компанията Teradata разработи този инструмент.
- Компанията Данни за бъчви Inc също предоставя тези услуги.
- От Microsoft , можете да намерите Лазурно езеро с данни налични в бранша.
- Hvr-софтуер също така предоставя решения за консолидация на езерото с данни.
- Подиум данни, компания Qlik предлага продукти с инструменти като тръбопроводи за езеро за данни, многозоново езеро за данни.
- Снежинка също има продукт за данни езеро.
- Залони е компания за обработка на данни, която обработва огромни данни, използвайки Big Data.
И така, всички те са популярни доставчици на услуги, както и доставчици на такива инструменти.
Ако търсите да практикувате и изграждате знанията си за езерата с данни, тогава можете да изберете Informatica или Kylo. Ако търсите услуга, базирана на облак, можете да изберете Looker, Informatica и Talend. Тези трима доставчици осигуряват AWS облачни данни. Можете също така да получите едномесечен безплатен пробен период от Kylo.
Заключение
В този урок обсъдихме подробно концепцията за езерото с данни. Преминахме през основната идея зад езерото с данни, неговата архитектура, ключови характеристики, предимства, заедно с неговите примери, случаи на употреба и т.н.
Също така видяхме как езерото с данни се различава от хранилището за данни. Обхванахме и най-добрите доставчици, предоставящи свързани услуги.
Честито четене !!
Препоръчително четене
- Урок за тестване на хранилище на данни с примери | Ръководство за тестване на ETL
- Топ 10 Инструменти за тестване и проверка на структурирани данни за SEO
- Извличане на данни: процес, техники и основни проблеми при анализа на данните
- Data Mart Урок - Видове, примери и изпълнение на Data Mart
- Топ 10 на популярните инструменти за съхранение на данни и технологии за тестване
- Размерен модел на данни в хранилището на данни - Урок с примери
- 10+ най-добри инструменти за събиране на данни със стратегии за събиране на данни
- Функция за пула от данни в IBM Rational Quality Manager за управление на тестови данни