data warehousing fundamentals
Научете всичко за основите на съхранението на данни. Това задълбочено ръководство обяснява какво е съхранение на данни заедно с неговите типове, характеристики, достойнства и недостатъци:
Хранилището за данни е последната тенденция за съхранение в днешната ИТ индустрия.
Този урок ще обясни какво е хранилище на данни? Защо съхранението на данни е от решаващо значение? Видове приложения за съхранение на данни, характеристики на хранилище за данни, предимства и недостатъци на съхранението на данни.
команда grep в скрипта на черупката на unix
Списък с уроци за съхранение на данни в тази поредица:
Урок # 1: Основи на съхранението на данни
Урок # 2: Какво представлява ETL процесът в хранилището на данни?
Урок № 3: Тестване на хранилището на данни
Урок № 4: Модел на измерените данни в хранилището на данни
Урок № 5: Типове схеми при моделиране на хранилище на данни
Урок # 6: Data Mart Урок
Урок № 7: Метаданни в ETL
Преглед на уроци в тази серия за съхранение на данни
Tutorial_Num | Какво ще научите |
---|---|
Урок # 7 | Метаданни в ETL Този урок обяснява ролята на метаданните в ETL, примери и типове метаданни, хранилище на метаданни и предизвикателства в управлението на метаданни. |
Урок №1 | Основи на съхранението на данни Научете всичко за концепциите за съхранение на данни от този урок. Това задълбочено ръководство обяснява какво е съхранението на данни, заедно с неговите типове, характеристики, достойнства и недостатъци. |
Урок №2 | Какво представлява ETL процесът в хранилището на данни? Този задълбочен урок за ETL процес обяснява потока на процеса и стъпките, включени в процеса на ETL (извличане, преобразуване и зареждане) в хранилището на данни. |
Урок №3 | Тестване на хранилището на данни Цели и значение на тестването на хранилище на данни, отговорности за тестване на ETL, грешки в внедряването на DW и ETL подробно в този урок. |
Урок # 4 | Модел на измерените данни в хранилището на данни Този урок обяснява предимствата и митовете на размерния модел на данни в хранилището на данни. Също така ще научите за таблици с размери и таблици с факти с примери. |
Урок №5 | Типове схеми при моделиране на хранилище на данни Този урок обяснява различни типове схеми за хранилище на данни. Научете какво е схема на звезди и снежинки и разликата между схема на звезда и снежинка. |
Урок # 6 | Data Mart Урок Този урок обяснява концепциите на Data Mart, включително внедряване на Data Mart, типове, структура, както и разликите между хранилището на данни срещу Data Mart. |
Какво ще научите:
- Основи за съхранение на данни: Пълно ръководство
- Заключение
Основи за съхранение на данни: Пълно ръководство
Целева аудитория
- Хранилище за данни / ETL разработчици и тестери.
- Професионалисти в базата данни с основни познания за концепции за бази данни.
- Администратори на бази данни / Експерти за големи данни, които искат да разберат концепциите за съхранение на данни.
- Завършили колеж / Преподаватели, които търсят работа в хранилището на данни.
Какво представлява складирането на данни?
Хранилището на данни (DW) е хранилище на огромно количество организирани данни. Тези данни се консолидират от един или повече различни източници на данни. DW е релационна база данни, която е предназначена главно за аналитично отчитане и своевременно вземане на решения в организации.
Данните за тази цел са изолирани и оптимизирани от изходните данни за транзакции, което няма да окаже влияние върху основния бизнес. Ако дадена организация въведе някаква бизнес промяна, тогава DW се използва за изследване на ефектите от тази промяна и следователно DW се използва и за наблюдение на процеса на вземане на решения.
Хранилището за данни е предимно система само за четене, тъй като оперативните данни са много отделени от DW. Това осигурява среда за извличане на най-голямо количество данни с добро писане на заявки.
По този начин DW ще действа като бекенд механизъм за инструменти на Business Intelligence, който показва отчетите, таблата за бизнес потребителите. DW се използва широко в банковия, финансовия, търговията на дребно и др.
Защо съхранението на данни е от решаващо значение?
По-долу са изброени някои от причините, поради които хранилището на данни е от решаващо значение.
- Хранилището за данни събира всички оперативни данни от няколко разнородни източника на „различни формати“ и чрез процеса на извличане, трансформиране и зареждане (ETL) зарежда данните в DW в „стандартизиран размерен формат“ в цялата организация.
- Хранилището за данни поддържа както „текущи данни, така и исторически данни“ за аналитично отчитане и вземане на решения въз основа на факти.
- Помага на организациите да вземат „по-интелигентни и бързи решения“ за намаляване на разходите и за увеличаване на приходите, като сравняват тримесечните и годишните отчети, за да подобрят своите резултати.
Видове приложения за съхранение на данни
Business Intelligence (BI) е клон на складирането на данни, предназначен за вземане на решения. След като данните в DW се заредят, BI играе основна роля, като анализира данните и ги представя на бизнес потребителите.
На практика терминът „приложения за съхранение на данни“ предполага колко различни видове данни могат да бъдат обработвани и използвани.
Имаме три вида DW приложения, както е споменато по-долу.
- Обработка на информация
- Аналитична обработка
- Извличане на данни, което служи за целите на BI
# 1) Обработка на информация
Това е един вид приложение, при което хранилището за данни позволява директен контакт с данните, съхранявани в него.
Тъй като данните могат да бъдат обработени чрез писане на директни заявки към данните (или) с основен статистически анализ на данните, а крайните резултати ще бъдат докладвани на бизнес потребителите под формата на отчети, таблици, диаграми или графики.
DW поддържа следните инструменти за обработка на информация:
(i) Инструменти за заявки: Бизнесът (или) анализаторът изпълнява заявките, използвайки инструменти за заявки, за да изследва данните и да генерира изход под формата на отчети или графики според бизнес изискванията.
(ii) Инструменти за отчитане: Ако бизнесът иска да види резултатите във всеки определен формат и по график, т.е. ежедневно, седмично или месечно, ще се използват инструменти за отчитане. Този вид отчети могат да бъдат запазени и прегледани по всяко време.
(iii) Инструменти за статистика: Ако бизнесът иска да направи анализ на широк поглед на данни, тогава ще се използват инструменти за статистика за генериране на такива резултати. Бизнесът може да прави изводи и прогнози, като разбира тези стратегически резултати.
# 2) Аналитична обработка
Това е един вид приложение, при което хранилището за данни позволява аналитична обработка на данните, съхранявани в него. Данните могат да бъдат анализирани чрез следните операции като Slice-and-Dice, Drill Down, Roll Up и Pivoting.
(i) Нарязване на зарове : Хранилището за данни позволява операции с нарязване и зарове за анализ на данните, достъпни от много нива, с комбинация от различни перспективи. Операцията нарязване и зарове вътрешно използва механизма за пробиване. Нарязването работи върху размерни данни.
Като част от бизнес изискването, ако се съсредоточим върху една-единствена област, тогава нарязването анализира размерите на тази конкретна област според изискванията и дава резултатите. Работи на кубчета върху аналитични операции. Намаляване на мащабиране за конкретен набор от атрибути по всички измерения, за да осигури разнообразни перспективи. Размерите се отчитат от един или повече последователни резена.
(ii) Пробиване : Ако бизнесът иска да премине към по-подробно ниво на някакъв обобщен номер, тогава подробното разглеждане е операция за придвижване надолу към това обобщение до незначителни подробни нива. Това дава чудесна представа за случващото се и къде бизнесът трябва да бъде фокусиран по-отблизо.
Разбийте следите от нивото на йерархията до нивото на незначителни подробности за анализа на основната причина. Това може лесно да се разбере с пример, тъй като продажбите могат да се променят от Държавно ниво -> Регионално ниво -> Държавно ниво -> Областно ниво -> Ниво магазин.
(iii) Навийте : Roll up работи, противоположни на операцията за пробиване. Ако бизнесът иска някакви обобщени данни, тогава картината се появява. Той обобщава данните на ниво детайли, като се придвижва нагоре в йерархията на измеренията.
Обобщените сведения се използват за анализ на развитието и ефективността на системата.
Това може да се разбере с Пример както при свиването на продажбите, където общите суми могат да бъдат събрани Градско ниво -> Държавно ниво -> Регионално ниво -> Държавно ниво .
(iv) Pivot : Въртене анализира данните за размерите чрез завъртане на данните върху кубовете. Например, измерението на реда може да бъде заменено с измерение на колоната и обратно.
# 3) Извличане на данни
Това е вид приложение, при което хранилището за данни позволява откриване на знания за данните и резултатите ще бъдат представени с инструменти за визуализация. В горните два типа приложения информацията може да се управлява от потребителите.
Тъй като данните са много в различни бизнеси, е трудно да се направи заявка и да се пробие хранилището за данни, за да се получат всички възможни данни за данните. Тогава извличането на данни се появява в картината, за да се постигне откриването на знания.
Това вкарва в данните всички предишни асоциации, резултати и т.н. и предсказва бъдещето. Следователно това се управлява от данни, а не от потребител. Данните могат да бъдат открити чрез намиране на скрити модели, асоциации, класификации и прогнози.
Извличането на данни се задълбочава заедно с данните, за да се предскаже бъдещето. Въз основа на прогнозите, той също така предлага действията, които трябва да се предприемат.
По-долу са дадени различните дейности на Data Mining:
- Модели: Извличането на данни открива модели, които се срещат в базата данни. Потребителите могат да предоставят бизнес входящи данни, за които се очакват известни знания за моделите за вземане на решения.
- Асоциации / Връзки: Извличането на данни открива връзки между обектите с честотата на техните правила за асоцииране. Тази връзка може да бъде между два или повече обекта (или) може да открие правилата в свойствата на един и същ обект.
- Класификация: Извличането на данни организира данните в набор от предварително дефинирани класове. Така че, ако някой обект е взет от данните, класификацията асоциира съответния етикет на класа към този обект.
- Прогноза: Извличането на данни сравнява набор от съществуващи стойности, за да намери възможно най-добрите бъдещи стойности / тенденции в бизнеса.
Следователно, въз основа на всички горепосочени резултати, Data mining също предлага набор от действия, които трябва да бъдат предприети.
Характеристики на хранилище за данни
Хранилището за данни е изградено въз основа на следните характеристики на данните като Субектно ориентиран, Интегриран, Енергичен и Времеви вариант.
# 1) Тематично ориентирано: Можем да определим хранилището на данни като предметно ориентирано, тъй като можем да анализираме данни по отношение на конкретна предметна област, а не прилагането на разумни данни. Това осигурява резултати, които са по-дефинирани за лесно вземане на решения. По отношение на образователната система предметните области могат да бъдат ученици, субекти, оценки, учители и др.
# 2) Интегриран: Данните в хранилището за данни са интегрирани от различни източници като други релационни бази данни, плоски файлове и др. Такова огромно количество данни се извлича за ефективен анализ на данните. Но може да има конфликти на данни, тъй като различните източници на данни могат да бъдат в различни формати. Хранилището за данни носи всички тези данни в последователен формат в цялата система.
# 3) Нелетливи: След като данните се заредят в хранилището на данни, те не могат да бъдат променени. Логично това е приемливо, тъй като честата смяна на данните няма да ви позволи да анализирате данните. Честите промени в оперативната база данни могат да се зареждат в хранилище за данни по график, по време на този процес се добавят нови данни, но по-ранните данни не се изтриват и остават като исторически данни.
# 4) Вариант на времето: Всички исторически данни, заедно с последните данни в хранилището на данни, играят решаваща роля за извличане на данни за всякаква продължителност от време. Ако бизнесът иска някакви отчети, графики и т.н., за да го сравните с предишните години и да анализирате тенденциите, се изискват всички стари данни, които са на 6 месеца, 1-годишни или дори по-стари данни и т.н.
Предимства на хранилище за данни
Когато системата за съхранение на данни е продуктивна, организацията получава следните предимства, като я използва:
- Подобрено бизнес разузнаване
- Повишена ефективност на системата и заявките
- Бизнес разузнаване от множество източници
- Навременен достъп до данни
- Подобрено качество и последователност на данните
- Историческо разузнаване
- Висока възвръщаемост на инвестициите
# 1) Подобрено бизнес разузнаване: В по-ранните дни, когато складирането на данни и бизнес разузнаването не бяха включени, бизнес потребителите и анализаторите взимаха решенията с ограничен обем данни и със собствените си усещания.
DW & BI внесоха промяна, като дават прозрения с реални факти и с реални данни за организацията, които се събират за определен период от време. Бизнес потребителите могат директно да запитват всеки от данните за бизнес процесите, като маркетинг, финанси, продажби и т.н., въз основа на техните нужди от стратегическо вземане на решения и интелигентни бизнес решения.
# 2) Повишена ефективност на системата и заявките: Съхранението на данни събира обемиста информация от разнородни системи и я поставя под една система, така че един механизъм за заявки може да се използва за бързо извличане на данни.
# 3) Бизнес разузнаване от множество източници: Знаете ли как Business Intelligence обикновено работи с данни? Той абсорбира данните от множество системи, подсистеми, платформи и източници на данни за работа по проект. Хранилището на данни обаче решава този проблем за BI, като консолидира всички проектни данни без никакви дубликати.
# 4) Навременен достъп до данни: Бизнес потребителите ще се възползват, като отделят по-малко време за извличане на данни. Те разполагат с някои удобни инструменти, с които могат да търсят данни с минимални технически познания и да генерират отчетите. Това кара бизнес потребителите да отделят достатъчно време за анализ на данни, а не за събиране на данни.
# 5) Подобрено качество и последователност на данните: Складирането на данни преобразува данни с различни формати на системни източници в един формат. Следователно, може би същите бизнес единици, които доставят данните до хранилището на данни, могат да използват повторно хранилището на DW за своите бизнес отчети и заявки.
Следователно от гледна точка на организацията всички бизнес единици ще останат в готовност с постоянни резултати / отчети. По този начин тези качествени и постоянни данни помагат за воденето на успешен бизнес.
# 6) Историческа интелигентност: Хранилището за данни поддържа всички исторически данни, които не се поддържат от никакви транзакционни системи. Това голямо количество данни се използва за анализ на данни за определено време и за докладване, както и за анализ на тенденциите, за да се предскаже бъдещето.
# 7) Висока възвръщаемост на инвестициите (ROI): Всеки започва бизнес, като очаква добра възвръщаемост на инвестициите, по отношение на по-големи печалби и по-малки разходи. В реалния свят на данни много изследвания са доказали, че внедряването на хранилището на данни и системите за бизнес разузнаване генерира високи приходи и спестява разходи.
Досега трябва да сте в състояние да разберете как добре проектираната DW система добавя предимства към вашия бизнес.
Недостатъци на съхранението на данни
Въпреки че е много успешна система, добре е да знаете някои клопки в системата:
- Създаването на хранилище за данни определено е трудоемък и сложен процес.
- Разходите за поддръжка са големи, тъй като системата се нуждае от непрекъснато надстройване. Може също да се увеличи, ако не се използва правилно.
- Трябва да се осигури подходящо обучение на разработчиците, изпитателите и потребителите, за да разберат системата DW и да я внедрят технически.
- Възможно е да има поверителни данни, които не могат да бъдат заредени в DW за вземане на решение.
- Преструктурирането на всякакви бизнес процеси (или) системи източници има основен ефект върху DW.
Заключение
Надяваме се, че този уводен урок е предоставил предистория на основите на съхранението на данни. Разгледахме задълбочено всички основни концепции за съхранение на данни.
Научихме дефиницията, видовете, характеристиките, предимствата и недостатъците на Складирането на данни в този изчерпателен урок.
=> Прочетете серията учебни програми за лесно съхранение на данни.
Препоръчително четене
- Примери за извличане на данни: Най-често срещаните приложения на извличането на данни 2021
- Как работи тестването, управлявано от данни (примери за QTP и селен)
- Извличане на данни: процес, техники и основни проблеми при анализа на данните
- Урок за тестване на хранилище на данни за ETL (Пълно ръководство)
- Най-добрият БЕЗПЛАТЕН урок за C #: Най-доброто ръководство за C # за начинаещи
- Урок за компютърни мрежи: Най-доброто ръководство
- Урок за QTP # 18 - Управлявани от данни и хибридни рамки, обяснени с примери за QTP
- 10+ най-добри инструменти за събиране на данни със стратегии за събиране на данни