data mart tutorial types
Този урок обяснява концепциите на Data Mart, включително внедряването на Data Mart, типовете, структурата, както и разликите между хранилището на данни срещу Data Mart:
В това Пълна серия за обучение на хранилище за данни , разгледахме различните Схеми за съхранение на данни подробно.
Този урок ще ви помогне да научите подробно концепциите на Data Mart заедно с прости примери.
Ще видим Какво представлява март за данни? Кога се нуждаем от март за данни? Рентабилно марширане на данни, Цена на март за данни, Видове мартове за данни, Стъпки за внедряване на март за данни, Структура на март за данни, Кога е полезен пилот Data Mart? Недостатъци на Datamart и разликите между Data Warehouse и Data Mart.
Целева аудитория
- Хранилище за данни / ETL разработчици и тестери.
- Професионалисти в базата данни с основни познания за концепции за бази данни.
- Администратори на бази данни / Експерти за големи данни, които искат да разберат концепциите за хранилище на данни / ETL.
- Завършили колеж / Преподаватели, които търсят работа в склад за данни.
Какво ще научите:
- Какво представлява Data Mart?
- Сравнение на хранилището на данни срещу данни март
- Видове данни
- Стъпки за внедряване на Data Mart
- Структура на Data Mart
- Кога е полезен пилотните данни?
- Недостатъци на данни Mart
- Заключение
Какво представлява Data Mart?
Data mart е малка част от хранилището на данни, която е свързана главно с определен бизнес домейн като маркетинг (или) продажби и т.н.
Данните, съхранявани в системата DW, са огромни, поради което мартовете за данни са проектирани с подмножество от данни, които принадлежат на отделни отдели. По този начин определена група потребители могат лесно да използват тези данни за своя анализ.
За разлика от хранилището на данни, което има много комбинации от потребители, всеки март за данни ще има определен набор от крайни потребители. По-малкият брой крайни потребители води до по-добро време за реакция.
Мартите с данни са достъпни и за инструментите за бизнес разузнаване (BI). Маркерите за данни не съдържат дублирани (или) неизползвани данни. Те се актуализират на редовни интервали. Те са ориентирани към темата и гъвкави бази данни. Всеки екип има право да разработва и поддържа своите данни, без да променя хранилището на данни (или) други данни на данните.
Data mart е по-подходящ за малкия бизнес, тъй като струва много по-малко от системата за съхранение на данни. Времето, необходимо за изграждане на март за данни, също е по-малко от времето, необходимо за изграждане на хранилище за данни.
Изобразително представяне на множество данни:
Кога се нуждаем от данни Mart?
Въз основа на необходимостта планирайте и проектирайте информационно устройство за вашия отдел, като ангажирате заинтересованите страни, тъй като оперативните разходи на информационното устройство могат да бъдат високи няколко пъти.
Помислете за следните причини за изграждане на март за данни:
най-добрият софтуер за отстраняване на компютърни проблеми
- Ако искате да разделите данните с набор от стратегия за контрол на достъпа на потребителя.
- Ако определен отдел иска да види резултатите от заявката много по-бързо, вместо да сканира огромни DW данни.
- Ако отдел иска данните да се изграждат на други хардуерни (или) софтуерни платформи.
- Ако отдел иска данните да бъдат проектирани по начин, който е подходящ за неговите инструменти.
Икономически ефективни данни Mart
Икономически ефективен март за данни може да бъде изграден чрез следните стъпки:
- Идентифицирайте функционалните разделения: Разделете данните на организацията във всяка конкретна база данни (отдели), за да отговорите на нейните изисквания, без допълнителна организационна зависимост.
- Идентифицирайте изискванията на инструмента за потребителски достъп: На пазара може да има различни инструменти за потребителски достъп, които се нуждаят от различни структури от данни. Марти данни се използват за поддържане на всички тези вътрешни структури, без да нарушават DW данните. Един март за данни може да бъде свързан с един инструмент според нуждите на потребителя. Маркерите за данни също могат да предоставят актуализирани данни на такива инструменти ежедневно.
- Идентифицирайте проблемите с контрола на достъпа: Ако различни сегменти от данни в DW система се нуждаят от поверителност и трябва да бъдат достъпни от набор от упълномощени потребители, тогава всички такива данни могат да бъдат преместени в полета за данни.
Разходи за данни Mart
Цената на данните може да се изчисли, както следва:
- Разходи за хардуер и софтуер: Всеки новодобавен март за данни може да се нуждае от допълнителен хардуер, софтуер, процесорна мощ, мрежа и място за съхранение на диска, за да работи по заявки, поискани от крайните потребители. Това прави търсенето на данни скъпа стратегия. Следователно бюджетът трябва да бъде планиран точно.
- Достъп до мрежата: Ако местоположението на информационното пространство е различно от това на хранилището на данни, тогава всички данни трябва да бъдат прехвърлени с процеса на зареждане на информационното устройство. По този начин трябва да се осигури мрежа за прехвърляне на огромни обеми данни, които може да са скъпи.
- Ограничения за времеви прозорец: Времето, необходимо за процеса на зареждане на данни, ще зависи от различни фактори като сложност и обеми данни, капацитет на мрежата, механизми за трансфер на данни и др.
Сравнение на хранилището на данни срещу данни март
S.No | Склад за данни | Data Mart |
---|---|---|
1 | Сложна и струва повече за изпълнение. | Лесно и по-евтино за изпълнение. |
две | Работи на ниво организация за целия бизнес. | Обхватът е ограничен до определен отдел. |
3 | Заявките за DW са трудни за бизнес потребителите поради огромни зависимости от данни. | Запитването към data mart е лесно за бизнес потребителите поради ограничените данни. |
4 | Времето за изпълнение е повече, може да бъде в месеци или години. | Времето за изпълнение е по-малко, може да бъде в дни, седмици или месеци. |
5 | Събира данни от различни системи с външен източник. | Събира данни от няколко централизирани DW (или) вътрешни (или) системи с външен източник. |
6 | Могат да се вземат стратегически решения. | Могат да се вземат бизнес решения. |
Видове данни
Мартите за данни се класифицират в три типа, т.е.зависими, независими и хибридни. Тази класификация се основава на начина, по който са били попълнени, т.е. или от хранилище на данни (или) от други източници на данни.
Извличане, преобразуване и транспортиране (ETT) е процесът, който се използва за попълване на данни от данни от произволни системи.
Нека да разгледаме всеки тип в детайли !!
# 1) Зависими данни март
В зависима база данни данните се получават от самия съществуващ склад за данни. Това е подход отгоре надолу, тъй като частта от преструктурираните данни в информационното пространство се извлича от централизираното хранилище за данни.
Маркерът с данни може да използва DW данни или логически, или физически, както е показано по-долу:
- Логически изглед: В този сценарий данните на data mart не са физически отделени от DW. Той се отнася до DW данни чрез виртуални изгледи (или) таблици логично.
- Физическа подгрупа: В този сценарий данните на data mart са физически отделени от DW.
След като се разработят един или повече маркери за данни, можете да разрешите на потребителите да имат достъп само до марковете с данни (или) за достъп както до областите за данни, така и до складовете за данни.
ETT е опростен процес в случай на зависими данни, тъй като използваемите данни вече съществуват в централизирания DW. Точният набор от обобщени данни трябва просто да бъде преместен в съответните полета за данни.
Изображение на зависими данни Mart е показано по-долу :
# 2) Независими данни за март
Независимият маркер за данни е най-подходящ за малки отдели в организацията. Тук данните не се получават от съществуващото хранилище за данни. Независимият маркер за данни не зависи нито от DW на предприятието, нито от други данни.
Независимите данни представляват самостоятелни системи, при които данните се извличат, трансформират и зареждат от външни (или) вътрешни източници на данни. Те са лесни за проектиране и поддръжка, докато не поддържат прости бизнес нужди на отдела.
Трябва да работите с всяка фаза на процеса на ETT в случай на независими маркировки на данни по начин, подобен на начина, по който данните са обработени в централизиран DW. Въпреки това, броят на източниците и данните, попълнени в полетата за данни, може да е по-малък.
Изобразително представяне на Independent Data Mart :
# 3) Хибридни данни Mart
В хибриден март за данни данните се интегрират както от DW, така и от други операционни системи. Хибридните данни са гъвкави с големи структури за съхранение. Той може да се отнася и за други данни, свързани с данни.
Изобразително представяне на Hybrid Data Mart:
Стъпки за внедряване на Data Mart
Внедряването на Data Mart, което се смята за малко сложно, е обяснено в стъпките по-долу:
- Проектиране: Тъй като бизнес потребителите изискват март за данни, фазата на проектиране включва събиране на изисквания, създаване на подходящи данни от съответните източници на данни, създаване на логически и физически структури от данни и ER диаграми.
- Конструиране: Екипът ще проектира всички таблици, изгледи, индекси и т.н. в системата за данни.
- Население: Данните ще бъдат извлечени, трансформирани и заредени в март за данни заедно с метаданни.
- Достъп до: Data Mart данни са достъпни за достъп до крайните потребители. Те могат да поискат данните за своя анализ и отчети.
- Управление: Това включва различни управленски задачи, като например контрол на достъпа на потребителите, фина настройка на производителността на данни, поддържане на съществуващите данни и създаване на сценарии за възстановяване на данни в случай на отказ на системата.
Структура на Data Mart
Структурата на всеки март за данни се създава според изискването. Data Mart структурите се наричат Star joins. Тази структура ще се различава при различните данни.
Звездните съединения са многомерни структури, които се формират с таблици с факти и измерения, за да поддържат големи количества данни. Star join ще има таблица с факти в центъра, заобиколена от таблиците с измерения.
Данните за съответната таблица с факти са свързани с данни за таблици с размери с референтен външен ключ. Фактическата таблица може да бъде заобиколена от 20-30 таблици с измерения.
Подобно на системата DW, и при звездните съединения таблиците с факти съдържат само цифрови данни и съответните текстови данни могат да бъдат описани в таблици с размери. Тази структура прилича на звездна схема в DW.
Изобразително представяне на звездна структура.
Но подробните данни от централизирания DW са основата за всякакви данни. Много изчисления ще бъдат извършени върху нормализираните данни на DW, за да се трансформират в многомерни данни, маркиращи данни, които се съхраняват под формата на кубчета.
Това работи подобно на начина, по който данните от старите системи източници се трансформират в нормализирани DW данни.
Кога е полезен пилотните данни?
Пилот може да бъде разположен в малка среда с ограничен брой потребители, за да се гарантира дали разполагането е успешно преди пълноценното внедряване. Това обаче не е от съществено значение през цялото време. Пилотните разполагания няма да бъдат полезни, след като целта бъде изпълнена.
Трябва да разгледате следните сценарии, които препоръчват за пилотното разполагане:
- Ако крайните потребители са нови в системата за съхранение на данни.
- Ако крайните потребители искат да се чувстват комфортно да извличат сами данни / отчети, преди да отидат в производство.
- Ако крайните потребители искат практически с най-новите инструменти (или) технологии.
- Ако ръководството иска да види ползите като доказателство за концепцията, преди да го направи като голямо издание.
- Ако екипът иска да гарантира, че всички компоненти на ETL (или) инфраструктурни компоненти работят добре преди изданието.
Недостатъци на данни Mart
Въпреки че данните имат някои предимства пред DW, те също имат някои недостатъци, както е обяснено по-долу:
- Създадените нежелани данни са трудни за поддръжка.
- Маркерите за данни са предназначени за нуждите на малкия бизнес. Увеличаването на размера на полетата за данни ще намали неговата производителност.
- Ако създавате по-голям брой данни, тогава управлението трябва правилно да се грижи за тяхната версия, сигурност и производителност.
- Мартите за данни могат да съдържат исторически (или) обобщени (или) подробни данни. Въпреки това актуализациите на DW данни и данни за данни на данни може да не се извършват едновременно поради проблеми с несъответствието на данните.
Заключение
Много организации се стремят към данни за данни от гледна точка на спестяването на разходи. Следователно този урок се фокусира върху техническите аспекти на мартовете за данни в системата за съхранение на данни.
Метаданните в ETL са обяснени подробно в нашия предстоящ урок.
=> Посетете тук, за да видите поредицата за обучение за съхранение на данни за всички.
Препоръчително четене
- Урок за тестване на хранилище на данни с примери | Ръководство за тестване на ETL
- Типове данни на Python
- Типове данни на C ++
- Размерен модел на данни в хранилището на данни - Урок с примери
- Apriori алгоритъм в извличането на данни: внедряване с примери
- Примери за извличане на данни: Най-често срещаните приложения за извличане на данни 2021
- Основи за съхранение на данни: Крайно ръководство с примери
- Урок за тестване на обем: Примери и инструменти за тестване на обем