metadata data warehouse explained with examples
Този урок обяснява ролята на метаданните в ETL, примери и типове метаданни, хранилище на метаданни и предизвикателства в управлението на метаданни:
Data Mart в ETL беше обяснено подробно в предишния ни урок.
Концепцията за метаданни е много важна в ETL и този урок ще обясни всичко за метаданните.
Той обхваща ролята на метаданните, примери за метаданни, както и техните типове, хранилище на метаданни, как може да се управлява метаданните за съхранение на данни, предизвикателства за управлението на метаданни.
Също така ще се запознаете с това, което се управлява от метаданни ETL и разликата между данните и метаданните.
=> Прочетете безплатната серия за обучение на хранилище за данни тук.
Целева аудитория
- Хранилище за данни / ETL разработчици и тестери.
- Професионалисти в базата данни с основни познания за концепции за бази данни.
- Администратори на бази данни / експерти за големи данни, които искат да разберат областите за съхранение на данни / ETL.
- Завършили колеж / специалисти, които търсят работа в склад за данни.
Какво ще научите:
как да стартирам торент файл
Метаданни в ETL
Потребителите на хранилище за данни (или) могат да използват метаданни в различни ситуации за изграждане, поддържане и управление на системата. Основното определение на метаданните в хранилището на данни е, „Това са данни за данни“ .
Метаданните могат да съдържат всякакъв вид информация за DW данни като:
- Източник за всички извлечени данни.
- Използване на тези DW данни.
- Всякакъв вид данни и техните стойности.
- Характеристики на данните.
- Логика на трансформация за извлечени данни.
- DW таблици и техните атрибути.
- DW обекти
- Времеви марки
Метаданните действат като съдържание на данни в системата DW, което показва техниката с повече подробности за тези данни. С прости думи, можете да измислите индекс във всяка книга, който действа като метаданни, за съдържанието в тази книга.
По подобен начин метаданните работят като индекс към съдържанието на DW. Всички такива метаданни се съхраняват в хранилище. Преглеждайки метаданни, крайните потребители се запознават откъде могат да започнат да анализират системата DW. В противен случай е трудно за крайните потребители да знаят откъде да започнат анализа на данните в такава огромна DW система.
Роля на метаданните в хранилището на данни
В по-ранните дни метаданните бяха създадени и поддържани като документи. Но в днешния цифров свят различни инструменти улесниха тази работа, като записаха метаданни на всяко ниво от DW процеса.
Метаданните, създадени от един инструмент, могат да бъдат стандартизирани (т.е. данните могат да бъдат въведени в един уникален формат) и могат да бъдат използвани повторно в останалите инструменти навсякъде в системата на DW.
Тъй като сме наясно, че операционните системи поддържат текущи данни, системите DW поддържат исторически и текущи данни.
Метаданните трябва да проследяват всички промени, които се случват в системите източници, методите за извличане / преобразуване на данни и в структурата (или) съдържанието на данните, които ще възникнат в този процес. Метаданните ще поддържат различни версии, за да следят всички тези промени в продължение на няколко години.
Достатъчните метаданни, предоставени в хранилището, ще помогнат на всеки потребител да анализира системата по-ефективно и независимо. Чрез разбиране на метаданните можете да изпълнявате всякакъв вид заявки за DW данни за най-добри резултати.
Изобразително представяне на ролята на метаданните:
Примери за метаданни с прости думи
По-долу са дадени някои от примерите за метаданни.
- Метаданните за уеб страница могат да съдържат езика, на който е кодирана, инструментите, използвани за нейното изграждане, поддържащи браузъри и т.н.
- Метаданните за цифрово изображение могат да съдържат размера на картината, разделителната способност, интензивността на цвета, датата на създаване на изображението и т.н.
- Метаданните за документ могат да съдържат датата на създаване на документа, последната модифицирана дата, неговия размер, автор, описание и т.н.
Сравнение между данни и метаданни
S.No | Данни | Метаданни |
---|---|---|
един | Данните са набор от информация. | Метаданните са информация за данни. |
две | Данните могат (или) да не се обработват. | Метаданните винаги са обработени данни. |
Видове метаданни
Класификацията на метаданните на различни видове ще ни помогне да ги разберем по-добре. Тази класификация може да се основава на нейното използване (или) на потребителите и т.н.
Нека разгледаме различните видове метаданни по-долу:
# 1) Метаданни в задкулисни условия: Насочва DBA (или) крайните потребители върху процесите на извличане, почистване и зареждане.
# 2) Метаданни в предната стая: Насочва крайните потребители да работят с BI инструменти и отчети.
# 3) Метаданни на процеса: Това съхранява метаданни за процеса на ETL, като например броя на заредените, отхвърлените, обработените редове и времето, необходимо за зареждане в DW система и т.н. Тази информация може да бъде достъпна и за крайните потребители.
В същото време статистиката на подреждащите таблици също е важна за екипа на ETL. Тези метаданни ще съхраняват данните за процеса на подреждане на таблици, като например броя на заредените, отхвърлени, обработени редове и времето, необходимо за зареждане във всяка подреждаща таблица.
# 4) Линия на данни: Това съхранява логическата трансформация за всеки системен елемент източник в DW целевия елемент.
# 5) Дефиниции на бизнеса: Контекстът за DW таблици е извлечен от бизнес дефинициите. Всеки атрибут в таблица е свързан с бизнес дефиниция. Следователно те трябва да се съхраняват като метаданни (или) всеки друг документ за бъдещи справки. Както крайните потребители, така и екипът на ETL зависят от тези бизнес дефиниции.
# 6) Технически определения: Техническите дефиниции се използват изключително в областта за подреждане на данни повече от бизнес дефинициите. Основната цел е да се намали двусмислието при създаване на подреждащи таблици и да се използват повторно всички съществуващи таблици. Техническите дефиниции ще съхраняват детайлите на всяка подреждаща таблица, като нейното местоположение и структура.
Всяка подреждаща таблица е технически документирана тук, ако не е документирана, това означава, че подготвителната таблица не съществува. Това избягва развлечението на същата инсценираща маса.
топ mp3 музика за изтегляне за android
# 7) Бизнес метаданни: Данните ще се съхраняват в бизнес смисъл в полза на крайните потребители / анализатори / мениджъри / всякакви потребители. Бизнес метаданните са прокси за системните данни, т.е. няма да се извършват манипулации с тях. Той може да бъде извлечен от всякакви бизнес документи и бизнес правила.
# 8) Технически метаданни: Това ще съхранява технически данни като атрибути на таблици, техните типове данни, размер, атрибути на първичен ключ, атрибути на външен ключ и всякакви индекси. Това е по-структурирано в сравнение с бизнес данните.
Техническите метаданни са предназначени главно за екипа на DW, като разработчици / изпитатели / анализатори / DBA, за изграждане (или) поддържане на системата. Това също се използва значително от администраторите за наблюдение на натоварванията на базата данни и архивиране на данни и т.н.
# 9) Оперативни метаданни: Както знаем, данните в системата DW се доставят от много операционни системи с различни типове данни и полета. DW екстрактите трансформират такива данни в уникален тип и зареждат всички тези данни в системата.
В същото време той трябва да може да свърже обратно данните със своите системни данни. Метаданните, които съхраняват всички тези оперативни източници на информация, са известни като оперативни метаданни.
# 10) Информация за системата източник:
Можете да събирате следните метаданни от различни системи източници:
- Файлова система за база данни (или): Това ще съхранява имената на системните бази данни (или) файлове.
- Спецификации на таблицата: Това ще съхранява всички подробности за таблици като име на таблица, нейното предназначение, размер, атрибути, първични ключове и външни ключове.
- Правила за обработка на изключения: Това ще съхранява различни методи за възстановяване на системата в случай на системни откази.
- Бизнес определения: Това ще съхранява бизнес дефиниции за кратко разбиране на данните.
- Бизнес правила: Това ще съхранява набор от правила за всяка таблица, за да се разберат данните й и да се избегне несъответствие.
Изходните метаданни спестяват много време на екипа на DW, докато анализират данните.
# 11) Метаданни за работа на ETL: Метаданните за работа на ETL са много важни, тъй като съхраняват подробностите за всички задачи, които трябва да бъдат обработени в графика, за да заредят системата ETL.
Тези метаданни съхраняват следната информация:
- Име на длъжността: Име на работа в ETL.
- Цел на работата: Целта на изпълнението на заданието.
- Изходни таблици / файлове: Той предоставя имената и местоположението на всички таблици и файлове, от които данните се получават от тази работа на ETL. Това може да съдържа повече от едно име на таблица (или).
- Целеви таблици / файлове: Той предоставя имената и местоположението на всички таблици и файлове, в които данните се трансформират от тази ETL работа. Това може да съдържа повече от едно име на таблица (или).
- Отхвърлени данни: Той предоставя имената и местоположението на всички таблици и файлове, от които предвидените изходни данни не са били заредени в целта.
- Предварителни процеси: Той предоставя имената на скриптове на задания (или), от които зависи текущата работа. Това означава, че те трябва да бъдат успешно изпълнени, преди да стартирате текущата работа.
- Постпроцеси: Той предоставя имената на задания (или) скриптове, които трябва да се изпълняват веднага след текущата работа, за да завършите процеса.
- Честота: Той предоставя информация за това колко често трябва да се изпълнява работата, т.е. ежедневно, седмично (или) месечно.
# 12) Метаданни за трансформация: Метаданните за трансформация съхраняват цялата информация за строителството, свързана с процеса на ETL. Всяка една манипулация на данни в процеса на ETL е известна като трансформация на данни.
кой е най-добрият анти шпионски софтуер
Всеки набор от функции, съхранени процедури, курсори, променливи и цикли в ETL процеса могат да се считат за трансформации. Но такива трансформации не могат да бъдат документирани отделно като метаданни.
Целият процес на ETL е изграден с трансформации на данни. Малко трансформации в ETL могат да бъдат предварително дефинирани и използвани в DW системата. Разработчиците на ETL прекарват времето си в изграждане (или) преработка на всички трансформации на данни. Повторното използване на предварително дефинираните трансформации по време на разработването на ETL процеса ще ускори работата.
Прочетете следните трансформации на данни, които можете да намерите в ETL:
- Извличане на изходни данни: Това включва трансформации на данни за четене от системни данни като SQL заявка за избор (или) FTP (или) четене на XML / мейнфрейм данни.
- Генератори на сурогатни ключове: Новият пореден номер, който трябва да се генерира за всеки ред в таблицата на базата данни, се съхранява като метаданни.
- Търсене: Справки могат да се формират с всички оператори IN, вътрешни съединения и външни съединения. Те се използват главно за задържане на сурогатните ключове от всички съответни таблици с размери, докато се зарежда факт.
- Филтри: Препоръчват се филтри за сортиране на данните, които трябва да бъдат извлечени, заредени и отхвърлени в процеса на ETL. Филтрирането на данните в ранните етапи на ETL системата е добра практика. Филтрите се прилагат в зависимост от ограниченията на бизнес правилата (или).
- Агрегати: В зависимост от нивото на детайлност на данните могат да се използват метаданните, свързани с обобщените функции, като сума, брой, средно и т.н.
- Стратегии за актуализиране: Това са правилата, прилагани към запис при актуализиране на данните. Ако има някаква промяна в съществуващите данни, това ще покаже дали даден запис трябва да бъде добавен, изтрит (или) актуализиран.
- Целеви товарач: Target loader ще съхранява подробностите за базата данни, имена на таблици и имена на колони, в които данните трябва да бъдат заредени чрез ETL процеса. Освен това това ще съхранява и подробностите за помощната програма за групово натоварване, ако има такава, която се извършва при зареждане на данни в системата ETL.
Всяка трансформация може да бъде обозначена по различен начин с кратка бележка за нейната цел.
Някои примери за конвенции за именуване са посочени тук за горния списък с трансформации.
SRC_ SEQ_ LKP_ FIL_ AGG_ UPD__ TRG_
Хранилище за метаданни в ETL
Хранилището за метаданни е място, където всякакъв вид метаданни се съхраняват или в локална база данни (или) във виртуална база данни. Всеки тип метаданни като бизнес метаданни (или) технически метаданни могат да бъдат разделени логически в хранилище.
В допълнение към горните два типа хранилището има и още един компонент, наречен Information navigator.
Информационният навигатор може да се използва за изпълнение на следните задачи:
- Интерфейс от инструмента за заявки: Това осигурява интерфейс към инструментите за заявки за достъп до метаданните на DW.
- Пробийте за подробности: Това позволява на потребителя да анализира метаданни за по-подробна информация. Като пример, на първо ниво потребителят може да получи дефиниция на таблица с данни. Чрез пробиване той може да получи атрибутите на таблицата на следващото ниво. Чрез пробиване на данните повече той може да получи подробности за всеки атрибут и т.н.
- Преглед на предварително дефинирани заявки и отчети: Това позволява на потребителя да преглежда предварително дефинирани заявки и отчети. Това действа като препратка към самозапитвания за рамки с подходящи параметри и т.н.
Изобразително представяне на хранилището за метаданни:
Как могат да се управляват метаданните за съхранение на данни?
Хората, процесите и инструментите са ключовите източници за управление на метаданните.
- Хората трябва да разбират метаданните за подходяща употреба.
- Процесът ще включва метаданни в хранилището на инструменти (или) с напредъка на жизнения цикъл на DW за бъдеща употреба.
- След това метаданните могат да се управляват от инструменти.
Предизвикателства пред управлението на метаданни
След като метаданните са създадени, може да се сблъскате със следните предизвикателства, докато интегрирате и управлявате метаданни в системата.
- Привеждането на различни формати на метаданни в стандартен формат може да се нуждае от повече усилия, ако в DW системата се използват различни инструменти, тъй като метаданните могат да се съхраняват в електронни таблици, приложения (или) бази данни.
- Форматите на метаданни нямат установени стандарти за цялата индустрия. С тази липса на стандартизиран процес е трудно да се предадат метаданни през различни нива на системата и инструментите DW.
- Последователното поддържане на различни версии на историческите метаданни е сложна задача.
Какво представлява ETL, управляван от метаданни?
Задвижваният от метаданни ETL създава слой за опростяване на процеса на зареждане на данни в DW система. Можете да решите дали да обработите данните в системата (или), в зависимост от метаданните. Следователно можете да го наречете като ETL, управляван от метаданни.
Заключение
Значителната роля на метаданните за определяне на успеха (или) неуспеха на DW система беше обяснена подробно в този урок.
Също така изследвахме подробно значението, ролята, примерите, типовете, предизвикателствата на метаданните, заедно със съответното изобразително представяне.
Надяваме се, че тези информативни уроци от тази поредица от хранилища за данни обогатиха вашите познания относно Складирането на данни и свързаните с тях концепции !!!
Честито четене !!
=> Посетете тук, за да научите съхранението на данни от нулата.
Препоръчително четене
- Урок за тестване на хранилище на данни с примери | Ръководство за тестване на ETL
- Урок за тестване на хранилище на данни за ETL (Пълно ръководство)
- Размерен модел на данни в хранилището на данни - Урок с примери
- Data Mart Урок - Видове, примери и изпълнение на Data Mart
- Какво представлява процесът ETL (извличане, преобразуване, зареждане) в хранилището на данни?
- 10 най-добри инструмента за картографиране на данни, полезни в процеса на ETL (2021 СПИСЪК)
- Примери за извличане на данни: Най-често срещаните приложения на извличането на данни 2021
- Въпроси и отговори за интервю за ETL тестване