oracle data warehouse
Ръководство за хранилище на данни на Oracle с предимства, архитектура, рискове и сравнение със системата OLTP (онлайн обработка на транзакции):
В предишния урок на Изчерпателно ръководство за Oracle , научихме за продуктите и услугите на Oracle в различни домейни като приложения, бази данни, ОС и др. Тази статия ще предостави задълбочени познания за съхранението на данни на Oracle. Но преди това нека първо разберем концепцията за Business Intelligence (BI).
Бизнес разузнаване
Business Intelligence е софтуерен домейн, който въплъщава определени методи, технологии, инструменти и приложения, които помагат за структуриране, прецизиране и трансформиране на групови данни в интелигентен и разбираем формат, който може да се използва от клиентите за генериране на персонализирани отчети, а също така помага при предприемането на бизнес решения.
Предлагат се различни опции за задоволяване на тази нужда, като съхранение на данни, OLAP (онлайн обработка на транзакции), извличане на данни, интегриране на данни, инженеринг на решения, електронни таблици и др.
Складирането на корпоративни данни (EDW) е един от основните компоненти на BI, който обслужва аналитичните и отчетните нужди на предприятията. Data Warehouse е релационна система за управление на бази данни (RDBMS), която съхранява консолидирани данни, получени от множество източници за по-нататъшна употреба.
фази на жизнения цикъл на развитието на системата с примери
Какво ще научите:
- Общ преглед на хранилището на данни на Oracle
- Сравнение на OLTP срещу хранилището на данни
- Контрастна база данни и март за данни
- Преглед на ETL процеса
- Архитектура на хранилището на данни
- Заключение
Общ преглед на хранилището на данни на Oracle
Защо се нарича „Хранилище на данни“?
Нека се опитаме да си припомним значението на думата „склад“, за да се свържем с термина „Склад на данни“.
Физическият склад е хранилище, което се използва за съхраняване на стоки, получени от различни източници, които по-късно могат да бъдат доставени на клиента въз основа на неговите нужди.
(изображение източник )
По същия начин хранилището за данни е хранилище на данни, получени от различни системи източници. Тези източници могат да бъдат всякакви системи за съхранение като данни, плоски файлове или всякакви устройства за съхранение на мултимедия, съдържащи данни за различни корпоративни домейни като HR, продажби, операции, управление на ресурси и маркетинг и т.н.
Цел на разполагането на хранилище за данни
Едно предприятие може да е чувало за концепцията за хранилище на данни, но може да не е сигурно дали трябва да включи това към своето предприятие. Все пак винаги ще има нужда да изхвърляте данни от различни източници на общо място и да ги архивирате, така че пространството за съхранение да може да бъде освободено от транзакционните системи. Тук системата за съхранение на данни се превръща в бизнес изискване.
За да расте на пазара, мениджмънтът трябва да е добър при вземането на решения, които могат да бъдат взети само след задълбочено проучване на миналите тенденции на дадена организация. Следователно, тези архивирани данни се поддържат в хранилището на данни в добре организиран и изчислен формат, така че да могат да бъдат насочени за бизнес анализ в бъдеще.
Ползи от съхранението на данни
Хранилището на данни, ако бъде внедрено успешно, може да бъде от полза по следните начини:
# 1) Той опрости работата на анализаторите, като предостави подобрена версия на решения за бизнес разузнаване. Той извлича данни от множество източници, трансформира и съхранява, които могат да бъдат директно заявени от бизнеса за анализ.
Той също така предлага различни инструменти, които поддържат следното:
- Генериране на персонализирани бизнес отчети.
- Интерактивни табла за управление, показващи необходимата информация.
- Възможност за пробиване през таблата само за да получите подробности.
- Извличане на данни и анализ на тенденции.
# две) Дори и след получаване на данни от различни системи източници, данните в хранилището за данни остават постоянни в резултат на трансформации, настъпили по време на процеса ETL. Последователните данни дават увереност на вземащия решение по отношение на точността.
# 3) Складовете за данни също се определят като спестяване на време, тъй като критичните данни, изисквани от заинтересованите страни за вземане на бизнес решения, са достъпни на едно място и могат лесно да бъдат извлечени.
# 4) Те са предназначени да съхраняват исторически данни и следователно могат да бъдат поискани за изследване на тенденциите през различни периоди от време. Той също така помага на заинтересованите страни да извлекат бъдещия път на растеж.
Рискове, свързани с използването на хранилището на данни
Наред с предимствата, всяко ново внедряване включва и набор от рискове, за които трябва да се внимава.
По-долу са изброени някои от свързаните рискове:
- Несъвместимостта на системите източници със системата за съхранение на данни може в крайна сметка да извърши много ръчна работа.
- Неправилната оценка на времето на ETL процеса може да доведе до прекъсване на работата.
- Това са системи за съхранение от много висок клас и поради това се нуждаят от висока поддръжка. Всеки работен поток или бизнес промени могат да струват много високо.
- Създаването на хранилище за данни е процес, който отнема време, тъй като се нуждае от много време, за да разбере бизнес потоците и да идентифицира интеграционните възможности за проектиране на склад.
- Защитата на данните тук винаги е риск, тъй като тя съхранява вековни исторически данни, които, ако изтекат, могат да повлияят на бизнеса.
Сравнение на OLTP срещу хранилището на данни
Разликите между OLTP и Data Warehouse могат да бъдат разбрани от таблицата по-долу.
OLTP | Съхранение на данни |
---|---|
Вмъкване и актуализации са основните операции, извършвани от крайните потребители на OLTP системи. | Складовете за данни се търсят основно с помощта на оператор SELECT и могат да бъдат актуализирани само с помощта на ETL услуги. |
OLTP системите поддържат бизнес транзакции. | Data Warehouse поддържа бизнес решения, взети след анализ на завършени бизнес транзакции. |
Данните остават нестабилни, т.е. продължава да се променя | Данните не трябва да се променят. |
Те съдържат най-новите данни. | Те съхраняват историческите данни. |
Съхранява суровите данни без никакви изчисления. | Съдържа обобщени и добре изчислени данни. |
Данните ще бъдат нормализирани. | Данните ще останат денормализирани. |
Размерът на базата данни на Oracle може да варира от 50MB до 100GB. | Размерът на базата данни на Oracle може да варира от 100GB до 2TB. |
Контрастна база данни и март за данни
Data Warehouse и DataMart, и двете термини не звучат сходно и изглеждат свързани със съхранението на данни.
Да, те са свързани и двете се използват за съхраняване на данни. Основната разлика между двамата е капацитетът за съхранение на данните и тази разлика помага на крайните потребители да изберат правилния модул за съхранение за своите системи.
Data Mart има по-малък капацитет за съхраняване на данни в сравнение със хранилището на данни и следователно може да се разглежда като подмножество от него. Маркерите с данни обикновено се идентифицират, за да съхраняват ограничени данни, които биха могли да бъдат от определен отдел или бизнес, докато складовете за данни могат да се използват за съхраняване на консолидираните данни за всички.
Нека вземем пример за уебсайт за електронна търговия, съдържащ различни категории за стоки като Мода, Аксесоари, Домакински предмети, Книги и училищни пособия, Електроника и др.
И така, Data marts могат да бъдат проектирани да съхраняват категорията на данните за продуктите разумно, докато складовете за данни могат да се използват за съхраняване на пълни данни на уебсайта, включително история на едно място.
Мартите с данни са с по-малък размер, те могат да бъдат създадени много по-бързо, без много анализ, както е необходимо за проектиране на хранилище за данни. Необходими са обаче много усилия, за да се синхронизират няколко маркировки на данни, за да се поддържа последователност на данните.
техники за извличане на изисквания в софтуерното инженерство
Преглед на ETL процеса
ETL (Извличане, преобразуване и зареждане) е процес на извличане на данни от различни източници, трансформиране и зареждане в системата за съхранение на данни. Това е сложен процес, който трябва да взаимодейства с различни системи източници за извличане на данни и следователно също технически предизвикателен.
Трансформацията отново се нуждае от много анализ, за да разбере формата на изходните системи и да приведе данните до общия формат, така че същите данни да могат да се съхраняват в хранилището на данни.
Процесът ETL е повтаряща се работа, която може да се изпълнява ежедневно, седмично или дори месечно в зависимост от бизнес изискванията.
Архитектура на хранилището на данни
Нека разберем архитектурата на Data Warehouse, която е предназначена основно за съхраняване на прецизирани данни за предварително дефинирани бизнес изисквания. Архитектурата се състои от 5 компонента с поток от данни отгоре надолу.
Компонентите са както следва:
- Източници на данни
- Постановка на данни
- Хранилище за данни (съхранение на данни)
- Data March (съхранение на данни)
- Представяне на данни
Нека разберем всички етапи, изброени по-горе един по един.
# 1) Източници на данни
Съществуват различни системи източници, които действат като вход към системите за съхранение на данни.
Тези системи източници могат да бъдат:
- Релационни бази данни като Oracle, DB2, MySQL, MS Access и др., Които могат да се използват за записване на ежедневни транзакции на всяка организация. Тези ежедневни бизнес транзакции могат да бъдат свързани с ERP, CRM, продажби, финанси и маркетинг и др.
- Плоски файлове
- Уеб услуги
- RSS емисии и подобни източници.
# 2) Поставяне на данни
След като източниците на данни са на място, следващата стъпка ще бъде извличането на тези данни от системите източници в зоната за подреждане на склада.
Тъй като данните са извлечени от различни системи, които следват различни формати за съхранение, е необходимо да се преструктурират данните, така че да се приведат в общ формат. Следователно трансформацията на данни се извършва като следваща стъпка.
По време на трансформацията се извършва почистване на данни, което включва прилагане на бизнес правила, филтриране на данни, премахване на съкращения, форматиране на данни, сортиране на данни и др.
# 3) Хранилище за данни (съхранение на данни)
След като данните бъдат извлечени и трансформирани, те ще бъдат заредени в многоизмерна среда, т.е. Сега тези обработени данни могат да се използват за анализ и за други цели от крайните потребители.
# 4) Мартове с данни (съхранение на данни)
Както бе споменато по-горе, че данните вече са готови за консумация от крайните потребители, има следващ процес на създаване на данни за марки като следваща стъпка. Тези данни могат да се използват за съхраняване на обобщени данни на определен отдел или направление на дейност за целенасочена употреба.
Например, отделни маркировки за данни могат да бъдат добавени за отдели като Продажби, Финанси и Маркетинг и др. като следваща стъпка, която ще съхранява конкретни данни и позволява на анализатор да извършва подробни заявки за бизнес нужди. Освен това предотвратява достъпа на всеки друг краен потребител до пълния склад и по този начин прави данните сигурни.
# 5) Инструменти за достъп до данни (представяне на данни)
Съществуват редица предварително дефинирани инструменти за бизнес разузнаване, които могат да бъдат използвани от потребителите за достъп до хранилища на данни или данни. Тези предни инструменти са проектирани по изключително лесен за потребителя начин, като предоставят на потребителите разнообразни опции за достъп до данни.
Опциите са посочени по-долу:
- Чрез прилагане на заявката към Oracle или други бази данни директно чрез SQL.
- Генериране на отчети.
- Разработване на приложение.
- Използване на инструменти за извличане на данни и др.
Малко популярни складови инструменти, предлагани на пазара, са:
- Analytix DS
- Amazon Redshift
- Ab Initio софтуер
- Кодови фючърси
- Холистично управление на данни
- Корпорация по информатика
Складиране на данни в облак
c ++ ширина първо търсене
Складовете за данни са прекомерно признати от света. Следващият въпрос, който възниква: Използваме ли оптимизиран подход за разполагане на хранилища на данни?
След това беше въведено съхранение на данни в облак, което има надмощие в съхранението на корпоративни данни (EDW). Концепцията за базирани на облак хранилища за данни предлага различни предимства.
Те са както следва:
(i) Мащабируемост: Данните в облачните системи са лесно мащабируеми нагоре и надолу, без да се налага караница, докато отнема много време и ресурси за извършване на мащабиране в традиционните складове за данни.
(ii) Спестяване на разходи: Базите данни в облак са направили забележителна разлика в инвестицията, необходима за настройка на склад. Те са намалили първоначалните първоначални разходи, като елиминират разходите за
-
- Поддържане на хардуерни / сървърни помещения.
- Персонал, необходим за поддръжка.
- Други оперативни разходи.
(iii) Изпълнение: Производителността е друг фактор, който позволи на базираните на облак системи да доминират над традиционните. Ако бизнесът се разшири в световен мащаб и се налага достъп до данни от различни части на света с по-бърз обрат, най-добре е да се използват базирани в облак складове.
Масивно паралелната обработка (MPP) е един от методите за съвместна обработка, използвани от складовете за постигане на същото.
(iv) Свързаност: Както бе споменато по-горе, ако данните трябва да бъдат достъпни от множество географски местоположения, потребителите се нуждаят от отлична свързаност с тези складове и облачно-базиран склад предлага същото.
Заключение
Надяваме се, че всички сте получили честна представа за системата за съхранение на данни Oracle, след като прочетете горната статия. Уведомете ни, ако имате нужда от прозрения по определена тема около складирането на данни, за да можем да прикрием същото в предстоящите уроци.
Препоръчително четене
- Какво представлява езерото с данни | Хранилище за данни срещу Езерото за данни
- Урок за тестване на хранилище на данни с примери | Ръководство за тестване на ETL
- Топ 10 на популярните инструменти за съхранение на данни и технологии за тестване
- Размерен модел на данни в хранилището на данни - Урок с примери
- Метаданни в хранилището на данни (ETL), обяснени с примери
- Урок за тестване на хранилище на данни за ETL (Пълно ръководство)
- Типове схеми при моделиране на хранилище на данни - схема Star & SnowFlake
- Какво представлява процесът ETL (извличане, преобразуване, зареждане) в хранилището на данни?