top 32 best datastage interview questions
Списък с най-често задаваните въпроси и отговори за интервю за сцената на данни, които да ви помогнат да се подготвите за предстоящото интервю:
DataStage е много популярен ETL инструмент, който се предлагаше на текущия пазар.
В тази статия споделям набор от много полезни въпроси-отговори, предназначени за интервюта на IBM Datastage. Преминаването през въпросите за интервю за Datastage може да ви улесни да пропуснете интервюто.
Ние разгледахме подробни отговори на интервютата за Datastage, които ще бъдат полезни за по-свежи и опитни професионалисти.
Препоръчително четене => Въпроси за интервю за тестване на ETL
Най-често срещаните въпроси и отговори за интервюта на сцената на данни
Да започваме!
В # 1) Какво представлява Datastage?
Отговори: Datastage е Инструмент ETL дадена от IBM който използва GUI за проектиране на решения за интегриране на данни. Това беше първият инструмент за ETL, който даде концепция за паралелизъм.
Предлага се в следните 3 различни издания
- Сървърно издание
- Enterprise Edition
- MVS Edition
В # 2) Откройте основните характеристики на Datastage?
Отговори: Основните характеристики на Datastage са подчертани по-долу:
- Това е компонентът за интегриране на данни на информационния сървър на IBM Infosphere.
- Това е инструмент, базиран на GUI. Трябва само да плъзнем и пуснем обектите на Datastage и можем да ги конвертираме в код на Datastage.
- Използва се за извършване на ETL операции (извличане, преобразуване, зареждане)
- Той осигурява свързаност към множество източници и множество цели едновременно
- Той осигурява техники за разделяне и паралелни обработки, които позволяват на задачите на Datastage да обработват огромен обем данни доста по-бързо.
- Той има свързаност на ниво предприятие.
В # 3) Какви са основните употреби на инструмента Datastage?
Отговори: Datastage е ETL инструмент, който се използва предимно за извличане на данни от изходни системи, трансформиране на тези данни и накрая зареждането им в целевите системи.
В # 4) Какви са основните разлики, които сте забелязали между 7.x и 8.x версия на DataStage?
Отговори: Тук са основните разлики между двете версии
7.x | 8.x |
---|---|
Версията 7.x зависи от платформата | Тази версия е независима от платформата |
Той има двустепенна архитектура, където datastage е изграден върху сървъра на Unix | Той има тристепенна архитектура, в която имаме UNIX сървърна база данни отдолу, след това база данни XMETA, която действа като хранилище и след това имаме етап от данни отгоре. |
Няма концепция за набор от параметри | Имаме набори от параметри, които могат да се използват навсякъде в проекта. |
Имахме дизайнер и мениджър като два отделни клиента | В тази версия клиентът на мениджъра беше обединен в дизайнерски клиент |
Трябваше да търсим ръчно заданията в тази версия | Тук имаме опция за бързо намиране в хранилището, където можем лесно да търсим заданията. |
В # 5) Можете ли да подчертаете основните характеристики на информационния сървър на IBM Infosphere?
Отговори: Основните характеристики на информационния сървър на IBM Infosphere са:
използвайки регулярния израз в c ++
- Той осигурява единна платформа за интеграция на данни. Той има способността да се свързва с множество системи източници, както и да записва в множество целеви системи.
- Тя се основава на централизирани слоеве. Всички компоненти на пакета могат да споделят основната архитектура на пакета.
- Той има слоеве за унифицираното хранилище, за интегрирани услуги за метаданни и общ паралелен механизъм.
- Той предоставя инструменти за анализ, почистване, наблюдение, трансформиране и доставяне на данни.
- Той има масивно паралелни възможности за обработка. Оказва се, че обработката е много бърза.
В # 6) Кои са различните слоеве в архитектурата на информационния сървър?
Отговори: По-долу са представени различните слоеве на архитектурата на информационния сървър
- Унифициран потребителски интерфейс
- Общи услуги
- Единна паралелна обработка
- Единни метаданни
- Обща свързаност
В # 7) Какво може да бъде система за източник на данни?
Отговори: Това може да бъде таблица на базата данни, плосък файл или дори външно приложение като хора, меки.
В # 8) На кой интерфейс ще работите като разработчик?
Отговори: Като разработчик на Datastage, ние работим върху клиентския интерфейс на Datastage, който е известен като конструктор на Datastage, който трябва да бъде инсталиран в локалната система. В бекенда той е свързан със сървъра на Datastage.
В # 9) Кои са различните често срещани услуги в Datastage?
Отговори: По-долу е списъкът на често срещаните услуги в Datastage:
- Услуги за метаданни
- Разгръщане на унифицирана услуга
- Охранителни услуги
- Услуги по циклиране и докладване.
В # 10) Как да започнете да разработвате проект на Datastage?
Отговори: Първата стъпка е да създадете задача за Datastage на сървъра на Datastage. Всички обекти на Datastage, които създаваме, се съхраняват в проекта Datastage. Проектът Datastage е отделна среда на сървъра за задания, таблици, дефиниции и рутини.
Проектът Datastage е отделна среда на сървъра за задания, таблици, дефиниции и рутини.
В # 11) Какво представлява задачата за DataStage?
Отговори: Задачата на Datastage е просто код на DataStage, който създаваме като разработчик. Той съдържа различни етапи, свързани заедно, за да дефинират данните и потока от процеси.
Етапите не са нищо друго освен функционалностите, които се прилагат.
Например: Да приемем, че искам да направя сума от сумата на продажбите. Това може да бъде операция „групиране по“, която ще се извърши на един етап.
Сега искам да запиша резултата в целевия файл. И така, тази операция ще бъде извършена от друг етап. След като дефинирам и двата етапа, трябва да дефинирам потока от данни от моя етап „група по“ до етапа на целевия файл. Този поток от данни се дефинира от връзки DataStage.
След като дефинирам и двата етапа, трябва да дефинирам потока от данни от моя етап „група по“ до етапа на целевия файл. Този поток от данни се дефинира от връзки DataStage.
В # 12) Какво представляват последователностите на DataStage?
Отговори: Последователността на Datastage свързва заданията на DataStage в логически поток.
В # 13) Ако искате да използвате една и съща част от кода в различни задачи, как ще постигнете това?
Отговори: Това може да стане с помощта на споделени контейнери. Споделихме контейнери за повторна употреба. Споделеният контейнер е елемент за работа за многократна употреба, състоящ се от етапи и връзки. Можем да извикаме споделен контейнер в различни задания на Datastage.
Въпрос # 14) Къде се съхраняват заданията на Datastage?
Отговори: Заданията на Datastage се съхраняват в хранилището. Имаме различни папки, в които можем да съхраняваме заданията на Datastage.
В # 15) Къде виждате различни етапи в дизайнера?
Отговори: Всички етапи са достъпни в прозорец, наречен ' Палитра ' . Той има различни категории в зависимост от вида на функцията, която сцената предоставя.
Различните категории етапи в палитрата са - Общи, Качество на данните, База данни, Разработка, Файл, Обработка и др.
В # 16) Какви са етапите на обработка?
Отговори: Етапите на обработка ни позволяват да приложим действителната трансформация на данни.
Например , The ' етап на агрегатор в категорията Обработка ни позволява да приложим всички операции „групиране по“. По подобен начин имаме и други етапи в обработката като етапа „Присъединяване“, който ни позволява да обединим данните, идващи от два различни входни потока.
Въпрос # 17) Какви са стъпките, необходими за създаване на проста основна задача за Datastage?
Отговори: Кликнете върху Файл -> Щракнете върху Ново -> Изберете паралелно задание и натиснете Ok. Ще се отвори паралелен прозорец за работа. В тази паралелна работа можем да съберем различни етапи и да дефинираме потока от данни между тях. Най-простата работа в DataStage е ETL работа.
В това първо трябва да извлечем данните от системата източник, за която можем да използваме или етап на файл, или етап на база данни, тъй като моята система източник може да бъде или таблица на базата данни, или файл.
какво е сайт за споделяне на файлове
Да предположим, че четем данни от текстов файл. В този случай ще плъзнем и пуснем етапа „Последователен файл“ до паралелния прозорец на заданието. Сега трябва да извършим някаква трансформация върху тези данни. Ще използваме етапа „Трансформатор“, който е достъпен в категорията „Обработка“. Можем да напишем всяка логика под етапа на трансформатора.
И накрая, трябва да заредим обработените данни в някаква целева таблица. Да приемем, че целевата ми база данни е DB2. И така, за това ще изберем етапа на DB2 конектор. Тогава ще свързваме тези състояния на данни чрез последователни връзки.
След това , трябва да конфигурираме етапите така, че те да сочат към правилната файлова система или база данни.
Например, За етапа на последователния файл трябва да дефинираме задължителните параметри като името на файла, местоположението на файла, метаданните на колоната.
След това трябва да компилираме заданието Datastage. Компилирането на проверките на заданието за синтаксиса на заданието и създава изпълним файл за заданието Datastage, който може да бъде изпълнен по време на изпълнение.
Въпрос # 18) Назовете различните методи за сортиране в Datastage.
Отговори: Налични са два метода:
- Сортиране на връзката
- Сортиране на вграден Datastage
Въпрос # 19) В партида, ако дадена задача се провали между вас и искате да рестартирате партидата от тази конкретна работа, а не от нулата, тогава какво ще направите?
Отговори: В Datastage има опция в последователността на задачите - ‘Добавяне на контролни точки, така че последователността да може да се рестартира при неуспех’ . Ако тази опция е маркирана, тогава можем да повторим последователността на задачите от точката, в която е неуспешна.
В # 20) Как импортирате и експортирате заданията на Datastage?
Отговори: F или това, под функциите на командния ред за това
- Внос: dsimport.exe
- Износ: dsexport.exe
В # 21) Какво представляват рутините в Datastage? Включете различни видове рутини.
Отговори: рутинни е набор от функции, които са дефинирани от мениджъра на DS. Провежда се през етапа на трансформатора.
Има 3 вида процедури:
- Паралелни съчетания
- Основни програми
- Сървърни съчетания
В # 22) Как да премахнете дублиращи се стойности в DataStage?
Отговори: Има два начина за обработка на дублиращи се стойности
- Можем да използваме етап на премахване на дублиращи се, за да премахнем дублиращите се.
- Можем да използваме етапа на сортиране, за да премахнем дубликата. Етапът на сортиране има свойство, наречено ‘Разрешаване на дублирания’. Няма да получим дублирани стойности в изхода на sort при задаване на това свойство, равно на false.
Въпрос # 23) Какви са различните видове изгледи, налични в директор Datastage?
Отговори: В директора на Datastage има 3 вида изгледи. Те са:
- Изглед на дневник
- Изглед на състоянието
- Изглед на работа
В # 24) Разграничаване между Informatica и Datastage. Коя бихте избрали и защо?
Отговори: И Informatica, и DataStage са мощни ETL инструменти.
Включените точки правят разлика между двата инструмента:
Изчислителна техника | Datastage | |
---|---|---|
Паралелна обработка | Informatica не поддържа паралелна обработка. | За разлика от това, datastage осигурява механизъм за паралелна обработка. |
Прилагане на SCD | Съвсем лесно е да внедрите SCD (бавно променящи се размери) в Informatica. | Въпреки това е сложно да се внедрят SCD в етап на данни. Datastage поддържа SCD само чрез персонализирани скриптове. |
Контрол на версиите | Informatica поддържа контрол на версиите чрез чекиране и освобождаване на обекти. | Ние обаче не разполагаме с тази функционалност в datastage. |
Налични трансформации | Предлагат се по-малки трансформации. | Datastage предлага по-голямо разнообразие от трансформации, отколкото Informatica. |
Мощност на търсене | Informatica осигурява много мощно динамично търсене в кеша | Нямаме подобно нещо в datastage. |
По мое лично мнение бих отишъл с Informatica през Datastage. Причината е, че намерих Informatica за по-систематичен и лесен за ползване от DataStage.
Друга силна причина е, че отстраняването на грешки и обработката на грешки е много по-добро в Informatica в сравнение с Datastage. Така че поправянето на проблемите става по-лесно в Informatica. Datastage не предоставя пълна поддръжка за обработка на грешки.
=> Искате ли да научите повече за Informatica? Ние имаме подробно обяснение тук.
В # 25) Дайте представа за системните променливи.
Отговори: Системните променливи са променливите само за четене, започващи с „@“ които могат да бъдат разчетени или от етапа на трансформатора, или от рутината. Те се използват за получаване на системната информация.
В # 26) Каква е разликата между пасивен и активен етап?
Отговори: Пасивните етапи се използват за извличане и натоварване, докато активните етапи се използват за трансформация.
В # 27) Какви са различните видове контейнери, налични в Datastage?
Отговори: Имаме под 2 контейнера в Datastage:
- Локален контейнер
- Споделен контейнер
В # 28) Стойността на променливата за подреждане съхранява ли се временно или постоянно?
Отговори: Временно. Това е временна променлива.
Въпрос # 29) Какви са различните видове работни места в Datastage?
Отговори: Имаме два вида работни места в Datastage:
- Сървърни задачи (Те се изпълняват последователно)
- Паралелни задачи (Те се изпълняват по паралелен начин)
В # 30) Каква е ползата от Datastage director?
Отговори: Чрез директора на Datastage можем да планираме работа, да я потвърдим, да я изпълним и да я наблюдаваме.
В # 31) Какви са различните видове хеш файл?
Отговори: Имаме 2 вида хеш файлове:
- Статичен хеш файл
- Динамичен хеш файл
В # 32) Какво е етап на качеството?
въпроси и отговори за мрежово интервю pdf
Отговори: Етапът на качеството (наричан още етап на целостта) е етап, който подпомага комбинирането на данните, идващи от различни източници.
Заключение
Трябва да носите полезни познания за архитектурата на Datastage, основните й характеристики и трябва да можете да обясните как тя се различава от някои други популярни ETL инструменти.
Освен това , трябва да имате добра представа за различните етапи и тяхното използване, от край до край начин за създаване на работа в Datastage и нейното изпълнение.
Препоръчително четене => Какво е ETL тестване?
Всичко най-хубаво!
Препоръчително четене
- Въпроси и отговори за интервю за ETL тестване
- 10 най-добри инструмента за картографиране на данни, полезни в процеса на ETL (2021 СПИСЪК)
- 15 най-добри ETL инструменти през 2021 г. (Пълен актуализиран списък)
- Урок за тестване на хранилище на данни с примери | Ръководство за тестване на ETL
- Урок за тестване на хранилище на данни за ETL (Пълно ръководство)
- ETL срещу DB тестване - По-подробен поглед върху ETL Тестване на нуждите, планирането и ETL инструментите
- Как да извършите ETL тестване с помощта на инструмента Informatica PowerCenter
- Метаданни в хранилището на данни (ETL), обяснени с примери
- Прессъобщение - iCEDQ Soft Нова версия на платформата за тестване на ETL и тестване на данни
- Топ 10 инструменти за тестване на ETL през 2021 г.
- Какво представлява процесът ETL (извличане, преобразуване, зареждане) в хранилището на данни?