apache hadoop yarn tutorial
Компоненти на Hadoop - MapReduce With Hadoop YARN:
В нашия предишен урок за компонента Hadoop научихме за Hadoop MapReduce и неговия механизъм за обработка като INPUT, SPLITTING, MAPPING, SHUFFLING, REDUCING и FINAL RESULT.
В този урок ще изследваме:
- Как Map Reduce работи с преждата?
- Работен поток на приложението на Hadoop YARN.
=> Погледнете тук ръководството за начинаещи BigData.
Какво ще научите:
Намалете картата с Hadoop ПРЕЖДА
Нека разберем как MapReduce използва YARN за изпълнение на задачите през клъстера Hadoop. Но преди да продължим, първият въпрос, който идва в ума ни, е каква е пълната форма на ПРЕЖДА? Или какво означава YARN?
ПРЕЖДА означава Още един ресурсен преговарящ.
Той е този, който разпределя ресурсите за различни задачи, които трябва да бъдат изпълнени през клъстера Hadoop. Той беше представен в Hadoop 2.0.
До Hadoop 1.0 MapReduce беше единствената рамка или единственият процесор, който може да изпълнява над клъстера Hadoop. Въпреки това, в Hadoop 2.0 YARN беше въведена и използвайки това, ние сме в състояние да надхвърлим и MapReduce.
Както можете да видите на диаграмата, имаме HDFS в долната част между тях, имаме YARN и използвайки YARN, много рамки могат да се свързват и използват HDFS. Така че, дори MapReduce се използва за свързване с помощта на YARN за заявяване на ресурси и едва тогава той може да изпълни заданието през HDFS, т.е. Hadoop Cluster.
По същия начин; SPARK, STORM и други търсачки могат да се свързват с HDFS. HBase, която е база данни без SQL, също може да я свърже. Така че приложенията на HDFS станаха огромни, само защото YARN успя да отвори портата и за други рамки и други инструменти за анализ на Bigdata.
Каква е разликата между MapReduce Version1 (MRv1) и MapReduce Version2 (MRv2)?
MRv1 по същество беше част от Hadoop framework 1 и с Hadoop 2 YARN се появи в картината и MapReduce беше надстроена до MRv2 с няколко промени в класовете. Класовете бяха актуализирани, но синтаксисът на писане на програмата MapReduce остава същият.
В този сценарий MapReduce вече се свързва с YARN, за да ос HDFS.
Заедно с YARN, Resource Manager и Node Manager са новите демони, които бяха въведени в Hadoop Cluster.
Преди това беше Job Tracker и Task Tracker. Въпреки това те бяха премахнати от Hadoop 2.0 и Resource Manager & Node Manager бяха въведени заедно с YARN в рамката на Hadoop.
Hadoop 2.x демони
Нека да разгледаме набързо нововъведените Daemons в Hadoop 2.0, които изпълняват компонентите, т.е. съхранение и обработка.
аниме уебсайтове, за да гледате аниме безплатно на английски език, дублиран
В урока за HDFS разбрахме подробно Daemon, т.е. NameNode и DataNode. В този урок ще разберем как Мениджърът на ресурси и Мениджърът на възли работят в клъстера Hadoop 2.x, за да управляват обработката и заданията, които трябва да бъдат изпълнени в клъстера Hadoop.
И така, какво е Resource Manager? Resource Manager е Master Daemons, който работи на Master Machine или NameNode, който е машина от висок клас. Node Manager, от друга страна, е демонът, който работи на подчинени машини или на DataNodes или заедно с процеса на DataNode.
Hadoop 2.x MapReduce прежди компоненти
Нека разгледаме останалите компоненти на YARN по-долу.
- Клиент: Това е единица, която подава подобен на работа интерфейс на командния ред (CLI) и клиентът може да бъде JAVA приложение.
- Мениджър на ресурси: Това е Master Daemon, на който всички Работни места се подават от Клиента и е този, който разпределя всички ресурси на ниво клъстер за изпълнение на определена работа. Работи на машина от висок клас с хардуер с добро качество и добра конфигурация, тъй като основната машина трябва да управлява всичко в клъстера.
- Node Manager : Това е подчинен демон, който работи на подчинените машини или на DataNode, така че всяка подчинена машина има работещ Node Manager. Той наблюдава ресурсите на конкретен DataNode, Resource Manager управлява ресурсите на клъстера, а Node Manager управлява ресурсите DataNode.
- Сървър за история на заданията: Единицата е да следи всички задания, които са били изпълнени в клъстера или са били изпратени в клъстера. Той проследява и състоянието, а също така съхранява регистрационните файлове за всяко изпълнение, извършено през клъстера Hadoop.
- Капитан на приложението : Това е компонент, който се изпълнява през Node Machine, Slave Machine и е създаден от Resource Manager за изпълнение и управление на задача. Той е този, който договаря ресурсите от Resource Manager и накрая се координира с Node Manager, за да изпълни задачата.
- Контейнер: Създава се от самия мениджър на възли, който е разпределен от мениджъра на ресурси и всички задания се изпълняват накрая в контейнера.
ПРЕЖДА Работен поток
Както е показано на горната диаграма, има Мениджър на ресурси на която са подадени всички работни места и има клъстер, в който има подчинени машини, а на всяка подчинена машина има Node Manager бягане.
Мениджър на ресурси има два компонента, т.е. Планировчик и Мениджър на приложения.
Каква е разликата между Application Master и Application Manager?
Мениджър на приложения е компонент на Мениджър на ресурси което гарантира, че всяка задача се изпълнява и Капитан на приложението е създаден за него. Master Master, от друга страна, е някой, който изпълнява задачата и иска всички ресурси, които трябва да бъдат изпълнени.
Да приемем, че работата е изпратена на Мениджър на ресурси , веднага след като заданието бъде изпратено, Планировчик насрочва работата. Веднъж Планировчик планира заданието да бъде изпълнено Мениджър на приложения ще създаде Контейнер в един от DataNodes , и в рамките на това Контейнер, на Капитан на приложението ще бъде стартиран.
Това Капитан на приложението след това ще се регистрира в Мениджър на ресурси и искане за a Контейнер за изпълнение на задачата. Веднага след като Контейнер се разпределя, Капитан на приложението сега ще бъде свързана с Node Manager и заявка за стартиране на Контейнер .
Както виждаме, Капитан на приложението е разпределен към DataNodes D и Е и сега това Капитан на приложението поиска Node Manager за стартиране на Контейнери на DataNode D и DataNode E .
Веднага след като Контейнери стартираха, Капитан на приложението ще изпълни задачата в Контейнер и резултатът ще бъде изпратен обратно на Клиент .
Поток на приложението
Нека разберем това малко последователно.
В диаграмата по-долу имаме четири компонента. Първият е Клиент, вторият е Мениджър на ресурси , третият е Node Manager и четвъртият ред съдържа Капитан на приложението .
Така че нека да видим как тези стъпки се изпълняват между тях.
Първата стъпка е Клиент който подчинява Работата на Мениджър на ресурси , във втората стъпка Мениджър на ресурси разпределя a Контейнер за да стартирате Капитан на приложението на Робски машини ; третата стъпка е Капитан на приложението регистрира в Мениджър на ресурси .
Веднага след като се регистрира, той изисква Контейнер за изпълнение на задачата, т.е. четвъртата стъпка. В пета стъпка Капитан на приложението уведомява Node Manager на които Контейнер трябва да бъде стартиран.
В стъпка шеста, веднъж Node Manager стартира Контейнери, на Капитан на приложението ще изпълни кода в тях Контейнери .
И накрая, в седмата стъпка, Клиент се свързва с Мениджър на ресурси или Капитан на приложението за наблюдение на състоянието на приложението.
В крайна сметка, Капитан на приложението ще се отпише от Мениджър на ресурси и резултатът се връща на Клиент . Така че това е един прост последователен поток на това как се изпълнява програма MapReduce с помощта на рамката YARN.
Заключение
И така, в този урок научихме следните насоки:
- ПРЕЖДА означава Още един ресурсен преговарящ.
- Преждата е въведена в Hadoop 2.0
- Resource Manager и Node Manager бяха въведени заедно с YARN в рамката на Hadoop.
- Прежди Компоненти като клиент, мениджър на ресурси, мениджър на възли, сървър на хронологията на заданията, мастер на приложения и контейнер.
В предстоящия урок ще обсъдим техниките за тестване на BigData и предизвикателствата пред BigData Testing. Също така ще се запознаем с това как да преодолеем тези предизвикателства и всякакви байпас начини да улесним тестването на BigData.
=> Посетете тук, за да научите BigData от нулата.
Препоръчително четене
- Какво е Hadoop? Урок за Apache Hadoop за начинаещи
- 20+ MongoDB урок за начинаещи: Безплатен курс на MongoDB
- Уроци за задълбочено затъмнение за начинаещи
- Урок за Python за начинаещи (практически БЕЗПЛАТНО обучение за Python)
- Урок за големи данни за начинаещи | Какво представляват големите данни?
- LoadRunner урок за начинаещи (безплатен 8-дневен задълбочен курс)
- Hadoop MapReduce Урок с примери | Какво е MapReduce?
- Най-добрият БЕЗПЛАТЕН урок за C #: Най-доброто ръководство за C # за начинаещи