weka tutorial how download
Този урок на WEKA обяснява какво е инструментът за машинно обучение Weka, неговите функции и как да изтеглите, инсталирате и използвате софтуера за машинно обучение Weka:
В Предишен урок , научихме за Support Vector Machine в ML и свързаните с тях концепции като Hyperplane, Support Vectors & Applications of SVM.
Машинното обучение е научна област, в която машините действат като изкуствено интелигентна система. Машините могат да се учат сами, без да изискват изрично кодиране. Това е итеративен процес, който осъществява достъп до данни, учи се сам и прогнозира резултата. За изпълнение на задачи за машинно обучение са необходими много инструменти и скриптове.
WEKA е платформа за машинно обучение, състояща се от много инструменти, улесняващи много дейности по машинно обучение.
=> Прочетете пълната серия за обучение по машинно обучение
въпроси и отговори за интервю за разработчици на бази данни pdf
Какво ще научите:
- Какво е WEKA
- Заключение
Какво е WEKA
Weka е инструмент с отворен код, проектиран и разработен от учени / изследователи от университета в Уайкато, Нова Зеландия. WEKA означава Waikato среда за анализ на знанието. Той е разработен от международната научна общност и се разпространява под безплатния лиценз GNU GPL.
WEKA е напълно разработена в Java. Той осигурява интеграция с SQL базата данни чрез свързване на Java Database. Той предоставя много алгоритми за машинно обучение за изпълнение на задачи за извличане на данни. Тези алгоритми могат или да се използват директно с помощта на инструмента WEKA, или да се използват с други приложения, използващи езика за програмиране Java.
Той предоставя много инструменти за предварителна обработка на данни, класификация, клъстериране, анализ на регресия, създаване на правила за асоцииране, извличане на функции и визуализация на данни. Това е мощен инструмент, който подпомага разработването на нови алгоритми в машинното обучение.
Защо да използваме WEKA Инструмент за машинно обучение
С WEKA алгоритмите за машинно обучение са лесно достъпни за потребителите. Специалистите по ML могат да използват тези методи за извличане на полезна информация от големи обеми данни. Тук специалистите могат да създадат среда за разработване на нови методи за машинно обучение и да ги внедрят върху реални данни.
WEKA се използва от изследователите на машинно обучение и приложни науки за учебни цели. Това е ефективен инструмент за изпълнение на много задачи за извличане на данни.
WEKA Изтегляне и инсталиране
# 1) Изтеглете софтуера от тук .
Проверете конфигурацията на компютърната система и изтеглете стабилната версия на WEKA (в момента 3.8) от тази страница.
# две) След успешно изтегляне отворете местоположението на файла и щракнете двукратно върху изтегления файл. Ще се появи съветникът Step Up. Щракнете върху Напред.
# 3) Ще се отворят условията на лицензионното споразумение. Прочетете го внимателно и кликнете върху „Съгласен съм“.
# 4) Според вашите изисквания изберете компонентите, които ще се инсталират. Препоръчва се пълнокомпонентна инсталация. Щракнете върху Напред.
# 5) Изберете папката за местоназначение и щракнете върху Напред.
# 6) След това ще започне инсталирането.
# 7) Ако Java не е инсталирана в системата, първо ще инсталира Java.
# 8) След като инсталацията приключи, ще се появи следният прозорец. Щракнете върху Напред.
# 9) Поставете отметка в квадратчето Start Weka. Щракнете върху Finish.
# 10) Отваря се прозорецът WEKA Tool и Explorer.
# единадесет) Ръководството на WEKA можете да изтеглите от тук.
Графичен потребителски интерфейс на WEKA
GUI на WEKA дава пет възможности: Explorer, Experimenter, поток от знания, Workbench и Simple CLI. Нека разберем всеки от тях поотделно.
# 1) Прост CLI
Обикновеният CLI е Weka Shell с команден ред и изход. С „помощ“ може да се види прегледът на всички команди. Simple CLI предлага достъп до всички класове като класификатори, клъстери и филтри и т.н.
Някои от простите команди на CLI са:
- Почивка: За да спрете текущата нишка
- Изход: Излезте от CLI
- Помогне() : Извежда помощта за посочената команда
- -java weka.classifiers.trees.J48 -t c: /temp/iris.arff: За да извикате WEKA клас, добавете го пред Java. Тази команда ще насочи WEKA да зареди класа и да го изпълни с дадени параметри. В тази команда J48 класификаторът се извиква в набора от данни на IRIS.
# 2) Explorer
Прозорците на WEKA Explorer показват различни раздели, започвайки с предварителна обработка. Първоначално разделът за предварителна обработка е активен, тъй като първо наборът от данни се обработва предварително, преди да се приложат алгоритми към него и изследва набора от данни.
Разделите са както следва:
- Предпроцес: Изберете и променете заредените данни.
- Класифицирайте: Приложете алгоритми за обучение и тестване към данните, които ще класифицират и регресират данните.
- Клъстер: Формирайте клъстери от данните.
- Сътрудник: Извлечете правилото за асоцииране на данните.
- Изберете атрибути: Прилагат се мерки за подбор на атрибути.
- Визуализирайте: Вижда се 2D представяне на данни.
- Лента за състоянието: Най-долната част на прозореца показва лентата на състоянието. Този раздел показва какво се случва в момента под формата на съобщение, като например файл се зарежда. Щракнете с десния бутон върху това, Памет информация може да се види, а също Бягай боклук колекционер за да освободите място може да се изпълни.
- Бутон за регистрация: Той съхранява дневник на всички действия в Weka с клеймото за време. Дневниците се показват в отделен прозорец при щракване върху бутона Log.
- Икона за птици WEKA: Представено в долния десен ъгъл показва WEKA птица с представя броя на процесите, които се изпълняват едновременно (с x.). Когато процесът тече, птицата ще се движи.
# 3) Експериментатор
Бутонът WEKA експериментатор позволява на потребителите да създават, изпълняват и модифицират различни схеми в един експеримент върху набор от данни. Експериментаторът има 2 типа конфигурация: Просто и напреднало. И двете конфигурации позволяват на потребителите да провеждат експерименти локално и на отдалечени компютри.
- Бутоните „Отваряне“ и „Ново“ ще отворят нов прозорец за експеримент, който потребителите могат да направят.
- Резултати: Задайте целевия файл на резултата от ARFF, JDFC и CSV файл.
- Тип експеримент: Потребителят може да избира между кръстосано валидиране и разделяне на процента на влак / тест. Потребителят може да избира между Класификация и Регресия въз основа на използвания набор от данни и класификатор.
- Набори от данни: Потребителят може да разглежда и избира набори от данни от тук. Щракнете върху квадратчето за относителна пътека, ако работите на различни машини. Форматът на поддържаните набори от данни е ARFF, C4.5, CSV, libsvm, bsi и XRFF.
- Повторение: Итерационният номер по подразбиране е зададен на 10. Наборите от данни първо и алгоритмите първо помагат при превключване между набор от данни и алгоритми, така че алгоритмите да могат да се изпълняват във всички набори от данни.
- Алгоритми: Новите алгоритми се добавят от „Нов бутон“. Потребителят може да избере класификатор.
- Запазете експеримента, като използвате бутона Save.
- Стартирайте експеримента, като използвате бутона Run.
# 4) Поток на знанието
Потокът от знания показва графично представяне на WEKA алгоритмите. Потребителят може да избере компонентите и да създаде работен поток за анализ на наборите от данни. Данните могат да се обработват периодично или постепенно. Могат да се проектират паралелни работни потоци и всеки ще се изпълнява в отделна нишка.
Различните налични компоненти са Източници на данни, спестители на данни, филтри, класификатори, клъстери, оценка и визуализация.
# 5) Работна маса
WEKA има модул с работен плот, който съдържа всички GUI в един прозорец.
Характеристики на WEKA Explorer
# 1) Набор от данни
Наборът от данни се състои от елементи. Той представлява обект например: в маркетинговата база данни тя ще представлява клиенти и продукти. Наборите от данни са описани чрез атрибути. Наборът от данни съдържа набор от данни в база данни. Наборът от данни има атрибути, които могат да бъдат номинални, числови или низ. В Weka наборът от данни е представен от weka.core. Разстояния клас.
Представяне на набор от данни с 5 примера:
@данни
слънчево, FALSE, 85,85, не
слънчево, ВЯРНО, 80,90, бр
облачно, FALSE, 83,86, да
дъждовно, FALSE, 70,96, да
дъждовно, FALSE, 68,80, да
Какво е атрибут?
Атрибутът е поле с данни, представляващо характеристиката на обект от данни. Например, в клиентска база данни атрибутите ще бъдат customer_id, customer_email, customer_address и др. Атрибутите имат различни типове.
Тези възможни типове са:
А) Номинални атрибути: Атрибут, който се отнася до име и има предварително определени стойности като цвят, време. Тези атрибути се извикват категорични атрибути . Тези атрибути нямат никакъв ред и техните стойности също се наричат изброяване.
@attribute outlook {слънчево, облачно, дъждовно}: декларация на номиналния атрибут.
Б) Двоични атрибути: Тези атрибути представляват само стойности 0 и 1. Това са типът на номиналните атрибути само с 2 категории. Тези атрибути се наричат още булеви.
В) Обикновени атрибути: Атрибутите, които запазват някакъв ред или класиране сред тях, са редови атрибути. Последователните стойности не могат да се предвидят, но се поддържа само ред. Пример: размер, клас и др.
Г) Числови атрибути: Атрибутите, представляващи измерими величини, са числови атрибути. Те са представени с реални числа или цели числа. Пример: температура, влажност.
@attribute влажност реално: декларация на числов атрибут
Д) Атрибути на низове: Тези атрибути представляват списък от символи, представени в двойни кавички.
# 2) Формат на данните ARFF
WEKA работи върху файла ARFF за анализ на данни. ARFF означава Attribute Relation File Format. Той има 3 секции: връзка, атрибути и данни. Всеки раздел започва с „@“.
Файловете ARFF вземат атрибути Номинални, Числови, Низови, Датни и Релационни данни. Някои от добре познатите набори от данни за машинно обучение присъстват в WEKA като ARFF.
Форматът за ARFF е:
@ връзка
@атрибут
@данни
Пример за ARFF файл е:
@relation weather @attribute outlook {sunny, overcast, rainy}: @attribute temperature real @attribute humidity real @attribute windy {TRUE, FALSE} @attribute play {yes, no} //class attribute: The class attribute represents the output. @data sunny, FALSE,85,85,no sunny, TRUE,80,90,no overcast, FALSE,83,86,yes rainy, FALSE,70,96,yes rainy, FALSE,68,80,yes
# 3) XRFF Формат на данните
XRFF означава XML атрибут Relation File Format. Той представлява данни, които могат да съхраняват коментари, атрибути и тегла на екземпляра. Той има разширение .xrff и разширение на файл .xrff.gz (компресиран формат). XRFF файловете представляват данни в XML формат.
# 4) Свързване с база данни
С WEKA е лесно да се свържете с база данни с помощта на JDBC драйвер. JDBC драйверът е необходим за свързване към базата данни, пример:
MS SQL Server (com.microsoft.jdbc.sqlserver.SQLServerDriver)
Oracle (oracle.jdbc.driver.OracleDriver)
# 5) Класификатори
За да се предскажат изходните данни, WEKA съдържа класификатори. Наличните за обучение алгоритми за класифициране са дървета на решения, поддържащи векторни машини, базирани на екземпляри класификатори и логистична регресия и байесови мрежи. В зависимост от изискването, използвайки проба и тест, потребителят може да намери подходящ алгоритъм за анализ на данни. Класификаторите се използват за класифициране на наборите данни въз основа на характеристиките на атрибутите.
# 6) Клъстериране
WEKA използва раздела Клъстер, за да предскаже сходствата в набора от данни. Въз основа на клъстерирането потребителят може да открие полезните за анализ атрибути и да игнорира други атрибути. Наличните алгоритми за групиране в WEKA са k-средни, EM, Cobweb, X-средни и FarhtestFirst.
# 7) Асоциация
Единственият алгоритъм, който се предлага в WEKA за установяване на правилата за асоцииране, е Apriori.
# 8) Атрибут Раздел Мерки
WEKA използва 2 подхода за най-добър избор на атрибути за целите на изчислението:
- Използване на алгоритъм на метода за търсене: Първо най-добър, селекция напред, произволен, изчерпателен, генетичен алгоритъм и алгоритъм за класиране
- Използване на алгоритми на метода за оценка: Въз основа на корелация, обвивка, повишаване на информацията, хи-квадрат.
# 9) Визуализация
WEKA поддържа 2D представяне на данни, 3D визуализации с въртене и 1D представяне на единичен атрибут. Той има опцията “Jitter” за номинални атрибути и “скрити” точки от данни.
Други основни характеристики на WEKA са:
- Това е инструмент с отворен код с графичен потребителски интерфейс под формата на „Explorer“, „Experimenter“ и „Knowledge Flow“.
- Той е независим от платформата.
- Съдържа 49 инструмента за предварителна обработка на данни.
- 76 алгоритми за класификация и регресии, 8 алгоритми за клъстериране присъстват в WEKA
- Той има 15 алгоритма за избор на атрибути и 10 алгоритми за избор на характеристики.
- Той има 3 алгоритма за намиране на правило за асоцииране.
- Използвайки WEKA, потребителите могат да разработят персонализиран код за машинно обучение.
Заключение
В този урок на WEKA предоставихме въведение в софтуера за машинно обучение с отворен код WEKA и обяснихме стъпка по стъпка процеса на изтегляне и инсталиране. Видяхме и петте опции, налични за графичния потребителски интерфейс на Weka, а именно Explorer, Experimenter, поток от знания, Workbench и Simple CLI.
Също така научихме за характеристиките на WEKA с примери. Функциите включват Dataset, ARFF Data format, свързаност с база данни и др.
=> Посетете тук за ексклузивната серия за машинно обучение
Препоръчително четене
- WEKA набор от данни, класификатор и алгоритъм J48 за дървото на решенията
- WEKA Explorer: Визуализация, клъстериране, копаене на правила за асоцииране
- 11 Най-популярни софтуерни инструменти за машинно обучение през 2021 г.
- Пълно ръководство за изкуствена невронна мрежа в машинното обучение
- Извличане на данни срещу машинно обучение срещу изкуствен интелект срещу дълбоко обучение
- Урок за машинно обучение: Въведение в ML и неговите приложения
- Топ 13 НАЙ-ДОБРИ компании за машинно обучение (Списък на актуализираните 2021 г.)
- Какво е поддръжка на векторна машина (SVM) в машинно обучение