weka dataset classifier
Този урок обяснява WEKA набор от данни, класификатор и J48 алгоритъм за дърво на решенията. Също така предоставя информация за примерни ARFF набори от данни за Weka:
В Предишен урок , научихме за инструмента Weka Machine Learning, неговите функции и как да изтеглите, инсталирате и използвате софтуера Weka Machine Learning.
WEKA е библиотека от алгоритми за машинно обучение за решаване на проблеми за извличане на данни на реални данни. WEKA също така осигурява среда за разработване на много алгоритми за машинно обучение. Той разполага с набор от инструменти за изпълнение на различни задачи за извличане на данни, като класификация на данни, клъстериране на данни, регресия, избор на атрибути, често извличане на артикули и т.н.
Всички тези задачи могат да бъдат изпълнени на файла sample.ARFF, наличен в хранилището на WEKA, или потребителите могат да подготвят своите файлове с данни. Примерните .arff файлове са набори от данни, които имат вградени исторически данни, събрани от изследователите.
=> Прочетете пълната серия за обучение по машинно обучение
В този урок ще видим някои примерни набори от данни в WEKA и също така ще извършим извличане на данни от алгоритъма на дървото на решения, използвайки набора от данни weather.arff.
Какво ще научите:
- Проучване на набори от данни WEKA
- Алгоритми за класификация на дървото на решения на Weka
- Заключение
Проучване на набори от данни WEKA
Инструментът за машинно обучение WEKA предоставя директория на някои примерни набори от данни. Тези набори от данни могат да бъдат директно заредени в WEKA, за да могат потребителите незабавно да започнат да разработват модели.
Наборите от данни WEKA могат да бъдат изследвани от връзката „C: Program Files Weka-3-8 data“. Наборите от данни са във формат .arff.
Примерни WEKA набори от данни
Някои примерни набори от данни, присъстващи в WEKA, са включени в таблицата по-долу:
S.No. | Примерни набори от данни |
---|---|
7. | диабет.арф |
1. | авиокомпания.арф |
две. | рак на гърдата.арф |
3. | контактна леща.арф |
Четири. | cpu.arff |
5. | cpu.with-vendor.arff |
6. | кредит-g.arff |
8. | стъкло.арф |
9. | хипотиреоидна.арф |
10. | ionospehre.arff |
единадесет. | ирис.2D.арф |
12. | ирис.арф |
13. | труд.арф |
14. | ReutersCorn-train.arff |
петнадесет. | ReutersCorn-test.arff |
16. | ReutersGrain-train.arff |
17. | ReutersGrain-test.arff |
18. | сегмент-предизвикателство.арф |
19. | сегмент-тест.арф |
двайсет. | соя.арф |
двадесет и едно. | супермаркет.арф |
22. | небалансиран.арф |
2. 3. | гласувайте.арф |
24. | weather.numeric.arff |
25. | времето.номинал.арф |
Нека да разгледаме някои от тях:
контактна леща.арф
contact-lens.arff набор от данни е база данни за монтиране на контактни лещи. Той е дарен от дарителя, Беноа Жулиен през 1990 година.
База данни: Тази база данни е пълна. Примерите, използвани в тази база данни, са пълни и без шум. Базата данни има 24 екземпляра и 4 атрибута.
Атрибути: И четирите атрибута са номинални. Няма липсващи стойности на атрибутите. Четирите атрибута са както следва:
# 1) Възраст на пациента: Атрибутът възраст може да приеме стойности:
- млад
- предпрезбиопски
- пресбиопичен
# две) Предписание за очила: Този атрибут може да приема стойности:
- късогледство
- хиперметроп
# 3) Астигматичен: Този атрибут може да приема стойности
- Недей
- да
# 4) Скорост на производство на разкъсване: Стойностите могат да бъдат
- намален
- нормално
Клас: Тук са дефинирани три етикета на класа. Това са:
- пациентът трябва да бъде снабден с твърди контактни лещи.
- пациентът трябва да бъде снабден с меки контактни лещи.
- пациентът не трябва да бъде снабден с контактни лещи.
Разпределение на класа: Екземплярите, класифицирани в етикети на класове, са изброени по-долу:
Етикет на класа | Брой случаи | |
---|---|---|
1. | Твърди контактни лещи | 4 |
две. | Меки контактни лещи | 5 |
3. | Без контактни лещи | петнадесет |
ирис.арф
Наборът от данни на iris.arff е създаден през 1988 г. от Майкъл Маршал. Това е базата данни на Iris Plants.
как е Linux по-добър от windows
База данни: Тази база данни се използва за разпознаване на образци. Наборът от данни съдържа 3 класа от 50 екземпляра. Всеки клас представлява вид растение ирис. Един клас е линейно отделим от другите 2, но последните не са линейно отделими един от друг. Той предсказва към кой вид от цветето на 3 ириса принадлежи наблюдението. Това се нарича многокласов набор от данни за класификация.
Атрибути: Той има 4 числови, предсказващи атрибути и класа. Няма липсващи атрибути.
Атрибутите са:
- дължина на чашелистчето в см
- ширина на сепала в cm
- дължина на венчелистчето в cm
- ширина на венчелистчетата в cm
- клас:
- Ирис Сетоса
- Iris Versicolor
- Ирис Вирджиния
Обобщена статистика:
Мин | Макс | Означава | SD | Корелация на класа | |
---|---|---|---|---|---|
дължина на чашелистчето | 4.3 | 7.9 | 5.84 | 0,83 | 0,7826 |
ширина на сепала | 2.0 | 4.4 | 3.05 | 0,43 | -0,4194 |
дължина на венчелистчетата | 1.0 | 6.9 | 3.76 | 1.76 | 0,9490 (високо!) |
ширина на венчелистчетата | 0,1 | 2.5 | 1.20 | 0,76 | 0,9565 (високо!) |
Разпределение на класа: 33,3% за всеки от 3 класа
Някои други набори от данни:
диабет.арф
Базата данни на този набор от данни е Pima Indians Diabetes. Този набор от данни предсказва дали пациентът е склонен да страда от диабет през следващите 5 години. Пациентите в този набор от данни са жени на възраст поне 21 години от Pima Indian Heritage. Той има 768 екземпляра и 8 числови атрибута плюс клас. Това е двоичен набор от данни за класификация, където прогнозната променлива на изхода е номинална, състояща се от два класа.
йоносфера.арф
Това е популярен набор от данни за двоична класификация. Екземплярът в този набор от данни описва свойствата на радарните връщания от атмосферата. Използва се за предсказване къде йоносферата има някаква структура или не. Той има 34 числови атрибута и клас.
Атрибутът на класа е „добър“ или „лош“, което се прогнозира въз основа на наблюдение на 34 атрибута. Получените сигнали се обработват от функция за автокорелация, като импулс на времето и число на импулса се вземат като аргументи.
Набори от данни за регресия
Регресионните набори от данни могат да бъдат изтеглени от уеб страницата на WEKA “ Колекции от масиви от данни ”. Той има 37 проблема с регресията, получени от различни източници. Изтегленият файл ще създаде числова / директория с регресионни набори от данни във формат .arff.
Популярните набори от данни в директорията са: Икономически набор от данни Longley (longley.arff), набор от данни за цените на къщите в Бостън (housing.arff) и набор от данни за сън при бозайници (sleep.arff).
Нека сега видим как да идентифицираме реални и номинални атрибути в набора от данни с помощта на WEKA explorer.
Кои са реално оценени и номинални атрибути
Атрибутите с реална стойност са числови атрибути, съдържащи само реални стойности. Това са измерими величини. Тези атрибути могат да бъдат мащабирани чрез интервал като температура или съотношение, като средно, медиана.
Номиналните атрибути представляват имена или някакво представяне на нещата. Няма ред в такива атрибути и те представляват някаква категория. Например, цвят.
Следвайте стъпките, изброени по-долу, за да използвате WEKA за идентифициране на реални стойности и номинални атрибути в набора от данни.
# 1) Отворете WEKA и изберете „Explorer“ под „Приложения“.
# две) Изберете раздела „Предварителна обработка“. Кликнете върху „Отваряне на файл“. С потребителя на WEKA можете да получите достъп до примерни файлове на WEKA.
# 3) Изберете входния файл от папката WEKA3.8, съхранена в локалната система. Изберете предварително дефинирания .arff файл “credit-g.arff” и кликнете върху “Open”.
# 4) В левия панел ще се отвори списък с атрибути. Статистиката на избраните атрибути ще бъде показана в десния панел заедно с хистограмата.
Анализ на набора от данни:
В левия панел текущата връзка показва:
- Име на връзката: german_credit е примерният файл.
- Екземпляри: 1000 броя редове с данни в набора от данни.
- Атрибути: 21 атрибута в набора от данни.
Панелът под текущата връзка показва името на атрибутите.
В десния панел, се показват статистическите данни за избрания атрибут. Изберете атрибут “check_status”.
Това показва:
- Име на атрибута
- Липсва: Всички липсващи стойности на атрибута в набора от данни. 0% в този случай.
- Отличителни: Атрибутът има 4 различни стойности.
- Тип: Атрибутът е от номинален тип, т.е. не приема никаква цифрова стойност.
- Броя: Сред 1000 екземпляра броят на всеки отделен етикет на клас се записва в колоната за броене.
- Хистограма: Той ще покаже етикета на изходния клас за атрибута. Етикетът на класа в този набор от данни е или добър, или лош. Има 700 случая на добри (маркирани в синьо) и 300 случаи на лошо (маркирани в червено).
- За етикета<0, the instances for good or bad are almost the same in number.
- За етикет, 0<= X<200, the instances with decision good are more than instances with bad.
- По същия начин, за етикет> = 200, максималните екземпляри се получават за добро и нито един етикет за проверка няма повече случаи с добро решение.
За следващия атрибут „продължителност“.
Десният панел показва:
- Име: Това е името на атрибута.
- Тип: Типът на атрибута е цифров.
- Липсваща стойност: Атрибутът няма липсваща стойност.
- Отличителни: Той има 33 различни стойности в 1000 случая. Това означава, че в 1000 случая има 33 различни стойности.
- Уникален: Той има 5 уникални стойности, които не съвпадат помежду си.
- Минимална стойност: Минималната стойност на атрибута е 4.
- Максимална стойност: Максималната стойност на атрибута е 72.
- Означава: Средното е добавяне на всички стойности, разделени на екземпляри.
- Стандартно отклонение: Std отклонение на продължителността на атрибута.
- Хистограма: Хистограмата изобразява продължителността на 4 единици, максималните случаи се случват за добър клас. Тъй като продължителността се увеличава до 38 единици, броят на копията намалява за етикетите за добър клас. Продължителността достига 72 единици, които имат само един екземпляр, който класифицира решението като лошо.
Класът е класификационната характеристика на номиналния тип. Той има две различни стойности: добри и лоши. Етикетът на добрия клас има 700 екземпляра, а етикетът на лошия клас има 300 екземпляра.
За да визуализирате всички атрибути на набора от данни, кликнете върху „Визуализиране на всички“.
# 5) За да разберете само числови атрибути, щракнете върху бутона Филтър. Оттам кликнете върху Изберете -> WEKA> ФИЛТРИ -> Без надзор тип -> Премахване на тип.
Филтрите WEKA имат много функционалности за трансформиране на стойностите на атрибутите на набора от данни, за да го направят подходящ за алгоритмите. Например, числовата трансформация на атрибутите.
Филтрирането на номиналните и истински атрибути от набора от данни е друг пример за използване на филтри WEKA.
# 6) Кликнете върху RemoveType в раздела филтър. Ще се отвори прозорец на редактор на обекти. Изберете attributeType „Изтриване на числови атрибути“ и щракнете върху OK.
# 7) Приложете филтъра. Ще бъдат показани само числови атрибути.
Атрибутът на класа е от номинален тип. Той класифицира изхода и следователно не може да бъде изтрит. По този начин се вижда с числовия атрибут.
Изход:
Идентифицират се атрибутите на реална стойност и номинална стойност в набора от данни. Визуализацията с етикета на класа се вижда под формата на хистограми.
Алгоритми за класификация на дървото на решения на Weka
Сега ще видим как да приложим класификацията на дървото на решенията върху набора от данни weather.nominal.arff, използвайки класификатора J48.
времето.номинал.арф
Това е примерен набор от данни, присъстващ директно на WEKA. Този набор от данни предсказва дали времето е подходящо за игра на крикет. Наборът от данни има 5 атрибута и 14 екземпляра. Етикетът на класа „play“ класифицира изхода като „да“ или „не“.
Какво е дървото на решенията
Tree Tree е техниката на класификация, която се състои от три компонента корен възел, клон (ръб или връзка) и лист възел. Root представлява условието на теста за различни атрибути, клонът представя всички възможни резултати, които могат да бъдат там в теста, а листните възли съдържат етикета на класа, към който принадлежи. Коренният възел е в началото на дървото, което също се нарича връх на дървото.
J48 Класификатор
Това е алгоритъм за генериране на дърво за решения, което се генерира от C4.5 (разширение на ID3). Известен е и като статистически класификатор. За класификация на дървото на решенията се нуждаем от база данни.
Стъпките включват:
# 1) Отворете WEKA explorer.
# две) Изберете файл weather.nominal.arff от „изберете файл“ в опцията за предварително обработка.
# 3) Отидете в раздела „Класифициране“ за класифициране на некласифицираните данни. Щракнете върху бутона „Избор“. От това изберете „дървета -> J48“. Нека да разгледаме набързо и други опции в бутона Избор:
- Байес: Това е оценка на плътността за числови атрибути.
- Мета: Това е линейна регресия с много отговор.
- Функции: Това е логистична регресия.
- Мързелив: Той автоматично задава смесителната ентропия.
- Правило: Това е правило, което се учи.
- Дървета: Дърветата класифицират данните.
# 4) Щракнете върху бутона Старт. Изходът на класификатора ще се види в десния панел. Той показва информацията за изпълнението в панела като:
- Схема: Използваният алгоритъм за класификация.
- Екземпляри: Брой редове с данни в набора от данни.
- Атрибути: Наборът от данни има 5 атрибута.
- Броят на листата и размерът на дървото описва дървото за вземане на решения.
- Отнема време за изграждане на модела: Време за изхода.
- Пълна класификация на J48, подрязана с атрибутите и броя на екземплярите.
# 5) За да визуализирате дървото, щракнете с десния бутон върху резултата и изберете визуализиране на дървото.
Изход :
Резултатът е под формата на дърво за вземане на решения. Основният атрибут е „перспектива“.
Ако перспективата е слънчева, след това дървото допълнително анализира влажността. Ако влажността е висока, тогава възпроизвеждането на етикета на класа = „да“.
Ако перспективата е мрачна, етикетът на класа, играта е „да“. Броят на случаите, които се подчиняват на класификацията, е 4.
Ако перспективата е дъждовна, по-нататъшно класифициране се извършва, за да се анализира признакът „ветровито“. Ако ветровито = вярно, играта = „не“. Броят на случаите, които се подчиняват на класификацията за outlook = windy и windy = true, е 2.
Заключение
WEKA предлага широка гама от примерни набори от данни за прилагане на алгоритми за машинно обучение. Потребителите могат да изпълняват задачи за машинно обучение като класификация, регресия, избор на атрибути, асоцииране на тези примерни набори от данни и могат също да научат инструмента, използвайки ги.
WEKA explorer се използва за изпълнение на няколко функции, започвайки от предварителната обработка. Предварителната обработка приема вход като файл .arff, обработва входа и дава изход, който може да се използва от други компютърни програми. В WEKA изходът за предварителна обработка дава атрибутите, присъстващи в набора от данни, които могат да се използват допълнително за статистически анализ и сравнение с етикетите на класове.
WEKA предлага и много алгоритми за класификация за дървото на решенията. J48 е един от популярните алгоритми за класификация, който извежда дърво за вземане на решения. Използвайки раздела Класификация, потребителят може да визуализира дървото на решенията. Ако дървото за решения е твърде попълнено, може да се приложи подрязване на дърво от раздела Предпроцес, като се премахнат атрибутите, които не са необходими, и се стартира процесът на класификация отново.
=> Посетете тук за ексклузивната серия за машинно обучение
Препоръчително четене
- Урок на Weka - Как да изтеглите, инсталирате и използвате инструмента Weka
- Как да напиша сложни тестове за бизнес логика, използвайки техниката на таблицата за вземане на решения
- WEKA Explorer: Визуализация, клъстериране, копаене на правила за асоцииране
- Примери за алгоритъм на дървото на решения в извличането на данни
- Конструкции за вземане на решения в C ++
- Структура на данните от B Tree и B + Tree в C ++
- Структура на данните на двоичното дърво в C ++
- Структура на данните за дърво и купчина AVL в C ++