weka explorer visualization
Този урок обяснява как да извършите визуализация на данни, анализ на клъстери K-средства и копаене на правила за асоцииране с помощта на WEKA Explorer:
В Предишен урок , научихме за WEKA набора от данни, класификатора и J48 алгоритъма за дървото на решенията.
Както видяхме преди, WEKA е инструмент за извличане на данни с отворен код, използван от много изследователи и студенти за изпълнение на много задачи за машинно обучение. Потребителите могат също така да изграждат своите методи за машинно обучение и да извършват експерименти върху примерни набори от данни, предоставени в директорията WEKA.
Визуализацията на данни в WEKA може да се извърши с помощта на примерни набори от данни или направени от потребителя набори от данни във формат .arff, .csv.
=> Прочетете пълната серия за обучение по машинно обучение
Копаенето на правила за асоцииране се извършва с помощта на алгоритъма Apriori. Това е единственият алгоритъм, предоставен от WEKA за извършване на често копаене на шаблони.
В WEKA има много алгоритми за извършване на клъстерен анализ като FartherestFirst, FilteredCluster и HierachicalCluster и др. От тях ще използваме SimpleKmeans, което е най-простият метод за групиране.
Какво ще научите:
- Копаене на правила при използване на WEKA Explorer
- K-означава алгоритъм с помощта на WEKA Explorer
- Прилагане на визуализация на данни с помощта на WEKA
- Заключение
Копаене на правила при използване на WEKA Explorer
Нека да видим как да приложим копаенето на правила за асоцииране с помощта на WEKA Explorer.
Копаене на правила за копаене
Той е разработен и проектиран от Srikant и Aggarwal през 1994 г. Помага ни да намерим модели в данните. Това е процес на извличане на данни, който открива характеристики, които се срещат заедно, или характеристики, които са свързани.
въпроси за интервю за maven и jenkins
Приложенията на правилата за асоцииране включват анализ на пазарната кошница, за да се анализират артикулите, закупени в една кошница; Кръстосан маркетинг, за да работим с други бизнеси, което увеличава стойността на нашия бизнес продукт като дилър на превозни средства и петролна компания.
Правилата за асоцииране се добиват след намиране на чести набори от елементи в голям набор от данни. Тези набори от данни са открити с помощта на алгоритми за копаене като Apriori и FP Growth. Често изкопаване на данни от миниатюри на Itemset, използвайки мерки за подкрепа и доверие.
Подкрепа и доверие
поддържа измерва вероятността два артикула да бъдат закупени заедно в една сделка, като хляб и масло. Доверие е мярка, която посочва вероятността два елемента да бъдат закупени един след друг, но не заедно, като например лаптоп и компютърен антивирусен софтуер.
Поддържат се минимални прагови стойности и минимални прагови стойности на доверие, за да се подрязват транзакциите и да се установи най-често срещаният набор от елементи.
Внедряване с помощта на WEKA Explorer
WEKA съдържа изпълнение на Алгоритъм на Apriori за учене на правила за асоциация. Apriori работи само с двоични атрибути, категорични данни (номинални данни), така че ако наборът от данни съдържа някакви цифрови стойности, първо ги преобразувайте в номинални.
Apriori открива всички правила с минимален праг на подкрепа и доверие.
Следвайте стъпките по-долу:
# 1) Подгответе набора от данни на Excel и го наречете като „ apriori.csv '.
# две) Отворете WEKA Explorer и в раздела Preprocess изберете файл „apriori.csv“.
# 3) Файлът вече се зарежда в WEKA Explorer.
# 4) Премахнете полето Транзакция, като поставите отметка в квадратчето и щракнете върху Премахване, както е показано на изображението по-долу. Сега запишете файла като “aprioritest.arff”.
# 5) Отидете в раздела Associate. Правилата на априори могат да бъдат извлечени от тук.
# 6) Кликнете върху Избор, за да зададете параметрите за подкрепа и доверие. Различните параметри, които могат да бъдат зададени тук, са:
- ' lowerBoundMinSupport ' и ' upperBoundMinSupport ”, Това е интервалът на нивото на поддръжка, в който ще работи нашият алгоритъм.
- Делта е увеличението в подкрепата. В този случай 0,05 е нарастването на подкрепата от 0,1 до 1.
- metricType може да бъде „Увереност“, „Лифт“, „Лост“ и „Убеждение“. Това ни казва как класираме правилата на асоциацията. Като цяло се избира доверието.
- numRules казва броя на правилата за асоцииране, които трябва да бъдат извлечени. По подразбиране е зададено като 10.
- значение Ниво изобразява значението на нивото на доверие.
# 7) Текстовото поле до бутона за избор показва „ Apriori-N-10-T-0-C-0.9-D 0.05-U1.0-M0.1-S-1.0-c-1 ”, Който изобразява обобщените правила, зададени за алгоритъма в раздела за настройки.
# 8) Щракнете върху бутона Старт. Правилата за асоцииране се генерират в десния панел. Този панел се състои от 2 секции. Първо е алгоритъмът, набор от данни, избран за изпълнение. Втората част показва информацията за Apriori.
Нека разберем информацията за изпълнението в десния панел:
- Схемата ни използва Apriori.
- Екземпляри и атрибути: Той има 6 екземпляра и 4 атрибута.
- Минималната подкрепа и минималната увереност са съответно 0,4 и 0,9. От 6 екземпляра, 2 екземпляра са намерени с минимална поддръжка,
- Броят на циклите, изпълнени за правилото на асоциацията за добив, е 12.
- Генерираните големи артикули са 3: L (1), L (2), L (3), но те не се класират, тъй като размерите им са съответно 7, 11 и 5.
- Намерените правила са класирани. Тълкуването на тези правила е следното:
- Масло T 4 => Бира F 4: означава от 6, 4 случая показват, че за маслото истината бирата е фалшива. Това дава силна асоциация. Нивото на доверие е 0,1.
Изход
Правилата за асоцииране могат да бъдат извлечени с помощта на WEKA Explorer с Apriori Algorithm. Този алгоритъм може да се приложи към всички видове набори от данни, налични в директорията WEKA, както и към други набори от данни, направени от потребителя. Поддръжката и доверието и други параметри могат да бъдат зададени с помощта на прозореца за настройка на алгоритъма.
K-означава алгоритъм с помощта на WEKA Explorer
Нека видим как да приложим алгоритъма K-средства за групиране с помощта на WEKA Explorer.
Какво представлява клъстерният анализ
Клъстериращите алгоритми са ненаблюдавани алгоритми за обучение, използвани за създаване на групи данни с подобни характеристики. Той обединява обекти с прилики в групи и подгрупи, като по този начин води до разделяне на набори от данни. Клъстерният анализ е процес на разделяне на набори от данни в подмножества. Тези подмножества се наричат клъстери, а наборът от клъстери се нарича клъстериране.
Клъстерният анализ се използва в много приложения като разпознаване на изображения, разпознаване на образци, уеб търсене и сигурност, в бизнес разузнаването като групиране на клиенти с подобни предпочитания.
Какво е K-означава клъстериране
K означава, че клъстерирането е най-простият алгоритъм за клъстериране. В алгоритъма на K-Clustering, наборът от данни е разделен на K-клъстери. Целева функция се използва за намиране на качеството на дяловете, така че подобни обекти да са в един клъстер, а различни обекти в други групи.
При този метод се установява, че центроидът на клъстер представлява клъстер. Центроидът се приема за център на клъстера, който се изчислява като средната стойност на точките в клъстера. Сега качеството на групирането се определя чрез измерване на евклидовото разстояние между точката и центъра. Това разстояние трябва да бъде максимално.
Как работи алгоритъмът на клъстеринг K-Mean
Етап 1: Изберете стойност на K, където K е броят на клъстерите.
Стъпка 2: Итерирайте всяка точка и задайте клъстера, който има най-близкия център към нея. Когато всеки елемент се повтори, изчислете центроида на всички клъстери.
Стъпка # 3: Итерирайте всеки елемент от набора от данни и изчислете евклидовото разстояние между точката и центроида на всеки клъстер. Ако в клъстера има някаква точка, която не е най-близка до нея, след това пренасочете тази точка към най-близкия клъстер и след като извършите това към всички точки в набора от данни, отново изчислете центроида на всеки клъстер.
Стъпка # 4: Изпълнете стъпка # 3, докато няма ново задание, което се е случило между двете последователни повторения.
K-означава прилагане на клъстери с помощта на WEKA
Стъпките за внедряване с помощта на Weka са както следва:
# 1) Отворете WEKA Explorer и кликнете върху Open File в раздела Preprocess. Изберете набор от данни „vote.arff“.
# две) Отидете в раздела „Клъстер“ и кликнете върху бутона „Избор“. Изберете метода на клъстериране като „SimpleKMeans“.
# 3) Изберете Настройки и след това задайте следните полета:
- Функция на разстоянието като евклидова
- Броят на клъстерите като 6. С повече на брой клъстери, сумата на квадратите грешка ще намалее.
- Семе от 10. на
Кликнете върху Ok и стартирайте алгоритъма.
# 4) Щракнете върху Старт в левия панел. Алгоритъмът показва резултатите на белия екран. Нека анализираме информацията за изпълнението:
- Схемата, връзката, екземплярите и атрибутите описват свойството на набора от данни и използвания метод на клъстериране. В този случай наборът от данни на vote.arff има 435 екземпляра и 13 атрибута.
- С клъстера Kmeans броят на итерациите е 5.
- Сумата на квадратната грешка е 1098,0. Тази грешка ще намалее с увеличаване на броя на клъстерите.
- 5-те крайни клъстери с центроиди са представени под формата на таблица. В нашия случай Центроидите на клъстерите са 168.0, 47.0, 37.0, 122.0.33.0 и 28.0.
- Клъстерираните екземпляри представляват броя и процента от общите екземпляри, попадащи в клъстера.
# 5) Изберете „Класове до оценки на клъстери“ и кликнете върху Старт.
Алгоритъмът ще присвои етикета на класа на клъстера. Клъстер 0 представлява републикански, а клъстер 3 представлява демократ. Неправилно клъстерираният екземпляр е 39,77%, което може да бъде намалено чрез игнориране на маловажните атрибути.
# 6) Да се игнорират маловажните атрибути. Кликнете върху бутона „Игнориране на атрибутите“ и изберете атрибутите, които ще бъдат премахнати.
# 7) Използвайте раздела „Визуализиране“, за да визуализирате резултата от клъстериращия алгоритъм. Отидете в раздела и щракнете върху произволно поле. Преместете трептенето на макс.
- Оста X и Y оста представляват атрибута.
- Синият цвят представлява етикет на класа демократ, а червеният цвят представлява етикет на класа републикански.
- Джитър се използва за преглед на клъстери.
- Щракнете върху квадратчето от дясната страна на прозореца, за да промените атрибута x координати и да видите клъстериране по отношение на други атрибути.
Изход
K означава, че клъстерирането е прост метод за клъстерен анализ. Броят на клъстерите може да бъде зададен с помощта на раздела за настройка. Центроидът на всеки клъстер се изчислява като средната стойност на всички точки в клъстерите. С увеличаването на броя на клъстерите, сумата на квадратните грешки се намалява. Обектите в клъстера проявяват подобни характеристики и свойства. Клъстерите представляват етикетите на класовете.
Прилагане на визуализация на данни с помощта на WEKA
Визуализация на данни
Методът за представяне на данни чрез графики и графики с цел ясно разбиране на данните е визуализацията на данните.
Има много начини за представяне на данни. Някои от тях са както следва:
# 1) Пикселно ориентирана визуализация: Тук цветът на пиксела представлява стойността на измерението. Цветът на пиксела представлява съответните стойности.
# 2) Геометрично представяне: Многомерните набори от данни са представени в 2D, 3D и 4D разпръснати графики.
# 3) Визуализация, базирана на икони: Данните са представени с помощта на лицата и фигурите на Chernoff. Лицата на Черноф използват способността на човешкия ум да разпознава характеристиките на лицето и разликите между тях. Фигурата с пръчка използва 5 фигури за представяне на многоизмерни данни.
# 4) Йерархична визуализация на данни: Наборите от данни са представени с помощта на дървесни карти. Той представлява йерархични данни като набор от вложени триъгълници.
Визуализация на данни с помощта на WEKA Explorer
Визуализацията на данни с помощта на WEKA се извършва в набора от данни IRIS.arff.
Включените стъпки са както следва:
# 1) Отидете в раздела Preprocess и отворете набора от данни IRIS.arff.
# две) Наборът от данни има 4 атрибута и 1 етикет на класа. Атрибутите в този набор от данни са:
- Дължина на седалката: Тип-числово
- Ширина на сепала: Тип - цифров
- Дължина на петата: Типово-числови
- Ширина на венчелистчето: Типово-числови
- Клас: Тип-номинален
# 3) За да визуализирате набора от данни, отидете в раздела Визуализиране. Разделът показва матрица на атрибутите. Атрибутите на набора от данни са маркирани по оста x и оста y, докато екземплярите се нанасят. Кутията с атрибут х-ос и атрибут ос-ос може да бъде увеличена.
# 4) Щракнете върху полето на парцела, за да го увеличите. Например, x: дължина на венчелистчетата и y: ширина на венчелистчетата. Етикетите на класовете са представени в различни цветове.
- Етикет на класа - Iris-setosa: син цвят
- Етикет на класа - Iris-versicolor: червен
- Етикет на класа-Iris-virginica-green
Тези цветове могат да се променят. За да промените цвета, щракнете върху етикета на класа отдолу, ще се появи цветен прозорец.
най-добрият YouTube към mp3 конвертор онлайн
# 5) Кликнете върху екземпляра, представен с ‘x’ в графика. Той ще даде подробности за екземпляра. Например:
- Номер на екземпляра: 91
- Дължина на отделянето: 5.5
- Ширина на сепала: 2.6
- Дължина на петата: 4.4
- Ширина на венчелистчето: 1.2
- Клас: Iris-versicolor
Някои от точките в сюжета изглеждат по-тъмни от другите точки. Тези точки представляват 2 или повече екземпляра с един и същ етикет на клас и една и съща стойност на атрибути, нанесени на графиката, като например ширина и дължина на венчелистчето.
Фигурата по-долу представлява точка с информация за 2 екземпляра.
# 6) Атрибутите на оста X и Y могат да се променят от десния панел в графиката Visualize. Потребителят може да преглежда различни парцели.
# 7) Джитърът се използва за добавяне на произволност към сюжета. Понякога точките се припокриват. При трептене по-тъмните петна представляват множество случаи.
# 8) За да получите по-ясен изглед на набора от данни и да премахнете отклоненията, потребителят може да избере екземпляр от падащото меню. Щракнете върху падащото меню „select instance“. Изберете „Правоъгълник“. С това потребителят ще може да избира точки в сюжета, като начертава правоъгълник.
# 9) Кликнете върху „Изпращане“. Ще бъдат показани само избраните точки от набора от данни, а останалите точки ще бъдат изключени от графиката.
Фигурата по-долу показва точките от избраната правоъгълна форма. Графиката представлява точки само с 3 етикета на класа. Потребителят може да кликне върху „Запазване“, за да запази набора от данни, или „Нулиране“, за да избере друг екземпляр. Наборът от данни ще бъде записан в отделен .ARFF файл.
Изход:
Визуализирането на данни с помощта на WEKA се опростява с помощта на графиката на полето. Потребителят може да види всяко ниво на детайлност. Атрибутите се нанасят на оста X и оста Y, докато екземплярите се нанасят срещу оста X и Y. Някои точки представляват множество случаи, които са представени от точки с тъмен цвят.
Заключение
WEKA е ефективен инструмент за извличане на данни, за да изпълнява много задачи за извличане на данни, както и да експериментира с нови методи над набори от данни. WEKA е разработена от Катедрата по компютърни науки към Университета на Уайкато в Нова Зеландия.
Днешният свят е затрупан с данни още от пазаруването в супермаркета до охранителните камери в дома ни. Извличането на данни използва тези сурови данни, преобразува ги в информация, за да прави прогнози. WEKA с помощта на алгоритъма Apriori помага в правилата за асоцииране на добив в набора от данни. Apriori е често срещан алгоритъм за извличане на образци, който отчита броя на повторенията на набор от елементи в транзакцията.
Клъстерният анализ е техника за откриване на клъстери от данни, които представляват подобни характеристики. WEKA предоставя много алгоритми за извършване на клъстер анализ, от които симплекс средствата се използват много.
Визуализацията на данни в WEKA може да се извърши на всички набори от данни в директорията WEKA. Суровият набор от данни може да се преглежда, както и други получени набори от данни на други алгоритми като класификация, групиране и асоцииране могат да се визуализират с помощта на WEKA.
=> Посетете тук за ексклузивната серия за машинно обучение
Препоръчително четене
- Урок на Weka - Как да изтеглите, инсталирате и използвате инструмента Weka
- WEKA набор от данни, класификатор и алгоритъм J48 за дървото на решенията
- 15 НАЙ-ДОБРИ инструменти за визуализация на данни и софтуер през 2021г
- D3.js Урок - Рамка за визуализация на данни за начинаещи
- D3.js Урок за визуализация на данни - Форми, графика, анимация
- 7 принципа на софтуерното тестване: Клъстериране на дефекти и принцип на Парето
- Извличане на данни: процес, техники и основни проблеми при анализа на данни
- Техники за извличане на данни: Алгоритъм, методи и най-добрите инструменти за извличане на данни