data mining techniques
Този задълбочен урок за техники за извличане на данни обяснява алгоритми, инструменти за извличане на данни и методи за извличане на полезни данни:
В това Уроци за обучение за задълбочено извличане на данни за всички , разгледахме всичко за извличането на данни в нашия предишен урок.
В този урок ще научим за различните техники, използвани за извличане на данни. Тъй като знаем, че извличането на данни е концепция за извличане на полезна информация от огромното количество данни, някои техники и методи се прилагат към големи набори от данни за извличане на полезна информация.
Тези техники са основно под формата на методи и алгоритми, приложени към набори от данни. Някои от техниките за извличане на данни включват Извличане на чести модели, асоциации и корелации, класификации, клъстериране, откриване на отклонения и някои усъвършенствани техники като статистически, визуален и аудио извличане на данни.
Въпроси и отговори за интервю за sql сървър за опитни с примери
Като цяло, релационни бази данни, транзакционни бази данни и хранилища на данни се използват за техники за извличане на данни. Съществуват обаче и някои усъвършенствани техники за добив на сложни данни като времеви редове, символни последователности и биологични последователни данни.
Какво ще научите:
- Цел на техниките за извличане на данни
- Списък на техниките за извличане на данни
- Най-добрите алгоритми за извличане на данни
- Методи за извличане на данни
- Топ инструменти за извличане на данни
- Заключение
- Препоръчително четене
Цел на техниките за извличане на данни
С огромно количество данни, които се съхраняват всеки ден, предприятията вече се интересуват да открият тенденциите от тях. Техниките за извличане на данни помагат за превръщането на суровите данни в полезни знания. За добив на огромни количества данни е необходим софтуер, тъй като е невъзможно човек да премине ръчно през големия обем данни.
Софтуер за извличане на данни анализира връзката между различни елементи в големи бази данни, които могат да помогнат в процеса на вземане на решения, да научат повече за клиентите, да изработят маркетингови стратегии, да увеличат продажбите и да намалят разходите.
Списък на техниките за извличане на данни
Техниката за извличане на данни, която трябва да се приложи, зависи от перспективата на нашия анализ на данни.
Така че нека обсъдим различните техники за това как извличането на данни може да се извърши по различни начини:
# 1) Чест анализ на модели / анализ на асоцииране
Този тип техника за извличане на данни търси повтарящи се връзки в дадения набор от данни. Той ще търси интересни асоциации и корелации между различните елементи в базата данни и ще идентифицира модел.
Пример, от такъв вид, би било „Анализ на кошницата за пазаруване“: установяване „кои продукти клиентите вероятно ще закупят заедно в магазина?“ като хляб и масло.
Приложение: Проектиране на разположението на продуктите на рафтовете на магазините, маркетинг, кръстосана продажба на продукти.
Моделите могат да бъдат представени под формата на правила за асоцииране. Правилото за асоцииране казва, че подкрепата и доверието са параметрите, за да разберете полезността на свързаните елементи. Транзакциите, при които и двата артикула са били закупени едновременно, са известни като поддръжка.
Сделките, при които клиентите са закупили и двата артикула, но един след друг, са доверието. Извлеченият шаблон ще се счита за интересен, ако има минимален праг на подкрепа и минимален праг на доверие стойност. Праговите стойности се определят от експертите на домейна.
Хляб => масло [подкрепа = 2%, увереност-60%]
Горното изявление е пример за правило за асоцииране. Това означава, че има 2% сделка, която е купила хляб и масло заедно и има 60% от клиентите, които са закупили хляб, както и масло.
Стъпки за прилагане на анализ на асоциацията:
- Намиране на чести набори от предмети. Itemset означава набор от елементи. Набор от елементи, съдържащ k елемента, е k-артикул. Честотата на артикула е броят на транзакциите, които съдържат артикула.
- Генериране на силни правила за асоцииране от честите набори от предмети. Под силни правила за асоцииране имаме предвид, че минималният праг на подкрепа и доверие са изпълнени.
Съществуват различни чести методи за извличане на артикули като Apriori Algorithm, Pattern Growth Approach и Mining с помощта на вертикалния формат на данните. Тази техника е известна като анализ на пазарната кошница.
# 2) Корелационен анализ
Корелационният анализ е просто разширение на правилата за асоцииране. Понякога параметрите за подкрепа и увереност все още могат да създават безинтересни модели за потребителите.
Пример в подкрепа на горното твърдение може да бъде: от 1000 анализирани транзакции 600 съдържаха само хляб, докато 750 съдържаха масло и 400 съдържаха хляб и масло. Да предположим, че минималната поддръжка за изпълнение на правило за асоцииране е 30%, а минималната увереност е 60%.
Стойността на подкрепата от 400/1000 = 40% и стойността на доверието = 400/600 = 66% отговаря на прага. Виждаме обаче, че вероятността за закупуване на масло е 75%, което е повече от 66%. Това означава, че хлябът и маслото са в отрицателна корелация, тъй като покупката на единия би довела до намаляване на покупката на другия. Резултатите са измамни.
От горния пример подкрепата и увереността се допълват с друга мярка за интерес, т.е. корелационен анализ, който ще помогне при добива на интересни модели.
A => B [подкрепа, увереност, корелация].
Правилото за корелация се измерва чрез подкрепа, увереност и корелация между набори от елементи А и Б. Корелацията се измерва чрез лифт и хи-квадрат.
(вдигам: Както казва самата дума, Lift представлява степента, до която присъствието на един набор от елементи повдига появата на други набори от елементи.
Вдигането между появата на A и B може да се измери чрез:
Повдигнете (A, B) = P (A U B) / P (A). P (B).
Ако е<1, then A and B are negatively correlated.
Ако е> 1. Тогава A и B са положително корелирани, което означава, че появата на единия предполага появата на другата.
Ако е = 1, тогава няма връзка между тях.
(ii) Chi-Square: Това е друга мярка за корелация. Той измерва квадратичната разлика между наблюдаваната и очакваната стойност за слот (двойка A и B), разделена на очакваната стойност.
Ако е> 1, то е в отрицателна корелация.
# 3) Класификация
Класификацията помага при изграждането на модели на важни класове данни. Изгражда се модел или класификатор, за да се предскажат етикетите на класовете. Етикетите са дефинираните класове с дискретни стойности като „да“ или „не“, „безопасно“ или „рисковано“. Това е вид контролирано обучение, тъй като класът на етикетите вече е известен.
Класификацията на данните е процес от две стъпки:
- Учебна стъпка: Моделът е конструиран тук. Предварително дефиниран алгоритъм се прилага към данните за анализ с предоставен етикет на клас и се изграждат правилата за класификация.
- Стъпка на класификация: Моделът се използва за предсказване на етикети на класове за дадени данни. Точността на правилата за класификация се изчислява от данните от теста, които, ако се окажат точни, се използват за класификация на нови кортежи от данни.
Елементите в набора от артикули ще бъдат присвоени на целевите категории за предсказване на функции на ниво етикет на класа.
Приложение: Банките да идентифицират кандидатите за кредит като нисък, среден или висок риск, фирми, които проектират маркетингови кампании въз основа на класификация по възрастови групи. '
# 4) Индукция на дървото на решенията
Методът за индукция на дървета за вземане на решения попада в класификационния анализ. Дървото за вземане на решения е дървовидна структура, която е лесна за разбиране и проста и бърза. При това всеки нелистов възел представлява тест за атрибут и всеки клон представлява резултата от теста, а листният възел представлява етикетът на класа.
Стойностите на атрибутите в кортеж се тестват спрямо дървото за решения от корена до листния възел. Дърветата за вземане на решения са популярни, тъй като не изискват никакви познания в областта. Те могат да представляват многоизмерни данни. Дърветата за решения могат лесно да бъдат преобразувани в правила за класификация.
Приложение: Дърветата на решенията се изграждат в медицината, производството, производството, астрономията и др. Пример може да се види по-долу:
# 5) Класификация на Bayes
Байесовата класификация е друг метод за класификационен анализ. Класификаторите на Bayes прогнозират вероятността даден кортеж да принадлежи към определен клас. Тя се основава на теоремата на Байес, която се основава на теорията за вероятността и решението.
Класификацията на Байес работи върху задната вероятност и предишната вероятност за процеса на вземане на решение. По задна вероятност хипотезата се прави от дадената информация, т.е. стойностите на атрибутите са известни, докато за предишната вероятност хипотезите се дават независимо от стойностите на атрибутите.
# 6) Анализ на клъстери
Това е техника за разделяне на набор от данни на клъстери или групи обекти. Клъстерирането се извършва с помощта на алгоритми. Това е вид обучение без надзор, тъй като информацията на етикета не е известна. Клъстерните методи идентифицират данни, които са сходни или различни един от друг, и се прави анализ на характеристиките.
Клъстерният анализ може да се използва като предварителна стъпка за прилагане на различни други алгоритми като характеризиране, избор на подмножество на атрибути и др. Клъстерният анализ може да се използва и за откриване на извънземни, като високи покупки при транзакции с кредитни карти.
какво е мрежов ключ за сигурност за wifi
Приложения: Разпознаване на изображения, уеб търсене и сигурност.
# 7) Откриване на извънредно положение
Процесът на намиране на обекти с данни, които притежават изключително поведение от останалите обекти, се нарича извънредно откриване. Откриването на извънредни ситуации и клъстерният анализ са свързани помежду си. Изключителните методи се категоризират на статистически, базирани на близост, базирани на клъстери и класификации.
Има различни видове отклонения, някои от тях са:
- Глобално отклонение: Обектът от данни се отклонява значително от останалата част от набора от данни.
- Контекстуално отклонение: Това зависи от определени фактори като ден, час и местоположение. Ако обектът на данни се отклонява значително по отношение на контекст.
- Колективни отклонения: Когато група обекти с данни има различно поведение от целия набор от данни.
Приложение: Откриване на рискове от измами с кредитни карти, откриване на новости и др.
# 8) Последователни модели
Тенденция или някои последователни модели се разпознават при този тип извличане на данни. Разбирането на поведението на клиентите при покупка и последователните модели се използват от магазините, за да излагат своите продукти на рафтове.
Приложение: Пример за електронна търговия, когато когато купувате артикул А, той показва, че артикул Б често се купува с артикул А, като се гледа миналата история на покупките.
# 9) Регресионен анализ
Този тип анализ се контролира и идентифицира кои набори от различни връзки са свързани или са независими един от друг. Той може да предсказва продажби, печалба, температура, да прогнозира човешкото поведение и т.н. Той има стойност на набора от данни, която вече е известна.
Когато е предоставен вход, алгоритъмът за регресия ще сравнява входа и очакваната стойност и грешката се изчислява, за да се стигне до точния резултат.
Приложение: Сравнение на усилията за маркетинг и разработване на продукти.
Най-добрите алгоритми за извличане на данни
Техниките за извличане на данни се прилагат чрез алгоритмите зад нея. Тези алгоритми работят на софтуера за извличане на данни и се прилагат въз основа на бизнес нуждите.
Някои от алгоритмите, които се използват широко от организациите за анализ на наборите данни, са дефинирани по-долу:
- K-означава: Това е популярна техника за клъстерен анализ, при която група подобни елементи са групирани заедно.
- Алгоритъм на Apriori: Това е често срещана техника за извличане на артикули и към нея се прилагат правила за асоцииране в транзакционни бази данни. Той ще открие чести набори от предмети и ще подчертае общите тенденции.
- K Най-близък съсед: Този метод се използва за класификационен и регресионен анализ. Най-близкият съсед е мързеливо обучение, където съхранява данните за обучение и когато дойдат нови немаркирани данни, той ще класифицира входните данни.
- Кораби на Bayes: Това е група от прости вероятностни класификационни алгоритми, които приемат, че всеки обект на данни е независим от другия. Това е приложение на теоремата на Байес.
- AdaBoost: Това е мета-алгоритъм за машинно обучение, който се използва за подобряване на производителността. Adaboost е чувствителен към шумни данни и отклонения.
Методи за извличане на данни
Някои разширени методи за извличане на данни за работа със сложни типове данни са обяснени по-долу.
Данните в днешния свят са от различни видове, вариращи от прости до сложни данни. За извличане на сложни типове данни като времеви редове, многомерни, пространствени и мултимедийни данни са необходими усъвършенствани алгоритми и техники.
Някои от тях са описани по-долу:
- КЛИКНЕТЕ: Това беше първият метод за клъстериране, който намери клъстерите в многомерно подпространство.
- P3C: Това е добре известен метод на клъстериране за умерени до високи многомерни данни.
- ЕЗЕРО: Това е метод, основан на k-средства, насочен към групиране на данни с умерена до висока размерност. Алгоритъмът разделя данните на k несъединяващ се набор от елементи, като премахва възможните отклонения.
- КЪРЛЕ: Това е алгоритъм за групиране на корелации, той забелязва както линейни, така и нелинейни корелации.
Топ инструменти за извличане на данни
Data Mining Tools са софтуер, използван за добив на данни. Инструментите изпълняват алгоритми в бекенда. Тези инструменти се предлагат на пазара като отворен код, безплатен софтуер и лицензирана версия.
Някои от инструментите за извличане на данни включват:
# 1) RapidMiner
RapidMiner е софтуерна платформа с отворен код за екипи за анализ, която обединява подготовка на данни, машинно обучение и внедряване на предсказуем модел. Този инструмент се използва за извършване на анализ на извличане на данни и създаване на модели на данни. Той има големи набори за класификация, клъстериране, извличане на правила за асоцииране и алгоритми за регресия.
# 2) Оранжево
Това е инструмент с отворен код, съдържащ пакет за визуализация и анализ на данни. Orange може да се импортира във всяка работеща среда на python. Той е подходящ за нови изследователи и малки проекти.
# 3) ЕЗИК
KEEL (Извличане на знания въз основа на еволюционно обучение) е с отворен код ( GPLv3 ) Java софтуерен инструмент, който може да се използва за голям брой различни задачи за откриване на данни от знания.
# 4) SPSS
IBM SPSS Modeler е софтуерно приложение за извличане на данни и анализ на текст от IBM. Използва се за изграждане на прогнозни модели и провеждане на други аналитични задачи.
# 5) КНИМ
Това е безплатен инструмент с отворен код, съдържащ Пакет за почистване и анализ на данни, Специализирани алгоритми в областите Анализ на настроението и Анализ на социалната мрежа. KNIME може да интегрира данни от различни източници в един и същ анализ. Той има интерфейс с програмиране на Java, Python и R.
Важен въпрос: По какво се различава класификацията от прогнозата?
Класификацията е групиране на данни. Пример за класификация е групирането въз основа на възрастова група, медицинско състояние и др. Докато прогнозирането води до резултат, използвайки класифицираните данни.
Пример на предсказуем анализ прогнозира интересите въз основа на възрастова група, лечение за медицинско състояние. Предвиждането е известно и като Оценка за непрекъснати стойности.
Важен термин: Прогнозно извличане на данни
Предсказуемото извличане на данни се извършва за прогнозиране или прогнозиране на определени тенденции в данните, като се използва бизнес разузнаване и други данни. Помага на бизнеса да има по-добър анализ и да взема по-добри решения. Predictive Analytics често се комбинира с Predictive Data Mining.
Прогнозното извличане на данни открива съответните данни за анализ. Предсказуемият анализ използва данни за прогнозиране на резултата.
как да отворите двоични файлове в Windows
Заключение
В този урок обсъдихме различните техники за извличане на данни, които могат да помогнат на организациите и бизнеса да намерят най-полезната и подходяща информация. Тази информация се използва за създаване на модели, които ще предскажат поведението на клиентите, за да могат фирмите да действат по него.
Прочитайки цялата гореспомената информация за техниките за извличане на данни, може да се определи още по-добре нейната достоверност и осъществимост. Техниките за извличане на данни включват работа с данни, преформатиране на данни, преструктуриране на данни. Форматът на необходимата информация се основава на техниката и анализа, който трябва да се направи.
И накрая, всички техники, методи и системи за извличане на данни помагат за откриването на нови творчески иновации.
Препоръчително четене
- Извличане на данни: процес, техники и основни проблеми при анализа на данни
- 10 най-добри инструмента за моделиране на данни за управление на сложни дизайни
- Топ 15 най-добри безплатни инструменти за извличане на данни: Най-изчерпателният списък
- 10+ най-добри инструменти за събиране на данни със стратегии за събиране на данни
- Топ 10 Инструменти за проектиране на бази данни за изграждане на сложни модели данни
- 10+ най-добри инструмента за управление на данни, които да отговорят на вашите нужди от данни през 2021 г.
- Извличане на данни срещу машинно обучение срещу изкуствен интелект срещу дълбоко обучение
- Топ 14 НАЙ-ДОБРИ инструмента за управление на тестови данни през 2021г