data mining process
Този урок за задълбочено извличане на данни обяснява какво е извличане на данни, включително процеси и техники, използвани за анализ на данни:
Нека разберем значението на термина добив, като вземем примера за добив на злато от скали, което се нарича златодобив. Тук полезното нещо е „Злато“, поради което се нарича добив на злато.
По същия начин изваждането на полезна информация от огромно количество данни се нарича „Извличане на знания“ и е популярно като „Извличане на данни“. С термина полезна информация ние обозначаваме данните, които могат да ни помогнат при прогнозирането на резултата.
Например намиране на тенденциите при закупуване на определено нещо (да речем желязо) от определена възрастова група ( Пример: 40-70 години).
=>ПРЕВЪРТИ НАДОЛУза да видите целия списък от 7 Инструкции за извличане на данни в дълбочина за начинаещи
Какво ще научите:
кой е най-добрият безплатен изтеглящ YouTube
- Списък с уроци за извличане на данни
- Преглед на уроци в тази серия за извличане на данни
- Какво е извличане на данни?
- Какви видове данни могат да бъдат извлечени?
- Какви техники се използват при извличането на данни?
- Основни проблеми при анализа на данните
- Заключение
Списък с уроци за извличане на данни
Урок # 1: Извличане на данни: процес, техники и основни проблеми при анализа на данни (Този урок)
Урок # 2: Техники за извличане на данни: Алгоритъм, методи и най-добрите инструменти за извличане на данни
Урок № 3: Процес на извличане на данни: включени модели, стъпки и предизвикателства
Урок № 4: Примери за извличане на данни: Най-често срещаните приложения на извличането на данни 2019
Урок № 5: Примери за алгоритъм на дървото на решения в извличането на данни
Урок № 6: Apriori алгоритъм в извличането на данни: внедряване с примери
Урок # 7: Алгоритъм за растеж на често срещания модел (FP) в извличането на данни
Преглед на уроци в тази серия за извличане на данни
Урок # | Какво ще научите |
---|---|
Урок_7: | Алгоритъм за растеж на често срещания модел (FP) в извличането на данни Това е подробен урок за алгоритъма за растеж на чести модели, който представлява базата данни под формата на FP дърво. FP Growth Vs Apriori Comparison също е обяснено тук. |
Урок_ 1: | Извличане на данни: процес, техники и основни проблеми при анализа на данни Този урок за задълбочено извличане на данни обяснява какво е извличане на данни, включително процесите и техниките, използвани за анализ на данни. |
Урок_ # 2: | Техники за извличане на данни: Алгоритъм, методи и най-добрите инструменти за извличане на данни Този урок за техники за извличане на данни обяснява алгоритми, инструменти за извличане на данни и методи за извличане на полезни данни. |
Урок_ # 3: | Процес на извличане на данни: включени модели, стъпки и предизвикателства Този урок за процеса на извличане на данни обхваща модели за извличане на данни, стъпки и предизвикателства, включени в процеса на извличане на данни. |
Урок_4: | Примери за извличане на данни: Най-често срещаните приложения на извличането на данни 2019 Най-популярните примери за извличане на данни в реалния живот са разгледани в този урок. Ще научите повече за приложението за извличане на данни във финанси, маркетинг, здравеопазване и CRM. |
Урок_ # 5: | Примери за алгоритъм на дървото на решения в извличането на данни Този задълбочен урок обяснява всичко за алгоритъма на дървото за вземане на решения при извличането на данни. Ще научите за примери за дърво на решенията, алгоритъм и класификация. |
Урок_6: | Apriori алгоритъм в извличането на данни: внедряване с примери Това е прост урок за алгоритъма на Apriori, за да разберете честите набори от елементи в извличането на данни. Също така ще опознаете Стъпките в Apriori и ще разберете как работи. |
Какво е извличане на данни?
Data Mining се търси днес, тъй като помага на бизнеса да проучи как могат да се увеличат продажбите на техните продукти. Можем да разберем това чрез пример за моден магазин, който ще регистрира всеки свой клиент, който закупи артикул от техния магазин.
Въз основа на данните, дадени от клиента като възраст, пол, група доходи, професия и др., Магазинът ще може да разбере кой тип клиенти купуват различни продукти. Тук можем да видим, че името на клиента не е от полза, тъй като не можем да предвидим тенденцията на покупка по име дали това лице ще купи определен продукт или не.
По този начин полезната информация може да бъде открита с помощта на възрастовата група, пола, доходната група, професията и др. Търсенето на знания или интересен модел в данните е „Извличане на данни“. Други термини, които могат да се използват на място, са Извличане на знания от данни, Извличане на знания, Анализ на данни, Анализ на образци и др.
Друг термин, който се използва широко в извличането на данни, е Откриване на знания от данни или KDD.
Процес на анализ на данни
Процесът на откриване на знания е последователност от следните стъпки:
- Почистване на данни: Тази стъпка премахва шума и несъвместимите данни от входните данни.
- Интеграция на данни: Тази стъпка комбинира множество източници на данни. Почистването на данни и интегрирането на данните стъпват заедно, за да формират предварителната обработка на данните. След това предварително обработените данни се съхраняват в хранилището за данни.
- Избор на данни: Тези стъпки избират данните към задачата за анализ от базата данни.
- Преобразуване на данни: В тази стъпка се прилагат различни техники за агрегиране и обобщение на данни, за да се трансформират данните в полезна форма за добив.
- Извличане на данни: В тази стъпка моделите на данни се извличат чрез прилагане на интелигентни методи.
- Оценка на модела: Извлечените модели от данни се оценяват и разпознават според мерките за интерес.
- Представяне на знанието: Техниките за визуализация и представяне на знания се използват за представяне на добитото знание на потребителите.
Стъпките от 1 до 4 идват под етапа на предварителна обработка на данните. Тук извличането на данни е представено като една стъпка, но се отнася до целия процес на откриване на знания.
По този начин можем да кажем, че анализът на данните е процес на откриване на интересни модели и знания от голямо количество данни. Източниците на данни могат да включват бази данни, складове за данни, World Wide Web, плоски файлове и други информативни файлове.
Какви видове данни могат да бъдат извлечени?
Най-основните форми на данни за добив са данни от база данни, данни от хранилище на данни и данни за транзакции. Техниките за извличане на данни могат да се прилагат и към други форми като потоци от данни, секвенирани данни, текстови данни и пространствени данни.
# 1) Данни от базата данни: Системата за управление на база данни е набор от взаимосвързани данни и набор от софтуерни програми за управление и достъп до данните. Системата на релационна база данни е колекция от таблици и всяка таблица се състои от набор от атрибути и кортежи.
Копаенето на релационни бази данни търси тенденциите и моделите на данни E.g . кредитен риск на клиентите въз основа на възраст, доход и предишен кредитен риск. Също така, добивът може да открие отклонения от очакваното E.g. значително увеличение на цената на даден артикул.
# 2) Данни от хранилището на данни: Хранилището за данни е колекция от информация, събрана от множество източници на данни, съхранявана под единна схема на едно посещение. DW е моделиран като многоизмерна структура от данни, наречена куб с данни, имаща клетки и размери, осигуряващи предварителна изчисления и по-бърз достъп до данни.
Извличането на данни се извършва в стил OLAP чрез комбиниране на размерите при различни нива на детайлност.
# 3) Транзакционни данни: Транзакционните данни улавят транзакция. Той има идентификационен номер на транзакция и списък с елементи, използвани в транзакцията.
# 4) Други видове данни: Други данни могат да включват: свързани с времето данни, пространствени данни, хипертекстови данни и мултимедийни данни.
Какви техники се използват при извличането на данни?
Data Mining е силно управляван от приложения домейн. Много техники като статистика, машинно обучение, разпознаване на образци, извличане на информация, визуализация и др., Влияят върху развитието на методите за анализ на данни.
Нека обсъдим някои от тях тук !!
Статистика
Проучването на събирането, анализа, интерпретацията и представянето на данни може да се извърши с помощта на статистически модели. Например , статистиката може да се използва за моделиране на шум и липсващи данни, а след това този модел може да се използва в голям набор от данни за идентифициране на шума и липсващите стойности в данните.
Машинно обучение
ML се използва за подобряване на производителността въз основа на данни. Основната област на изследване е компютърните програми автоматично да се научат да разпознават сложни модели и да вземат интелигентни решения въз основа на данните.
Машинното обучение се фокусира върху точността и извличането на данни се фокусира върху ефективността и мащабируемостта на методите за извличане на голям набор от данни, сложни данни и др.
Машинното обучение е от три вида:
- Контролирано обучение: Целевият набор от данни е известен и машината се обучава според целевите стойности.
- Учене без надзор: Целевите стойности не са известни и машините се учат сами.
- Полууправлявано обучение: Той използва както техниките на контролирано, така и на неконтролирано обучение.
Извличане на информация (IR)
Това е наука за търсене на документи или информация в документи.
Той използва два принципа:
- Данните, които трябва да се търсят, са неструктурирани.
- Заявките се формират главно от ключови думи.
Използвайки анализ на данни и IR, можем да намерим основни теми в колекцията от документи, както и основните теми, включени във всеки документ.
Основни проблеми при анализа на данните
Извличането на данни има редица проблеми, свързани с него, както е споменато по-долу:
Методология за копаене
- Тъй като има различни приложения, нови задачи за добив продължават да се появяват. Тези задачи могат да използват една и съща база данни по различни начини и изискват разработването на нови техники за извличане на данни.
- Докато търсим знания в големи масиви от данни, трябва да изследваме многомерното пространство. За да се намерят интересни модели, трябва да се прилагат различни комбинации от размери.
- Несигурните, шумни и непълни данни понякога могат да доведат до погрешно извеждане.
Взаимодействие с потребителя
- Процесът на анализ на данните трябва да бъде силно интерактивен. Важно е за улесняване на процеса на копаене да бъде потребителски интерактивен.
- Знанията за домейна, знанията, ограниченията и т.н. трябва да бъдат включени в процеса на извличане на данни.
- Знанията, открити чрез извличане на данните, трябва да бъдат използваеми за хората. Системата трябва да възприеме изразително представяне на знания, лесни за ползване техники за визуализация и т.н.
Ефективност и мащабируемост
- Алгоритмите за извличане на данни трябва да бъдат ефективни и мащабируеми за ефективно извличане на интересни данни от огромно количество данни в хранилищата на данни.
- Широкото разпределение на данните, сложността на изчисленията мотивира разработването на паралелни и разпределени алгоритми, интензивни за данни.
Разнообразие от типове бази данни
- Изграждането на ефективни и ефикасни инструменти за анализ на данни за различни приложения, широк спектър от типове данни от неструктурирани данни, временни данни, хипертекст, мултимедийни данни и софтуерен програмен код остава предизвикателна и активна област на изследване.
Социално въздействие
- Разкриването с цел използване на данните и потенциалното нарушаване на личната неприкосновеност и защитата на правата са областите, които трябва да бъдат разгледани.
Заключение
Извличането на данни помага при вземането на решения и анализа на голямо количество данни. В днешно време това е най-често срещаната бизнес техника. Той позволява автоматичен анализ на данни и идентифицира популярни тенденции и поведение.
Анализът на данни може да се комбинира с машинно обучение, статистика, изкуствен интелект и др., За усъвършенстван анализ на данни и изследване на поведението.
Извличането на данни трябва да се прилага, като се вземат предвид различни фактори като разходи за извличане на информация и модел от бази данни (трябва да се прилагат сложни алгоритми, които изискват експертни ресурси), вид информация (тъй като историческите данни може да не са същите като в момента, така че анализът няма да бъде полезен).
конвертор на YouTube към mp4 безплатно онлайн
Надяваме се този урок обогати вашите познания за концепцията за Data Mining !!
Препоръчително четене
- 10 най-добри инструмента за анализ на данни за перфектно управление на данните (2021 СПИСЪК)
- Извличане на данни срещу машинно обучение срещу изкуствен интелект срещу дълбоко обучение
- 10 най-добри инструмента за картографиране на данни, полезни в процеса на ETL (2021 СПИСЪК)
- Какво са тестовите данни? Изпробвайте техниките за подготовка на данните с пример
- Параметризиране на данни на JMeter, използвайки дефинирани от потребителя променливи
- Топ 15 най-добри безплатни инструменти за извличане на данни: Най-изчерпателният списък
- 10+ най-добри инструменти за събиране на данни със стратегии за събиране на данни
- Функция на пула от данни в IBM Rational Quality Manager за управление на тестови данни