data mining process models
Този урок за процеса на извличане на данни обхваща модели за извличане на данни, стъпки и предизвикателства, включени в процеса на извличане на данни:
Техники за извличане на данни бяха обяснени подробно в предишния ни урок в това Завършете обучението за извличане на данни за всички . Извличането на данни е обещаваща област в света на науката и технологиите.
Извличането на данни, което е известно и като Откриване на знания в бази данни, е процес на откриване на полезна информация от големи обеми данни, съхранявани в бази данни и хранилища на данни. Този анализ се прави за процесите на вземане на решения в компаниите.
Извличането на данни се извършва с помощта на различни техники като клъстериране, асоцииране и последователен анализ на модели и дърво за вземане на решения.
Какво ще научите:
- Какво е извличане на данни?
- Извличане на данни като процес
- Модели за извличане на данни
- Стъпки в процеса на извличане на данни
- Процес на извличане на данни в СУБД Oracle
- Процес на извличане на данни в Datawarehouse
- Какви са приложенията за извличане на данни?
- Предизвикателства за извличане на данни
- Заключение
- Препоръчително четене
Какво е извличане на данни?
Извличането на данни е процес на откриване на интересни модели и знания от големи количества данни. Източниците на данни могат да включват бази данни, складове за данни, мрежа и други хранилища на информация или данни, които се пренасят динамично в системата.
Защо фирмите се нуждаят от извличане на данни?
С появата на големите данни, извличането на данни става все по-разпространено. Големите данни са изключително големи набори от данни, които могат да бъдат анализирани от компютри, за да разкрият определени модели, асоциации и тенденции, които могат да бъдат разбрани от хората. Големите данни имат обширна информация за различни видове и разнообразно съдържание.
По този начин при това количество данни обикновената статистика с ръчна намеса няма да работи. Тази необходимост е изпълнена от процеса на извличане на данни. Това води до промяна от проста статистика на данните към сложни алгоритми за извличане на данни.
Процесът на извличане на данни ще извлече подходяща информация от сурови данни като транзакции, снимки, видеоклипове, плоски файлове и автоматично ще обработи информацията, за да генерира отчети, полезни за предприемане от страна на бизнеса.
По този начин процесът на извличане на данни е от решаващо значение за бизнеса да взема по-добри решения чрез откриване на модели и тенденции в данните, обобщаване на данните и извличане на съответната информация.
Извличане на данни като процес
Всеки бизнес проблем ще изследва суровите данни, за да изгради модел, който да описва информацията и да изведе отчетите, които да се използват от бизнеса. Изграждането на модел от източници на данни и формати на данни е итеративен процес, тъй като суровите данни са налични в много различни източници и много форми.
Данните се увеличават от ден на ден, следователно, когато се намери нов източник на данни, той може да промени резултатите.
По-долу е очертан процесът.
[изображение източник ]
Модели за извличане на данни
Много индустрии като производството, маркетинга, химическата и космическата индустрия се възползват от извличането на данни. По този начин търсенето на стандартни и надеждни процеси за извличане на данни се увеличава драстично.
Важните модели за извличане на данни включват:
# 1) Междуотраслов стандартен процес за извличане на данни (CRISP-DM)
CRISP-DM е надежден модел за извличане на данни, състоящ се от шест фази. Това е цикличен процес, който осигурява структуриран подход към процеса на извличане на данни. Шестте фази могат да бъдат изпълнени във всякакъв ред, но понякога това ще изисква връщане към предишните стъпки и повторение на действията.
как да монтирате .bin файлове
Шестте фази на CRISP-DM включват:
# 1) Разбиране на бизнеса: В тази стъпка се определят целите на бизнеса и се откриват важните фактори, които ще помогнат за постигането на целта.
# 2) Разбиране на данните: Тази стъпка ще събере всички данни и ще попълни данните в инструмента (ако използвате някакъв инструмент). Данните са изброени със своя източник на данни, местоположение, как са получени и дали е възникнал проблем. Данните се визуализират и заявяват, за да се провери тяхната пълнота.
# 3) Подготовка на данните: Тази стъпка включва избор на подходящи данни, почистване, конструиране на атрибути от данни, интегриране на данни от множество бази данни.
# 4) Моделиране: Изборът на техника за извличане на данни, като дърво за решения, генериране на тестов дизайн за оценка на избрания модел, изграждане на модели от набора от данни и оценка на вградения модел с експерти, за да обсъдят резултата, се извършва в тази стъпка.
# 5) Оценка: Тази стъпка ще определи степента, до която полученият модел отговаря на бизнес изискванията. Оценката може да се направи чрез тестване на модела върху реални приложения. Моделът се преглежда за грешки или стъпки, които трябва да се повторят.
# 6) Внедряване: В тази стъпка се прави план за внедряване, формира се стратегия за наблюдение и поддържане на резултатите от модела за извличане на данни, за да се провери неговата полезност, правят се окончателни отчети и се прави преглед на целия процес, за да се провери всяка грешка и да се види дали някоя стъпка се повтаря .
[изображение източник ]
# 2) SEMMA (проба, изследване, модифициране, моделиране, оценка)
SEMMA е друга методология за извличане на данни, разработена от SAS Institute. Съкращението SEMMA означава проба, изследване, модифициране, моделиране, оценка.
SEMMA улеснява прилагането на изследователски статистически и визуализационни техники, избор и трансформиране на значимите прогнозирани променливи, създаване на модел, използващ променливите, за да излезе с резултата, и проверка на неговата точност. SEMMA също се задвижва от силно итеративен цикъл.
Стъпки в SEMMA
- Пример: В тази стъпка се извлича голям набор от данни и се изважда извадка, която представлява пълните данни. Вземането на проби ще намали изчислителните разходи и времето за обработка.
- Разгледайте: Данните се изследват за всякакви отклонения и аномалии за по-добро разбиране на данните. Данните се проверяват визуално, за да се установят тенденциите и групировките.
- Промяна: В тази стъпка манипулирането на данни като групиране и подгрупиране се извършва чрез фокусиране върху модела, който трябва да бъде изграден.
- Модел: Въз основа на проучванията и модификациите се изграждат моделите, които обясняват моделите в данните.
- Оценете: Полезността и надеждността на конструирания модел се оценяват в тази стъпка. Тук се извършва тестване на модела спрямо реални данни.
Както подходът SEMMA, така и CRISP работят за процеса на откриване на знания. След като моделите са изградени, те се разполагат за бизнес и изследователска работа.
Стъпки в процеса на извличане на данни
Процесът на извличане на данни е разделен на две части, т.е. предварителна обработка на данни и извличане на данни. Предварителната обработка на данни включва почистване на данни, интегриране на данни, намаляване на данните и трансформация на данни. Частта за извличане на данни извършва извличане на данни, оценка на образци и представяне на знания на данни.
[изображение източник ]
Защо обработваме предварително данните?
Има много фактори, които определят полезността на данните като точност, пълнота, последователност, актуалност. Данните трябва да бъдат качествени, ако отговарят на предвидената цел. По този начин предварителната обработка е от решаващо значение в процеса на извличане на данни. Основните стъпки, свързани с предварителната обработка на данните, са обяснени по-долу.
# 1) Почистване на данни
Почистването на данни е първата стъпка в извличането на данни. Той има значение, тъй като мръсните данни, ако се използват директно в добива, могат да доведат до объркване в процедурите и да доведат до неточни резултати.
По принцип тази стъпка включва премахване на шумни или непълни данни от колекцията. Налични са много методи, които обикновено почистват данните сами по себе си, но те не са надеждни.
Тази стъпка извършва рутинната почистваща работа чрез:
(i) Попълнете липсващите данни:
Липсващите данни могат да бъдат попълнени чрез методи като:
- Игнорирайки кортежа.
- Попълване на липсващата стойност ръчно.
- Използвайте мярката за централна тенденция, медиана или
- Попълване на най-вероятната стойност.
(ii) Премахване на шумните данни: Случайната грешка се нарича шумни данни.
автоматизирани инструменти за тестване на уеб приложения
Методите за премахване на шума са:
Binning: Методите за свързване се прилагат чрез сортиране на стойности в групи или кошчета. Изглаждането се извършва чрез справка със съседните стойности.
Binning се извършва чрез изглаждане от bin, т.е. всеки bin се заменя със средната стойност на bin. Изглаждане чрез медиана, където всяка стойност на бин се заменя с медиана на бин. Изглаждането чрез граници на контейнера, т.е. минималните и максималните стойности в контейнера са граници на контейнерите и всяка стойност на контейнера се заменя с най-близката гранична стойност.
- Идентифициране на отклоненията
- Разрешаване на несъответствия
# 2) Интегриране на данни
Когато за анализ се комбинират множество разнородни източници на данни, като бази данни, кубчета или файлове, този процес се нарича интеграция на данни. Това може да помогне за подобряване на точността и скоростта на процеса на извличане на данни.
Различните бази данни имат различни конвенции за именуване на променливи, като причиняват съкращения в базите данни. Допълнително почистване на данни може да се извърши, за да се премахнат съкращенията и несъответствията от интеграцията на данни, без да се засяга надеждността на данните.
Интегрирането на данни може да се извърши с помощта на инструменти за мигриране на данни като Oracle Data Service Integrator и Microsoft SQL и др.
# 3) Намаляване на данните
Тази техника се прилага за получаване на подходящи данни за анализ от събирането на данни. Размерът на представянето е много по-малък по обем, като същевременно се запазва целостта. Намаляването на данните се извършва с помощта на методи като Naive Bayes, дървета за вземане на решения, невронна мрежа и др.
Някои стратегии за намаляване на данните са:
- Намаляване на размерите: Намаляване на броя на атрибутите в набора от данни.
- Намаляване на числеността: Замяна на оригиналния обем данни с по-малки форми на представяне на данни.
- Компресия на данни: Компресирано представяне на оригиналните данни.
# 4) Трансформация на данни
В този процес данните се трансформират във форма, подходяща за процеса на извличане на данни. Данните се консолидират, така че процесът на добив е по-ефективен и моделите са по-лесни за разбиране. Преобразуването на данни включва процес на картографиране на данни и генериране на код.
Стратегиите за трансформация на данни са:
- Изглаждане: Премахване на шума от данни с помощта на клъстериране, техники на регресия и др.
- Агрегиране: Обобщените операции се прилагат към данните.
- Нормализация: Мащабиране на данни, за да попадне в по-малък диапазон.
- Дискретизация: Необработените стойности на числовите данни се заменят с интервали. Например, Възраст.
# 5) Извличане на данни
Извличането на данни е процес за идентифициране на интересни модели и знания от голямо количество данни. В тези стъпки се прилагат интелигентни модели за извличане на шаблоните от данни. Данните са представени под формата на модели и модели са структурирани с помощта на техники за класификация и клъстериране.
# 6) Оценка на модела
Тази стъпка включва идентифициране на интересни модели, представляващи знанията, базирани на мерки за интерес. Методите за обобщаване и визуализиране на данни се използват, за да направят данните разбираеми за потребителя.
как да отворите нещо с java -
# 7) Представяне на знанието
Представянето на знания е стъпка, при която инструментите за визуализация на данни и представяне на знания се използват за представяне на извлечените данни. Данните се визуализират под формата на отчети, таблици и т.н.
Процес на извличане на данни в СУБД Oracle
RDBMS представлява данни под формата на таблици с редове и колони. Данните могат да бъдат достъпни чрез писане на заявки към база данни.
Релационни системи за управление на бази данни, като например Oracle, поддържат извличане на данни с помощта на CRISP-DM. Удобствата на базата данни Oracle са полезни при подготовката и разбирането на данни. Oracle поддържа извличане на данни чрез java интерфейс, PL / SQL интерфейс, автоматизирано извличане на данни, SQL функции и графични потребителски интерфейси.
Процес на извличане на данни в Datawarehouse
Хранилището за данни е моделирано за многомерна структура от данни, наречена куб за данни. Всяка клетка в куб за данни съхранява стойността на някои обобщени мерки.
Извличането на данни в многомерно пространство се извършва в стил OLAP (онлайн аналитична обработка), където позволява изследване на множество комбинации от измерения при различни нива на детайлност.
Какви са приложенията за извличане на данни?
Списъкът на областите, където широко се използва извличането на данни, включва:
# 1) Анализ на финансовите данни: Извличането на данни се използва широко в банковото дело, инвестициите, кредитните услуги, ипотечните кредити, автомобилните заеми и застрахователните и инвестиционни услуги. Данните, събрани от тези източници, са пълни, надеждни и с високо качество. Това улеснява системния анализ на данните и извличането на данни.
# 2) Търговия на дребно и телекомуникации: Търговският сектор събира огромни количества данни за продажби, история на пазаруване на клиенти, транспорт на стоки, потребление и обслужване. Извличането на данни на дребно помага да се идентифицират поведението на клиентите при пазаруване, моделите и тенденциите на пазаруване на клиентите, да се подобри качеството на обслужването на клиентите, по-доброто задържане на клиентите и удовлетворението.
# 3) Наука и инженерство: Компютърните науки и инженеринг за извличане на данни могат да помогнат за наблюдение на състоянието на системата, подобряване на производителността на системата, изолиране на софтуерни грешки, откриване на софтуерно плагиатство и разпознаване на системни неизправности.
# 4) Откриване и предотвратяване на проникване: Натрапването се определя като всеки набор от действия, които застрашават целостта, поверителността или наличността на мрежови ресурси. Методите за извличане на данни могат да помогнат в системата за откриване и предотвратяване на проникване, за да подобрят нейната производителност.
# 5) Препоръчващи системи: Препоръчващите системи помагат на потребителите, като правят препоръки за продукти, които представляват интерес за потребителите.
Предизвикателства за извличане на данни
По-долу са изброени различните предизвикателства, свързани с извличането на данни.
- Извличането на данни се нуждае от големи бази данни и събиране на данни, които са трудни за управление.
- Процесът на извличане на данни изисква експерти в областта, които отново са трудни за намиране.
- Интеграцията от хетерогенни бази данни е сложен процес.
- Практиките на организационно ниво трябва да бъдат модифицирани, за да се използват резултатите от извличането на данни. Преструктурирането на процеса изисква усилия и разходи.
Заключение
Извличането на данни е итеративен процес, при който процесът на извличане може да бъде усъвършенстван и могат да бъдат интегрирани нови данни, за да се получат по-ефективни резултати. Data Mining отговаря на изискването за ефективен, мащабируем и гъвкав анализ на данни.
Може да се разглежда като естествена оценка на информационните технологии. Като процес на откриване на знания, задачите за подготовка на данни и извличане на данни завършват процеса на извличане на данни.
Процесите за извличане на данни могат да се извършват върху всякакъв вид данни, като например данни от бази данни и усъвършенствани бази данни като времеви редове и т.н. Процесът за извличане на данни също има свои собствени предизвикателства.
Следете нашия предстоящ урок, за да научите повече за примери за извличане на данни !!
Препоръчително четене
- Извличане на данни: процес, техники и основни проблеми при анализа на данните
- Техники за извличане на данни: Алгоритъм, методи и най-добрите инструменти за извличане на данни
- 10 най-добри инструмента за картографиране на данни, полезни в процеса на ETL [2021 СПИСЪК]
- Топ 10 Инструменти за проектиране на бази данни за изграждане на сложни модели данни
- Извличане на данни срещу машинно обучение срещу изкуствен интелект срещу дълбоко обучение
- Топ 15 най-добри безплатни инструменти за извличане на данни: Най-изчерпателният списък
- Тествайте концепция, процес и стратегия за управление на данните
- Параметризиране на данни на JMeter, използвайки дефинирани от потребителя променливи