Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Міністерство освіти і науки України
Тернопільський національний економічний університет
Факультет компютерних інформаційних технологій
Кафедра міжнародної інформації
Комплексне практичне індивідуальне завдання
з дисципліни
«Інтелектуальний аналіз даних»
Виконала:
студентка групи МІ-31
Гутенюк А.В.
Перевірив:
к. т. н., доцент
Адамів О. П.
Тернопіль - 2013
1. Для свого достідження я обрала предметну область “Міграційні процеси в Україні”. Задля вивчення цієї теми доцільно використовувати дані із таких джерел : Держстатистика; бази даних посольств, паспортних столів; соцопитування...
2.Трансформація даних комплекс методів та алгоритмів, направлених на оптимізація представлення і форматів даних з точки зору вирішуваних задач та цілей аналізу. Трансформація даних не ставить за мету змінити інформаційний зміст даних.
ЇЇ задача представити цю інформацію в такому вигляді, щоб вона могла бути використана найбільш ефективно.
Групування даних. Дуже часто інформація, яка цікавить аналітика, в таблиці виявляється “розбавлена” посторонніми даними, роз'єднана, розкидана по окремих полях та записах. Використовуючи групування, можна узагальнювати потрібну інформацію, обєднувати її в мінімально необхідну кількість полів та значень. Зазвичай передбачають і можливість виконання зворотної операції розгрупування.
Це метод необхідний для дослідження моєї теми або систематизувати,узагальнити дані які містяться у різних джерелах.
Квантування дозволяє розбити діапазон можливих значень числової ознаки на задану кількість інтервалів і присвоїти номери інтервалів чи інші мітки значень, що потрапили у них.
Поєднання даних. Дозволяє об'єднати 2 таблиці по одноіменним полям або доповнити одну таблицю записами з іншої, які відсутні в тій котру доповняють. Поєднання застосовується в тих випадках, коли інформацію у вибірці даних котра аналізується потрібно доповнити інформацією з іншої вибірки. При об'єднанні до записів вихідної вибірки додаються всі записи іншої. У випадку доповнення до вихідної вибірки додаються лише ті данні, яких немає в попередній. Операція поєднання являється одним із способів збагачення даних: якщо вибірка містить недостатньо даних для аналізу, то її можна доповнити інформацією котрої недостатньо в іншій вибірці.
Поєднання даних необхідне щоб обєднувати табличні данні в яких міститься статистка дослідження.
Нормалізація даних дозволяє перетворити діапазон зміни значень числової ознаки в інший діапазон, більш зручний для застосування до даних тих чи інших аналітичних алгоритмів, а також узгодити діапазони змін різноманітних ознак. Часто використовується приведення до одиниці, коли весь наявний діапазон даних «стискається» в інтервал (0; 1) або (-1; 1). Особливо важливо виконати правильну нормалізацію даних в алгоритмах Data Mining, в основі яких лежить вимірювання відстані між векторами обєктів в багатовимірному просторі ознак (наприклад, в кластеризації).
Фільтрація даних. При підготовці вибірки даних до аналізу часто виникає ситуація, коли деякі записи потрібно виключити із вибірки та не використовувати. Фільтрація являється багатоцільовим засобом, котрий дозволяє виконати очистку даних від факторів, знижуючих якість аналізу, знизити розмірність вихідної кількості даних, відбирати найбільш важливі данні, спрощувати візуальний аналіз вихідної вибірки.
Фільтрація даних надзвичайно важлива. Аби отримати більш точну інформація, і прикласти меньше ззусиль, трібно примінити метод фільтрації даних.
Передобробка даних комплекс методів та алгоритмів, котрі застосовуються в аналітичному додатку з метою підготовки даних до вирішення конкретної задачі та приведення їх відповідно до вимог, які визначаються специфічними задачами та способами їх рішення.
Очистка даних не являється синонімом передобробки, хоча є одним з її аспектів. Більше того, якщо в даних завантажених в аналітичний додаток, відсутні проблеми, потребуючі очистки, або їх вплив на якість рішення оцінюються як мінімальне, то очистка даних в процесі їх передобробки може взагалі не проводитись. В той же час передобробка здійснюється у любому випадку.
Оцінка якості даних в контексті сучасних аналітичних технологій є сукупністю їх властивостей і характеристик, які визначають ступінь придатності для аналізу. Для підвищення якості даних використовується комплекс методів і алгоритмів, які називаються «очистка даних».
Обробка дублікатів і протиріч повинна виконуватись із врахуванням особливостей вихідних даних і логіки вирішуваної задачі. Існує декілька підходів до вирішення проблеми наявності в даних дублікатів та протиріч: невиконання даної обробки, видалення дубльованих та суперечливих записів, їх злиття.
Формалізація даних - метод у математичній логіці, процес подання інформації про об'єкт, процес, явище в формалізованому вигляді. Формалізація це метод відображення певної області у вигляді формальної системи, коли форма виділяється у якості особливого предмета дослідження незалежно від змісту. Такий метод полегшує вивчення предмета.
Пропущені значення не загрожують інформативності даних і не спотворюють їх, однак цьому сприяє некоректне застосування процедури заповнення пропущених значень. Однак їх треба заповнювати, так як Data Mining не може обробляти пропуски. Є декілька методів заповнення пропусків: ручне заповнення, підстановка констант, передбачення пропущених значень, підстановка середнього значення, найбільш імовірних значень.
Зниження розмірності вхідних даних процес скорочення обєму вихідної множини, завантаженої для аналізу в аналітичний додаток, таким чином, щоб результуюча множина мала оптимальну розмірність з точки зору вирішуваної задачі та використовуваної моделі.
Скорочення кількості ознак дозволяє зразу виключити з розгляду велику кількістю даних, спростити майбутню модель, зробити її більш зрозумілою, вияснити інтерпретованість результатів аналізу, виключити надлишкові та неважливі дані, які здатні відхилити від рішення, знизити достовірність результатів аналізу.
Актуальність цього методу полягає у тому, що часто великий обсяг вхідної інформації ускладнює процес аналізу. Аби уникнути цього слід скоротити обсяг ознак.
Виявлення аномальних значень. Часто в великих наборах даних зустрічається значення, які не вкладаються в загальну модель поведінки процесу який аналізується. Такі значення, які сильно відрізняються від навколишніх даних або несумісні з ними, називаються аномальними значеннями. Аномалії можуть бути викликані помилками вимірювань або введення даних, однак можуть являтися і результатом сильної мінливості даних. При підготовці даних до аналізу необхідно виконувати пошук і коректування аномальних значень, оскільки вони являються одним із факторів, суттєво знижуючих якість даних і достовірність результатів їх аналізів.
Зменшення кількості значень характеристик та записів здійснюється тоді, коли скорочення числа ознак є недостатнім, і розмірність даних все ще залишається дуже великою з точки зору обчислювальних та часових затрат на аналітичну обробку і вимог до доступного обєму памяті.
Семплінг це процес відбору з вихідної сукупності даних вибірки, яка являє інтерес для аналізу. При реалізації використовуються спеціальні методи відбору, які повинні забезпечити репрезентативність вибірки з точки зору вирішуваної задачі.
Після закінчення аналізу на виході отримується велику кількість інформації. Для більшої конкретизації з неї слід обрати саму цікаву і доцільну.