Будь умным!


У вас вопросы?
У нас ответы:) SamZan.net

Інтелектуальний аналіз даних Виконала- студентка групи МІ31 Гутенюк А

Работа добавлена на сайт samzan.net:

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 24.11.2024

Міністерство освіти і науки України

Тернопільський національний економічний університет

Факультет комп’ютерних інформаційних технологій

Кафедра міжнародної інформації

Комплексне практичне індивідуальне завдання

з дисципліни

«Інтелектуальний аналіз даних»

Виконала:

студентка групи МІ-31

Гутенюк А.В.

Перевірив:

к. т. н., доцент

Адамів О. П.

Тернопіль - 2013

1. Для свого достідження я обрала предметну область “Міграційні процеси в Україні”. Задля вивчення цієї теми доцільно використовувати дані із таких джерел : Держстатистика; бази даних посольств, паспортних столів; соцопитування...

2.Трансформація даних — комплекс методів та алгоритмів, направлених на оптимізація представлення і форматів даних з точки зору вирішуваних задач та цілей аналізу. Трансформація даних не ставить за мету змінити інформаційний зміст даних.

ЇЇ задача — представити цю інформацію в такому вигляді, щоб вона могла бути використана найбільш ефективно.

Групування даних. Дуже часто інформація, яка цікавить аналітика, в таблиці виявляється “розбавлена” посторонніми даними, роз'єднана, розкидана по окремих полях та записах.  Використовуючи групування, можна узагальнювати потрібну інформацію, обєднувати її в мінімально необхідну кількість полів та значень. Зазвичай передбачають і можливість виконання зворотної операції — розгрупування.  

Це метод необхідний для дослідження моєї теми або систематизувати,узагальнити дані які містяться у різних джерелах.

Квантування дозволяє розбити діапазон можливих значень числової ознаки на задану кількість інтервалів і присвоїти номери інтервалів чи інші мітки значень, що потрапили у них.

Поєднання даних. Дозволяє об'єднати 2 таблиці по одноіменним полям або доповнити одну таблицю записами з іншої, які відсутні в тій котру доповняють. Поєднання застосовується в тих випадках, коли інформацію у вибірці даних котра аналізується потрібно доповнити інформацією з іншої вибірки. При об'єднанні до записів вихідної вибірки додаються всі записи іншої. У випадку доповнення до вихідної вибірки додаються лише ті данні, яких немає в попередній. Операція поєднання являється одним із способів збагачення даних: якщо вибірка містить недостатньо даних для аналізу, то її можна доповнити інформацією котрої недостатньо в іншій вибірці.

Поєднання даних необхідне щоб обєднувати табличні данні в яких міститься статистка дослідження.


     
Нормалізація даних дозволяє перетворити діапазон зміни значень числової ознаки в інший діапазон, більш зручний для застосування до даних тих чи інших аналітичних алгоритмів, а також узгодити діапазони змін різноманітних ознак. Часто використовується приведення до одиниці, коли весь наявний діапазон даних «стискається» в інтервал (0; 1) або (-1; 1). Особливо важливо виконати правильну нормалізацію даних в алгоритмах Data Mining, в основі яких лежить вимірювання відстані між векторами об’єктів в багатовимірному просторі ознак (наприклад, в кластеризації). 

Фільтрація даних. При підготовці вибірки даних до аналізу часто виникає ситуація, коли деякі записи потрібно виключити із вибірки та не використовувати.  Фільтрація являється багатоцільовим  засобом, котрий дозволяє виконати очистку даних від факторів, знижуючих якість аналізу, знизити розмірність вихідної кількості даних, відбирати найбільш важливі данні, спрощувати візуальний аналіз вихідної вибірки.

Фільтрація даних надзвичайно важлива. Аби отримати більш точну інформація, і прикласти меньше ззусиль, трібно примінити метод фільтрації даних.

Передобробка даних — комплекс методів та алгоритмів, котрі застосовуються в аналітичному додатку з метою підготовки даних до вирішення конкретної задачі та приведення їх відповідно до вимог, які визначаються специфічними задачами та способами їх рішення.

Очистка даних не являється синонімом передобробки, хоча є одним з її аспектів. Більше того, якщо в даних завантажених в аналітичний додаток, відсутні проблеми, потребуючі очистки, або їх вплив на якість рішення оцінюються як мінімальне, то очистка даних в процесі їх передобробки може взагалі не проводитись. В той же час передобробка здійснюється у любому випадку.

Оцінка якості даних в контексті сучасних аналітичних технологій є сукупністю їх властивостей і характеристик, які визначають ступінь придатності для аналізу. Для підвищення якості даних використовується комплекс методів і алгоритмів, які називаються «очистка даних». 

Обробка дублікатів і протиріч повинна виконуватись із врахуванням особливостей вихідних даних і логіки вирішуваної задачі. Існує декілька підходів до вирішення проблеми наявності в даних дублікатів та протиріч: невиконання даної обробки, видалення дубльованих та суперечливих записів, їх злиття. 

Формалізація даних - метод у математичній логіці, процес подання інформації про об'єкт, процес, явище в формалізованому вигляді. Формалізація — це метод відображення певної області у вигляді формальної системи, коли форма виділяється у якості особливого предмета дослідження незалежно від змісту. Такий метод полегшує вивчення предмета.

Пропущені значення не загрожують інформативності даних і не спотворюють їх, однак цьому сприяє некоректне застосування процедури заповнення пропущених значень. Однак їх треба заповнювати, так як Data Mining не може обробляти пропуски. Є декілька методів заповнення пропусків: ручне заповнення, підстановка констант, передбачення пропущених значень, підстановка середнього значення, найбільш імовірних значень.

Зниження розмірності вхідних даних – процес скорочення об’єму вихідної множини, завантаженої для аналізу в аналітичний додаток, таким чином, щоб результуюча множина мала оптимальну розмірність з точки зору вирішуваної задачі та використовуваної моделі.

Скорочення кількості ознак дозволяє зразу виключити з розгляду велику кількістю даних, спростити майбутню модель, зробити її більш зрозумілою, вияснити інтерпретованість результатів аналізу, виключити надлишкові та неважливі дані, які здатні відхилити від рішення, знизити достовірність результатів аналізу.

Актуальність цього методу полягає у тому, що часто великий обсяг вхідної інформації ускладнює процес аналізу. Аби уникнути цього слід скоротити обсяг ознак.

Виявлення аномальних значень. Часто в великих наборах даних зустрічається значення, які не вкладаються  в загальну модель поведінки процесу який аналізується. Такі значення, які сильно відрізняються від навколишніх даних або несумісні з ними, називаються аномальними значеннями. Аномалії можуть бути викликані помилками вимірювань або введення даних, однак можуть являтися і результатом сильної мінливості даних. При підготовці даних до аналізу необхідно виконувати пошук і коректування аномальних значень, оскільки вони являються одним із факторів, суттєво знижуючих якість даних і достовірність результатів їх аналізів.

Зменшення кількості значень характеристик та записів здійснюється тоді, коли скорочення числа ознак є недостатнім, і розмірність даних все ще залишається дуже великою з точки зору обчислювальних та часових затрат на аналітичну обробку і вимог до доступного об’єму пам’яті.

Семплінг – це процес відбору з вихідної сукупності даних вибірки, яка являє інтерес для аналізу. При реалізації використовуються спеціальні методи відбору, які повинні забезпечити репрезентативність вибірки з точки зору вирішуваної задачі.  

Після закінчення аналізу на виході отримується велику кількість інформації. Для більшої конкретизації з неї слід обрати саму цікаву і доцільну.




1. Зеленая палочка Название конкурса Название
2. Экономическая безопасность предприятия
3. Тема- Диаграммы Исикавы Цель работы- закрепление знаний умений и навыков по определению причин и результат
4. Пламя - КВ.html
5. Реферат- Влияние христинство на развитие русской культуры и искусства
6. реферат дисертації на здобуття наукового ступеня кандидата технічних наук Харків ~5 Ди
7. Задание7. Использование формул для расчетов в таблице
8. Социальногуманитарное и политологическое образование
9. Шпаргалка- Конвенция по охране промышленной собственности
10. конспект лекций Оглавление ЛЕКЦИЯ 1
11. Реферат на тему- Биофизика слуха Выполнила ст
12. ТЕМА 10 МІЖНАРОДНІ РОЗРАХУНКИ ТА ПЛАТІЖНИЙ БАЛАНС Міжнародні розрахунки та їхні організаційні засади
13. а ИЗМЕНЕНИЯ И ДОПОЛНЕНИЯ- решение Макушинской районной Думы от 29
14. ПОЯСНИТЕЛЬНАЯ ЗАПИСКА К КУРСОВОЙ РАБОТЕ4 ВЫВОДЫ14 ПРИЛОЖЕНИЕ16 1
15. нитроглицерин
16. Вакханалия Греки и иррациональное
17.  Мета роботи Перевірка закону Ома при аналізі послідовних кіл змінного струму які складаються з активн
18. Что такое юридическая ответственность каковы ее цели В чем особенность налоговой ответственно.
19. Архитектурное материаловедение
20. I. Большее значение свыше 1000 отображает интерполяционную разрешающую способность достигаемую программным