Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Модуль 2: Экспертные системы (использование нейросетевого моделирования)
Задачи и упражнения
1. В файле Задача_1_1.xls содержатся данные об оценочной стоимости садовых домиков в БТИ, времени (мес.), прошедшего со дня оценки, до продажи, типе постройки (деревянный дом 0, кирпичный 1), и реальной цене, по которой дом был продан.
а) Используя нейронную сеть с двумя скрытыми слоями и двумя нейронами в слое, постройте нейросетевую модель, позволяющую предсказывать продажную стоимость домиков.
б) Экспортируйте таблицу результатов в файл Excel, и найдите среднюю относительную ошибку прогноза по обучающей выборке.
2. В файле Задача_1_2.xls приведены данные о поквартальных продажах автомобилей в США (тыс. шт.) с 1979 по 1986 г. и данные о ВНП (млрд. долларов США), уровне безработицы (%) и налоговой ставке (%). Данные характеризующие ВНП, уровень безработицы и уровень налоговой ставки приведены с запаздыванием на один квартал. Причины этого понятны, поскольку люди, планирующие расходы на покупку автомобиля, ориентируются на экономические показатели предшествующего временного периода.
а) Оцените минимальное число нейронов или число синаптических узлов, которые нужно использовать при построении нейронной сети.
б) Постройте нейросетевую модель, позволяющую предсказывать поквартальный объем продаж автомобилей в США.
б) Экспортируйте таблицу результатов в файл Excel, и постройте график зависимости истинных и прогнозных значений объемов продаж в зависимости от порядкового номера квартала
3. В файле Задача_1_3.xls приведены данные о 121 автомобиле выпуска 2002 г. Требуется построить регрессионную модель, позволяющую предсказать пробег автомобиля при использовании 1 литра топлива (результативная переменная пробег), в зависимости от таких факторов как; тип автомобиля (спортивный или не спортивный); тип привода (полный, передний, задний); качество топлива (высшее, среднее); мощности двигателя (л. сил); длины автомобиля (м); ширины автомобиля (м); веса (кг); индекса грузоподъемности; и радиуса разворота автомобиля (м).
а) Используя формулу (1.21), оцените минимальное и максимальное число нейронов, в нейронной сети для анализа этих данных.
б) Постройте нейронную сеть, используя 80 % данных как обучающую выборку и 20 % данных как тестовую. Оцените качество прогноза, используя формулу (1.24) для ошибки .
4. В файле Задача_1_4. xls содержатся данные о проценте голосов, набранных правящей партией на президентских выборах с 1916 по 2000 г. (результативный признак) и данные о некоторых социально экономических показателях США в год выборов (факторные переменные). В качестве факторов используются следующие независимые переменные:
правящая партия (демократическая, республиканская);
процент роста ВНП за первые девять месяцев в год выборов (%);
темп инфляции за первые девять месяцев в год выборов (%);
число кварталов за последние четыре года, когда рост ВНП превышал 3,2 %;
число сроков подряд, в течении которых правящая партия находится у власти;
проходят ли выборы в период, когда страна ведет войну (учитывались только глобальные войны)?
выдвигается ли действующий президент на следующий срок?
а) Используя все 100 % случаев как обучающую выборку, постройте простейшую нейронную сеть с одним скрытым слоем и двумя нейронами в нем. Обучите нейронную сеть, используя алгоритм обратного распространения ошибок.
б) Выберите в качестве способов отображения результатов пункты: «Граф нейросети»; «Что если»; «Диаграмма рассеяния»; «Таблица».
в) Используя возможность в диалоге «Что если» подставить в качестве входных параметров новые значения переменных, получите прогноз нейросети на результаты выборов президента США в 2004 г. (финальная пара Буш Керри), если факторные переменные в этом году имели следующие значения: Республиканцы; 4,7; 1,3; 6; 2; Нет; Да. Значения факторных данных приведены в том же порядке, что и их описание в условии задачи.
5. В файле Задача_1_5.xls приведены данные, представляющие собой результаты психологического тестирования учащихся специализированных школ Санкт-Петербурга с физико-математическим и гуманитарным уклоном. Всего предлагалось пять тестов, условное название которых приведено ниже: Тест_1 дополнение предложений; Тест_3 нахождение аналогий; Тест_4 обобщение умозаключений; Тест_5 способность к устному счету; Тест_7 образность мышления. Чем выше набранный бал, тем лучше проявляется анализируемое качество. Учащиеся школ с физико-математическим уклоном условно названы физиками, а с гуманитарным уклоном лириками. Используя 75 % случаев в качестве обучающей и 25 % в качестве тестовой выборок, постройте и обучите нейронную сеть таким образом, чтобы доля правильно распознанных объектов в тестовой выборке превышала 80 %. Для отображения результатов работы нейросети используйте таблицу сопряженности.
6. В файле Задача_1_6.xls содержатся данные о 149 клиентах банка, желавших получить кредит, и решение опытного менеджера о выдаче или отказе в выдаче кредита.
а) Используя 75% случаев как обучающую выборку и 25 % случаев как тестовую, убедитесь в том, в том, что сложная нейронная сеть легко переобучается: т. е. легко распознает объекты в обучающей выборке и очень плохо в тестовой выборке.
б) Оставьте в качестве объясняющих переменных только переменные: Сумма_кредита, Срок_кредита, Площадь_квартиры, Расположение,Время_работы_предприятия, Должность, Среднемес_доход, Среднемес_расход, Срок_проживания_в_регионе. Остальные объясняющие переменные переведите в разряд информационных. Улучшилось ли при этом качество модели? О результатах обучения следует судить по доле правильно распознанных случаев в обучающей выборке. Для отображения результатов работы нейросети используйте таблицу сопряженности.
7. База данных риелторской фирмы содержит 1721 запись оценок стоимости проданного жилья в одном из городов РФ. Кроме продажной стоимости, фиксировалось еще 11 различных параметров квартиры. База данных содержится в файле Задача_1_7.xls.
а) Выберете из этой базы 150 записей случайным образом, скопируйте их на новый лист рабочей книги, и импортируйте эти данные в программу Deductor.
б) Определите число нейронов в сети, необходимое для распознавания правил, содержащихся в данных. Обучите нейронную сеть правильно прогнозировать продажную стоимость квартир, не допуская ее переобучения. Сохраните обученную нейросеть в виде файла сценария. Экспортируйте данные в файл Excel, и вычислите относительную ошибку. используя формулу (1.25)
в) Сформируйте другую выборку из исходной базы данных риелторской фирмы, сохраните ее на новом листе рабочей книги, и импортируйте в программу Deductor.
г) Загрузите сохраненную ранее ветвь сценария для анализа данных тестовой выборки. Найдите ошибку предсказания нейронной сети на тестовой выборке, используя формулу (1.25). Сравните ошибку на обучающей и тестовой выборках.
8. В файле Задача_1_8.xls содержатся данные о кредитных рейтингах 2464 клиентов банка (результативная переменная), пользовавшихся банковскими услугами в прошлом, а также такие данные о клиентах, как: возраст (число лет); уровень дохода (низкий, средний высокий); число используемых кредитных карт (меньше 5, больше 5); уровень образования (высшее, среднее специальное) и число кредитов на покупку автомашины (нет или 1, 2 и более).
а) Выберете из этой базы 150 записей случайным образом, скопируйте их на новый лист рабочей книги, и импортируйте эти данные в программу Deductor.
б) Определите число нейронов в сети, необходимое для распознавания правил, содержащихся в данных. Обучите нейронную сеть правильно прогнозировать кредитный ранг клиентов банка, не допуская ее переобучения. Сохраните обученную нейросеть в виде файла сценария. Для оценки качества обучения, используйте данные таблицы сопряженности.
в) Сформируйте другую выборку из исходной базы данных, сохраните ее на новом листе рабочей книги, и импортируйте в программу Deductor.
г) Загрузите сохраненную ранее ветвь сценария для анализа данных тестовой выборки. Долю правильно интерпретируемых случаев оцените с помощью таблицы сопряженности.
9. В файле Задача_1_9.xls приведены данные о рейтингах стран по уровню развития демократии, уровню свободы прессы, уровню коррумпированности аппарата чиновников опубликованных организацией Transparency International на сайте http://www.worldaudit.org/democracy.htm. Хотя эти данные тенденциозны и представляют точку зрения только западных аналитиков, произведите анализ этих данных с помощью карт Кохонена.
а) Импортируйте данные в программу Deductor, постройте нейронную сеть Кохонена для кластеризации стран по уровню развития демократических институтов, выделив 3 кластера.
б) Постройте карты раскраски нейронов победителей по уровню развития демократии, уровню свободы прессы, уровню коррупции, а также карту разбиения стран на кластеры. Раскраска по каким входным переменным более тесно коррелирует с выделенными кластерами?
в) Откройте таблицу результатов работы нейросети и постройте списки стран, попавших в первый, второй и третий кластеры, используя возможность фильтрации данных по номеру кластера.
10. В файле Задача_1_10.xls приведены некоторые данные, характеризующие производственную деятельность основных нефтяных компаний РФ в 1996 г.
а) Используя построение карт Кохонена, произведите деление предприятий на три группы. Какие из показателей деятельности компаний более важны при классификации компаний? Постройте проекцию Саммона.
б) С помощью фильтрации данных по номеру кластера, постройте списки компаний попавших в разные кластеры. Проанализируйте показатели компаний, попавших в различные кластеры и дайте интерпретацию этим группам.
11. Используя данные задачи 1.8, произведите кластеризацию клиентов банка с целью выявить группы клиентов, которым возможно следует предлагать разные условия кредитования, выделив сначала два, а затем три кластера.
а) Проанализируйте карты раскраски нейронов по значениям входных переменных, а также карты раскраски по значениям выходной переменной Кредитный_ранг. Как влияет на кредитный рейтинг возраст, число кредитных карт, образование, число кредитов на автомобили? Какая из входных переменных обладает наибольшей разделяющей силой?
б) Используя обученную сеть Кохонена, повторите исследования на тестовой выборке. Можно ли утверждать, что обученная сеть Кохонена может быть использована как экспертная система.
в) Используя способ представления результатов «Что если» смоделируйте работу экспертной системы, подставив новые значения параметров, характеризующих клиента банка, взяв их из базы данных клиентов банка (лист База файла Задача_1_8.xls).
12. Используя условие задачи 1.5, постройте кластеризацию учеников школ по итогам тестирования с помощью карт Кохонена, выделив два кластера. Отобразите карту кластеров, матрицу расстояний, проекцию Саммона, карты раскраски нейронов победителей по градациям входных переменных. Какая из входных переменных позволяет лучше понять структуру объектов, попавших в разные кластеры? Насколько хорошо разделение на кластеры коррелирует с делением учеников на «физиков» и «лириков»?
13. Используя условие задачи 1.7, дайте классификацию квартир с помощью карт Кохонена, выделив три кластера.
а) Отобразите карту кластеров, матрицу расстояний, проекцию Саммона, карты раскраски нейронов победителей по градациям таких входных переменных как стоимость квартиры, общая площадь, индекс района.
б) Изучая карты Кохонена, раскрашенные по значениям входных переменных, сформулируйте некоторые правила, по которым произошло разбиение квартир на классы.
в) Сохранив обученную сеть, проверьте, сохраняются ли сделанные выше выводы на другой выборке объектов из базы данных. При сравнении карт Кохонена, полученных при каждом новом этапе обучения, следует помнить, что нумерация и расположения кластеров может измениться. Полезная информация получается при сопоставлении раскраски нейронов по значениям входных переменных и кластеров.