У вас вопросы?
У нас ответы:) SamZan.net

Лабораторная работа 3 БАЗЫ ДАННЫХ ЭКОНОМЕТРИЧЕСКОГО АНАЛИЗА ПОЛИГРАФИЧЕСКОГО ПРОИЗВОДСТВА И КНИЖНОГО РЫ

Работа добавлена на сайт samzan.net: 2015-07-10

Поможем написать учебную работу

Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.

Предоплата всего

от 25%

Подписываем

договор

Выберите тип работы:

Скидка 25% при заказе до 3.2.2025

Лабораторная работа № 3

БАЗЫ ДАННЫХ ЭКОНОМЕТРИЧЕСКОГО АНАЛИЗА ПОЛИГРАФИЧЕСКОГО ПРОИЗВОДСТВА И КНИЖНОГО РЫНКА

Цель и содержание работы

С помощью компьютерной обучающей программы изучить основы работы с СУБД Access из пакета Microsoft Office. Освоить технологию создания и практического использования баз данных, предназначенных для эконометрического анализа полиграфического производства и книжного рынка. Для заданной исходной информации разработать локальную базу данных и на основе решения типовых задач эконометрического анализа полиграфического производства и книжного рынка подтвердить ее работоспособность.

Теоретическая часть

Основные понятий баз данных и СУБД

В связи с ускоренными темпами информатизации современного общества возрастающую роль в накоплении и эффективном использовании информационных ресурсов играют базы данных и системы управления базами данных.

База данных – это структурированная определенным образом и поименованная совокупность взаимосвязанных данных, относящихся к определенной предметной области (например, эконометрического анализа полиграфического производства). Система управления базами данных – комплекс программных средств, обеспечивающих формирование и эффективное использование баз данных. К числу типовых операций при работе с данными, которые поддерживаются современными СУБД, относятся:

  •  структурирование данных, обеспечивающее целостность, непротиворечивость, минимальную избыточность данных;
  •  разграничение доступа к данным для различных категорий пользователей;
  •  ввод данных удобным для пользователя способом;
  •  корректировка данных;
  •  поиск данных по запросам пользователя;
  •  обработка данных для получения итоговых значений и показателей;
  •  формирование выходных документов в виде отчетов;
  •  возможность создания командных файлов и самостоятельных приложений (в форме независимого ехе-файла) для автоматизации многократно выполняемых операций с данными.

Наиболее ответственным этапом создания базы данных является разработка структурной модели, устанавливающей связи между данными. В теории СУБД различают иерархические, сетевые и реляционные модели баз данных. Последние получили наибольшее распространение. Концепции реляционной модели впервые были сформулированы в работах американского ученого Э.Ф.Кодда. Реляционная модель представляет собой простейшую, наиболее привычную и удобную форму представления данных в виде таблицы. Реляционная база данных представляет собой несколько связанных друг с другом таблиц (в простейшем случае состоит из одной таблицы; тогда она называется однотабличной базой данных). В теории множеств таблице соответствует понятие «отношение» (relation). Математический аппарат реляционной алгебры применяется для теоретического обоснования структуры реляционной базы данных и определения теоретико-множественных операций с данными (объединение, пересечение, декартово произведение, проекция и др.).

Таблицы обладают следующими свойствами:

  •  каждый элемент таблицы представляет собой один элемент данных, повторяющиеся группы (массивы) отсутствуют;
  •  элементы каждого столбца имеют одинаковую природу;
  •  столбцам присвоены уникальные имена;
  •  одинаковые строки в таблице отсутствуют;
  •  в операциях с таблицей ее строки и столбцы могут просматриваться в любом порядке безотносительно к их информационному содержанию.

Соответствие терминов в теории и практике баз данных

Таблица Файл базы данных

Строка Запись

Столбец Поле

Множество допустимых значений элементов столбца Тип и длина поля

Поле, каждое значение которого однозначно определяет соответствующую запись, называется простым ключом (ключевым полем). Если записи однозначно определяются значениями нескольких полей, то такая таблица базы данных имеет составной ключ. Каждая таблица базы данных должна иметь простой или составной ключ для однозначного определения ее строк. Вторичные ключи и индексные поля применяются для ускорения поиска данных.

Задача разработчика базы данных заключается в определении состава столбцов каждой используемой таблицы и их свойств, а также в организации взаимосвязи между таблицами. Э.Ф. Кодлрм был предложен некоторый набор формальных требований универсального характера к организации данных, которые позволяют эффективно решать задачи минимального дублирования информации и упрощения процедуры обработки и обновления данных. Эти требования к структуре таблиц получили название нормальных форм и сводятся к следующим условиям:

  •  Отношение (таблица) находится в первой нормальной форме, если все его атрибуты являются простыми. Преобразование отношений к первой нормальной форме может потребовать увеличения числа полей (столбцов) таблицы.
  •  Отношение будет находиться во второй нормальной форме, если оно находится в первой нормальной форме и каждый неключевой атрибут функционально полно зависит от составного ключа, т.е. функционально зависит от составного ключа в целом, но не находится в функциональной зависимости ни от какой части составного ключа.
  •  Отношение будет находиться в третьей нормальной форме, если оно находится во второй нормальной форме и каждый неключевой атрибут нетранзитивно зависит от первичного ключа (транзитивная зависимость наблюдается в том случае, если один из двух описательных реквизитов зависит от ключа, а другой описательный реквизит зависит от первого описательного реквизита).

Нормализация отношений, как правило, выполняется путем «расщепления» первоначально сформированных таблиц базы данных.

Все таблицы правильно организованной базы данных связаны между собой. Различают 3 типа связи:

  •  Связь один к одному (1:1) предполагает, что в каждый момент времени одному экземпляру записи таблицы А соответствует не более одного экземпляра записи таблицы В и наоборот.
  •  При связи один ко многим (1:М) одному экземпляру записи таблицы А соответствует 0, 1 или более экземпляров записи таблицы В, но каждый экземпляр записи таблицы В связан не более чем с одним экземпляром записи таблицы А.
  •  Связь многие ко многим (М : М) ) предполагает, что в каждый момент времени одному экземпляру записи таблицы А соответствует 0, 1 или более экземпляров записи таблицы В и наоборот.

Технология работы с базой данных включает основные этапы, представленные на рис. 17.

Разработка информационной модели и нормализация таблиц базы данных проводится вне зависимости от типа СУБД, которая будет применяться при работе с базой данных. На дальнейших этапах технология работы с базой данных зависит от выбора СУБД, квалификации пользователя и характера решаемых им задач. Одной из наиболее популярных из применяемых в настоящее время реляционных СУБД является Access, которая входит в состав пакета Microsoft Office.

База данных эконометрического анализа полиграфического производства

Типовые задачи эконометрического анализа полиграфического производства:

  •  Регрессионный анализ стоимости изготовления книг и других видов печатной продукции в зависимости от тиража, объема, способа печати и других факторов.
  •  Анализ структуры издательской себестоимости печатной продукции.
  •  Анализ себестоимости 1 млн краскооттисков в зависимости от способа печати, типа печатной машины и других факторов.
  •  Анализ возраста печатных машин и его влияния на экономические показатели работы предприятий.
  •  Построение моделей рынка печатной продукции и рынка полиграфических услуг.
  •  Группировка полиграфических предприятий и издательств по различным признакам.
  •  Анализ динамики тиражей, объемов изданий, цен полиграфических услуг и издательской себестоимости печатной продукции.

Для формирования БД ЭАПП используются следующие документы:

  •  Листы наблюдений и инструкции по их заполнению по книгам и брошюрам для полиграфических предприятий и для издательств, по газетам, бланкам и этикеткам.
  •  Сборники экономических показателей по отрасли книгоиздания.
  •  Баланс и распределение мощности полиграфических предприятий.
  •  Характеристики оборудования предприятий.
  •  Расчет производственной мощности по печати.

Дополнительно могут быть использованы прайс-листы фирм и предприятий, материалы публикаций в отраслевых журналах «Полиграфия», «Полиграфист и издатель», «Вестник печатного дела», «Книжный бизнес» и др.

Основными инструментами при работе с БД являются формы, запросы и отчеты, которые разрабатываются пользователем в соответствии с характером информации, хранящейся в БД, и особенностями задач, для решения которых применяется БД. При разработке форм, запросов и отчетов используются мастера и конструкторы.

Форма позволяет вводить, просматривать и корректировать данные способом, удобным для пользователя. В отличие от таблицы на форме можно отобразить все или большую часть полей текущей записи, сопроводить выводимые значения необходимыми заголовками. В БД широко применяются коды некоторых данных (например, предприятий, форматов, типов переплета), что упрощает организацию связей между таблицами и повышает быстродействие обработки данных. При просмотре и корректировке данных пользователю неудобно оперировать с кодами. Важным достоинством формы является возможность отображения не кодов используемых в БД значений, а их описаний. На рис. 19 показано диалоговое окно для создания формы, предназначенной для ввода и корректировки данных таблицы Книги. Рис. 20 иллюстрирует представление данных таблицы Книги с помощью разработанной формы.

Структура базы данных зависит от ее назначения и документов, на основе которых она разрабатывается. База данных, предназначенная для эконометрического анализа стоимости полиграфических работ по изготовлению книжной продукции включает следующие таблицы:

  •  Книги,
  •  Предприятия,
  •  Способы печати,
  •  Форматы,
  •  Переплеты,
  •  Оборудование.

Удобным способом создания таблиц является применение конструктора. В режиме конструктора определяются наименование и тип полей, а также указываются ключевые и индексные поля. Затем командой Схема данных устанавливаются связи между таблицами. На рис. 18 представлена схема базы данных с указанием полей таблиц и связей между ними.

некоторые данные, называемые свойствами объекта, и алгоритмы, операции преобразования, которые могут проводиться с этими данными при определенных событиях и называются методами объекта. Форма в СУБД Access, равно как и отдельные ее компоненты, называемые управляющими элементами, представляют собой объекты с определенными свойствами.

Часть свойств устанавливается по умолчанию, часть свойств устанавливается на основе выполнения типовых операций визуального программирования с помощью мыши, часть свойств может устанавливаться путем редактирования значений соответствующих опций в диалоговом окне свойств объекта.

На рис. 21 показано окно свойств поля со списком Код_предприятия.

Рис. 21. Окно свойств поля со списком Код_предприятия

Опция Источник строк указывает, что значение данного поля является результатом запроса к полям Код_предприятия и Название_предприятия таблицы Предприятия. Этот запрос сформирован Мастером при построении данного поля со списком и представлен в опции Источник строк в виде одной из команд языка запросов SQL (Structured Query Language – структурированный язык запросов):

SELECT [Предприятия].[Код_предприятия], [Предприятия]. [Название_предприятия] FROM Предприятия;

Команда SELECT применяется для выбора необходимых столбцов или строк из таблиц БД, а команда FROM определяет таблицу или запрос, которые служат источником данных.

В показанной на рис. 19 и 20 форме отображены все 16 полей текущей записи таблицы Книги. Возможность раздельного выбора длины заголовка и длины выводимого значения обеспечивает компактность и наглядность выводимой информации. Поля Код_пред-приятия, Код_формата и Код_переплета представлены в виде полей со списком. Они сформированы с помощью Мастера, что позволило отображать в этих полях не значения кодов, а описания соответствующих атрибутов из таблиц Предприятия, Форматы и Переплеты. Таким образом, достигнута наглядность работы с этими полями: вместо числовых кодов пользователь оперирует с названиями предприятий, привычными обозначениями форматов и видов переплетов.

Рис. 20. Представление данных таблицы Книги с помощью формы

СУБД Access, также как другие программы пакета Microsoft Office и все современные программные продукты для Windows, построены на принципах объектно-ориентированного визуального программирования. Ключевыми понятиями объектно-ориентированного программирования являются: объект, метод, свойства, событие. Объектом называется программный модуль, включающий

Рис. 22. Диалоговое окно для создания многотабличного запроса в режиме Конструктора

В данном случае необходимо использовать две таблицы БД: Книги и Предприятия. Последняя содержит названия предприятий и информацию о численности персонала. Таблицы вызываются в верхнюю часть диалогового окна с помощью кнопки добавить. Формирование запроса производится с использованием бланка QBE (Query by Example – запрос по образцу), размещаемого в нижней части диалогового окна. Двойным щелчком мыши соответствующее поле той или иной таблицы переносится в бланк QBE. При необходимости в строку Условия отбора записывается значение или выражение для отбора нужных записей. При этом в итоговую таблицу Запроса переносятся комбинированные записи, которые состоят из указанных в бланке QBE полей обеих таблиц и удовлетворяют условиям, указанным для полей независимо от принадлежности поля к той или иной таблице.

При формирований Условия отбора можно использовать числовые и текстовые значения, арифметические и логические выражения, операторы BETWEEN (диапазон значений), IN (список значений) , LIKE (поиск по образцу в текстовых полях). В сложных случаях полезно использовать Построитель выражений и Вычисляемые поля.

Из двух столбцов таблицы, которая является результатом запроса, ключевое поле Код_предприятия не отображается при выводе на экран (в соответствии с рекомендацией Мастера), а выводится только название предприятия. Это отражено в опции Ширина столбцов нулевым значением для первого столбца.

Основной режим работы с базой данных – получение необходимой информации. Это делается с помощью запросов. При создании и выполнении запроса опрашивается активная база данных и формируется таблица, содержащая запрашиваемые данные. Результат (ответ) может просматриваться на экране, распечатываться или переноситься в электронную таблицу Excel для последующей обработки.

Различают запросы двух типов:

Запросы на выборку Информация получается из таблицы на основе заданного пользователем критерия. Запросы на выборку наиболее распространены и используются в Access по умолчанию.

Перекрестные запросы Используется критерий для группировки данных в табличном формате (в виде двухмерных таблиц). Перекрестные запросы более сложны в использовании, но полезны в ряде ситуаций.

Запросы могут создаваться в режиме Конструктора или с помощью Мастеров запросов. В режиме Конструктора можно создавать запросы не только для отдельной таблицы, но и многотабличные запросы. В качестве примера на рис. 22 показано диалоговое окно Конструктора Запроса, которое использовалось для того, чтобы получить выборку из таблицы Книги при следующих условиях:

  •  в выборку включаются издания, отпечатанные на офсетных листовых машинах (способ печати текста 3);
  •  тираж издания находится в диапазоне от 10 до 100 тыс. экз.;
  •  объем издания не менее 5 прив.печ.л.;:
  •  издание изготовлено на крупном предприятии с численностью персонала не менее 500 чел.

В рассматриваемом примере использованы следующие Условия отбора:

  •  число 3 для поля Способ_печати_текста таблицы Книги;
  •  оператор BETWEEN 10 AND 100 для поля Тираж таблицы Книги;
  •  логическое выражение > = 5 для поля Объем таблицы Книги;
  •  логическое выражение >500 для поля Численность таблицы Предприятия.

На рис. 23 показан фрагмент таблицы Запроса, сформированного в соответствии с указанными выше условиями отбора. Из 663 записей таблицы Книги в таблицу Запроса перенесено 108 записей, удовлетворяющих условиям отбора. Наряду с полями таблицы Книги добавлены поля Название предприятия и Численность таблицы Предприятия.

Рис. 23. Фрагмент таблицы Запроса на формирование выборки
из таблиц Книги и Предприятия

В диалоговом окне Конструктора Запроса можно получить версию сформированного запроса на языке SQL. Для этого необходимо щелкнуть правую клавишу мыши на свободном поле окна и выбрать кнопку SQL. На языке SQL сформированный запрос имеет вид:

SELECT Книги.Способ_печати_текста, Книги.Тираж, Книги.Объем,

Книги.Красочность_текста, Книги.Код_переплета,

Книги.Стоимость_изготовления,

Книги.Стоимость_бумаги, Предприятия. [Название предприятия],

Предприятия. [Численность персонала], Предприятия.Код_пред-приятия

FROM Предприятия INNER JOIN Книги ON Предприятия.Код_предприятия = Книги.Код_предприятия

WHERE (((Книги.Способ_печати_текста) =3) AND ((Книги.Ти-раж) Between 10 And 100) AND ((Книги.Объем)> =5) AND ((Предприятия. [Численность персонала]) >500));

В дополнение к рассмотренным ранее командам SELECT и FROM здесь использованы:

  •  операнд INNER JOIN (внутреннее объединение) для включения в запрос соответствующих строк обеих таблиц, для которых установлена взаимосвязь;
  •  команда WHERE, предписывающая включить в запрос строки, удовлетворяющие условиям отбора.

Гибкая система создания запросов позволяет выбирать из базы данных необходимую информацию для решения разнообразных задач эконометрического анализа полиграфического производства. После создания запроса информация копируется в ЭТ Excel и обрабатывается инструментами (командами) пакета «Анализ данных».

База данных эконометрического анализа

книжного рынка

Типовые задачи эконометрического анализа книжного рынка:

  •  Регрессионный анализ стоимости книг в зависимости от вида литературы, тиража, объема и других факторов.
  •  Анализ динамики цен книжного рынка.
  •  Построение модели книжного рынка.
  •  Группировка издательств, представленных на книжном рынке. Источниками информации для формирования базы данных эко нометрического анализа книжного рынка являются:
  •  Материалы журнала «Книжный бизнес».
  •  База данных котировок цен книжного рынка ИМЦ «Альвис».
  •  Сайты издательств и книжных магазинов.

На рис. 24 показана структура базы данных, предназначенной для регрессионного анализа цен книжного рынка.

Рис. 24. База данных цен книжного рынка

База данных цен книжного рынка формируется на основе информации о тысячах и десятках тысяч названий книг. Актуальной проблемой работы с подобными базами данных является применение автоматизированной технологии занесения исходной информации в базу данных. Непременным условием в этом случае является использование машинных (электронных) носителей исходных данных. В частности, для рассматриваемой базы данных целесообразно использовать документы Excel с котировками цен книжного рынка, которые формируются ИМЦ «Альвис». На рис. 25 показан фрагмент одного из таких документов.

Информация из исходного документа Excel не может быть непосредственно скопирована в базу данных: требуется разделить записанные в одном столбце название издательства и год издания, заменить название издательства соответствующим кодом из вспомогательной таблицы Издательства, также заменить обозначения формата и переплета кодами из вспомогательных таблиц Форматы и Переплеты. Кроме того, следует исключить строки, в которых отсутствуют данные по тиражу, объему, формату или стоимости книги.

В таблице Издательства представлено порядка двух тысяч издательств. Поэтому процесс замены названий издательств кодами следует автоматизировать с помощью макросов. С этой целью на свободный лист документа Excel, начиная с ячеек А1 и В1, копируются порядковые номера и названия издательств из исходного документа, ранжированные в алфавитном порядке. Начиная с ячеек D1 и Е1, копируются названия и коды издательств из таблицы Издательства базы данных (рис. 26).

Рис. 26. Лист Excel со списками издательств

С помощью макроса Прокрутка выполняются в цикле следующие операции. Сравниваются текущие названия издательств в левом и правом списках (ячейки В1 и D1 соответственно). Если они совпадают, то название издательства в левом списке заменяется кодом из правого списка и выполняется операция прокрутки левого списка: первая запись помещается в конец списка и весь список перемещается на одну позицию вверх. Если название издательства в правом списке предшествует названию издательства левого списка, то выполняется операция прокрутки правого списка. Далее выполняется очередной шаг цикла. Выполнение макроса Прокрутка останавливается в случае, когда название издательства в левом списке предшествует названию издательства в правом списке. Эта ситуация означает, что в левом списке имеется название издательства, отсутствующее в таблице Издательства базы данных. В этом случае название издательства из левого списка копируется в дополнительный список и заменяется значением кода из дополнительного списка, после чего запускается макрос Прокрутка_1, выполняющий операцию прокрутки левого списка. Далее запускается макрос Прокрутка. Тест макросов Прокрутка и Прокрутка_1 приведены в приложении 3.

Процесс замены названий издательств их кодами завершается, когда в ячейке В1 окажется код первого по списку издательства. Для нормального функционирования базы данных таблицу Издательства следует дополнить записями с названиями и кодами издательств из дополнительного списка.

По аналогичной технологии можно выполнить преобразования в исходном документе Excel обозначений форматов и видов переплетов в соответствующие коды из таблиц Форматы и Переплеты. Однако, вследствие небольшой размерности указанных таблиц эти преобразования могут выполняться вручную.

После описанных преобразований исходного документа Excel его содержимое вставляется в таблицу Книги базы данных, которая приобретает вид, показанный на рис. 27.

Рис. 27. Фрагмент таблицы Книги базы данных эконометрического анализа книжного рынка

На основе запросов к таблице Книги формируются выборки, необходимые для построения регрессионных моделей цен книжного рынка и решения других задач эконометрического анализа книжного рынка. Как указывалось ранее, данные запросов копируются в документ Excel и обрабатываются пакетом «Анализ данных».

Методика эконометрического анализа полиграфического производства и книжного рынка

Эконометрика – сравнительно молодая и быстроразвивающаяся наука, цель которой состоит в том, чтобы количественно выражать экономические закономерности. Эконометрика находится на стыке экономической теории и математической статистики. Типовая задача эконометрики состоит в том, чтобы на базе экономической теории построить эконометрическую (математическую) модель исследуемого процесса или явления, затем оценить ее качество, адекватность проведенным наблюдениям и в случае положительного результата оценки качества модели применять ее для прогнозирования исследуемого процесса или явления, моделирования, управления и для других целей.

Эконометрическую модель можно построить, используя два типа исходных данных:

  •  данные, характеризующие совокупность различных объектов в определенный момент (период) времени;
  •  данные, характеризующие один объект за ряд последовательных моментов (периодов) времени.

Модели, построенные поданным первого типа, называются пространственными моделями. Модели, построенные на основе второго типа данных, называются моделями временных рядов.

В качестве пространственных моделей часто используют уравнения парной и множественной регрессии. Парная регрессия – это уравнение связи двух переменных у и х:

где у – зависимая переменная (результативный признак, объясняемая переменная); х – независимая переменная (фактор-аргумент, объясняющая переменная); f(x) – функция регрессии (или просто регрессия);– остаточный член уравнения регрессии, отражающий действие не учтенных в уравнении регрессии факторов случайной природы.

Различают линейные и нелинейные регрессии. Уравнение парной линейной регрессии записывается в следующем виде:

Нелинейные регрессии делятся на два класса: регрессии, нелинейные по объясняющим переменным и регрессии, нелинейные по оцениваемым параметрам.

К первому классу нелинейных регрессий относятся:

  •  полиномы разных степеней вида

  •  равносторонняя гипербола

К регрессиям, нелинейным по оцениваемым параметрам, относятся:

  •  степенная

  •  показательная
  •  экспоненциальная

 

Нелинейные регрессии линеаризуются (приводятся к линейному виду) путем логарифмирования или замены переменных.

Если при построении эконометрической модели не удается выявить единственный фактор, оказывающий доминирующее влияние на исследуемый результативный признак, то вместо парной регрессии применяют множественную регрессию. Множественная регрессия – это уравнение связи зависимой переменной с несколькими независимыми переменными:

Построение модели множественной регрессии включает выбор вида функции регрессии и отбор факторов.

Для построения уравнения множественной регрессии чаще используются следующие функции:

линейная

степенная

экспонента

В большинстве случаев для множественной регрессии стараются использовать линейную функцию, параметры которой имеют наглядную экономическую интерпретацию.

Факторы должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, то каждому его уровню следует тем или иным способом придать количественную определенность. С этой целью применяются фиктивные переменные. Если качественный фактор имеет два различимых уровня с nt и п2 наблюдениями, то вводится фиктивная переменная

Если качественный фактор имеет три уровнянаблюдениями, то вводятся две фиктивные переменные

При продолжении такой процедуры можно прийти к к учитываемым уровням рассматриваемого качественного фактора, введя (к– 1) фиктивную переменную. Однако, не следует увлекаться увеличением числа учитываемых уровней качественного признака, помня о том, что практическое применение имеют, главным образом, двух-трех факторные модели.

Наиболее сложной проблемой построения модели множественной регрессии является отбор факторов, включаемых в модель. Первоначальный отбор факторов производится на основе качественного теоретико-экономического анализа. Затем проверяются требования, которым должны отвечать включаемые в модель факторы.

Включаемые во множественную регрессию факторы должны объяснять вариацию независимой переменной. Иными словами, каждый дополнительно включаемый в регрессию фактор должен приводить к существенному возрастанию коэффициента детерминации R2 и сокращению остаточной дисперсии S2. Насыщение модели лишними факторами приводит к статистической незначимости параметров регрессии.

Факторы, включаемые в уравнение регрессии, не должны быть интеркоррелированы (мультиколлинеарны) и тем более находиться в функциональной зависимости между собой. Включение в модель мультиколлинеарных факторов нежелательно в силу следующих последствий:

затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов «в чистом виде» на результативный признак, параметры линейной регрессии теряют экономический смысл;

оценки параметров ненадежны, обнаруживают большие стандартные ошибки и меняются с изменением объема наблюдений (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.

Для оценки мультиколлинеарности может использоваться определитель матрицы парных коэффициентов корреляции между факторами (матрицы межфакторной корреляции).

Если факторы не коррелируют между собой, то упомянутая матрица является единичной и ее определитель равен единице. Если же, наоборот, между факторами существует полная линейная зависимость и все коэффициенты корреляции равны единице, то определитель такой матрицы равен нулю. Таким образом, чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии.

Через коэффициенты множественной детерминации можно найти переменные, ответственные за мульиколлинеарность факто ров. Для этого в качестве зависимой переменной рассматривается каждый из факторов. Чем ближе значение коэффициента множественной детерминации к единице, тем сильнее проявляется мультиколлинеарность факторов. Сравнивая между собой коэффициенты множественной детерминации факторов и т. д., можно выделить переменные, ответственные за мультиколлинеарность, следовательно, можно решать проблему отбора факторов, оставляя в уравнении факторы с минимальной величиной коэффициента множественной детерминации. Построение уравнения парной регрессии сводится к оценке ее параметров по имеющимся данным наблюдений значений у и х. Для оценки параметров регрессий, линейных по параметрам, используют метод наименьших квадратов (МНК). МНК позволяет получить такие значения параметров, при которых минимальна сумма квадратов отклонений фактических (наблюдавшихся) значений результативного признака у от теоретических, (рассчитанных по уравнению регрессии), т. е.:

где у – значение результативного признака в j-м наблюдении; – расчетное значение результативного признака для jo наблюдения;– регрессионный остаток для jo наблюдения (здесь и далее в целях упрощения записи формул символ 2 применяется вместо

Для линейных уравнений у = а + b*х и нелинейных уравнений, приводимых к линейным путем логарифмирования, замены переменных и т. д., решается задача поиска экстремума рассматриваемой функции двух неизвестных (a и b), что приводит к системе нормальных линейных алгебраических уравнений с двумя неизвестными:

Ее решением являются следующие значения параметров уравнения регрессии:

где у, х –средние значения результативного и факторного признаков по данным наблюдений;– среднее значение парных произведений результативного и факторного признаков;– средний квадрат значений факторного признака.

Параметры уравнения множественной регрессии оцениваются, как и в парной регрессии, методом наименьших квадратов (МНК). Для линейного уравнения множественной регрессии

система нормальных уравнений для определения параметров регрессии имеет вид:

При нелинейной зависимости признаков, приводимой к линейному виду, параметры множественной регрессии также определяются МНК с той лишь разницей, что он используется не к исходной информации, а к преобразованным данным. Например, степенная функция:

приводится к виду:

Тесноту связи изучаемых переменных в парной линейной регрессии оценивает коэффициент корреляции

а в множественной регрессии – индекс множественной корреляции

где– общая дисперсия результативного признака;– остаточная дисперсия для уравнения

Важным показателем качества уравнения регрессии является коэффициент детерминации, который равен квадрату коэффициента (индекса) корреляции и характеризует долю дисперсии результативного признака, объясняемую факторами, включенными в уравнение регрессии. Величина коэффициента детерминации R2 должна быть достаточно близкой к 1, чтобы уравнение регрессии могло использоваться для практических целей.

При вычислении коэффициента детерминации используется остаточная дисперсия, которая имеет систематическую ошибку в сторону преуменьшения, тем более значительную, чем больше параметров определяется в уравнении регрессии при заданном объеме наблюдений п. Для того чтобы не допустить возможного преувеличения тесноты связи, применяют скорректированный коэффициент детерминации:

где m – число факторов; n – число наблюдений.

Чем больше величина m и меньше наблюдений n, тем сильнее различия между. Низкое значение скорректированного коэффициента детерминацииозначает, что в регрессионную модель не включены существенные факторы или рассматриваемая форма связи не отражает реальные соотношения между переменными, включенными в модель. Требуются дальнейшие исследования по улучшению качества модели и увеличению ее практической значимости.

При оценке значимости уравнения регрессии, его адекватности данным наблюдений используется основное соотношение дисперсионного анализа:

где – общая сумма квадратов отклонений;

– сумма квадратов отклонений, обусловленная регрессией (»объясненная» или «фактокторная»);

– остаточная сумма квадратов отклонений.

В статистике любая сумма квадратов отклонений связана с числом степеней свободы, которое показывает, сколько независимых отклонений из n возможных участвует в образовании данной суммы квадратов. Основному соотношению дисперсионного анализа сопоставляется соотношение степеней свободы в виде:

где m – число факторов; n – число наблюдений.

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы получим средние квадраты отклонений или, что тоже самое, дисперсии на одну степень свободы:

Рассмотренные дисперсии используются при оценке статистической значимости уравнения регрессии с помощью F-критерия Фишера.

Статистическая значимость уравнения регрессии в целом оценивается с помощью F-критерия Фишера, а значимость отдельных факторов (для парной линейной регрессии – постоянной составляющей и независимой переменной х) – с помощью t-критериев Стьюдента.

Оценивание качества уравнения регрессии на основе F-теста состоит в проверке гипотезы Н0 о статистической незначимости уравнения регрессии. Для этого выполняется сравнение фактического Fфакт и критического (табличного) FTaбл значений F-критерия Фишера. Fфакт определяется из соотношения значений факторной и остаточной дисперсий, рассчитанных на одну степень свободы:

где n – число единиц совокупности (число наблюдений); m – число параметров при переменных х (в парной регрессии m=1).

FTaбл – это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости а. Уровень значимости а – вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно значение а принимается равным 0,05 или 0,01.

Еслито– гипотеза о случайной природе оцениваемых характеристик отклоняется и признается их статистическая значимость. Если, то гипотезане отклоняется и признается незначимость уравнения регрессии.

Для оценки статистической значимости коэффициентов регрессии рассчитываются t-критерии Стьюдента. Выдвигается гипотеза о случайной природе показателей, т.е. о незначимом их отличии от нуля. На основе сравнения фактическогои критического (табличного)значений t-статистики для каждого из рассмотренных показателей, принимается или отвергается гипотеза то Н0 отклоняется, т.е. соответствующий показательне случайно отличается от нуля и сформировался под влиянием систематически действующего фактора х. Если, то гипотеза Н0 не отклоняется и признается незначимостьсоответствующего фактора.

При наличии в уравнении регрессии незначимых факторов оно не может применяться для практических целей, даже при условии близкого к 1 значения коэффициента детерминации и положительного результата F-теста. Незначимые факторы должны быть последовательно выведены из уравнения регрессии – после удаления одного из незначимых факторов строится новое уравнение регрессии для которого проводится оценка значимости оставшихся факторов.

При оценке качества уравнения регрессии наряду с коэффициентом детерминации используются средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических:

Если средняя ошибка аппроксимации менее 5%, точность модели признается высокой, при средней ошибке аппроксимации от 5% до 10% – хорошей, от 10% до 15% – удовлетворительной, свыше 15% – недостаточной.

Заключительным этапом построения уравнения регрессии является анализ ряда остатков и соблюдения предпосылок метода наименьших квадратов, гарантирующих получение несмещенных, состоятельных и эффективных оценок параметров уравнения регрессии.

Всю необходимую информацию, связанную с построением уравнения парной или множественной линейной регрессии и оценкой его качества, можно получить с помощью функции Регрессия пакета Анализ данных ЭТ Excel. На рис. 28 приведено диалоговое окно этой функции, используемое для указания диапазонов исходных значений результативного и факторных признаков, а также настроек, определяющих содержание и размещение выходной информации.

Рис. 28. Диалоговое окно функции Регрессия

Рис. 29. Результаты регрессионного анализа, выводимые функцией Регрессия

Рис. 29 иллюстрирует содержание и форму представления результатов регрессионного анализа, в том числе:

  •  значения коэффициентов множественной корреляции и детерминации;
  •  стандартную ошибку регрессии;
  •  расчетное значение F-критерия;
  •  значения, стандартные ошибки и t-статистики параметров регрессии.

Дополнительно выводятся значения регрессионных остатков и графики остатков (рис. 30), позволяющие визуально проанализировать соблюдение предпосылок МНК.

Рис. 30. Пример графика остатков

При исследовании динамики экономических показателей используется второй вид эконометрических моделей – временные ряды. Временной ряд – это совокупность значений (уровней) какого-либо показателя за несколько последовательных моментов или периодов.

Каждый уровень временного ряда формируется из трендовой (Т), циклической (S) и случайной (Е) компонент. Модели, в которых временной ряд представлен как сумма перечисленных компонент носят название аддитивных, как произведение – мультипликативных. Аддитивная модель имеют вид:

Для выявления в структуре ряда трендовой и циклической (сезонной) компонент анализируется автокорреляция уровней ряда, т.е. корреляционная зависимость между последовательными уровнями ряда. Формула для расчета коэффициента автокорреляции уровней первого порядка:

Аналогично можно определить коэффициенты второго и более высоких порядков. Последовательность коэффициентов автокорреляции уровней первого, второго и т. д. порядков называют автокорреляционной функцией временного ряда. График зависимости ее значений от величины лага (порядка коэффициента автокорреляции) называют коррелограммой.

Если наиболее высоким оказался коэффициент автокорреляции первого порядка, то исследуемый ряд содержит только тенденцию. Если наиболее высоким оказался коэффициент автокорреляции порядка t, ряд содержит циклические колебания с периодичностью t моментов времени. Если ни один из коэффициентов автокорреляции не является значимым, то ряд не содержит тенденции и циклических колебаний (содержит лишь случайную компоненту) либо ряд содержит сильную нелинейную тенденцию, которую следует учесть при выборе модели.

Построение аналитической функции для описания тенденции (тренда) временного ряда называют выравниванием (сглаживанием) временного ряда. Для этого применяются следующие функции:

  •  линейная
  •  логарифмическая
  •  степенная
  •  экспонента
  •  парабола k-го порядка
  •  гипербола

Параметры трендов определяются обычным МНК, в качестве независимой переменной выступает время t = 1,2,..., n, а в качестве зависимой переменной– фактические уровни ряда у, t = 1,2,....

Критерием отбора наилучшей формы тренда является наибольшее значение коэффициента детерминации, а при близких значениях R2 для разных моделей учитывается возможность наглядной экономической интерпретации параметров модели.

Удобным инструментом выравнивания временного ряда является опция Добавить линию тренда команды Диаграмма в главном меню ЭТ Excel.

На рис. 31 приведен пример применения этой команды.

Для построения моделей временного ряда также могут использоваться функции Экспоненциальное сглаживание и Скользящее среднее пакета Анализ данных.

Рис. 31. Пример выравнивания временного ряда командой

Добавить линию тренда

Для оценки качества построенной модели анализируется ряд остатков. При этом используются следующие показатели.

а) Проверяется гипотеза о равенстве нулю математического ожидания значений остаточного ряда. Расчетное значение t-критерия определяется по формуле:

где n – число наблюдений;– среднее значение уровней ряда остатков (по модулю); – среднеквадратическое отклонение уровней ряда остатков.

Гипотеза о равенстве нулю математического ожидания ряда остатков отклоняется, еслидля заданного уровня значимости.

б) Проверка случайности уровней ряда остатков проводится на основе критерия поворотных точекВ соответствии с ним каждый уровень ряда (кроме первого и последнего) сравнивается с двумя рядом стоящими. Если он больше или меньше их, то эта точка считается поворотной. В случайном ряду чисел должно выполняться неравенство:

в) При проверке независимости уровней ряда остатков (отсутствия автокорреляции) проверяется гипотеза об отсутствии в нем систематической составляющей с помощью d-критерия Дарбина – Уотсона. Его величина вычисляется по формуле:

Если значение d превышает 2, то оно заменяется на 4 –d. Вычисленная величина критерия сравнивается с двумя табличными уровнями: нижним di и верхним d2. Если d находится в интервале от нуля до dj, то уровни остатков сильно автокоррелированы и модель неадекватна. Если значение d попадает в интервал от d2 до 2, то уровни ряда являются независимыми. Если значение d находится в интервале от dl до d2, то необходимо применение другого критерия, например, первого коэффициента автокорреляции г,. При выполнении условияприсутствие в остаточном ряду существенной автокорреляции подтверждается.

г) Соответствие ряда остатков нормальному закону распределе нияопределяют при помощи критерия

где emax – максимальный уровень остатка; emin –минимальный уровеньостатка; Se – среднеквадратическое отклонение уровней ряда остатков.

Если значение R/S-критерия попадает в интервал (2,7 – 3,7), то для уровня значимости 0,05 свойство нормальности распределения ряда остатков подтверждается.

д) Для характеристики точности модели подсчитывается средняя ошибка аппроксимации.

При положительных результатах анализа перечисленных свойств ряда остатков построенная модель временного ряда признается адекватной и может быть рекомендована для прогнозирования исследуемого экономического показателя.

Одной из задач эконометрического анализа является сопоставление средних значений экономических показателей для различных категорий объектов по данным наблюдений. На основе решения данной задачи может быть проведена группировка экономических объектов по тем или иным признакам. Примером такого рода задачи является сравнительная оценка стоимости изготовления книжной продукции при использовании высокой и офсетной печати. Другой пример – сопоставление цен книг по различным разделам литературы, выпущенных различными издательствами и т.д.

Для решения рассматриваемой задачи применяется функция Двухвыборочный t-тест пакета Анализ данных ЭТ Excel (рис. 32).

Рис. 32. Пример сопоставления средних значений экономических показателей


Задания лабораторной работы

Индивидуальное задание студента включает вариант задания по разработке базы данных и вариант эконометрической задачи, которая решается с использованием разработанной базы данных.

Варианты заданий по разработке базы данных

  1.  Разработать базу данных для анализа стоимости изготовления книг и брошюр.
  2.  Разработать базу данных для анализа издательской себестоимости книжной продукции.
  3.  Разработать базу данных для анализа стоимости изготовления газет.
  4.  Разработать базу данных для анализа стоимости изготовления бланков.
  5.  Разработать базу данных для анализа стоимости изготовления этикеток.
  6.  Разработать базу данных для анализа экономических показателей полиграфических предприятий.
  7.  Разработать базу данных для анализа экономических показателей издательств.
  8.  Разработать базу данных для анализа экономических показателей книготорговых предприятий.
  9.  Разработать базу данных для анализа распределения и использования мощности по печати полиграфических предприятий.
  10.  Разработать базу данных для анализа парка печатных машин полиграфических предприятий.
  11.  Разработать базу данных для расчета производственной мощности печатных машин полиграфических предприятий.
  12.  Разработать базу данных для анализа стоимости печатных машин.
  13.  Разработать базу данных для анализа расчетной (калькулируемой) стоимости выполнения заказов на полиграфических предприятиях.
  14.  Разработать базу данных для анализа стоимости печати.
  15.  Разработать базу данных для анализа стоимости бумаги, используемой для производства печатной продукции.
  16.  Разработать базу данных котировок книг, поступивших на рынок в заданный период времени (конкретизируется при выдаче задания).
  17.  Разработать базу данных для анализа динамики изменения цен книжного рынка.
  18.  Разработать базу данных для анализа рейтинга издательств на книжном рынке.
  19.  Разработать базу данных для анализа статистики котировок книг на книжном рынке.
  20.  Разработать базу данных для новых книг издательств.

Варианты эконометрических задач

  1.  Провести регрессионный анализ стоимости изготовления книг и брошюр.
  2.  Провести регрессионный анализ издательской себестоимости книг и брошюр.
  3.  Провести регрессионный анализ стоимости изготовления газет.
  4.  Провести регрессионный анализ стоимости изготовления бланков.
  5.  Провести регрессионный анализ стоимости изготовления этикеток.
  6.  Провести регрессионный анализ экономических показателей полиграфических предприятий.
  7.  Провести регрессионный анализ экономических показателей издательств.
  8.  Провести регрессионный анализ экономических показателей книготорговых предприятий.
  9.  Провести регрессионный анализ использования мощности по печати на полиграфических предприятиях.
  10.  Провести анализ возраста печатных машин на полиграфических предприятиях.
  11.  Провести регрессионный анализ использования мощности печатных машин на полиграфических предприятиях.
  12.  Провести регрессионный анализ стоимости печатных машин.
  13.  Провести регрессионный анализ калькулируемой стоимости выполнения заказов на полиграфических предприятиях.
  14.  Провести регрессионный анализ стоимости печати.
  15.  Провести регрессионный анализ стоимости бумаги, используемой для производства печатной продукции.
  16.  Сравнить стоимость изготовления книг при использовании высокой и офсетной печати.
  17.  Сравнить стоимость изготовления 1 млн. кр.отт. для заданных предприятий.
  18.  Сравнить стоимость изготовления 1 млн. кр.отт. при черно-белой и цветной печати для заданных групп предприятий.
  19.  Оценить влияние типа переплета на стоимость изготовления книг.
  20.  Проанализировать влияние возраста печатных машин на стоимость изготовления 1 млн. кр.отт.
  21.  Проанализировать взаимосвязь между стоимостью изготовления 1 млн. кр.отт. и средней заработной платой работников предприятий.
  22.  Проанализировать взаимосвязь между долей издательства в издательской себестоимости изданий и средней заработной платой работников издательств.
  23.  Выявить предприятие с наибольшим отклонением стоимости изготовления 1 млн. кр.отт. от среднего значения для всей анализируемой группы предприятий.
  24.  Предложить критерий для разграничения книг и брошюр.
  25.  Сравнить стоимость изготовления 1 млн. кр.отт. при изготовлении книг и брошюр.
  26.  Построить модель рынка печатной продукции для рулонных машин высокой черно-белой печати.
  27.  Определить для заданной группы издательств доли типографских работ, бумаги и материалов, издательства в издательской себестоимости изданий.
  28.  Выявить наиболее популярные форматы изданий для различных способов печати книг.
  29.  Сопоставить объемы изданий в учетно-издательских листах и в физических печатных листах.
  30.  Провести регрессионный анализ цен книжного рынка.
  31.  Сравнить цены книг различных издательств.
  32.  Сравнить цены книг различного жанра.
  33.  Оценить влияние типа переплета на стоимость книг.
  34.  Проанализировать влияние рейтинга издательства на стоимость книг.
  35.  Проанализировать взаимосвязь между курсом доллара и ценами книг.
  36.  Проанализировать динамику изменения среднего тиража книг.
  37.  Проанализировать динамику изменения среднего объема книг.
  38.  Проанализировать динамику изменения средней цены книг.
  39.  Проанализировать динамику обновления числа названий книг.
  40.  Выявить зависимость рейтинга издательства от числа названий, общего тиража и средней цены книг.

Методика и порядок выполнения работы

1. Запустить компьютерную обучающую программу «Практический курс Access 2000», войти в программу под своей фамилией, проработать все разделы курса, добиваясь метки в виде галочки в кружочке у каждого раздела в оглавлении курса. В целях сохранения сведений о проработанных разделах курса периодически выходить из программы командой Выход (клавишей Esc) и вновь входить в программу под своей фамилией. После проработки всех разделов курса установить параметры тестирования:

число заданий 15,

допустимое число ошибок 0,

пройти тестирование, зарегистрировать результаты тестирования у преподавателя.

  1.  В СУБД Access создать новую базу данных, сохранить ее под именем Фамилия.mdb в своей рабочей папке на диске D. В соответствии с заданием определить состав таблиц базы данных, разработать их структуру, установить связи между ними.
  2.  Разработать технологию ввода исходной информации в базу данных. При использовании «бумажных» документов в качестве источника информации разработать форму для ввода и корректировки данных. При использовании электронных версий документов предусмотреть меры по автоматизации ввода информации большого объема.

Ввести исходную информацию в таблицы базы данных, проконтролировать полноту и непротиворечивость данных.

4. Сформировать запросы для решения эконометрической задачи согласно индивидуальному варианту задания. Перенести полученную информацию в Excel. Используя пакет «Анализ данных», получить результаты решения рассматриваемой эконометрической задачи. Оценить и прокомментировать полученные результаты. Если результаты решения задачи нельзя признать удовлетворительными, то провести корректировку запросов к БД и повторить решение эконометрической задачи.

Состав и содержание отчета

  •  Титульный лист.
  •  Индивидуальное задание.
  •  Распечатки структуры и фрагментов таблиц и запросов разработанной БД.
  •  Распечатки результатов решения эконометрической задачи с необходимыми комментариями.
  •  Список использованной литературы.


Список литературы

  1.  Устинова Г.М. Информационные системы менеджмента: Основные аналитические технологии в поддержке принятия решений / Учеб. пособие. – СПб: Издательство «ДиаСофтЮП», 2000. – 368 с.
  2.  Экономическая информатика / Под ред. П.В. Конюховского и Д.Н. Колесова. – СПб: Питер, 2000. – 560 с: ил.
  3.  Макарова Н.В., Трофимец В.Я. Статистика в Excel: Учеб. пособие. – М: Финансы и статистика, 2002. – 368 с: ил.




1. якої іншої правової категорії залежить від стану розвитку суспільства тих конкретних процесів які в ньому
2. Корпоративне право для слухачів 5 курсу ННІ права спеціальності 8
3. Этика включает систему универсальных и специфических нравственных требований и норм поведения
4. Восточные славяне, их происхождение и общественно-политический строй
5. Эффективность суда присяжных в РФ
6. тема льготы инвестиционный климат на федеральном и региональном уровнях наличие заинтересованных в иннова
7. Влияние вредных привычек на здоровье молодежи
8. Методические рекомендации к практической работе студентов исследовательского характера В общей системе п.html
9. Лекции по информационным технологиям лекция
10. Введение [2