Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
РАЗДЕЛ 1. ТЕОРИЯ СТАТИСТИКИ
Слово “статистика” имеет латинское происхождение (от status состояние). В средние века оно означало политическое состояние государства. Собственно как наука статистика возникла только в XVII в., однако статистический учет существовал уже в глубокой древности. Так, известно, что еще за 5 тыс. лет до н.э. проводились переписи населения в Китае, осуществлялось сравнение военного потенциала разных стран, велся учет имущества граждан в Древнем Риме, затем населения, домашнего имущества, земель в средние века.
У истоков статистической науки стояли две школы немецкая описательная и английская школа политических арифметиков. Представители описательной школы стремились: а) систематизировать существующие способы описаний государств; б) создать теорию такого рода описаний, разработать их подробную схему; в) вести описание только в словесной форме, без цифр и вне динамики, т.е. без отражения особенностей развития государств в те или иные периоды, а только лишь на момент наблюдения. Видными представителями описательной школы были Г.Конринг (16061661), Г.Ахенваль (17191772), А.Бюшинг (17241793) и др. Политические арифметики ставили целью изучать общественные явления с помощью числовых характеристик (меры веса и числа). Тем самым они увеличили арсенал статистических методов, способствовали возникновению статистики как теории статистического учета. Это был принципиально новый этап развития статистической науки по сравнению со школой государствоведения, так как от описания явлений и процессов статистика перешла к их измерению и исследованию, к выработке вероятных гипотез будущего развития. Политические арифметики видели основное назначение статистики в изучении массовых общественных явлений, осознавали необходимость учета в статистическом исследовании требований закона больших чисел, поскольку закономерность может проявиться лишь при достаточно большом объеме анализируемой совокупности. Школа политических арифметиков имела два направления: демографическое Д.Граунт (16201674), Э.Галлей (16561742) и статистико-экономическое глава школы В.Петти (16231687). История показала, что последнее слово в статистической науке осталось именно за школой политических арифметиков. Прогрессу статистической методологии способствовали работы представителей английской математической школы, в России труды земских статистиков.
Развитие статистической науки, расширение сферы практической статистической работы привели к изменению содержания самого понятия “статистика”. В настоящее время данный термин употребляется в трех значениях:
1) под статистикой понимают отрасль практической деятельности, которая имеет своей целью сбор, обработку, анализ и публикацию массовых данных о самых различных явлениях общественной жизни (в этом смысле “статистика” выступает как синоним словосочетания “статистический учет”);
2) статистикой называют цифровой материал, служащий для характеристики какой-либо области общественных явлений или территориального распределения какого-то показателя;
3) статистикой называется отрасль знания, особая научная дисциплина и соответственно учебный предмет в высших и средних специальных учебных заведениях.
Как и всякая наука статистика имеет свой предмет. Предметом статистики является величина и количественные соотношения массовых общественных явлений, закономерности их взаимосвязей. Для предмета статистики характерно наличие массовых явлений и процессов, их изучение в конкретных условиях места и времени, оценка с количественной стороны в тесной связи с содержанием этих явлений и процессов. Такое изучение основывается на системе категорий и понятий, отражающих наиболее общие и существенные свойства, признаки, связи и отношения предметов и явлений объективного мира. В статистике таких основных понятий пять.
1. Статистическая совокупность это совокупность социальноэкономических объектов или явлений общественной жизни, объединенных некоей качественной основой, общей связью (совокупность домохозяйств, совокупность семей, совокупность фирм, объединений и т.п.). Совокупности могут быть однородными и разнородными. Совокупность называется однородной, если один или несколько существенных признаков ее объектов являются общими для всех единиц. Совокупность оказывается однородной именно с точки зрения этих признаков. Совокупность, в которую входят явления разного типа, считается разнородной. Совокупность может быть однородна в одном отношении и разнородна в другом.
2. Единица совокупности это первичный элемент статистической совокупности, являющийся носителем признаков, подлежащих регистрации, и основой ведущегося при обследовании счета.
3. Признак это качественная особенность единицы совокупности. По характеру отображения свойств единиц изучаемой совокупности признаки делятся на две основные группы:
Особенностью статистического исследования является то, что в нем изучаются только варьирующие признаки, т.е. признаки, принимающие различные значения или имеющие различные количественные уровни у отдельных единиц совокупности.
Вариация это изменчивость величины или значения признака при переходе от одного объекта (или группы объектов) к другому; точнее говоря от одной единицы совокупности к другой. Если же изменения изучаемого явления происходят в разные периоды времени, причем носят характер закономерности, то говорят не о вариации признака, а о динамике.
4. Статистический показатель это понятие (категория), содержательно отображающее ту или иную сторону общественного явления или процесса и допускающее измерение или оценку. Статистические показатели следует отличать от статистических данных. Статистические данные это конкретные значения (например, численные) статистических показателей. Задачами статистики в этом направлении являются правильное определение содержания статистического показателя и разработка методологии получения и обобщения статистических данных.
5. Система статистических показателей это совокупность статистических показателей, всесторонне отображающих изучаемое явление. Системы статистических показателей отражают жизнь общества на различных уровнях. Для страны и региона это макроуровень, для предприятий, фирм, объединений, семей, домохозяйств и т.д. это микроуровень. Системы статистических показателей носят исторический характер меняются условия жизни населения, общества, меняются и системы статистических показателей.
Метод статистики это совокупность приемов, которая включает три группы собственно методов: метод массовых наблюдений, метод группировок, метод обобщающих показателей.
Статистическое наблюдение это первый этап статистического исследования. Заключается в сборе первичного статистического материала, в научно организованной регистрации всех существенных фактов, относящихся к рассматриваемому объекту.
Метод группировок это второй этап статистического исследования, когда собранные в результате статистического наблюдения факты подвергаются систематизации и классификации.
Метод обобщающих показателей это совокупность приемом извлечения количественной информации из собранных и сгруппированных первичных данных. На этом этапе статистического исследования выявляются взаимосвязи и масштабы явлений, определяются закономерности их развития, даются прогнозные оценки.
Контрольные вопросы
1. Объясните содержание категории «статистика»
2. Назовите основные категории теории статистики
3. Дайте определение предмета статистики
4. Раскройте содержание статистического метода
ТЕМА 2. СТАТИСТИЧЕСКОЕ НАБЛЮДЕНИЕ
2.1. Статистическое наблюдение первый этап статистического исследования
2.2. Программнометодологические и организационные вопросы статистического наблюдения
2.3. Формы, виды и способы наблюдения
2.1. Статистическое наблюдение первый этап статистического
исследования
Статистическое наблюдение это первая стадия статистического исследования, представляющая научно организованный по единой программе учет фактов, характеризующих явления и процессы общественной жизни, и сбор полученных на основе этого учета массовых данных.
Однако не всякий сбор сведений является статистическим наблюдением. О статистическом наблюдении можно говорить лишь тогда, когда изучаются статистические закономерности, т.е. такие, которые проявляются только в массовом процессе, в большом числе единиц какойто совокупности. Поэтому статистическое наблюдение должно быть планомерным, массовым и систематическим.
Планомерность статистического наблюдения заключается в том, что оно готовится и проводится по разработанному плану, который включает вопросы методологии, организации, техники сбора информации, контроля над качеством собранного материала, его достоверности, оформления итоговых результатов. Массовый характер статистического наблюдения предполагает, что оно охватывает большое число случаев проявления данного процесса, достаточное для того, чтобы получить правдивые статистические данные, характеризующие не только отдельные единицы, но и всю совокупность в целом.
Наконец, систематичность статистического наблюдения определяется тем, что оно должно проводиться либо систематически, либо непрерывно, либо регулярно. Изучение тенденций и закономерностей социально-экономических процессов, характеризующихся количественными и качественными изменениями, возможно лишь на этой основе. Из сказанного следует, что к статистическому наблюдению предъявляются следующие требования полноты статистичес
ких данных (полноты охвата единиц изучаемой совокупности, сторон того или иного явления, а также полноты охвата во времени), достоверности и точности данных, их единообразия и сопоставимости.
2.2. Программно-методологические и организационные вопросы статистического наблюдения
Статистическое исследование необходимо начинать с точной формулировки его цели и конкретных задач и тех сведений, которые могут быть получены в процессе наблюдения. После этого определяются объект и единица наблюдения, разрабатывается программа, выбираются вид и способ наблюдения.
Объект наблюдения совокупность социальноэкономических явлений и процессов, которые подлежат исследованию, или точные границы, в пределах которых будут регистрироваться статистические сведения. Например, при переписи населения необходимо установить, какое именно население подлежит регистрации (наличное или постоянное), при обследовании промышленности необходимо точно установить, какие предприятия будут отнесены к промышленным и т.д. В ряде случаев для отграничения объекта наблюдения пользуются тем или иным цензом. Ценз это ограничительный признак, которому должны удовлетворять все единицы изучаемой совокупности.
Определяя объект наблюдения, необходимо точно указать единицу наблюдения. Единицей наблюдения называется составная часть объекта наблюдения, которая служит основой счета и обладает признаками, подлежащими регистрации при наблюдении. Так, при переписи населения единицей наблюдения является каждый отдельный человек. Однако если ставится также задача определить численность и состав домохозяйств, то единицей наблюдения наряду с человеком будет являться каждое домохозяйство. Важную сторону статистического исследования составляет разработка программы статистического наблюдения.
Программа наблюдения это перечень вопросов, по которым собираются сведения, либо перечень признаков и показателей, подлежащих регистрации. Программа наблюдения оформляется в виде бланка (анкеты, формуляра), в который заносятся первичные сведения. Необходимым дополнением к бланку является инструкция (или указания на самих формулярах), разъясняющая смысл вопроса. Программа должна содержать только те вопросы, которые, безусловно, необходимы для данного статистического исследования. В программу следует включать лишь те вопросы, на которые можно получить точные ответы (часто, чтобы обеспечить единообразное толкование, дают подсказку). Программу наблюдения целесообразно строить так, чтобы ответами на одни вопросы можно было контролировать ответы на другие.
Организационные вопросы статистического наблюдения включают в себя определение субъекта, места, времени, формы и способа наблюдения. Определение субъекта наблюдения сводится к определению, какой орган будет осуществлять наблюдение. Должен быть решен вопрос о времени наблюдения. Для этого устанавливается период, в течение которого будет проводиться наблюдение, срок наблюдения и точно определяется время, к которому относятся регистрируемые сведения, объективное время наблюдения. Это может быть либо определенный момент, либо тот или иной период (сутки, декада, месяц, квартал, год). Момент времени, к которому приурочены регистрируемые сведения, называют критическим моментом наблюдения.
2.3. Формы, виды и способы наблюдения
В статистической практике используются две организационные формы наблюдения отчетность и специальное статистическое обследование. Отчетность это такая организационная форма, при которой единицы наблюдения представляют сведения о своей деятельности в виде формуляров регламентированного образца. Особенность отчетности состоит в том, что она обязательна, документально обоснована и юридически подтверждена подписью руководителя.
Примером второй формы наблюдения специального статистического обследования является проведение переписей населения. В результате обобщения данных переписей получают сведения о численности, размещении, о составе населения по различным признакам. Эти данные важны для изучения социального и экономического развития, необходимы для анализа демографических процессов. К специальным статистическим обследованиям относятся также выборочные социально-демографические обследования и микро переписи.
В зависимости от задач статистического исследования и характера изучаемого явления учет фактов можно производить:
систематически, постоянно охватывая факты по мере их возникновения это будет текущее наблюдение (отчетность);
регулярно, но не постоянно, а через определенные промежутки времени это будет периодическое наблюдение (переписи населения).
С точки зрения полноты охвата фактов статистическое наблюдение может быть сплошным и не сплошным. Сплошное наблюдение представляет полный учет всех единиц изучаемой совокупности. Несплошное наблюдение организуют как учет части единиц совокупности, на основе которой можно получить обобщающую характеристику всей совокупности.
Как один из видов несплошного наблюдения способ основного массива характеризуется тем, что отбираются наиболее крупные единицы наблюдения, в которых сосредоточена значительная доля всех подлежащих изучению фактов (например, обследование конъюнктуры торговых оборотов и цен на городских рынках).
Выборочным наблюдением является такое, при котором характеристика всей совокупности дается по некоторой ее части, отобранной в случайном порядке. Случайность отбора единиц гарантируется независимостью результатов выборки от воли лиц, ее производящих. Таким образом, результат выборки освобождается от тенденциозных ошибок. Возникающие же случайные ошибки выборки можно оценить с помощью теорем закона больших чисел и надлежащей организацией наблюдения свести их к допустимому минимуму.
Монографические описания применяют для подробного изучения единичных, но типичных объектов, например отдельных предприятий.
Статистическое наблюдение может основываться на непосредственном учете фактов в процессе обследования, на документальном учете, на опросе респондентов.
При непосредственном учете фактов сведения получают путем личного учета единиц совокупности пересчета, взвешивания, измерения и т.д.
Документальный способ сбора статистической информации базируется на систематических записях в первичных документах, подтверждающих тот или иной факт.
В ряде случаев для заполнения статистических формуляров прибегают к опросу населения.
При экспедиционном способе специально подготовленный счетчик опрашивает людей и с их слов заполняет бланк обследования. Работа счетчиков гарантирует единообразное понимание вопросов и максимальную правильность ответов.
При анкетном наблюдении определенному кругу лиц вручают специальные анкеты. Заполнение анкет носит добровольный характер и осуществляется анонимно. Это снижает полноту и достоверность получаемой информации. Поэтому данный способ наблюдения применяется в обследованиях, где не требуется высокая точность, а нужны приближенные результаты, например, при изучении работы органов связи, издательств периодической печати и т.п.
При корреспондентском способе наблюдения рассылаются бланки обследования и указания к их заполнению с просьбой ответить на поставленные вопросы. После заполнения бланка анкеты организация или отдельное лицо высылают ее в адрес статистической организации, которая их рассылала.
Суть способа саморегистрации состоит в том, что обследуемому лицу вручают бланк обследования и разъясняют вопросы, бланк же обследуемое лицо заполняет самостоятельно. Специально подготовленный работник посещает в назначенный день обследуемое лицо, получает заполненный бланк, проверяет полноту и правильность ответов.
Контрольные вопросы
1. Назовите основные этапы статистического исследования, дайте определение статистического наблюдения.
2. Перечислите программнометодологические и организационные вопросы наблюдения.
3. Дайте характеристику основным организационным формам статистического наблюдения.
5. Классификация видов наблюдения.
6. Способы наблюдения, их достоинства и недостатки.
ТЕМА 3. СТАТИСТИЧЕСКАЯ СВОДКА И ГРУППИРОВКА
3.1. Сводка статистических данных
3.2. Группировка статистических данных
3.3. Статистические таблицы
3.4. Статистические графики
3.1. Сводка статистических данных
Научно организованная обработка материалов наблюдения (по заранее разработанной программе), включающая в себя кроме обязательного контроля собранных данных систематизацию, группировку материалов, составление таблиц, получение итогов и производных показателей (средних, относительных величин), называется в статистике сводкой. Сводка представляет собой второй этап статистического исследования.
Статистическая сводка осуществляется по программе, которая должна разрабатываться еще до сбора статистических данных, практически одновременно с составлением плана и программы статистического наблюдения. Программа сводки включает определение групп и подгрупп, системы показателей, видов таблиц. Все эти вопросы следует решать с учетом цели исследования и особенностей изучаемой совокупности. Выделение тех или иных групп должно быть обоснованным, не формальным. Кроме итоговых и групповых показателей сводка дает основу для последующего анализа и выявления различного рода закономерностей.
По технике или способу выполнения сводка может быть ручной либо механизированной. Ручная сводка применяется в основном для небольших массивов данных. Начинается она с шифровки статистических формуляров (карточек). Затем формуляры определенным образом группируются, подсчитываются их число и другие показатели. При механизированной сводке и больших объемах совокупности исходные данные могут сразу заноситься на машиночитаемые носители информации и полностью обрабатываться на ЭВМ.
3.2. Группировка статистических данных
Группировка это разбиение статистической совокупности на группы, однородные по какому-либо признаку.
Устойчивое разграничение объектов выражается классификацией. Классификация это как бы стандарт, в котором каждая единица совокупности (каждая атрибутивная запись) может быть отнесена лишь к одной группе или подгруппе. Классификация основывается на самых существенных признаках, которые меняются очень мало (например, классификация отраслей деятельности, классификация основных фондов и т.д.). Таким образом, классификация это узаконенная, общепринятая, нормативная группировка.
Метод простой группировки основывается на двух категориях группировочном признаке и интервале его вариации в группах.
Группировочный признак это признак, по которому происходит объединение отдельных единиц совокупности в однородные группы. Классификация и группировка должны производиться на основании вполне объективных и легко распознаваемых признаков. Группировочные признаки могут носить как количественный, так и атрибутивный характер.
Интервал определяет количественные границы групп и представляет величину промежутка между максимальным и минимальным значением группировочного признака в группе. Интервалы бывают равные (разность между максимальным и минимальным значениями в каждом из интервалов одинакова), неравные, открытые, когда имеется либо только верхняя, либо только нижняя граница интервала, и закрытые, когда имеются и нижняя, и верхняя границы значения признака в интервале.
Статистические группировки и классификации преследуют цели выделения качественно однородных совокупностей, изучения структуры совокупности, исследования существующих зависимостей. Каждой из этих целей соответствует свой особый вид группировки: типологическая, структурная, аналитическая (факторная). Типологическая группировка решает задачу выявления и характеристики социально-экономических типов (частных подсовокупностей). Структурная дает возможность описать составные части совокупности или строение типов, а также проанализировать структурные сдвиги. Аналитическая (факторная) группировка позволяет оценивать связи между взаимодействующими признаками.
В зависимости от числа положенных в основание группировочных признаков различают простые и многомерные группировки.
Группировка, выполненная по одному группировочному признаку называется простой.
Многомерная группировка производится по двум и более признакам. Частным случаем многомерной группировки является комбинационная группировка, базирующаяся на двух и более признаках, взятых во взаимосвязи, в комбинации.
По отношениям между признаками выделяют иерархические и неиерархические группировки. Иерархические группировки выполняются по двум и более признакам, при этом значения второго признака определяются областью значений первого (например, классификация отраслей промышленности по подотраслям). Неиерархические группировки строятся, когда строгой зависимости значений второго признака от первого не существует.
Среди простых группировок особо выделяют ряды распределения.
Ряд распределения это группировка, в которой для характеристики групп (упорядоченно расположенных по значению признака) применяется один показатель численность группы. Другими словами, это ряд чисел, показывающий, как распределяются единицы некоторой совокупности по уровню изучаемого признака. Если признак атрибутивный, то получают атрибутивные ряды распределения. Ряды распределения, построенные по количественному признаку, называются вариационными рядами.
По очередности обработки информации группировки могут быть первичные (составленные на основе первичных данных) и вторичные, являющиеся результатом перегруппировки ранее уже сгруппированного материала. Перегруппировка может потребоваться либо при изменении интервалов признака в группах укрупнение или разделение ранее созданных групп, либо для определения интервалов изменения признака в новых группах, создаваемых под заданные удельные веса или численности единиц.
По признаку времени выделяют группировки статические, дающие характеристику совокупности на определенный момент или период времени, и динамические, показывающие переходы единиц из одних групп в другие (а также вход и выход из совокупности). Такие переходы удобно располагать в форме “шахматной” таблицы (матрицы перехода, миграционной матрицы, матрицы мобильности).
Для выполнения группировки необходимо:
1) определить группировочный признак;
2) определить число групп и величины интервалов;
3) при наличии нескольких группировочных признаков показать, как они комбинируются между собой;
4) установить показатели, которыми должны характеризоваться группы, т.е. сказуемого группировки.
Типологическая группировка может строиться для разных целей и по различным критериям. Задача выделения типов из общей совокупности решается сравнительно просто только в тех случаях, когда различия очевидны и устойчивы и могут быть описаны одним или несколькими признаками. Однако на практике это бывает редко. Принадлежность группируемых объектов к общей совокупности приводит обычно к появлению у них некоторых общих особенностей, маскирующих различия между типами. Кроме того, недостаточно четкое обособление отдельных типов друг от друга в действительности, множественность признаков описания объекта и ряд других обстоятельств еще более усложняют группировку. Выполнение качественной типологической группировки является довольно сложной задачей. По способу формирования типологических групп различают:
1) способ последовательных разбиений, заключающийся в формировании таких групп, все объекты которых имеют одинаковые значения классификационных признаков;
2) способ многомерной классификации. В этом случае объекты, образующие группы, могут иметь различные значения классификационных признаков.
Первый способ является исторически более ранним. Наиболее типичным для него является комбинационной группировки, при которой формирование групп производится путем последовательного разбиения сначала всей совокупности по одному признаку, затем полученных частей по другому и т.д., причем строго соблюдается принцип иерархии групп. Другой подход это последовательное многошаговое разбиение совокупности.
Способ многомерной классификации, когда группы формируются на основе близости объектов одновременно по большому числу признаков, получил широкое применение с разработкой методов распознавания образов и использованием ЭВМ.
В методе комбинационной группировки классификация выполняется последовательным логическим делением совокупности по отдельным признакам. Очередность этапов здесь такова:
1) наметка типов;
2) выбор группировочного признака (признаков);
3) определение числа групп и величины интервалов;
4) сведение выделенных групп в типы;
5) характеристика типов с помощью системы показателей.
Наметка типов производится с помощью качественного теоретического анализа. Предварительно намечают столько типов, сколько их может быть в данной совокупности теоретически (хотя фактически возможно меньшее их число).
При выборе группировочного признака необходимо учитывать два условия. Во-первых, типологическая группировка должна выполняться по небольшому числу (2÷3) наиболее существенных главных признаков. Вовторых, для характеристики разных типов могут выбираться различные признаки, т.е. использоваться специализация признака. Так, например, для выделения типов сельскохозяйственных предприятий по размеру в качестве группировочного сначала будет выступать признак отраслевой принадлежности (растениеводство или животноводство), а далее, количественные признаки: для растениеводства посевная площадь и число комбайнов, а для животноводства поголовье крупного рогатого скота и производство молока.
Для количественного группировочного признака необходимо определять величину интервалов изменения признака в группах (типах). При построении типологической группировки интервалы признака как правило оказываются неравными и специализированными для каждого типа
Для характеристики типов, выделенных в результате типологической группировки, разрабатывается система показателей, среди которых обязательно должны быть характеристика численности типов веса либо частоты и интегральные показатели, рассчитанные в виде средних, удельных весов, соотношений, показателей динамики и т.д.
Классификация объектов методами многомерной классификации производится не последовательно по отдельным, а одновременно по большому числу признаков. Этот фиксированный набор признаков образует так называемое пространство признаков, каждому признаку придается смысл координаты. Если задано m признаков, то любой объект рассматривается как точка в m-мерном признаковом пространстве. Задача классификации сводится к выделению сгущений объектов в этом пространстве. Группы (типы, кластеры и т.д.) формируются на основании близости объектов по комплексу признаков.
Главное преимущество методов многомерной группировки в том, что они позволяют с той или иной степенью приближения выделить реально существующие в признаковом пространстве скопления точек объектов.
Структурная группировка применяется для характеристики структуры и состава статистической совокупности, для изучения структурных сдвигов. При проведении структурной группировки решаются вопросы выбора группировочного признака (в качестве такового может выступать как существенный, так и несущественный признак) и определения числа групп и величины интервала. Здесь необходимо учитывать что:
а) число групп детерминируется уровнем колеблемости группировочного признака. Чем значительнее вариация признака, тем больше при прочих равных условиях должно быть групп;
б) число групп должно отражать реальную структуру изучаемой совокупности;
в) не допускается выделение пустых групп. Если проблема пустых групп все же возникает, то в структурной группировке используют неравные интервалы.
Для нахождения числа групп обычно применяют формулу
n = 1+3,322 Lg(N),
где N количество элементов совокупности.
В случае равных интервалов величина интервала может быть определена как
В системе показателей в структурной группировке обязательно должен быть показатель численности (наполненности) групп в форме либо частоты (количества единиц в каждой группе), либо частотности (удельного веса каждой группы в общей численности).
Аналитическая (факторная) группировка предназначена для установления тесноты связи между взаимодействующими признаками факторным и результативным. Она позволяет выявить наличие и направление связи, а также оценить её тесноту и силу. Методологическими вопросами построения факторной группировки являются выбор группировочного признака, определение числа групп и величины интервала и выбор системы показателей для характеристики групп. Чаще всего в качестве группировочного принимают факторный признак, выделенный на основе априорного анализа. Интервалы в аналитической группировке берутся преимущественно равные либо равно наполненные (группы с приблизительно одинаковой частотой). Величина интервала рассчитывается так же, как при построении структурной группировки. Среди показателей групп обязательным является среднее значение результативного показателя по каждой группе.
3.3. Статистические таблицы
Статистическая таблица представляет форму рационального, наглядного изложения данных и результатов статистического исследования явлений и процессов. Таблицы позволяют рассматривать статистические данные или результаты совместно, достаточно полно и точно охватывая сложную природу явлений.
Статистическая таблица состоит из названия таблицы, подлежащего, сказуемого и значений статистических показателей (например, числовые данные).
Из названия таблицы1 становится известно:
а) какой круг вопросов излагает и иллюстрирует таблица;
б) каковы географические границы совокупности объектов, представленные таблицей;
в) каковы периоды или моменты времени соответствуют данным таблицы;
г) каковы единицы измерения (если они одинаковы для всех табличных клеток). Если единицы измерения неодинаковы, то в верхних или боковых заголовках обязательно следует указывать, в каких единицах приводятся статистические данные (тонн, штук, рублей и пр.).
Подлежащее таблицы это перечень наименований единиц совокупности, т.е. объект изучения. Сказуемое таблицы это наименования статистических показателей, характеризующих подлежащее. Подлежащее располагается обычно слева в виде названий строк, сказуемое сверху в виде названий граф.
Основой статистической таблицы является ее макет графы (столбцы) и строки, имеющие свои заголовки, наименования. Для полной таблицы следует внести конкретные данные в пересечение каждой строки и графы.
По построению подлежащего таблицы могут быть простыми, групповыми, комбинационными.
Простой называется такая статистическая таблица, в подлежащем которой нет группировок. Простые таблицы бывают перечневые (подлежащее перечень единиц, составляющих объект изучения), территориальные (дается перечень территорий, стран, областей и пр.), хронологические (в подлежащем приводятся периоды времени или даты).
(подлежащее) |
Заголовки граф (сказуемое) |
||||
1 |
2 |
3 |
4 |
5 |
|
Перечень единиц совокупности |
Рисунок 3.1. Макет статистической таблицы.
Групповыми называются таблицы, в подлежащем которых изучаемый объект разделен на группы по какому-либо признаку.
Комбинационной таблицей называется такая, когда в подлежащем дается группировка совокупности по нескольким признакам, взятым в комбинации.
Таблицы различаются и по разработке сказуемого: простая и сложная. Простая разработка сказуемого предусматривает параллельное расположение показателей, а сложная разработка комбинированное.
Так, например, при простой разработке сказуемого сначала могут быть приведены графы, содержащие данные о численности населения с соответствующим уровнем образования (начальное, среднее и т.д.). При сложной разработке сказуемого после графы численности населения с каким-либо конкретным уровнем образования приводятся в отдельных графах данные о соответствующей численности мужчин и женщин.
Практикой выработан ряд требований к составлению и оформлению таблиц.
1. В таблице желательно давать нумерацию граф. Это облегчает пользование таблицей, дает возможность лучше ориентироваться, показывает способ расчета цифр в графах. Первые графы, содержащие подлежащее, обозначаются заглавными буквами алфавита; графы, содержащие сказуемое, нумеруются арабскими цифрами. Заглавия строк подлежащего и граф сказуемого должны быть сформулированы кратко, точно и ясно. Все слова в заголовках подлежащего и сказуемого таблицы записываются по возможности полностью. Заголовки граф следует сформулировать так, чтобы были ясны смысл данной величины и порядок ее расчета.
2. Приводимые в подлежащем и сказуемом признаки должны быть расположены в логическом порядке с учетом необходимости рассматривать их совместно. Обычный принцип размещения от частного к общему, т.е. сначала показывают слагаемые, а в конце подводят итоги (если это необходимо). Когда приводятся не все слагаемые, а лишь наиболее важные из них, применяется противоположный принцип сначала показывают общие итоги, а затем выделяют наиболее важные части («Итого», «Всего», «В том числе», «Из них»).
3. Таблица по возможности должна быть краткой, но может сопровождаться примечаниями, в которых указываются источники данных, более подробно раскрывается содержание показателей, даются другие пояснения, а также оговорки (если таблица содержит сведения, полученные в результате вычислений).
4. При оформлении таблиц обычно применяются условные обозначения:
знак тире «», когда явление отсутствует;
× если явление не имеет осмысленного содержания;
многоточие «...», когда отсутствуют сведения о его размере (или делается запись «Нет сведений»).
5. Если сведения имеются, но числовое значение меньше принятой в таблице точности, оно выражается дробным числом (0,0). Округленные числа приводятся в таблице с одинаковой степенью точности (до 0,1; до 0,01 и т.п.). Проценты роста, то во многих случаях целесообразно (от 300 % и более) заменять отношениями в разах. Например, писать не “1000 %”, а “в 10,0 раз”.
3.5. Статистические графики
Графиками в статистике называются условные изображения числовых величин и их соотношений в виде различных геометрических образов точек, линий, плоских фигур и т.п. Графические образы придают наглядность исходным данным, помогают представить закономерности, которые часто трудно заметить в сложных статистических таблицах и больших числовых массивах. История статистики дает множество примеров использования графических образов для наглядного представления явлений. К настоящему времени основные графические процедуры реализованы в системах обработки электронных таблиц (типа MS Excel) и статистического анализа данных на ПЭВМ (STATISTICA, SPSS, STATGRAPH, SAS и т.д.). Именно так были получены все представленные далее графические иллюстрации.
Многообразие видов статистических графиков объясняется разными целями, способами построения, глубиной отображения явлений и процессов. Поэтому важно не только знать виды графиков, но и владеть методикой их построения. Каждый график состоит из графического образа и вспомогательных элементов.
Графический образ это совокупность точек, линий и фигур, с помощью которых изображаются статистические данные. Вспомогательными элементами графика являются:
1) поле графика это пространство, в котором размещаются графические образы. Поле характеризуется его форматом, т.е. размером и пропорциями;
2) пространственные ориентиры, определяющие расположение графических образов. Пространственные ориентиры задаются системой координатных сеток или контурных линий, которые делят поле графика на части. В статистических графиках используются как прямоугольные, так и полярные системы координат;
3) при необходимости сопоставить графическое отображение объекта и его реальные размеры указываются масштабные ориентиры. Масштабные ориентиры задаются системой масштабных шкал или масштабными знаками. Масштабные шкалы сообщаются для каждой координатной оси графика. Масштабные знаки используются преимущественно для статистических карт;
4) экспликация графика, состоящая из объяснения предмета, изображаемого графиком (его названия) и смыслового значения каждого знака, применяемого на графике. Название графика должно кратко и точно раскрывать его содержание. Пояснительные тексты могут располагаться в пределах графического образа или рядом с ним (ярлыки), а также выноситься за его пределы (ключ).
Статистические графики можно классифицировать по назначению (содержанию), способу построения и характеру графического образа.
По назначению можно выделить графики сравнения в пространстве, графики различных относительных величин (структуры, динамики и т.п.), графики вариационных рядов, графики размещения по территории, графики взаимосвязанных показателей. Возможны разные комбинации, например отображение вариации во времени или изменение взаимосвязанных показателей.
По способу построения графических образов можно выделить:
диаграммы, представляющие графическое изображение статистических данных, наглядно показывающее соотношение между сравниваемыми величинами;
картограммы, представляющие контурную географическую карту, на которой штриховкой или иным способом показана сравнительная интенсивность изучаемого явления в пределах отдельной единицы территориального деления. Разновидностью картограммы является картодиаграмма, когда сравнительная интенсивность характеризуется диаграммной фигурой (изображением леса, пашни, одежды и т.п.) и ее размерами.
В настоящее время для графического отображения чаще применяют диаграммы. Это могут быть диаграммы точечные, линейные, плоскостные и объемные. Видами плоскостного графика являются столбиковые, квадратные, круговые, секторные, временные, фигурные диаграммы.
Рисунок 3.2. Производство электроэнергии в отдельных странах
в 1996 г. (млрд кВтч). Столбиковая диаграмма.
Столбиковая диаграмма используется для сравнения одноименных показателей, характеризующих различные объекты или территории. Значения сравниваемых показателей изображаются при этом в виде прямоугольников, имеющих одинаковую ширину и расположенных на общей горизонтальной базовой линии. Если базовая линия вертикальная, то говорят о полосовой или ленточной диаграмме. Высота (или длина) каждого столбика в определенном масштабе соответствует величине изображаемого показателя. Столбики могут располагаться вплотную либо на одинаковом расстоянии. Ленточная диаграмма особенно удобна, если отдельные объекты сравнения характеризуются противоположными по знак показателями (например, показателями прироста). Пример столбиковой диаграммы представлен на рисунке 3.2, ленточной диаграммы на рисунке 3.3.
Рисунок 3.3. Производство электроэнергии в отдельных странах
в 1996 г. (млрд. кВтч). Полосовая диаграмма.
Иногда сравниваемые объекты характеризуются резко разнящимися значениями показателей. В этих случаях используют особые виды плоскостных диаграмм: квадратные или круговые. Их построение основано на том, что величины изображаемых показателей должны быть пропорциональны площадям квадратов или кругов, а корни квадратные из сравниваемых величин пропорциональны линейным размерам этих фигур. Например, по данным переписи населения на 9 октября 2002 г. численность постоянного населения Российской Федерации составляла 145,182 млн. чел.; городов Москва, Санкт-Петербург, Новосибирск, соответственно, 10375,8 тыс. чел., 4669,4 тыс. чел. и 1425,6 тыс. чел. Представить эти данные с помощью столбиковой диаграммы практически невозможно, так как высота одного столбика (РФ) должна была бы в 14 раз превышать высоту другого при сравнении с Москвой, в 31 раз при сравнении с Санкт-Петербургом и в 102 раза при сравнении с Новосибирском. Отношения квадратных корней из численности населения (млн. чел.) равны, соответственно, 12,049:3,218:2,161:1,194. Принимая численность населения Новосибирска за единицу, получаем отношения сторон квадратов 10,1:2,5:1,8:1. Квадраты с приблизительно таким соотношением сторон показаны на рисунке 3.4.
Рисунок 3.4. Численность постоянного населения Российской Федерации и крупнейших городов на 9.10.2002 г
Для отображения структуры изучаемого явления применяют секторные диаграммы, у которых главным геометрическим параметром служит величина угла между радиусами секторов, сумма всех углов (360°), приравнивается к 100%. Другой формой отображения структуры или состава явления служит полосовая диаграмма с подразделенными полосами.
Выразительность секторных диаграмм обеспечивается при делении совокупностей на небольшое число частей не более 10. Секторная диаграмма выглядит достаточно убедительно лишь при существенных различиях сравниваемых структур. Другой формой структурных статистических диаграмм являются полосовые диаграммы удельных весов (рисунок 3.6).
Например, в результате анализа выяснилось, что населения региона распределяется по следующим типам в зависимости от размера располагаемого дохода. В форме диаграмм эти результаты показаны на рисунках 3.53.6.
|
Доля населения, % |
1. Низкий уровень дохода |
38,0 |
2. Доход ниже среднего |
31,5 |
3. Средний уровень дохода |
20,3 |
4. Доход выше среднего |
6,2 |
5. Высокий уровень дохода |
4,0 |
Рисунок 3.5. Секторная диаграмма. Структура населения региона по уровню располагаемых доходов.
Рисунок 3.6. Полосовая диаграмма Структура населения региона по уровню располагаемых доходов (%)
Для изображения процессов, протекающих во времени, применяют динамические (временные) диаграммы. Знаками-символами на таких диаграммах служат точки и последовательно соединяющие их линии (обычно, прямые), складывающиеся в ломаные кривые, дающие представление об изменение во времени изучаемого явления. Ось абсцисс является осью времени с равномерно размещенными отметками, а ось ординат осью значений, которые принимает с течением времени изучаемый показатель. Конфигурация каждой кривой на динамической диаграмме отражает процесс изменения показателя во времени: его рост или падение (рисунок 3.7).
Рисунок 3.7. Валютный (обменный) курс рубля в 19981999 годах.
Для изображения рядов распределения (вариационных рядов) применяются диаграммы, построенные в прямоугольной системе координат. Ряд распределения показывает повторяемость определенного значения признака у единиц совокупности. Таким рядом является, например, распределение населения региона на группы (типы), в зависимости от уровня располагаемого дохода.
Группы населения |
Уровень дохода (руб. в месяц) |
Численность населения, % |
1. |
До 750 |
28,6 |
2. |
750 1350 |
32,5 |
3. |
1350 1950 |
15,4 |
4. |
1950 2700 |
13,3 |
5. |
2700 3750 |
5,4 |
6. |
3750 4650 |
2,3 |
7. |
4650 6000 |
2,5 |
Итого |
100 |
Интервальный ряд распределения отображается либо в форме гистограммы либо в форме кумуляты. Точки и линии гистограммы выражают число единиц совокупности, приходящееся на единичное значение признака в соответствующем интервале. Таким образом, гистограмма характеризует плотность распределения признака и является графическим аналогом кривой плотности распределения в теории вероятностей. В нашем примере для построения гистограммы предварительно определим значения плотностей в интервалах2.
Гистограмма характерна тем, что вся ее площадь равна общему количеству единиц в совокупности (в данном случае это 100 %). Этот итог складывается из площадей прямоугольников, построенных на соответствующих интервалах. Площадь каждого прямоугольника равна произведению его основания (ширина интервала) на высоту (значение плотности в интервале). При равных интервалах плотность распределения прямо пропорциональна частотам или частостям, которые обычно и используются для построения прямоугольников. При неравных интервалах гистограмма строится только по значениям плотности.
Другим способом графического представления интервального ряда распределения является кумулята. Кумулятивная кривая (кумулята) изображается по сумме частот, накопленных к началу и концу каждого интервала. Пример гистограммы и кумуляты приведен на рисунках 3.8, 3.9.
|
Уровень дохода (руб. в месяц) |
Численность населения, % |
Интервал изменения признака, тыс. руб. |
Уровень плотности (процент населения на 1 тыс. руб. дохода) |
Кумулятивные (накопленные) значения численности населения, % |
1. |
До 750 |
28,6 |
0,750 |
38,133 |
28,6 |
2. |
750 1350 |
32,5 |
0,600 |
54,167 |
61,1 |
3. |
1350 1950 |
15,4 |
0,600 |
25,667 |
76,5 |
4. |
1950 2700 |
13,3 |
0,750 |
17,733 |
89,8 |
5. |
2700 3750 |
5,4 |
1,050 |
5,143 |
95,2 |
6. |
3750 4650 |
2,3 |
0,900 |
2,555 |
97,5 |
7. |
4650 6000 |
2,5 |
1,350 |
1,852 |
100 |
Итого |
100 |
|
|
|
Рисунок 3.8. Гистограмма распределение населения региона
по уровню располагаемых доходов
Координаты точек на кумулятивной кривой показывают по вертикальной оси Y численность совокупности (в данном случае долю населения), для которой максимальное значение признака не превышает указанное на оси Х. Таким образом, кумулятивная кривая это аналог кривой функции распределения в теории вероятностей. На графике видно, что у первой четверти населения (25 %) уровень дохода не превышает 0,70 тыс. руб. (точное значение первого квартиля 692,6 руб./чел.), у половины населения (50 %) уровень дохода не превышает 1,1 тыс. руб. (медианное значение или второй квартиль равен 1109,7 руб.), для 75 % населения уровень дохода не выше 1900 руб./чел. (точное значение так называемого 3-го квартиля равно 1863,5 руб.).
При дискретной вариации признака графиком вариационного ряда служит полигон распределения. Полигон может быть построен, например, для распределения рабочих предприятия по признаку разряда, распределения квартир жилого дома по числу проживающих в них, распределения семей по количеству детей и т.д. Полигон распределения, представляет замкнутый многоугольник (учитывая его основание ось Х), абсциссами вершин которого являются значения варьирующегося признака, а ординатами соответствующие им частоты. Кумулята для дискретного ряда изображается аналогично интервальному ряду. Иногда накопленные частоты признака отображают в форме огивы. Огива это график, у которого по оси ординат отображаются уровни признака, а по оси абсцисс накопленные частоты (или частости).
Рисунок 3.9. Распределения населения региона по уровню располагаемых доходов (кумулята).
Из множества графиков, выполняющих специальные функции, рассмотрим графики концентрации и способы графического представления первичных не сгруппированных данных.
График концентрации позволяет наглядно представить характер размещения исследуемого объемного показателя по определенным с точки зрения того же показателя группам (типам) единиц совокупности. (Например, распределение общей суммы денежных доходов населения региона по типичным с точки зрения доходности группам населения). Графики этого вида наглядно представляют процессы концентрации и дают возможность сравнить глубину этих процессов по разным объемным показателям и статистическим совокупностям. Например, можно сопоставить степени концентрации доходов населения по различным регионам.
Для построения графика концентрации (кривой Лоренца) по оси абсцисс откладывают накопленные доли общего числа единиц совокупности (например, накопленные доли численности населения), а по оси ординат накопленные доли по объему изучаемого показателя (общей суммы денежного населения). Чем дальше линия фактической концентрации (кривая Лоренца), построенная по указанным координатам, отклоняется от диагонали прямоугольника линии равномерного распределения, тем выше степень концентрации объемов изучаемого явления.
Отношение площади графика, ограниченной линией равномерного распределения и кривой Лоренца, к площади половины прямоугольника известно как коэффициент концентрации, известный как коэффициент Джини:
Здесь pi, pi+1 накопленные суммы удельных весов в численности совокупности для i и (i+1) групп соответственно;
qi, qi+1 накопленные суммы удельных весов по объемному признаку для i, (i+1) групп соответственно.
При расчете коэффициента концентрации (коэффициента Джини) значения удельных весов используются в форме обычных относительных величин (не процентов). Пример кривой концентрации доходов показан на рисунке 3.10. График построен по следующим данным.
Группы населения (i) |
Накопленная (кумулятивная) доля населения (qi) |
Накопленная (кумулятивная) доля доходов (pi) |
1 |
0,003 |
0,00016 |
2 |
0,286 |
0,10309 |
3 |
0,611 |
0,33467 |
4 |
0,765 |
0,50934 |
5 |
0,898 |
0,72214 |
6 |
0,952 |
0,84031 |
7 |
0,975 |
0,9074 |
8 |
1,00 |
1,00 |
Как видно из графика, распределение общей суммы денежных доходов отклоняется от равномерного. В частности, на 50% населения региона приходится не более четверти (24,1%) общей суммы денежных доходов в условиях данного временного периода. Уровень концентрации дохода, определяемый через коэффициент Джини, равен 0,362.
Представляют интерес специальные способы графического отображения первичных данных в так называемом разведочном анализе. Для наглядной характеристики совокупности наблюдений используются обзорные рисунки (графики типа «Box and Whiskers» «Ящик с усами») и графики симметрии («Stem and Leaf»). Для построения обзорного рисунка («Box and Whiskers») совокупность наблюдений предварительно сортируется по возрастанию признака, а затем делится на 4 равные части по численности. Далее последовательно определяется значение признака, которое отделяет первую часть наблюдений от второй (первый квартиль), вторую часть от третьей (второй квартиль), третью от четвертой или третий квартиль. Максимальное значение признака в совокупности является четвертым квартилем. На графике отрезками линий показывают положение минимального значения признака и всех 4 квартилей. Линии первого и третьего квартиля определяют положение "ящика". Внутри этого «ящика» как бы заключено 50% наблюдений со средними значениями признака. Минимальное и максимальное значение соединяются («Whiskers» усы) со стенками этого "ящика". В пределах "ящика" оказывается линия второго квартиля (медианное значение признака, медиана)3. В итоге рисунок наглядно характеризует строение совокупности и симметричность исходных данных относительно медианы4. Пример графика "Box and Whiskers" приведен на рисунке 3.11. Наглядно видна некоторая асимметрия квартильных уровней относительно медианного значения.
Современные системы статистической обработки данных на ПЭВМ позволяют представить в графической форме наблюдения многомерные. Обычным способом представления многомерных наблюдений являются графики типа "Звезды" ("Stars") и "Лучи" ("Sun Rays"). Каждый объект показывается отдельным рисунком, размеры которого позволяют сравнить его с другими в той же исходной совокупности. На графике "Звезды" из центра каждого многомерного объекта через равный угол исходят оси, соответствующие отдельным признакам. На осях отмечаются уровни признаков, эти отметки соединяются линиями. Так как признаки имеют разные единицы измерения и масштабы числового представления, разметка осей выполняется в относительной форме. Максимальное значение признака соответствует 1.
Графики "Лучи" строятся по статистически стандартизованным данным, уровни признаков показываются в количестве средних квадратических отклонений. Здесь середина каждого луча соответствует среднему значению признака.
В графиках "Звезды" части осей, превышающие значения признака у соответствующего объекта, обычно не показываются (на рисунке 3.11 оси для наглядности сохранены полностью). На графиках "Лучи" координатные оси показываются полностью, длина каждой оси ("Луча") обычно находится в пределах от 3 до +3 средних квадратических отклонений.
Рисунок 3.10. Кривая концентрации доходов населения региона.
Рисунок 3.11. Обзорный рисунок («Box and Whiskers») уровня рентабельности производства на 53 предприятиях
(построен в системе STATISTICA).
Пример графического представления многомерных наблюдений для 4 объектов показан на рисунке 3.12 (х1 уровень выработки; х2 индекс себестоимости; х3 уровень рентабельности; х4 трудоемкость продукции; х5 удельный вес рабочих в численности персонала).
Рисунок 3.12. Характеристики предприятий по признакам на графиках "Звезды".
Для анализа взаимосвязи применяют так называемые матричные графики, в которых взаимосвязь каждой пары признаков отображается корреляционным полем. Все корреляционные поля объединяются в одну общую матричную диаграмму. По расположения точек корреляционного поля и линии регрессии в каждой клетке матричной диаграммы делают заключение о направлении и тесноте статистической связи соответствующей пары признаков. Пример такой диаграммы приведен на рисунке 3.13.
Рисунок 3.13. Взаимосвязь признаков: фондоотдача, численность персонала, стоимость основных фондов
(диаграмма получена в системе STATISTICA)
Контрольные вопросы
ТЕМА 4. СТАТИСТИЧЕСКИЕ ВЕЛИЧИНЫ
4.1. Понятие абсолютной величины в статистике
4.2. Виды и взаимосвязи относительных величин
4.3. Средние величины. Общие принципы их применения
4.4. Расчет средних величин по результатам группировки. Свойства средней арифметической
4.5. Структурные средние величины
В зависимости от того, какая изучается сторона или особенность социально-экономического явления, в теории статистики выделяют величины абсолютные, величины относительные, средние величины, показатели вариации, показателя анализа рядов динамики, показатели тесноты связи и характеристики функциональных зависимостей, системы индексов, экономико-статистические показатели отдельных сфер деятельности. Показатели, используемые в экономико-статистическом анализе, должны иметь реальный смысл, характеризовать определенные категории и понятия и рассчитываться или учитываться на основе теоретического анализа явления. Поэтому в каждой конкретной области приложения статистики разрабатывается своя система статистических показателей.
4.1. Понятие абсолютной величины в статистике.
В своих выводах статистика опирается на числовые данные, полученные в конкретных условиях места и времени. Результаты развития непосредственно регистрируются в первичных учетных документах как абсолютные величины.
В статистике все абсолютные величины являются именованными, измеряются в конкретных единицах (человеках, рублях, штуках, киловатт-часах, человеко-днях, человеко-часах и т.д.). Особенность статистической абсолютной величины в том, что она может быть и положительной: прибыль, доходы и т.п., и отрицательной: убытки, убыль, потери и т.д.
С позиции конкретного исследования совокупность абсолютных величин можно рассматривать как состоящую из величин индивидуальных, характеризующих размер признака для отдельных единиц совокупности, и суммарных, характеризующих итоговое значение признака по всей или некоторой части совокупности. Индивидуальными величинами являются, например, показатели численности персонала на отдельных предприятиях. Суммарными или итоговыми показателями численность персонала по группам, объединениям предприятий. С позиции отдельного предприятия численность персонала будет суммарной величиной, а численность персонала в каждом цехе величиной индивидуальной и т.д. Суммарные абсолютные величины часто получают специальными расчетами (перспективная численность населения, ожидаемый объем производства, задания по производству продукции и т.д.).
Поскольку абсолютные показатели основа всех форм учета и приемов количественного анализа, то следует разграничивать моментные и интервальные абсолютные величины. Первые показывают физическое наличие или уровень явления на определенный момент, дату, например, наличие запасов материалов или оборотных средств, величина незавершенного производства, численность проживающих и т.д. Вторые итоговый накопленный результат за период в целом, например, объем произведенной продукции за месяц или год, прирост населения за определенный период, величина валового сбора зерна за год и за несколько лет и т.п. В отличие от моментных величин, интервальные абсолютные величины допускают их последующее суммирование (естественно, если речь идет об одном и том же показателе).
По своему содержанию абсолютные величины могут характеризовать как относительно простые совокупности численность населения, предприятий, количество товаров определенного вида, так и совокупности достаточно сложные стоимость всей продукции предприятия или отрасли, объем розничного товарооборота, величина валового национального продукта, национального дохода и т.д.
Сама по себе абсолютная величина не дает достаточно полного представления об изучаемом явлении, не показывает его структуру, соотношение между отдельными частями, развитие во времени. В ней не показаны соотношения с другими абсолютными величинами. Эти функции выполняют определяемые на основе абсолютных величин относительные показатели.
4.2. Виды и взаимосвязи относительных величин
Относительная величина в статистике представляет обобщающий показатель, который дает числовую меру соотношения двух сопоставляемых (абсолютных или относительных) величин. Так как многие абсолютные величины взаимосвязаны, то и относительные величины одного типа в ряде случаев могут определяться через относительные величины другого типа.
Основное условие правильного расчета относительной величины сопоставимость сравниваемых показателей и наличие реальных связей между изучаемыми явлениями. Таким образом, по способу получения относительные показатели всегда величины производные, определяемые в форме коэффициентов, процентов, промилле и т.д. Однако следует понимать, что этим безразмерным по форме показателям может быть, в сущности, приписана конкретная, иногда и довольно сложная, единица измерения. Так, например, относительные показатели естественного движения населения, такие как коэффициент рождаемости, коэффициент смертности, коэффициент брачности, коэффициент разводимости и т.д., исчисляемые в промилле (), показывают число родившихся (умерших, браков, разводов и т.д.) за год в расчете на 1000 человек среднегодовой численности населения. Относительная величина эффективности использования рабочего времени выражает количество продукции в расчете на единицу затраченного труда: человеко-день, человеко-час и т.д. Относительные величины характеризуют соотношения показателей во времени, в пространстве, а также по составу и внутренним связям.
Для характеристики изменения явления во времени используются относительные величины динамики, относительные величины планового задания и относительные величины выполнения плана.
Относительная величина динамики характеризует изменение уровня одноименного явления во времени и получается как отношение уровня признака в каком-либо периоде к уровню этого же признака в предшествующем по времени периоде (или соответственно уровня в определенный момент времени к уровню в предшествующий момент).
Пример. Имеются данные о балансе активов предприятия (ООО).
АКТИВ |
На начало периода тыс. руб. |
На конец периода, тыс. руб. |
1. Внеоборотные активы |
147234 |
148044 |
2. Запасы сырья и материалов |
9602 |
13775 |
3. Затраты в незавершенном производстве |
9306 |
13703 |
4. Расходы будущих периодов и прочие запасы и затраты |
758 |
11657 |
5. НДС по приобретенным ценностям |
520 |
1795 |
6. Дебиторская задолженность (полностью) и краткосрочные финансовые вложения |
36751 |
38904 |
7. Денежные средства |
65994 |
38492 |
БАЛАНС |
270165 |
266370 |
Относительная величина динамики суммы вне оборотных активов предприятия равна i=148044:147234=1,0055 или 100,55%. Относительная величина динамики общей суммы активов предприятия равна 266370:270165 = 0,98595 или 98,595%. Таким образом, величина активов на конец периода составила 98,595% от начального уровня.
Показатель, получаемый при непосредственном сопоставлении уровней, принято называть коэффициентом роста, индексом роста, индексом. Значение 98,595% это величина темпа роста. Как правило, термин темп роста употребляют применительно к процентной форме выражения динамики. Рассчитывая величину 95,595-100=-1,405%, получаем значение темпа прироста. В данном случае за отчетный период величина активов уменьшилась на 1,405%.
Если отчетный период включает, несколько календарных отрезков, например, 6 месяцев, то в среднем за каждый месяц величина активов изменялась по сравнению с предыдущим месяцем в раза (среднемесячный коэффициент или индекс роста), или, другими словами, сокращалась на 0,2355% (среднемесячный темп снижения). Величина 99,7645% есть средний темп роста. Аналогично определяются среднеквартальные, среднегодовые и т.п. показатели динамики.
При сравнении процента прироста всего объема какой-либо величины с приростом (также в процентах) отдельной ее части получают так называемые коэффициенты эластичности. Коэффициент эластичности в общем случае показывает, на сколько процентов изменяется итоговый признак, если вызвавший этот прирост факторный показатель изменится на 1 %. В конкретных ситуациях можно определить как частные, так и общие коэффициенты эластичности. Частный коэффициент эластичности показывает, процент изменения общего итога (например, активов предприятия), если на 1 % изменится только элемент i этого итога. В примере при увеличении только внеоборотной части общая сумма активов возросла на
Непосредственно же внеоборотная часть активов увеличилась на 0,55%, так как {(148044147234):147234}·100=0,55%. Таким образом, для внеоборотных активов имеем,
Кэл.частн. = 0,3 : 0,55 =0,545.
Каждый процент изменения внеоборотных активов непосредственно увеличивает общую сумму на 0,545 %. Величина частного показателя эластичности это удельный вес i-го элемента в совокупном итоге начального (базисного) периода или момента. В нашем примере доля внеоборотных активов составляла в начальный момент 54,5 %.
Коэффициент эластичности общий определяется как отношение окончательного изменения (прироста) общего итога (в процентах) к изменению (также в процентах) отдельной части этого итога. В нашем примере общая сумма активов сократилась на 1,405%, таким образом,
Кэл.общ. = (-1,405):(0,55) = -2,55.
Общие коэффициенты эластичности используются чаще, так как обычно изменение какого-либо одного элемента совокупности прямо или косвенно связано с изменением других слагаемых общей суммы. Так, изменение суммы внеоборотных активов связано с изменением затрат на материалы, энергию, незавершенное производство и т.п. В примере увеличение внеоборотных активов на 1 % непосредственно увеличивает общие активы предприятия на 0,545 %, но, неизбежно затрагивая и оборотную часть, показывает тенденцию к уменьшению потребности в активах на 2,55 %.
Относительная величина планового задания рассчитывается как отношение
Относительная величина планового задания может быть представлена в форме планового коэффициента роста, плановых темпов роста (в %) и плановых темпов прироста (в %).
Относительная величина планового задания иногда определяется по отношению не к фактическому, а к плановому уровню предшествующего периода. Обычно это связано с расчетом среднего (среднегодового, среднемесячного и т.д.) планового темпа или коэффициента роста. По способу расчета относительной величины планового задания в настоящее время определяются относительные показатели перспектив (намерений) развития.
Относительная величина выполнения плана (намерений) рассчитывается как отношение уровня, фактически достигнутого в данном периоде, к уровню, запланированному.
На практике различают две разновидности относительных показателей выполнения плана. В первом случае сравниваются фактические и плановые уровни. Во втором случае в плановом задании устанавливается абсолютная величина прироста или снижения показателя, а по фактическим результатам проверяется степень выполнения плана по величине прироста или снижения уровня данного показателя. Так, например, если предполагалось снизить себестоимость единицы продукции на 24,2 руб., а фактическое снижение составило 27,5 руб., то уровень выполнения планового задания по снижению себестоимости рассчитывается как 27,5:24,2=1,136. План по снижению уровня показателя перевыполнен на 13,6 %. Показатель выполнения плана по уровню себестоимости в данном случае будет меньше единицы. Так, например, если фактическая себестоимость изделия составила 805,8 руб. при плановом уровне 809,1 руб., то величина выполнения плана определится как 805,8:809,1 = 0,996, или составит 99,6%, т.е. фактический уровень затрат на одно изделие оказывается на 0,4% ниже планового.
В аналитических расчетах при исследовании взаимосвязей чаще применяется оценка выполнения плана по уровню показателя. Оценка выполнения плана по изменению уровня приводится для целей иллюстрации, особенно в случаях, когда планируется снижение абсолютного значения затрат, расходов по видам продукции и т.п.
Относительные величины динамики, планового задания и выполнения плана связаны соотношением
Для характеристики состава и внутренних связей явления применяют относительные величины структуры, относительные величины координации и их взаимосвязи с показателями структуры.
Относительные величины структуры характеризуют доли, или удельные веса составных элементов в совокупном итоге и обычно выражаются в процентах:
Для аналитических расчетов предпочтительней использовать коэффициентное представление
Совокупность относительных величин {di} показывает строение, структуру совокупности.
Рассмотрим структуру активов предприятия. Как видно из таблицы, основная часть это внеоборотные активы (здания, сооружения, машины, оборудование и т.д.). Они составляют более половины итога баланса. Эта часть увеличилась на 1,081 процентных пункта (точнее, 55,578354,4978 = 1.0805).
|
Структура на начало периода, % |
Структура на конец периода, % |
Прирост (в пунктах) |
1. Внеоборотные активы |
54,498 |
55,578 |
1,081 |
2. Запасы сырья и материалов |
3,554 |
5,171 |
1,617 |
3. Затраты в незавершенном производстве |
3,445 |
5,144 |
1,700 |
4. Расходы будущих периодов и прочие запасы и затраты |
0,281 |
4,376 |
4,096 |
5. НДС по приобретенным ценностям |
0,192 |
0,674 |
0,481 |
6. Дебиторская задолженность (полностью) и краткосрочные финансовые вложения |
13,603 |
14,605 |
1,002 |
7. Денежные средства |
24,427 |
14,451 |
-9,977 |
БАЛАНС |
100,0 |
100,0 |
0,0 |
Изменение во времени относительных величин структуры также можно отразить показателями динамики
где d1, d0 доля части совокупности в данном (отчетном) и предшествующем (базисном) периодах. В примере удельный вес внеоборотных активов увеличился в 55,578:54,498 = 1,01982 раза или почти на 2%.
Показатели динамики относительных величин структуры (id) связаны с показателями динамики соответствующих абсолютных величин соотношением
где i относительная величина динамики абсолютного размера данной части совокупности; I относительная величина динамики (индекс динамики) итога абсолютной величины. В примере I =0,98595; id =1,01982 и i = 1,0055.
Из соотношений относительных величин структуры и динамики следует важное практическое замечание, а именно: если индекс динамики отдельной части совокупности превышает индекс динамики общего итога, то доля этой части увеличивается, и наоборот.
Относительные величины структуры и динамики используются для анализа абсолютного прироста отдельных частей совокупности. Общее изменение отдельной структурной части состоит из прироста, определяемого общим увеличением или уменьшением всей совокупности, и прироста, определяемого изменением удельного веса данной части совокупности. Формулы распределения прироста выглядят следующим образом.
а. Прирост данной части совокупности, объясняемый общей динамикой итога
Δ1 = Y0(I1) ,
б. Прирост, объясняемый изменением удельного веса данной части.
Δ2 = (d1 - d0)·ΣY1 .
Здесь ΣY1 итоговая величина по всей совокупности в отчетном периоде.
В нашем примере общее абсолютное изменение суммы внеоборотных активов, равное 148044 - 147234 = 810 тыс. руб., определилось за счет:
а) сокращения баланса активов на 147234·(0,9859531) = -2068,2 тыс. руб.;
б) увеличения доли внеоборотной составляющей баланса
(0,55578...- 0,54497...)·266370 = +2878,2 тыс. руб.
Обобщенная оценка степени (уровня) структуризации явления в целом обычно выполняется по формуле уровня концентрации (коэффициент концентрации, коэффициент Герфинделя) Н.
, где
di удельный вес i-объекта в итоге изучаемого показателя, n количество объектов.
Относительные величины координации (ОВК). Характеризуют отношение частей данной совокупности к одной из них, взятой за базу сравнения, и показывают, во сколько раз одна часть совокупности больше другой, либо сколько единиц одной части совокупности приходится на 1, 10, 100, 1000 и т.п. единиц другой ее части. Относительные величины координации могут рассчитываться как по абсолютным показателям, так и по показателям структуры. Например, приняв за базу сравнения величину внеоборотных активов на конец периода, видим, что на каждый рубль внеоборотных активов приходится 13775:148044 = 0,09305 руб. запасов сырья и материалов; 0,09256 руб. затрат на незавершенное производство и т.д.
|
Координация основных элементов актива бухгалтерского баланса (руб. на 1 руб. внеоборотных активов) на конец периода |
1. Внеоборотные активы |
1,0 |
2. Запасы сырья и материалов |
0,09305 |
3. Затраты в незавершенном производстве |
0,09256 |
4. Расходы будущих периодов и прочие запасы и затраты |
0,07874 |
5. НДС по приобретенным ценностям |
0,01212 |
6. Дебиторская задолженность (полностью) и краткосрочные финансовые вложения |
0,26279 |
7. Денежные средства |
0,260 |
Относительные величины координации можно определить и по показателям структуры. Действительно, 0,051714:0,55578 = 0,09305 и т.д. И, напротив, по относительным величинам координации можно восстановить исходные относительные показатели структуры. Для этого следует определить отношение величины координации данной части совокупности (ОВКj) к сумме всех величин координации, включая и принятую за базу сравнения.
Так, например, доля внеоборотных активов составляет
1:(1+0,09305+0,09256+0,07874+0,01212+0,26279+0,26) = 0,55578 или 55,578%.
Доля запасов сырья и материалов определится как
0,09305:(1+0,09305+0,09256+0,07874+0,01212+0,26279+0,26) = 0,05171 и т.д.
Для сравнения одноименных абсолютных величин, относящихся к одному и тому же периоду либо моменту времени, но к различным объектам или территориям используются относительные величины сравнения (ОВС) и их связи с другими относительными показателями. Посредством относительных величин сравнения сопоставляются мощности отдельных видов оборудования, производительность труда отдельных рабочих, уровень производства продукции данного вида отдельными предприятиями, районами, странами. Так, по добыче газа в 1996 г. Россия опережала США в 601:535 = 1.123 раза, или, другими словами, уровень добычи газа в США составлял (535 / 601)·100 = 89% от уровня Российской Федерации. Однако, за период 1990-1996 гг. среднегодовые темпы прироста по РФ были отрицательными (-1,07%), в то время как в США ежегодный рост был в среднем на 0,87%.
При известных коэффициентах роста (индексах динамики) по каждому объекту и начальному соотношению уровней можно составить условие равенства уровней в предстоящем периоде t:
Отсюда
Значение t показывает, через какой период времени уровень изучаемого явления по объекту А сравняется с уровнем того же явления применительно к объекту Б.
Сопоставлением показателей динамики разных явлений получают еще одну разновидность относительных величин сравнения коэффициенты опережения (отставания) по темпам роста или по темпам прироста. Так, если производительность труда на предприятии за данный период возросла на 12%, а фонд оплаты труда за этот же период увеличился на 7,5%, то коэффициент опережения производительности труда по темпам роста составит 112/107,5 = 1,042, а коэффициент опережения по темпам прироста 12/7,5 = 1,60.
Относительная величина интенсивности характеризует степень распространения или развития данного явления в определенной среде. Этот показатель представляет соотношение абсолютного уровня одного показателя, свойственного изучаемой среде, к абсолютному уровню другого показателя, также присущему изучаемой среде и, более того, являющемуся для первого факторным признаком. Так, при изучении демографических процессов определяются коэффициенты рождаемости, смертности, естественного прироста и т.д., как отношения числа родившихся, умерших, абсолютного прироста и т.д. за год к среднегодовой численности населения данной территории в расчете на 1000 чел. Тогда соответствующий показатель измеряется в промилле (). Если получаемые значения очень малы, то делают расчет на 10000 чел. измеряют в продецимилле () и т.д.
Относительными величинами интенсивности выступают, например, показатели выработки продукции в единицу рабочего времени, затраты на единицу продукции, показатель трудоемкости продукции, эффективность использования производственных фондов и т. п. Все эти показатели получают сопоставлением разноименных величин, относящихся к одному и тому же явлению и одинаковому периоду или моменту времени. Метод расчета относительных величин интенсивности используется при определении средних уровней (среднего уровня выработки, средних затрат труда, средней себестоимости изделий, средней цены и т. д.). В этом отношении распространено мнение, что относительные величины интенсивности это один из способов расчета средних величин.
4.3. Средние величины. Общие принципы их применения
Средняя величина (среднее значение, средний уровень или, для краткости, «средняя») это обобщающий показатель, характеризующий типический уровень явления, образовавшийся в конкретных условиях места и времени. В средних величинах обобщается количественная вариация, погашаются индивидуальные различия единиц совокупности. Таким образом, среднее значение в отличие от конкретной величины признака позволяет сравнивать разные статистические совокупностям (например, средние уровни оплаты труда, средние уровни доходов населения и т.д.). Наблюдая изменение средней величины во времени, делают выводы об общей тенденции развития.
Принципы применения средних величин сводятся к следующему.
1. Необходим обоснованный выбор единицы совокупности, для которой рассчитывается среднее значение.
2. При расчете средней величины в конкретном случае нужно исходить из качественного содержания осредняемого признака, учитывать взаимосвязь признаков и имеющиеся исходные данные.
3. Средние величины должны рассчитываться, прежде всего, по качественно однородным совокупностям. Однородные совокупности получают применяя метод группировок.
4. Общие средние для всей совокупности должны сопровождаться средними групповыми, например, показатель общей средней урожайности должен сопровождаться показателями урожайности в отдельных регионах, хозяйствах и т.д.
Средние величины делятся на два класса.
Степенные средние. Это наиболее известные и часто применяемые виды средняя арифметическая величина, средняя гармоническая, средняя квадратическая и средняя геометрическая.
Структурные средние величины. В качестве структурных средних рассматривают моду и медиану.
Степенные средние величины рассматривают в формах простой и взвешенной средней. Средняя величина простая определяется по первичным не сгруппированным данным. Взвешенная средняя величина определяется по сгруппированным данным. Соответствующие формулы расчета имеют вид
,
где Xi варианта (значение) осредняемого признака; m показатель степени средней; n число вариант (наблюдений). fi частота, показывающая, сколько раз встречается i-e значение осредняемого признака.
В зависимости от значения показателя степени (m) получают:
Соответствующие формулы расчета приведены в таблице 4.1. Если рассчитать все виды средних для одних и тех же исходных данных, то значения их окажутся неодинаковыми. Здесь действует правило мажорантности: с увеличением показателя степени m увеличивается и соответствующая средняя величина:
Таблица 4.1
Вид степенной средней |
Показатель степени (m) |
Формула расчета |
|
Простая |
Взвешенная |
||
Гармоническая |
1 |
m = xf |
|
Геометрическая |
→ 0 |
|
|
Арифметическая |
1 |
||
Квадратическая |
2 |
Пример.
Культура |
Предприятие 1 |
Предприятие 2 |
||
Валовой сбор, ц |
Урожайность, ц/га |
Посевная площадь, га |
Урожайность, ц/га |
|
Пшеница |
32500 |
25 |
1540 |
20 |
Рожь |
1620 |
18 |
120 |
19 |
Ячмень |
13640 |
22 |
460 |
18 |
Просо |
1650 |
15 |
80 |
13 |
Итого |
49410 |
- |
2200 |
- |
Логическая формула показателя средней урожайности () это отношение валового сбора (ВС) к посевной площади (ПП)
Для предприятия 1 известно значение числителя в логической формуле средней величины показатели валового сбора. Величина знаменателя (ПП) определяется для каждой культуры как:
.
В итоге получаем формулу расчета средней урожайности по сельскохозяйственному предприятию 1. Такую формулу имеет величина средняя гармоническая взвешенная; в качестве веса выступает валовой сбор. В знаменателе этого выражения определяется посевная площадь, под всеми культурами.
.
Для сельскохозяйственного предприятия 2 в условиях задачи присутствует численное значение знаменателя (показатель посевной площади ПП). Числитель (ВС) по каждой культуре можно определить так:
ВС = У·ПП
Получаем формулу средней урожайности, где в качестве веса выступает посевная площадь. Такую формулу имеет средняя арифметическая взвешенная.
,
.
В числителе определяется величина валового сбора зерновых.
Таким образом, расчет средней величины необходимо начинать с построения логической формулы, исходя из качественного содержания осредняемого показателя. Например,
Для установления формулы средней величины А.Я. Боярский предложил использовать так называемый определяющий показатель. Средняя величина по этому методу должна исчисляться так, чтобы при замене каждого индивидуального значения осредняемого показателя его средней величиной оставался без изменения некоторый итоговый сводный показатель, связанный тем или иным образом с осредняемым. Этот итоговый показатель и называется определяющим, поскольку характер его взаимосвязи с индивидуальными значениями определяет конкретную формулу расчета средней величины.
Так, при расчете средней урожайности по предприятию 1 итоговым обобщающим показателем является общая посевная площадь (ПП), которая состоит из посевных площадей, занятых отдельными культурами:
.
В свою очередь, площадь, занятая отдельной культурой, связана с урожайностью соответствующей культуры соотношением
ППi = ВСi / Уi .
Суммируя показатели посевной площади, получаем
.
Следовательно, при наличии данных о валовом сборе по видам культур и урожайности каждой культуры в отдельности среднее значение следует рассчитывать по формуле средней гармонической взвешенной:
Для предприятия 2 таким определяющим показателем является величина валового сбора (ВС). Величина валового сбора связана с урожайностью следующим образом:
Таким образом, .
При выборе определяющего показателя можно руководствоваться простым правилом: выделить три взаимно связанных показателя, включая и тот, по которому требуется рассчитать среднее значение. (В данном примере это валовой сбор (ц), посевная площадь (га), урожайность (ц/га)). Если имеются первичные данные по двум каким-либо показателям из этого списка, то отсутствующий третий показатель может служить определяющим признаком. (Для хозяйства № 1 отсутствовал показатель посевной площади, для хозяйства № 2 показатель валового сбора). Если имеются данные по всем трем показателям, то исследователь вправе выбрать как среднюю величину арифметическую, так и среднюю гармоническую; при правильно назначенных весах результаты должны совпадать5. Если имеются данные только по тому признаку, для которого требуется рассчитать среднее значение, то исследователь вправе выбрать любую формулу степенной средней величины. В этих случаях рекомендуется также определять так называемые структурные средние (моду и медиану).
Правило определяющего показателя не следует абсолютизировать. Например, признаком цены товара обладает как та часть совокупности, которая порождает среднее значение натуральная единица продукции, так и любая другая единица, интересующая исследователя. Например, различаются цены данного товара на отдельных торговых предприятиях, при различных ценах данного товара формируется каждый рубль издержек обращения, при различных ценах используется каждый квадратный метр торговой площади, при разных ценах реализуемого товара образуется тот или иной уровень рентабельности торговли и т.д. В этих случаях показателей, определяющих единый общий вид формулы среднего значения, фактически не существует, и исследователь вправе использовать подход, обычный в теории вероятностей и математической статистике выбирать формулу простой арифметической средней или взвешивать индивидуальные уровни признака по их вероятностям.
Формула средней геометрической простой (не взвешенной)
используется обычно при расчете среднего значения по индивидуальным относительным величинам динамики. Такая средняя величина применяется, если задана последовательность цепных относительных величин динамики, указывающих на изменение показателя по сравнению с уровнем предыдущего периода: i1, i2, i3, ..., in. Например, объем производства в последнем году определяется его начальным уровнем (q0) и последующим изменением по годам:
qn = q0·i1·i2·…·in .
Принимая qn в качестве определяющего показателя и заменяя индивидуальные значения показателей динамики средними величинами, приходим к соотношению
.
Так, если ежегодно увеличить производства продукта на 7,2 % по отношению к предыдущему году, то в 10 году его производство возрастет в 2 раза.
К расчету показателя средних коэффициентов или темпов роста можно подойти и по иному. Примем в качестве определяющего показателя общий объем производства за n периодов (лет)
Q = q1 + q2+ ...+ qn .
Тогда
Q = q0 · i1 + q0 · i1 · i2 + ... + q0 · i1 · i2 · ... · in.
Заменяем индивидуальные значения коэффициентов средней величиной
.
Например, если задано, во сколько раз суммарный объем производства за n периодов (лет) должен превысить уровень базисного периода (года), то для определения среднего коэффициента роста надо решить уравнение степени n. Найденное среднее значение коэффициента роста дает ответ на вопрос, какими темпами должен ежегодно возрастать итоговый показатель, чтобы за ряд лет, начиная с базисного уровня q0, получился суммарный объем Q. Приведем таблицу решений при n = 3; 4; 5 для Q/q0 в интервале от 1 до 8:
n |
Q / q0 |
|||||||
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
|
3 |
0,544 |
0,810 |
1 |
1,151 |
1,278 |
1,389 |
1,489 |
1,578 |
4 |
0,519 |
0,741 |
0,888 |
1 |
1,091 |
1,169 |
1,237 |
1,298 |
5 |
0,509 |
0,709 |
0,834 |
0,927 |
1 |
1,061 |
1,114 |
1,161 |
6 |
0,504 |
0,692 |
0,805 |
0,885 |
0,948 |
1 |
1,044 |
1,083 |
Так, чтобы за предстоящие 5 лет произвести продукции в 6 раз больше, чем в предшествующем базисном году, следует ежегодно увеличивать объем производства на 6,1÷6,2 % .По сравнению с базисным годом производство должно составлять 106,1 %, 112,6 %, 119,6 %, 127,0 % и 134,7 %.
При анализе временных последовательностей (рядов динамики) единицей совокупности является момент или интервал времени. Это вносит разнообразие в расчет среднего значения. Появляются формулы хронологических средних величин для моментных и интервальных временных рядов, с равными и неравными интервалами. Средняя величина определяется с учетом основной закономерности изменения показателя во времени. Так, рассчитывая среднюю численность населения за ряд лет в условиях относительной устойчивости динамики, применяют формулу
,
где Sк, Sн численность населения на конец и начало периода.
4.4. Расчет средней величины по результатам группировки.
Свойства средней арифметической
Если исходные данные представлены в сгруппированном виде, то средняя величина рассчитывается по обычным формулам средних взвешенных (арифметических либо гармонических). Сложности возникают, когда в сгруппированных данных указываются не конкретные значения признака Х по каждой группе, а лишь интервалы его изменения. Правильный расчет общей средней величины возможен, если каким-либо образом удается установить средние значения признака в каждой группе. Если такие средние в группах определить по имеющимся сведениям нельзя, то их заменяют серединами интервалов, получая в итоге некоторое, чаще всего вполне удовлетворительное, приближение к среднему значению. Таким образом, расчет средней арифметической величины выполняют по формуле
, где .
Расчет среднего значения по данным группировки требует, как всегда, обоснованного выбора взвешивающего показателя. Очень часто необходимые для анализа величины fj частоты повторения признака Х в исходных данных либо отсутствуют, либо не столь очевидны.
Рассмотрим пример.
Группы предприятий |
Себестоимость одного изделия, руб. |
Число предприятий, % |
Объем продукции, % |
Затраты на производство, % |
1 |
110 115 |
8 |
9 |
8,2 |
2 |
115 120 |
16 |
18 |
17,2 |
3 |
120 125 |
24 |
24 |
23,9 |
4 |
125 и выше |
52 |
49 |
50,7 |
Итого |
- |
100 |
100 |
100 |
Если с определением середин интервалов никаких сложностей не возникает (112,5; 117,5; 122,5; 127,5), то при назначении взвешивающего показателя ошибкой может быть выбор признака “Число предприятий”, когда в процессе анализа рассматривается общая сумма затрат на производство. Умножение величины себестоимости одного изделия на число предприятий весьма косвенно характеризует общую сумму затрат на производство. Точную экономическую величину оценку общих затрат на производство данной продукции получаем умножением себестоимости одного изделия на объем продукции. Таким образом, если использовать формулу средней арифметической, то в качестве взвешивающего показателя следует выбрать показатель объема продукции или его процентной доли в совокупном объеме производства. Тогда средняя себестоимость изделия будет равна
Такое же значение средней себестоимости в данном примере можно получить и по формуле средней гармонической, если в качестве взвешивающего признака использовать показатель “Затраты на производство”
Заметим, что исходные данные задачи позволяют определить еще 2 показателя, косвенно характеризующие средний уровень себестоимости. А именно, 123,5 руб. такая себестоимость единицы продукции приходится на 1% общего числа предприятий и 123,355 руб. таков средний уровень себестоимости изделия, относящийся к 1 проценту общей суммы затрат.
Для ускорения ручных расчетов полезно знать следующие свойства:
1) величина средней арифметической не изменится, если веса всех вариантов заменить новыми, полученными из начальных умножением или делением на одно и то же число (s); действительно,
2) если все индивидуальные значения признака (т.е. все варианты) увеличить либо уменьшить в одно и то же число раз (или на одно и то же число), то среднее значение получившегося нового признака будет во столько же раз (или на столько же) отличаться от среднего значения исходного показателя. Действительно,
Свойство 1 используется для расчета средней величины через показатели удельного веса (частости). Свойство 2 применяют для ускорения ручных расчетов, особенно если первичные данные представлены в сгруппированном виде. Так, по приведенным данным найдем новую величину X΄, варианты которой определим по формуле
, ( середина интервала i).
Тогда . Переходим к средним величинам:
,
Важно правильно выбрать величины А (обычно это середина какого-либо интервала) и h (чаще всего это величина интервала изменения признака в какой-либо группе).
Пусть, например, А = 122,5 и h = 5. Получаем последовательность величин X΄i: -2; -1; 0; 1. Их среднее значение равно = (-2)·0,09 + (-1)·0,18 + 0·0,24 + 1·0,49 = 0,13. Таким образом, = 5·0,13 + 122,5 =123,15 руб.
4.5. Структурные средние величины
Структурные средние применяются для изучения внутреннего строения совокупности значений признака и для оценки средней степенного типа, если по имеющимся статистическим данным её обоснованный расчет невозможен. Такая ситуация могла бы возникнуть, например, если в приведенной ранее таблице группировки предприятий по уровню себестоимости отсутствовали бы данные и об объеме производства, и о сумме затрат по группам предприятий.
В качестве структурных средних применяют показатель моды как наиболее часто повторяющегося значения признака и показатель медианы величины признака, которая делит упорядоченную последовательность его значений на две равные по численности части: в итоге у одной половины совокупности значение признака не превышает медианного уровня, а у другой не меньше медианного.
Если изучаемый признак Х принимает только дискретные значения, то особых сложностей при расчете моды и медианы не бывает. Так, для многоэтажного дома модальным значением признака «количество комнат в квартире» может оказаться число 3 (чаще всего квартиры 3-комнатные). Для определения медианного значения признака «количество комнат в квартире» следует выписать все квартиры в порядке возрастания числа комнат. Если получившийся ряд нечетный, то медианным значением будет количество комнат в квартире, находящейся в середине этого упорядоченного ряда. Если ряд четный, медианное значение оказывается числом, находящимся в определенном интервале (например, от 2 до 3 комнат).
Если данные о значениях признака Х представлены в виде упорядоченных интервалов его изменения (интервальных рядов), то расчет моды и медианы несколько усложняется. Поскольку медианное значение делит всю совокупность на две равные по численности части, то оно оказывается в каком-то из интервалов признака X. Интерполяционным расчетом в этом, медианном интервале находят значение медианы Me по формуле:
где ХMe, hMe соответственно нижняя граница и величина медианного интервала; Σт/2 половина от общего числа наблюдений или половина объема того показателя, который используется в качестве взвешивающего в формулах расчета средней величины (в абсолютном или относительном выражении); SMe-1 число наблюдений (или объем взвешивающего признака), накопленное до начала медианного интервала; mMe число наблюдений или объем взвешивающего признака в медианном интервале (в абсолютном или относительном выражении).
В нашем примере может быть получено даже три медианные значения себестоимости единицы продукции, исходя из признаков количества предприятий, объема продукции и общей суммы затрат на производство:
Ме1 = 125 + 5 (50-48)/52 = 125,19 руб.,
Ме2 = 120 + 5 (50-27)/24 = 124,79 руб.,
Me3 = 120 + 5 (50-49,3)/50,7 = 125,07 руб.
Таким образом, у половины предприятий уровень себестоимости единицы продукции превышает 125,19 руб., половина всего объема продукции производится с уровнем затрат на изделие, превышающем 124,79 руб., и 50% общей суммы затрат образовано при удельной себестоимости выше 125,07 руб. Заметим также, что отмечается некоторая тенденция к росту себестоимости, так как Ме2 124,79 руб., а средний уровень равен 123,15 руб.
Если признак Х принимает непрерывные значения (как это имеет место, например, с уровнем затрат на производство единицы продукции), то для расчета моды прежде всего необходимо представить первичные данные в форме интервального ряда распределения. Для определения моды интервального ряда выбирается модальный интервал. Если интервалы равные, то модальным называется тот интервал значений признака, в котором отмечается наибольшая абсолютная или относительная частота его (признака) повторяемости. Итак, для интервального ряда с равными интервалами величина моды определяется как
где ХMo нижнее значение признака Х в модальном интервале; h величина интервала; mMo частота (частость) повторения признака Х в модальном интервале; mMo-1, mMo+1 соответственно, частоты (частости) признака для интервала, предшествующего модальному и следующего за ним;
Если первичные данные представлены неравными интервалами изменения признака Х, то модальным называется интервал, имеющий наибольшую плотность признака. Под плотностью в интервале понимается отношение частоты (абсолютной или относительной) признака Х к ширине соответствующего интервала. Тогда формула расчета моды получает вид:
где ХMo нижнее значение признака Х в модальном интервале (т.е. в интервале с максимальной плотностью); hМо величина модального интервала; fMo-1, fMo, fMo+1 соответственно, плотность признака для интервала, предшествующего модальному, плотность признака для модального интервала и плотность признака для интервала, следующего за модальным.
Для нашего примера можно рассчитать три модальных значения исходя из признаков числа предприятий, объема продукции и суммы затрат на производство. Во всех этих случаях модальный интервал один и тот же, так как для одного и того же интервала оказываются наибольшими и число предприятий, и объем продукции, и общая сумма затрат на производство:
Мо1 = 125 + 5 (52-24)/((52-24)+(52-0)) = 126,75 руб.,
Мо2 = 125+5 (49-24)/((49-24)+(49 - 0)) = 126,69 руб.,
Моз = 125 + 5 (50,7-23,9)/((50,7-23,911)) = 126,73 руб.
Таким образом, в нашем примере чаще всего встречаются предприятия с уровнем себестоимости 126,75 руб., чаще всего выпускается продукция с уровнем затрат 126,69 руб. и чаще всего затраты на производство определяются уровнем себестоимости 126,73 руб.
Контрольные вопросы
1. Понятие абсолютной величины в статистике, виды абсолютных величин, примеры абсолютных величин.
2. Понятие относительной величины в статистике, назначение и виды относительных величин, единицы измерения.
3. Относительные величины динамики, выполнения плана и планового задания и их взаимосвязь
4. Относительные величины структуры их взаимосвязь с показателями динамики.
5. Относительные величины координации и их взаимосвязь с показателями структуры.
6. Относительные величины сравнения и их взаимосвязь с показателями динамики.
7. Относительные величины интенсивности.
8. Понятие средней величины. Виды (формы) средних величин.
9. Правила выбора формулы средней величины.
10. Основные свойства средней арифметической величины. Расчета средней арифметической по данным ряда распределения.
11. Расчет медианного значения дискретных и непрерывных признаков.
12. Расчет модального значения дискретных и непрерывных признаков.
ТЕМА 5. СТАТИСТИЧЕСКИЙ АНАЛИЗ ВАРИАЦИИ
5.1. Понятие и система показателей вариации
5.2. Показатель дисперсии, свойства и способы расчета
5.3. Правило сложения дисперсий
5.4. Оценка вариации альтернативных признаков
5.1. Понятие и система показателей вариации
Условия, в которых находится каждый из изучаемых объектов, а также особенности их собственного развития (социальные, экономические и пр.) выражаются конкретными количественными или атрибутивными уровнями статистических показателей. Таким образом, вариация, т.е. несовпадение уровней одного и того же показателя у разных объектов, имеет объективный характер и помогает познать сущность изучаемого явления.
Для измерения вариации количественных признаков применяют несколько способов. Наиболее простым является расчет показателя размаха вариации Н как разницы между максимальным (Хmax) и минимальным (Xmin) наблюдаемыми значениями признака.
Н = Хmax - Xmin.
В показателе размаха вариации учитываются лишь крайние значения признака. Более точными характеристиками являются показатели колеблемости признака относительно среднего уровня. Простейший показатель такого типа среднее линейное отклонение Л как среднее арифметическое значение абсолютных отклонений признака от его среднего уровня.
.
При повторяемости отдельных значений Х применяют формулу средней арифметической взвешенной6.
.
Показатель линейного отклонения нашел широкое применение на практике. С его помощью анализируются, например, ритмичность производства, равномерность поставок материалов, разрабатываются системы материального стимулирования. Но этот показатель плохо согласуется с вероятностными расчетами и усложняет применение методов математической статистики. Поэтому в статистических исследованиях для измерения вариации чаще всего используют показатель дисперсии и среднего квадратического отклонения (см. п.5.2).
Для сопоставления вариаций по нескольким признакам в одной и той же совокупности объектов или вариации одного и того же показателя по разным совокупностям характеристики вариации приводятся к относительному виду. Достигается это сравнением размаха вариации (Н), среднего линейного (Л) или среднего квадратического отклонения (σ) со средним уровнем того же признака. Получаемые величины называются коэффициентами вариации. Значения коэффициентов вариации обычно указывают в процентах. В статистике совокупности, имеющие коэффициент вариации больше 3035 %, принято считать неоднородными.7 Формулы коэффициентов имеют вид:
5.2. Показатель дисперсии, свойства и способы расчета
Дисперсия признака 2 определяется на основе средней квадратической степенной:
.
Показатель , равный , называется средним квадратическим отклонением. В теории статистики показатель дисперсии является оценкой одноименного показателя теории вероятностей и (как сумма квадратов отклонений) оценкой дисперсии в математической статистике, что позволяет использовать положения этих теоретических дисциплин для анализа социально-экономических процессов. Простыми преобразованиями могут быть получены формулы расчета дисперсии методом моментов:
.
Здесь среднее значение признака (начальный момент первого порядка); средняя величина квадратов значений признака (начальный момент второго порядка). Дисперсию признака еще называют центральным моментом второго порядка. Формула метода моментов используется достаточно часто. На ней основываются, например, методы статистического имитационного моделирования.
Рассмотрим некоторые свойства показателя дисперсии.
Величина дисперсии не зависит от начала отсчета, т.е. все индивидуальные значения признака можно увеличить или уменьшить на одно и то же число. Это свойство очевидно, ибо с увеличением или уменьшением значений признака Х аналогично изменяется и показатель среднего уровня.
Численное значение дисперсии зависит от масштаба измерения X. При увеличении (или уменьшении) всех значений признака в С раз показатель дисперсии нового, увеличенного (или уменьшенного) признака будет больше (или меньше) дисперсии прежних значений в С2 раз, т.е.
2(ХC) = C2·2(X).
Эти свойства ускоряют расчеты, особенно если первичные данные представлены в сгруппированном виде с равными интервалами. Вводя вместо прежних значений признака Х новые, полученные по формуле
X′í = (XiA) / h ,
убеждаемся, что
.
Для приведенного ранее примера получаем
Xj′ |
2 |
1 |
0 |
1 |
mj |
0,09 |
0,18 |
0,24 |
0,49 |
(X′j)2·mj |
0,36 |
0,18 |
0 |
0,49 |
Таким образом, .
Так как , то 2 = 52·(1,030,0169) = 25,3275.
Непосредственный расчет по исходным данным оказывается более трудоемким.
Если вариация оценивается по небольшому числу наблюдений, взятых из достаточно большой генеральной совокупности, то математическое ожидание расчетной величины дисперсии оказывается смещенным в сторону уменьшения. Для получения несмещенной оценки рекомендуется дисперсию, полученную по приведенным ранее формулам, умножить на величину n/(n1). В итоге, при малом числе наблюдений (n<30) дисперсию признака рекомендуется вычислять по формуле
или .
Обычно уже при n>(15÷20) расхождение смещенной и несмещенной оценки становится несущественным. По этой же причине обычно не вводят поправку и в формулу сложения дисперсий.
Если из генеральной совокупности сделать несколько выборок и каждый раз при этом определять среднее значение признака, то возникает задача оценки вариации средних. Оценить дисперсию среднего значения можно и на основе всего одного выборочного наблюдения по формуле
,
где n объем выборки; 2 дисперсия признака, рассчитанная по данным выборки. Величина носит название средней ошибки выборки и является характеристикой отклонения выборочного среднего значения признака Х от его истинной средней величины (от его математического ожидания). Показатель средней ошибки используется при оценке достоверности результатов выборочного наблюдения.
5.3. Правило сложения дисперсий
Если первичные данные по признаку Х разделить на группы, то дисперсия признака может быть определена как традиционным способом по первичным данным, так и как сумма межгрупповой дисперсии (σ2м.гр.)и средней величины дисперсий внутригрупповых , т.е.
.
Межгрупповая дисперсия оценивает вариацию средних значений в каждой группе относительно общего среднего уровня -
,
где k количество групп, на которые разбита вся совокупность; mi количество объектов, наблюдений, включенных в группу i; среднее значение признака по группе i; общее среднее значение признака.
Среднее значение внутригрупповых дисперсий рассчитывается по формуле
Подставляя 2м.гр. и в формулу сложения дисперсий, выходим на расчет дисперсии методом моментов, что и подтверждает правило сложения.
Свойство сложения дисперсий используется для измерения взаимосвязи признаков X и Y. Так, если в группах, сформированных по уровням или интервалам признака X, определить средние значения для признака Y, то степень связи признака Y и признака X можно оценить эмпирическим коэффициентом детерминации, как отношения межгрупповой дисперсии признака Y к его общей дисперсии
Величина η носит название эмпирического корреляционного отношения.
5.4. Оценка среднего значения и вариации альтернативных признаков
Под альтернативным признаком понимается такой статистический показатель, который принимает одно из двух взаимоисключающих значений (пол мужской или женский; изделие годное или негодное; план по выпуску продукции выполнен или не выполнен; заказ выполнен менее чем на 90 % или более чем на 90 % и т.д.). Обычно считают, что если признак Х принял интересующее нас значение, то его величина равна 1, в противном случае Х = 0. В результате в n1 наблюдениях имеем интересующее нас явление (когда Х = 1), а в n2 случаях оно отсутствует (когда Х = 0).
Таким образом, ,
т.е. среднее значение альтернативного показателя равно частоте (точнее, частости) его появления (W = n1/n).
Аналогично ,
т.е. дисперсия альтернативного показателя равна произведению частоты (частости) его появления на частоту (частость) его отсутствия.
6.1. Понятие выборочного наблюдения, отбор единиц в выборочную совокупность.
6.2. Определение ошибки выборки.
6.3. Определение численности выборки.
6.4. Распространение результатов выборочного наблюдения.
6.1. Понятие выборочного наблюдения, отбор единиц
в выборочную совокупность
Выборочный метод применяется, когда проведение сплошного наблюдения невозможно или экономически нецелесообразно. Так, проверка качества отдельных видов продукции может быть связана с её уничтожением (оценка крепости нити на разрыв, дегустация продуктов питания и т.п.); в других случаях совокупности настолько велики, что физически невозможно собрать данные в отношении каждой из единиц (изучение пассажиропотоков, цен на рынках, исследования бюджетов семей и т.д.). Выборочное наблюдение используют также для проверки результатов сплошного наблюдения.
Единицы, которые отобраны для наблюдения, принято называть выборочной совокупностью, а всю совокупность, из которой производится отбор, генеральной. Качество выборочного наблюдения зависит от того, насколько выборка репрезентативна (представительна), т.е. насколько состав выборки представляет генеральную совокупность. Для репрезентативности необходимо соблюдение принципа случайности отбора единиц.
Рассмотрим способы формирования выборочной совокупности.
Собственно случайный отбор, или случайная выборка, осуществляется с помощью жеребьевки либо по таблице случайных чисел. В первом случае элементам генеральной совокупности присваиваются порядковые номера, которые в виде шаров или карточек-фишек помещаются в ящик, а затем отбираются наудачу. Во втором случае производится выбор случайных чисел (например, из специальных таблиц), по которым образуют порядковые номера объектов (единиц) для отбора. Числа в таблицах случайных обычно печатаются в виде блоков цифр (чтобы сделать таблицы более удобными для чтения). Например, это могут быть числа
5489 5583 3156 0835 1988 3912.
Применение комбинаций этих цифр зависит от размера совокупности: если в совокупности 1000 единиц, то порядковый номер каждой единицы должен состоять из трех цифр от 000 до 999. В таком случае приведенные выше случайные числа дали бы первые 8 номеров единиц выборочной совокупности.
548, 955, 833, 156 ,083 ,519 ,883 ,912.
Несколько сложнее выглядит процедура назначения номеров единиц, отбираемых в выборочную совокупность в общем случае. Теперь из таблицы случайных чисел формируется последовательность случайных величин, равномерно распределенных в интервале от 0 до 1. Могут использоваться и так называемые псевдослучайные числа, т.е. полученные по определенному алгоритму вручную или с помощью ПЭВМ. В нашем примере такими числами можно было бы считать
0,5489; 0,5583; 0,3156; 0,0835; 0,1988; 0,3912 и так далее.
Предположим, что генеральная совокупность состоит из 7328 единиц. Тогда в выборочную совокупность должны войти единицы с номерами.
7328 · 0,5489 = 4022,3 или 4022;
7328 · 0,5583 = 4091,2 или 4091;
7328 · 0,3156 = 2312,7 или 2313;
7328 · 0,0835 = 611,9 или 612;
7328 · 0,1988 = 1456,8 или 1457;
7328 · 0,3912 = 2866,7 или 2867.
Формирование случайных чисел и определение очередного номера продолжается, пока не будет получен заданный объем совокупности в выборке
Механический отбор. На практике очень часто применяют механическое формирование выборочной совокупности, не связанное с процедурами получения случайных чисел. При этом способе отбирается каждый (n/N)-й элемент генеральной совокупности. Например, если имеется совокупность из 100 тыс. единиц, и требуется выборка в 1000, то в нее попадёт каждый сотый элемент. Если единицы в совокупности не ранжированы относительно изучаемого признака, то первый элемент выбирается наугад, произвольно, а если ранжированы, то из середины первой сотни. Этот способ отбора близок к собственно случайному, при условии, что список не составлен таким образом, что какие-то единицы совокупности имеют преимущества попадания в выборку. Так, использование 25 % механической выборки при обследовании городского населения может привести к тому, что для каждого этажа при 4-квартирных площадках будет выбран один и тот же тип квартир (например, только трехкомнатные).
Стратифицированный отбор. Используется для отбора единиц из неоднородной совокупности. В этом случае генеральную совокупность предварительно разбивают на однородные группы с помощью типологической группировки, затем производят отбор единиц из каждой группы случайным или механическим способом так, чтобы единицы разных групп (слоев) включались в выборку пропорционально численности групп в генеральной совокупности или пропорционально удельному весу групп в общей дисперсии.
Серийный (гнездовой) отбор. Это такая форма отбора, при которой в случайном или механическом порядке выбирают не единицы, а определенные районы, серии (гнезда), внутри которых производится сплошное наблюдение.
Особенности обследуемых объектов определяют две методики отбора единиц повторная и бесповторная. При повторном отборе каждая попавшая в выборку единица или серия возвращается в генеральную совокупность и может попасть в выборку вторично. При этом вероятность попадания в выборочную совокупность всех единиц генеральной совокупности остается одинаковой. Бесповторный отбор означает, что каждая отобранная единица (или серия) в генеральную совокупность не возвращается, т.е. не может подвергнуться вторичной регистрации; поэтому для остальных единиц вероятность попасть в выборку увеличивается. Бесповторный отбор дает, следовательно, более точные результаты по сравнению с повторным и более желателен в статистической практике. Только в тех случаях, когда бесповторный отбор провести нельзя, используется повторная выборка (при обследовании потребительского спроса, пассажирооборота и т.п.).
6.2. Определение ошибок выборки
Итогом выборочного наблюдения является расчет обобщающих статистических характеристик (среднего значения, дисперсии и т.п.). Разность между показателями в выборочной и генеральной совокупности называется ошибкой выборки. Ошибки выборки подразделяются на ошибки регистрации и ошибки репрезентативности. Ошибки регистрации возникают из-за неправильных или неточных сведений. Источниками ошибок могут быть непонимание существа вопроса, невнимательность регистратора, пропуск или повторный счет некоторых единиц совокупности, описки при заполнении формуляров и т.д. Среди ошибок регистрации выделяются систематические, обусловленные причинами, действующими в каком-то одном направлении и искажающими результаты работы (например, округление цифр, тяготение к полным пятеркам, десяткам, сотням и т.д.), и случайные, проявляющиеся в различных направлениях, уравновешивающие друг друга и лишь изредка дающие заметный суммарный итог.
Ошибки репрезентативности также могут быть систематическими и случайными. Систематические ошибки репрезентативности возникают из-за неправильного, тенденциозного отбора единиц, при котором нарушается основной принцип научно организованной выборки принцип случайности. Случайные ошибки репрезентативности означают, что, несмотря на принцип случайности отбора единиц, все же имеются расхождения между характеристиками выборочной и генеральной совокупности. Изучение и измерение случайных ошибок репрезентативности и является основной задачей выборочного метода.
Отличие выборочных и генеральных характеристик рассмотрим на условном примере. Известно, что в генеральной совокупности 1000 студентов средний балл успеваемости равен . Далее были проведены две 10 % выборки. Обнаружилось что по первой выборке средний балл по второй выборке средний балл .
Разность между показателями выборочной и генеральной совокупности и будет случайной ошибкой репрезентативности. Ошибки репрезентативности:
для первой выборки
для второй выборки .
Если известно, что доля студентов, получивших оценки «4» и «5», составляет
по генеральной совокупности p = 0,60 или 60 %,
по первой выборке W1 = 0,64, или 64 %,
по второй выборке W2 = 0,59, или 59 %, то ошибки репрезентативности окажутся W1-p = 0,64 0,6 = + 0,04;
W2-p = 0,59 0,6 = 0,01.
Как видно из расчетов, выборочная средняя и выборочная доля являются величинами, которые могут принимать различные значения в зависимости от того, какие единицы совокупности попали в выборку. Размер их отклонения от генеральных значений случаен и оценивается посредством так называемой средней и предельной ошибки выборки. Средняя ошибка выборки (μ) определяется как среднее квадратическое отклонению показателя, деленное на квадратный корень из численности выборки. Величина среднего квадратического отклонения оценивается опять-таки по результатам проведенного выборочного наблюдения:
для средней величины для доли .
При бесповторном отборе подкоренное выражение умножается на величину (1n/N), которая всегда меньше единицы. Поэтому величина средней ошибки выборки при бесповторном отборе оказывается меньшей, чем при повторном. В тех случаях, когда доля выборки незначительна и множитель (1n/N) близок к единице, поправкой можно пренебречь.
Понятие предельной ошибкой выборки связано с гарантирующим ее уровнем вероятности. Уровень вероятности задается через нормированное отклонения t, и наоборот. Значения t даются в таблицах нормального распределения вероятностей. Чаще всего используют следующие сочетания:
t |
P |
1 |
0,683 |
1,5 |
0,866 |
2,0 |
0,954 |
2,5 |
0,988 |
3,0 |
0,997 |
3,5 |
0,999 |
Так, если t = 1, то с вероятностью 0,683 можно утверждать, что разность между выборочными и генеральными показателями не превысит одной средней ошибки. Предельные ошибки выборки определяются по формулам табл. 6.1. Размер предельной ошибки зависит от: вариации признака (прямая связь), численности выборки (обратная связь), доверительной вероятности (прямая связь), метода отбора. На основе предельных ошибок, находят доверительные интервалы для генеральных показателей. Для это . Для Р это . Значения t, а, следовательно, и Δ определяются природой изучаемого явления. Увеличение степени достоверности результатов требует большего значения t, т.е. увеличивает предельную ошибку. Менее достоверные результаты получаются при небольших предельных ошибках.
Таблица 6.1
Метод отбора |
Предельные ошибки индивидуального отбора |
|
для средней |
для доли |
|
Повторный |
||
Бесповторный |
При стратифицированном отборе в выборку обязательно попадают представители всех групп и обычно в тех же пропорциях, что и в генеральной совокупности. Поэтому ошибка выборки в данном случае зависит главным образом от средней из групповых дисперсий . По правилу сложения дисперсий , т.е. ошибка выборки для стратифицированного отбора всегда будет меньше, чем для собственно случайного.
При серийном (гнездовом) отборе мерой колеблемости будет межгрупповая дисперсия
6.3. Определение численности выборки
При разработке программе выборочного наблюдения, задают величину допустимой ошибки выборки и доверительную вероятность. Неизвестным остается тот минимальный объем выборки, который должен обеспечить требуемую точность. С увеличением допустимой ошибки уменьшается необходимый объем выборки и наоборот. Например, уменьшение выборочной совокупности в 4 раза увеличивает ошибку выборки в 2 раза и, наоборот, чтобы уменьшить ошибку выборки в 2 раза, следует увеличить объем выборочной совокупности в 4 раза. Объем выборки (n) зависят от метода отбора; формулы определения минимально необходимого объема выборки приведены в табл. 6.2.
Таблица 6.2 Минимальный объем выборки для собственно случайного и механического отбора
Метод отбора |
Объем выборки |
|
для средней |
для доли |
|
Повторный |
||
Бесповторный |
Вариация признака (σ2) к началу выборочного наблюдения обычно неизвестна. Приближенно её задают следующими способами:
1) берут из предыдущих исследований;
2) по правилу “трех сигм” общий размах вариации укладывается в 6 сигм (H 6, отсюда H/6). Для большей точности Н делят на 5;
3) если хотя бы приблизительно известна средняя величина изучаемого признака, то ;
4) при изучении альтернативного признака, если нет даже приблизительных сведений о доле единиц, обладающих заданным значением этого признака, берется максимально возможная дисперсия, равная 0,25.
При стратифицированном отборе, не пропорциональном объему групп, общее число отбираемых единиц делится на количество групп. Полученная величина даст объем выборки из каждой группы.
При отборе, пропорциональном числу единиц в группе, число наблюдений по каждой группе определяется формулой
где ni объем выборки из i-й группы; n - общий объем выборки; Ni объем i-й группы; N объем генеральной совокупности.
При отборе с учетом вариации признака, дающем минимальную величину ошибки выборки, процент выборки из каждой стратифицированной группы должен быть пропорционален среднему квадратическому отклонению в этой группе (i). Расчет численности выборки (ni) производится по формулам:
для средней для доли
При серийном (гнездовом) отборе необходимую численность отбираемых серий определяют так же, как и при собственно случайном, только вместо N, n и 2 подставляют R, r и 2м.гр., где R число серий в генеральной совокупности; r число отобранных серий; 2м.гр. межсерийная (межгрупповая) дисперсия.
6.4. Распространение выборочных результатов
Распространение выборочных оценок на генеральную совокупность состоит в определении характеристик генеральной совокупности на основе характеристик выборочной. Применяются два способа распространения выборочных данных:
1) способ прямого пересчета;
2) способ поправочных коэффициентов.
При первом способе средние величины и доли, полученные в результате исследования выборочной совокупности, переносятся на генеральную. Если известна численность генеральной совокупности, то можно оценить общий объем признака и возможные интервалы этого объема.
Например, если средняя выборочная урожайность на n=10 га зерновых культур равна 20 ц/га, а предельная ошибка урожайности (ошибка выборки) Δ =2,5 ц/га, то при известной посевной площади в N=2000 га можно установить ожидаемый объем валового сбора
ВС = 20·2000 = 40000 ц.
Пределы возможного валового сбора оцениваются по величине дисперсии этого показателя. Допустим, что предельная ошибка выборки была оценена при доверительной вероятности равной 0,954 т.е. t=2. Тогда, используя формулу предельной ошибки выборки, заключаем, что выборочная дисперсия показателя урожайности 1 га была
.
Или . Таким образом, дисперсия возможного валового сбора оценивается как 15,704·2000=31407 ц2.(Здесь использовано, то положение, что дисперсия суммы независимых случайных величин равна сумме дисперсий каждой случайной величины) Среднее квадратическое отклонение для всего валового сбора составляет
Следовательно, с вероятностью 0,997 (т.е. практически всегда) валовой сбор со всей площади ожидается в пределах 40000 ц. плюс-минус 3 средних квадратических отклонения, т.е. от 40000-532=39,5 тыс.ц до 40000+532=40,5 тыс. ц..
Второй способ используется для уточнения данных сплошного наблюдения. Так, если выборочное наблюдение показало, что недоучет величины исследуемого явления составил 0,5 %, то эту последнюю величину (поправочный коэффициент) распространяют на результат, полученный при сплошном наблюдении, путем увеличения его на 0,5 %.
Контрольные вопросы
ТЕМА 7. СТАТИСТИЧЕСКОЕ ИЗУЧЕНИЕ ВЗАИМОСВЯЗЕЙ
7.1 Основные понятия корреляционного и регрессионного анализа
7.2. Парная корреляция и парная линейная регрессия
7.3. Множественная линейная регрессия
7.4. Нелинейная регрессия. Коэффициенты эластичности
7.5. Множественная корреляция
7.6. Оценка статистической значимости параметров взаимосвязи
7.7. Непараметрические методы оценки связи
7.1. Основные понятия корреляционного и регрессионного анализа
Оценка связей между явлениями и процессами, характера этих связей, особенностей воздействия одних факторов на другие, выделение наиболее существенных взаимозависимостей между изучаемыми статистическими показателями является одной из основных задач статистики. Для описания статистических связей разработана система количественных оценок.
Формы проявления взаимосвязей весьма разнообразны. В самом общем виде выделяют связи функциональные и связи корреляционные. В случае функциональной связи величине факторного признака строго соответствует одно или несколько значений функции (признака-результата). Достаточно часто функциональная связь проявляется в естественных науках. В экономике примером может служить пропорциональная зависимость объема произведенной продукции от уровня производительности труда, зависимость суммы выручки от количества товара и его цены и т.д.
Корреляционная или статистическая связь проявляется в среднем, для массовых наблюдений, когда каждому конкретному значению независимой переменной X (фактору) соответствует некоторое вероятное значение зависимой переменной Y (результата). В общем случае конкретным значениям одного или нескольких факторных признаков соответствует некоторое вероятное значение результата. Объяснение этому и в сложности непосредственных взаимосвязей между анализируемыми признаками, и в том, что на характер этих связей влияют случайные причины. Поэтому общая связь между признаками проявляется лишь в среднем, в массе случаев. Некоторое изменение аргумента повлечет лишь среднее увеличение (или уменьшение в зависимости от направленности связи) функции. Конкретные значения функции-результата у отдельных единиц наблюдения будут отличаться от среднего уровня функции при конкретном для данного наблюдения значении аргумента.
Такие зависимости встречаются повсеместно. В сельском хозяйстве это может быть связь между урожайностью и количеством внесенных удобрений. Очевидно, что количество удобрений важно для формирования урожая. Но для каждого конкретного участка одно и то же количество внесенных удобрений определяет разный уровень урожайности, поскольку во взаимодействии находится еще целый ряд факторов (погода, состояние почвы и др.), которые и формируют конечный результат. В среднем же такая связь наблюдается: увеличение массы внесенных удобрений ведет к росту урожайности.
По направлению связи бывают прямыми, когда зависимая переменная растет с увеличением факторного признака, и обратными, когда рост факторного признака сопровождается уменьшением функции. Такие связи также можно назвать соответственно положительными и отрицательными.
По своей аналитической форме связи проявляются как линейные или нелинейные. В первом случае между признаками в среднем проявляются линейные соотношения. Во втором переменные связаны между собой не линейно, например, зависимостью параболической, экспоненциальной, гиперболической и т.д.
Важной является характеристика связей с точки зрения количества взаимодействующих факторов. Если изучается связь двух признаков, то ее принято называть парной. Если изучаются зависимости между системами признаков (предполагается, что хотя бы в одной из систем число признаков больше 2), связь принято называть множественной.
По степени (силе, тесноте) различаются связи слабые и сильные. Эта формальная характеристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи для конкретных показателей.
Дли изучения взаимосвязи в статистике используются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая регрессионный анализ. Иногда эти методы объединяют в один корреляционно-регрессионный анализ (КРА), что имеет под собой определенные основания: наличие целого ряда общих вычислительных процедур, взаимодополнения при интерпретации результатов. Поэтому можно говорить о корреляционном анализе в широком смысле, когда взаимосвязь характеризуется всесторонне. В то же время выделяют корреляционный анализ в узком смысле, когда исследуется сила связи, и регрессионный анализ, в ходе которого оцениваются форма связи и воздействие одних признаков на другие.
Задачи собственно корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов, оказывающих наибольшее влияние на вариацию результативного признака. Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значений зависимой переменной.
Методы анализа корреляции и регрессии широко представлены в современных системах обработки статистических данных на ПЭВМ (например, STATISTICA, SPSS). Исследователь должен подготовить исходную информацию и быть готовым к интерпретации полученных результатов. В настоящее время вряд ли целесообразно проводить такой сложный вид анализа вручную. Вычислительные процедуры представляют самостоятельный интерес, но знание принципов изучения взаимосвязей, возможностей и ограничений тех или иных методов является обязательным условием исследования.
Методы оценки тесноты связи разделяются на параметрические (корреляционные) и непараметрические. Параметрические методы основаны на использовании оценок параметров распределения вероятностей изучаемых величин: математического ожидания, дисперсии и т.д., и, следовательно, применяются в случаях, когда эти параметры можно предварительно вычислить. На практике в начале исследования обычно считают, что первичные данные подчиняются закону нормального распределения вероятностей.
Непараметрические методы не накладывают ограничений на закон распределения изучаемых величин и обычно более просты в вычислениях. Поэтому их применяют и для оценки корреляционных связей, и особенно широко для оценки связи атрибутивных (качественных) признаков.
7.2. Парная корреляция и парная линейная регрессия
Простейшим приемом выявления связи между двумя признаками является построение корреляционной таблицы. В основу таблицы положена группировка двух изучаемых во взаимосвязи признаков X и Y. Частоты fij показывают количество соответствующих сочетаний X и Y. Если fij расположены в таблице беспорядочно, можно говорить об отсутствии связи между переменными. В случае образования какого-либо характерного сочетания fij допустимо утверждать о связи между X и Y. При этом, если fij концентрируются около одной из двух диагоналей, имеет место прямая или обратная линейная связь.
Уровни признака X |
Уровни признака Y |
|||||
Y1 |
Y2 |
… |
Ym |
Итого |
||
X1 |
f11 |
f12 |
… |
f1m |
||
X2 |
f21 |
f22 |
… |
f2m |
||
… |
… |
… |
… |
… |
… |
… |
Xk |
fk1 |
fk2 |
… |
fkm |
||
Всего |
… |
n |
||||
… |
|
Рисунок 7.1. Схема корреляционной таблицы
Наглядным отображением корреляционной таблицы служит корреляционное поле. Оно представляет график, где на оси абсцисс откладываются значения X, по оси ординат Y, а точками показывается сочетание первичных наблюдений X и Y. По расположению точек, их концентрации в определенном направлении можно судить о наличии и форме связи.
В итогах корреляционной таблицы по строкам и столбцам приводятся два распределения одно по X, другое по Y. Рассчитаем для каждого Xi среднее значение Y и для Yj среднее значение X.
; i = 1, 2, …, k ; j = 1, 2, …, m.
Последовательность точек на графике иллюстрирует зависимость среднего значения результативного признака Y от факторного X; соединяя точки линиями, получаем эмпирическую линию регрессии, наглядно показывающую, как изменяется Y по мере изменения X. Аналогичным образом, последовательность точек на графике иллюстрирует зависимость среднего значения факторного признака X от результативного Y; соединяя точки линиями, также получаем эмпирическую линию регрессии, наглядно показывающую, как изменяется X по мере изменения Y. Таким образом, на одном графическом поле можно расположить две линии регрессии.
Пример. Ниже в корреляционной таблице представлены итоги статистического наблюдения уровня оплаты труда и производственного стажа работников.
Стаж работы (Xi), лет |
Уровень оплаты (Yj), руб. |
Итого |
Средний уровень оплаты, (руб.) |
|||
1500÷1750 |
1750÷2000 |
2000÷2250 |
2250 и выше |
|||
0 |
2 |
1 |
- |
- |
3 |
1708,3 |
1 |
1 |
1 |
1 |
- |
3 |
1875,0 |
2 |
- |
1 |
- |
1 |
2 |
1875,0 |
3 |
- |
- |
- |
1 |
1 |
2375,0 |
4 |
|
- |
- |
2 |
2 |
2375,0 |
Всего |
3 |
3 |
1 |
4 |
11 |
- |
Средний стаж (лет) |
0,333 |
1 |
1 |
3,25 |
- |
|
На графике (рисунок 7.2) по данным таблицы показаны две эмпирические линии регрессии. Одна из них иллюстрирует изменение среднего уровня оплаты труда по мере увеличения производственного стажа (Х). Вторая линия показывает средний стаж работы при данном уровне оплаты труда (уровень Yi в серединах интервалов равен 1625, 1875, 2125 и 2375 руб.).
Рисунок 7.2. Эмпирические регрессии оплаты труда и стажа работы
Для количественной оценки тесноты связи в первую очередь используется линейный коэффициент корреляции (или коэффициент линейной корреляции). Корреляция переменных X и Y оценивается по формуле
.
Известны и другие модификации этого выражения. Здесь n количество наблюдений; σX, σY соответствующие средние квадратические отклонения. Коэффициент корреляции принимает значения в интервале от 1 до +1. Принято считать, что если |r| <0,3, то связь слабая; при |r| =(0,3÷0,7) средняя; при |г| > 0,70 сильная или тесная. Когда |r| =1, связь функциональная. Если же r0, то это дает основание говорить об отсутствии линейной связи между Y и X. Но в этом случае вполне возможно нелинейное взаимодействие, что требует дополнительной проверки и других измерителей (см. ниже).
Для характеристики влияния X на изменение уровня Y служат методы регрессионного анализа. В случае парной линейной зависимости строится регрессионная модель
Yi = a0+a1Xi+ i, i =1,…, n,
где i номер наблюдения, n число наблюдений; а0, а1, неизвестные параметры уравнения регрессии; i случайная составляющая (ошибка) переменной Y. Собственно уравнение регрессии записывается как
Yi теор = a0+a1·Xi,
где Yi.теор рассчитанное по уравнению регрессии значение результативного признака (после подстановки в уравнение числового значения Xi.). Параметры а0 и а1 оцениваются с помощью процедур, наибольшую известность из которых получил метод наименьших квадратов. Суть его в том, что наилучшие оценки а0 и а1 получают, когда
Иначе говоря, сумма квадратов отклонений фактических значений зависимой переменной Y от значений, вычисленных по уравнению регрессии должна быть минимальной. Сумма квадратов отклонений является функцией параметров а0 и а1. Минимальному значению суммы квадратов отклонений соответствует решение системы линейных относительно а0 и а1 уравнений:
n·a0 + a1·X = Y;
a0·X + a1·X2 = XY.
Можно воспользоваться и другими формулами, вытекающими из метода наименьших квадратов, например:
Аппарат линейной регрессии достаточно хорошо разработан и обязательно имеется в наборе стандартных программ статистического анализа на ПЭВМ. Смысл параметров: а1 это коэффициент регрессии, характеризующий влияние, которое оказывает изменение X на Y. Он показывает, на сколько единиц в среднем изменится Y при изменении X на одну единицу8. Если а1 больше 0, то наблюдается положительная связь. Если а1 отрицателен, то увеличение X на единицу влечет за собой уменьшение Y в среднем на а1. Параметр а1 обладает размерностью отношения Y к X. Например, по данным о стоимости оборудования X и уровне производительности труда Y методом наименьших квадратов получена зависимость Y = -12,14+0,208·X. Коэффициент а1=0,208 означает, что увеличение стоимости оборудования на 1 тыс. руб. ведет к среднему росту производительности труда на 0,208 тыс. руб. Параметр а0 это постоянная величина в уравнении регрессии. Его интерпретируют как начальное значение Y (или значение Y при X=0). Значения функции Y = а0 + а1·X на графике образуют теоретическую линию регрессии. Смысл теоретической регрессии в том, что это оценка среднего значения переменной Y для любого возможного значения X.
7.3. Множественная линейная регрессия
Парная корреляция и регрессия могут рассматриваться как частный случай отражения связи некоторой зависимой переменной, с одной стороны, и одной из множества независимых переменных с другой. Когда же требуется показать связь всего множества переменных с результативным признаком Y, говорят о множественной корреляции и о множественной регрессии. На начальных стадиях обычно используют линейные модели множественной регрессии, определяя параметры соответствующих уравнений множественной линейной регрессии.
Современные вычислительные средства позволяют за короткое время получить достаточно много вариантов уравнений множественной регрессии. Анализируя варианты, можно выбрать наилучшую линейную модель и соответствующее уравнение
Yi.теор= а0 + а1 ·Xi1 + а2·Xi2 + ... + аk·Xik , (i = 1, …, n),
где n количество наблюдаемых объектов; Yi.теор расчетное значение регрессии, которое представляет собой оценку ожидаемого значения Y при фиксированных значениях переменных X1, X2, ..., Xk; а1, а2, ..., аk параметры (коэффициенты) множественной регрессии, каждый из которых показывает, на сколько единиц изменится Y с изменением соответствующего признака X на единицу при условии, что остальные признаки останутся на прежнем уровне.
Параметры уравнения множественной линейной регрессии, как правило, находятся методом наименьших квадратов, решением системы уравнений. В матричной записи эта система имеет вид
(XT·X)·A=XT·Y,
где
Таким образом,
.
Получение оценок параметров на ПЭВМ в настоящее время не представляет большой проблемы. Гораздо важнее, насколько та или иная форма связи соответствует реально существующей зависимости между Y, с одной стороны, и множеством X, с другой.
7.4. Нелинейная регрессия. Коэффициенты эластичности
Представление связи линейной функцией, если в действительности имеются нелинейные соотношения, приводит к ошибкам аппроксимации и упрощенным и даже ложным положениям и выводам на основе аналитического уравнения. Вопрос о линейной или нелинейной форме уравнения регрессии следует решать на стадии теоретического анализа. На практике допускается и другая методика нелинейность формулируется как гипотеза, очерчивается круг возможных уравнений, а затем форма и вид уравнения уточняются а процессе вычислений.
Можно выделить два класса нелинейных уравнений регрессии. К первому отнесем регрессии нелинейные относительно включенных в исследование переменных, но линейные по параметрам. Это, например, полиномы различной степени. В случае парной регрессии имеем уравнения
Y= а0 + а1·X + а2·X2 + а3·X3+ ... .
Множественная полиномиальная регрессия Y = f(X1, X2) выглядит
Большинство используемых на практике нелинейных парных и множественных зависимостей приводятся к линейному виду заменой переменных в формуле уравнения регрессии. Так, определяя новые переменные в предыдущей формуле, как и т.д., приходим к уравнению множественной линейной регрессии:
Второй класс нелинейных функций отличается нелинейностью по оцениваемым параметрам. Наиболее известна и распространена степенная функция вида
для двух переменных либо
для множества переменных.
Коэффициенты регрессии таких нелинейных зависимостей достаточно просто определяются, если функцию удается свести к линейной форме. Например, степенную функцию можно прологарифмировать, получив линейную зависимость Y от X в логарифмах, и применить для оценки параметров уже упоминавшийся метод наименьших квадратов9.
Для оценки относительного влияния признака X на величину Y используют коэффициент эластичности (Э), который показывает, на сколько процентов изменится Y при изменении X на 1 процент. Расчетная формула для парной связи выглядит
В частности, для парной степенной функции коэффициент эластичности X оказывается равным параметру регрессии а1.
Для множественных регрессий в расчете коэффициента эластичности используется соответствующая частная производная
Для множественной степенной зависимости (мультипликативной модели) коэффициенты эластичности признаков Х равны соответствующим коэффициентам регрессии:
Эластичности признаков могут определяться для каждого конкретного наблюдения (объекта), но в настоящее время больше используются коэффициенты эластичности, когда в расчетную формулу подставляют среднее значение признака-результата и средние значения признаков факторных (признаков-регрессоров). Так, для множественной линейной регрессии эластичность признака Xi рассчитывается как
7.5. Множественная корреляция
Если имеется система статистических показателей: Y, X1, X2, …, Xm, то представляет интерес оценка корреляции между всеми парами показателей этой системы. Все парные коэффициенты корреляции могут быть представлены в одной квадратной матрице R размерностью (m+1)×(m+1), которая называется матрицей парных линейных коэффициентов корреляции. На основе матрицей R, можно определить так называемые коэффициенты множественной линейной корреляции признаков и коэффициенты парной линейной частной корреляции.
Коэффициент множественной линейной корреляции оценивает степень линейной связи одного из признаков системы с совокупностью прочих признаков этой же системы. В общем случае для измерения множественной линейной корреляции определяются параметры множественного уравнения регрессии и теоретические уровни признака-результата (например,Y). На основе фактических и рассчитанных по уравнению (теоретических) значений признака Y вычисляется коэффициент множественной корреляции Ry:
где 2 общая (фактическая) дисперсия уровней результативного признака (дисперсия Y); σ2факт. факторная дисперсия или дисперсия теоретических значений признака результата относительно среднего уровня; σ2ост. остаточная дисперсия, характеризующая вариацию Y за счет факторов, не учтенных уравнением регрессии. Известно, что общая дисперсия признака результата Y складывается из факторной и остаточной составляющих.
Коэффициент множественной корреляции изменяется от 0 до 1. Чем ближе RY к 1, тем более сильная связь между Y и множеством X. Если коэффициент RY незначителен по величине (как правило, RY0,3), то можно утверждать, что или не все важнейшие факторы взаимосвязи учтены, или выбрана неподходящая форма уравнения. В последнем случае пересматривается список переменных модели и возможно, её вид.
Для нелинейной множественной связи рассчитывают индекс корреляции. Методика его вычисления аналогична, но взаимодействие факторов и функция регрессии рассматриваются как нелинейные. Индекс корреляции изменяется в пределах от 0 до 1. Квадрат R равен так называемому коэффициенту детерминации (D или R2). Он показывает, какая часть вариации зависимого признака объясняется включенными в модель факторов.
Показатели множественной корреляции рассчитываются по приведенной выше схеме не часто. Если признак-результат Y включен в общую систему признаков, то на основе общей матрицы парных линейных коэффициентов R можно получить всю совокупность коэффициентов множественной корреляции, так как любой из признаков этой системы может, в принципе, претендовать на роль признака-результата. Коэффициент множественной корреляции, оценивающий степень линейной зависимости любого признака j от всех прочих в этой системе, определяется по формуле
где (m+1) число всех признаков в системе; |R| определитель матрицы R парных линейных коэффициентов корреляции; Rii алгебраическое дополнение элемента (jj) для этой же матрицы.
7.6. Оценка статистической значимости параметров взаимосвязи
Получив оценки параметров регрессии и корреляции, необходимо убедиться, что эти значения не случайны и действительно выражают наличие, характер и тесноту зависимости признаков. Для оценки не случайности того или иного параметра или коэффициента вводится понятие уровня значимости. Уровень значимости это, в первом приближении, вероятность того, что полученное численное значение конкретного параметра (коэффициента корреляции или параметра регрессии) можно считать величиной случайной. Таким образом, чем меньше численное значение уровня значимости, тем с большей вероятностью можно утверждать, что данный параметр является неслучайным. Для экономических задач обычно достаточно, чтобы уровень значимости был численно не более 0,05 или даже 0,10. Для статистического анализа технических систем, связанных с обеспечением жизнедеятельности, уровень значимости принимается гораздо более строгим (например, не более 0,01; 0,001 или 0,0005 и т.п.).
Системы анализа статистических данных на ЭВМ обязательно включают процедуры оценки значимости. Используют любую из двух равнозначных методик. По первой, традиционной, методике исследователь задает численную оценку уровня значимости, например α = 0,05. Под эту вероятность выбирается табличное значение t-статистики Стьюдента, если оценивается значимость параметра регрессии либо коэффициента парной линейной корреляции, или табличное значение F-статистики Фишера-Снедекора для оценки значимости уравнения регрессии в целом. Далее величина конкретного полученного параметра регрессии или коэффициента корреляции пересчитывается в фактическое значение t-статистики, а для уравнения регрессии в целом в фактическое значение F-статистики. Фактические t-статистики показывают, на сколько средних квадратических отклонений соответствующий фактический параметр регрессии или корреляции отклонился от своего гипотетического нулевого среднего уровня. Для коэффициента парной линейной корреляции и параметра а1 в уравнении парной регрессии фактическое значение t-статистики определяют Для параметра а0:
где n количество наблюдений; r2XY коэффициент линейной корреляции признаков X и Y.
Для оценки значимости параметров множественной линейной регрессии: а0, а1, …, аk соответствующие значения фактических t-статистик равны
В этой формуле ai i-й параметр уравнения регрессии; σi среднее квадратическое отклонение i-го параметра. Такая методика принята в системах статистического анализа данных на ПЭВМ.
Если фактическое значение t-статистики Стьюдента больше табличного значения (tтабл), то утверждается, что коэффициент корреляции или параметр регрессии статистически значим с уровнем, не менее α.
Согласно второй методике, определив фактическую величину t-статистики параметра регрессии, оценивают вероятность того, что за счет случайных причин эта величина могло бы быть еще большей. Если эта вероятность мала (меньше заданного численного значения уровня α), то найденный параметр признается статистически значимым. Эта методика является обычной при расчетах в системах статистического анализа данных на ПЭВМ.
При назначении табличного значения t-статистики необходимым параметром является число степеней свободы (ν). Для анализа парных линейных зависимостей число степеней свободы равно количеству наблюдений за минусом 2 (числа параметров регрессии в уравнении парной линейной связи), т.е. ν=n-2. Для уравнений множественной линейной регрессии соответственно имеем
ν = n-(k+1) = nm,
где m количество параметров в уравнении регрессии, n количество наблюдений, по которым составляется уравнение множественной регрессии.
Вывод о правильности выбора вида взаимосвязи и характеристику значимости всего уравнения регрессии получают с помощью F-критерия, определяя расчетное (фактическое) значение F-статистики. На основе квадрата коэффициента множественной корреляции (R2), числа наблюдений (n) и количества параметров в уравнении множественной линейной регрессии (m) определяем
.
Полученное по этой формуле значение Fрасч также должно быть больше Fтеор (табличного) при v1=m1 и v2=nm степенях свободы и выбранном уровне значимости α.
(Величина F-статистики показывает, во сколько раз факторная дисперсия признака результата Y превышает его остаточную дисперсию. При расчете учитываются соответствующие степени свободы).
По второй методике определяется вероятность еще большего значения F (при тех же степенях свободы v1=m1 и v2=nm). Эта вероятность должна быть меньше принятого числа α, иначе следует пересмотреть форму уравнения, перечень переменных и т.д.
7.7. Непараметрические методы оценки связи
В методах корреляционного и регрессионного анализа взаимосвязей используются основные характеристики (параметры) распределения средние значения и дисперсии. Эти методы получили название параметрических. Статистической наукой разработаны и такие методы, с помощью которых можно измерить связь между явлениями, не используя количественные значения признака, а, значит, и параметры распределения. Такие методы получили название непараметрических.
При оценке взаимосвязи двух качественных признаков используют представление единиц совокупности в форме так называемых таблиц взаимной сопряженности. Пример.
родителей |
Число детей, занятых в |
Всего |
|||
промышлен-ности строительстве |
сельском хозяйстве |
сфере обслужива-ния |
прочих видах |
||
1. Промышленность, строительство |
40 |
5 |
7 |
39 |
91 |
2. Сельское хозяйство |
34 |
29 |
13 |
12 |
88 |
3. Сфера обслуживания |
16 |
6 |
15 |
19 |
56 |
4. Прочие виды деятельности |
24 |
5 |
9 |
72 |
110 |
Всего |
114 |
45 |
44 |
142 |
345 |
Распределение частот по строкам и столбцам таблицы взаимной сопряженности позволяет выявить основные закономерности социальной мобильности. Но важно получить обобщающий показатель, характеризующий тесноту связи между признаками и позволяющий сравнить проявление связи в разных совокупностях и периодах времени. Для этого определяют, например, коэффициенты взаимной сопряженности Пирсона (С) и Чупрова (К):
где φ2 показатель средней квадратической сопряженности, определяемый как
К1 и К2 число групп по каждому из признаков; fij частоты в клетках таблицы сопряженности. Величина коэффициента взаимной сопряженности, отражающая тесноту связи между качественными признаками, находится в обычных для этих показателей пределах от 0 до 1. Для нашего примера последовательность расчета представлена в таблице
Занятия родителей |
Число детей, занятых в ло дете и, занятых < в |
Всего |
||||
промыш ленности, строительстве |
сельском хозяйстве |
сфере обслуживания |
прочих видах |
|||
1 |
2 |
3 |
4 |
5 |
6 |
|
1. Промышленность, строительство |
40 1600 14,04 |
5 25 0,56 |
7 49 1,11 |
39 1521 10,71 |
91 26,42 |
0,2903 |
2. Сельское хозяйство |
34 1156 10.14 |
29 841 18,69 |
13 169 3,84 |
12 144 1,01 |
88 33,68 |
0,3827 |
3. Сфера обслуживания |
16 256 2,25 |
6 36 0.8 |
15 225 5,11 |
19 361 2,54 |
56 10,7 |
0,1911 |
4. Прочие виды деятельности |
24 576 5,05 |
5 25 0,56 |
9 81 1,84 |
72 5184 36,51 |
110 43,96 |
0,3996 |
Итого (fj) |
114 |
45 |
44 |
142 |
345 |
1,264 |
Цифры в верхней строке клетки перенесены из предыдущей таблицы. Цифры в центре клеток представляют результат возведения частот в квадрат.Делением на итоговые частоты соответствующих столбцовполучаем значения, которые записываем в нижней строке. Так, для первой клетки первого столбца Суммы этих величин по строке записываем в столбце 5. Для первой строки
Разделим полученные суммы на итог частот по соответствующей строке (для первой строки 26,42:91=0,2903). Эти результаты записываем в последний столбец (6) расчетной таблицы. В итоге получаем:
Значения коэффициентов показывают наличие заметной связи между изучаемыми признаками. Коэффициент К Чупрова обычно дает более осторожную оценку связи.
Взаимосвязь между двумя альтернативными признаками измеряется с помощью 4-х клеточных таблиц. Например,
Пол |
Численность занятых |
||
Сезонные отрасли |
Несезонные отрасли |
Всего |
|
Мужчины Женщины |
187 ( a ) 307 ( c ) |
265 ( b ) 272 ( d ) |
452 579 |
Всего |
494 |
537 |
1031 |
Доля сезонных работников среди женщин составляет 53% (307/579), среди мужчин 41,4% (187/452). Можно утверждать, что имеется взаимосвязь признаков пола и отрасли. Оценить тесноту связи можно с помощью коэффициентов взаимной сопряженности С или К. Но проще это сделать с помощью коэффициентов контингенции или ассоциации. Используя буквенные обозначения в клетках таблицы сопряженности, коэффициент контингенции определяем по формуле
Величина коэффициента показывает наличие слабой обратной связи между анализируемыми альтернативными признаками.
Коэффициент ассоциации
Как видно, коэффициент контингенции оценивает связь более осторожно. Заметим также, что
В социально-экономических исследованиях нередко встречаются ситуации, когда признак не выражается количественно, однако единицы совокупности можно упорядочить, т.е. ранжировать. Примерами могут быть ранжирование студентов (учеников) по способностям, любой совокупности людей по уровню образования, профессии, по способности к творчеству и т.д. При ранжировании каждой единице совокупности присваивается ранг, т.е. порядковый номер. При совпадении значения признака у различных единиц им присваивается объединенный средний порядковый номер. Так, если 5-я и 6-я единица совокупности одинаковы, обе единицы получат ранг равный (5+6)/2=5,5. Для измерения связи между ранжированными признаками определяют ранговые коэффициенты корреляции Спирмена () и Кендэлла ().
Сущность метода Спирмена в следующем:
1) располагают варианты факторного признака по возрастанию, т.е. ранжируют единицы по значению признака X;
2) для каждой единицы совокупности указывают ранг с точки зрения результативного признака Y.
Если связь прямая, то с увеличением ранга признака Х, будет возрастать и ранг Y; при тесной прямой связи ранги признаков Х и Y в основном совпадут. При обратной связи возрастанию рангов признака Х будет соответствовать общее убывание рангов признака Y. Теснота связи между признаками оценивается ранговым коэффициентом корреляции Спирмена:
где d разность рангов признаков Х и Y; n число наблюдаемых единиц.
Кендэллом предложен другой показатель также с использованием рангов:
Расчет коэффициента Кендэлла выполняется в следующем порядке.
1. Ряд наблюдений располагается в возрастающем порядке по признаку Х с указанием соответствующих рангов по признаку Y.
2. Упорядоченная таким образом последовательность берется как исходная для построения квадратной матрицы (aij) размерностью (n×n). Далее потребуются только элементы, расположенные выше главной диагонали. По каждой паре наблюдений (i,j) сравниваем ранги признака Y:
Сумма элементов aij, расположенных выше главной диагонали, и есть искомое значение S в формуле коэффициента Кендэлла. При некотором навыке расчет величины S можно выполнить, непосредственно сравнивая ранг Y данного наблюдения с рангами Y последующих наблюдений. Для каждого наблюдения подсчитываются Р число случаев, когда ранг признака Y следующих наблюдений меньше, чем у данного, и Q число случаев, когда у следующих наблюдений ранг признака Y больше, чем у данного. Искомое значение Правильность вычислений контролируется соблюдением условия .
Пример. Имеются данные об успеваемости 10 учащихся школы.
|
Ранги успеваемости по наукам: |
d=RxRy |
d2 |
|
физико-математическим (Rx) |
гуманитарным (Ry) |
|||
А Б В Г Д Е Ж 3 И К |
1 2 3 4 5 6 7 8 9 10 |
3 10 8 4 7 5 9 1 6 2 |
2 8 5 0 2 +1 2 +7 +3 +8 |
4 64 25 0 4 1 4 49 9 64 |
Итого |
55 |
55 |
0 |
224 |
Коэффициент Спирмена ;
отмечена обратная, хотя и не очень сильная, связь между способностями учеников к физико-математическим и гуманитарным наукам.
Вычислим по тем же данным коэффициент Кендэлла (). Для ученика A Q =7, Р получается при сравнении А с учениками, ранг которых по Y ниже, а по Х выше. Таких случаев 2. Всего для ученика А имеем (Q-Р)=7-2=5. Ученика Б сравниваем со всеми следующими учениками в списке Q=0, P=8, Q-P=-8. По всей совокупности имеем
Таким образом, Коэффициент Кендэлла также отмечает обратную, хотя и менее выраженную, связь между признаками.
Контрольные вопросы
8.1. Ряды динамики. Классификация
8.2. Правила построения рядов динамики
8.3. Показатели анализа рядов динамики
8.4. Проверка ряда на наличие тренда
8.5. Анализ сезонных колебаний
8.6. Анализ взаимосвязанных рядов динамики
8.1. Ряды динамики. Классификация
Ряд динамики (хронологический, динамический, временной ряд) представляет последовательность упорядоченных во времени числовых показателей, характеризующих уровень развития изучаемого явления. Любой ряд динамики включает, следовательно, два обязательных элемента: во-первых, время и, во-вторых, конкретные значения показателя, или уровни ряда. Ряды динамики различаются по признакам.
1. По времени моментные и интервальные ряды. Интервальный ряд динамики последовательность, в которой уровень явления относится к результату, накопленному или вновь произведенному за определенный интервал времени. Таковы, например, ряды показателей объема продукции по месяцам года, количества отработанных человеко-дней по отдельным периодам, объём реализации за период и т.д. Если же уровень ряда показывает фактическое наличие изучаемого явления в конкретный момент времени, то совокупность уровней образует моментный ряд динамики. Примерами моментных рядов могут быть последовательности показателей численности населения на начало года, величины запаса какого-либо материала на начало периода и т.п. Важное аналитическое отличие моментных рядов от интервальных состоит в том, что сумма уровней интервального ряда дает вполне реальный показатель общий выпуск продукции за год, общие затраты рабочего времени, общий объем продаж и т.д. Сумма же уровней моментного ряда обычно не имеет реального содержания (хотя иногда и подсчитывается).
2. По форме представления уровней ряды абсолютных, относительных и средних величин.
3. По расстоянию или интервалам времени между датами выделяют полные (равноотстоящие) и неполные хронологические ряды.
В полных рядах динамики даты регистрации или моменты времени следуют друг за другом через равные интервалы. Неполные когда принцип равных интервалов не соблюдается.
4. По числу показателей можно выделить изолированные и комплексные (многомерные) ряды динамики. Если ведется анализ во времени одного показателя, имеем изолированный ряд динамики (табл. 8.1 и 8.2). Комплексный ряд динамики, когда в хронологической последовательности дается система показателей, связанных между собой единством процесса, явления (табл. 8.3).
Таблица 8.1 Объем продаж долларов США на ММВБ, млн. долл.
Дата |
10.01.94 |
11.01.94 |
12.01.94 |
13.01.94 |
Объем продаж |
126,750 |
124,300 |
148,800 |
141,400 |
Период |
Январь |
Февраль |
Март |
Апрель |
Май |
Июнь |
Индекс инфляции |
126 |
162 |
190 |
221 |
264 |
310 |
Таблица 8.3 Потребление основных продуктов питания на одного члена семьи, кг/год
Продукты |
1980 |
1985 |
1990 |
1991 |
1992 |
1993 |
Мясо и мясопродукты |
80,0 |
78,4 |
74,1 |
68,3 |
58,7 |
63,2 |
Молоко и молочные продукты |
411,2 |
389,6 |
378,9 |
345,4 |
280,4 |
285,6 |
Хлебные продукты |
101,2 |
91,6 |
85,7 |
91,8 |
98,0 |
105,8 |
8.2. Правила построения рядов динамики
При составлении ряда динамики следует выполнить ряд требований.
1. Периодизация развития, т.е. расчленение ряда во времени на однородные этапы, в пределах которых показатель подчиняется одному закону развития. По существу, это типологическая группировка во времени. Периодизация может осуществляться несколькими методами.
А. Исторический метод. Периодизация осуществляется на основе “узаконенной” структуры динамики, при этом обращают внимание на значимые даты и события, а именно: время принятия управленческих решений по данному показателю, смену хозяйственного механизма, смену руководства, войны и т.п. Недостаток этого метода в том, что точные временные границы периодов путем теоретического анализа удается получить крайне редко.
Б. Метод параллельной периодизации. Идея этого метода заключается в следующем. Пусть Y анализируемый показатель, развернутый в динамический ряд {Yt}, где Yt значение уровня ряда в момент (интервал) времени t. Возможно, существует показатель X, которому соответствует динамический ряд {Xt}, определяющий поведение исследуемого показателя Y. Тогда в роли однокачественных периодов развития Y нужно взять периоды X. Пример
Показатель |
1981 г. |
1982 г. |
1983 г. |
1984 г. |
1985 г. |
1986 г. |
1987 г. |
1988 г. |
1989 г. |
X |
10 |
9 |
11 |
13 |
12 |
18 |
17 |
20 |
21 |
Y |
20 |
19 |
21 |
24 |
24 |
35 |
34 |
40 |
41 |
Периоды однокачественной10 динамики показателей X легко выделить: это 1981÷1985 и 1986÷1989 гг. Линейный коэффициент корреляции между рядами X и Y очень высок: R=0,995, таким образом, можно считать, что ряд Х полностью определяет значение уровней ряда Y. Теперь, если предстоит качественный скачок показателя X, то с очень большой степенью вероятности можно ожидать аналогичных изменений показателя Y.
В качестве недостатка параллельной периодизации следует отметить сложности в нахождении Х детерминирующего показателя. Во многих случаях такой параметр вообще невозможно найти, так как он должен обладать весьма редкими свойствами связью с анализируемым показателем и, главное, неоспоримыми временными границами периодов.
В. Методы многомерного статистического анализа. Однокачественные периоды развития явлений или процессов (здоровье населения, развитие сельскохозяйственного производства и многое другое) часто трудно получить с помощью только одного показателя. Необходима система показателей, или комплексный хронологический ряд. На основе комплексных динамических рядов (системы показателей) периодизация реализуется методом многомерной средней и методами факторного анализа.
2. Статистические данные должны быть сопоставимы по территории, кругу охватываемых объектов, единицам измерения, времени регистрации, ценам, методологии расчета. Сопоставимость по территории означает, что данные по странам и регионам, границы которых изменились, должны быть пересчитаны в старых пределах. Сопоставимость по кругу охватываемых объектов означает сравнение совокупностей с равным числом элементов. Территориальная и объемная сопоставимость обеспечивается смыканием рядов динамики, при этом либо абсолютные уровни заменяются относительными, либо делается пересчет в условные абсолютные уровни. Не возникает особых сложностей при обеспечении сопоставимости данных по единицам измерения; стоимостная сравнимость достигается системой сопоставимых цен. Трудности могут появиться при сравнении данных по моменту регистрации. В большей степени это относится к сезонным явлениям. В таких случаях даже регистрации на одну и ту же дату часто бывает недостаточно для обеспечения сопоставимости11.
3. Величины временных интервалов должны соответствовать интенсивности изучаемых процессов. Чем больше вариация уровней во времени, тем чаще следует делать замеры. Соответственно для стабильных процессов интервалы можно увеличить. Так, переписи населения достаточно проводить один раз в десять лет; учет национального дохода, урожая ведется раз в год, ежедневно регистрируются курсы покупки и продажи валют, ежечасно температура воздуха и т.п.
4. Числовые уровни рядов динамики должны быть упорядоченными во времени. Не допускается анализ рядов с пропусками отдельных уровней, если же такие пропуски неизбежны, то их восполняют условными расчетными значениями.
8.3. Показатели анализа рядов динамики
При изучении развития явления во времени встает проблема расчета средних показателей динамики и описание интенсивности изменения. Решается она построением соответствующих показателей. Для характеристики интенсивности изменения во времени такими показателями будут:
1) абсолютный прирост,
2) темпы роста,
3) темпы прироста,
4) абсолютное значение одного процента прироста.
Когда за основу сравнения берется начальный уровень ряда, получают базисные показатели. Если же сравнение производится с предыдущим уровнем, то говорят о цепных показателях. Формулы расчета показателей динамики представлены в таблице.
Показатель |
Базисный |
Цепной |
Абсолютный прирост (i баз ; i цеп.) |
Yi - Y0 |
Yi - Yi1 |
Коэффициент роста (Кp) |
Yi : Y0 |
Yi : Yi1 |
Темп роста (Тp) |
(Yi : Y0)·100 |
(Yi : Yi1)∙100 |
Коэффициент прироста (Кпр) |
Kp - 1; ; баз : Y0 |
Kp - 1; ; цеп : Yi1 |
Темп прироста (Тпр) |
Kпр∙100: Tp 100 |
Kпp ∙ 100; Tp100 |
Абсолютное значение одного процента прироста |
Y0 : 100 |
Yi1 : 100; : Тпр; |
Пример. Имеются данные об объемах и динамике продаж акций на 15 крупнейших биржах России за пять месяцев 1993 г.
Показатель |
Март |
Апрель |
Май |
Июнь |
Июль |
Август |
Объем продаж, млн руб. |
709,98 |
1602,61 |
651,83 |
220,80 |
327,68 |
277,12 |
Абс. прирост: |
||||||
Цепной, |
|
892,63 |
950,78 |
431,03 |
106,88 |
50,56 |
базисный |
|
892,63 |
58,15 |
489,18 |
382,3 |
432,86 |
Коэффициент (индекс) |
||||||
роста цепной |
|
2,257 |
0,407 |
0,339 |
1,484 |
0,846 |
Темп роста, %: |
||||||
Цепной, |
|
225,7 |
40,7 |
33,9 |
148,4 |
84,6 |
базисный |
100 |
225,7 |
91,8 |
31,1 |
46,2 |
39,0 |
Темп прироста: |
||||||
Цепной, % |
|
125,7 |
59,3 |
66,1 |
48,4 |
15,4 |
базисный, % |
|
125,7 |
8,2 |
68,9 |
53,8 |
61,0 |
Абсолютное значение 1 % прироста(цеп.) |
|
7,10 |
16,03 |
6,52 |
2,21 |
3,28 |
Система средних показателей динамики включает средний уровень ряда, средний абсолютный прирост, средний темп роста, средний темп прироста.
Средний уровень ряда это показатель, обобщающий итоги развития явления за единичный интервал или момент из имеющейся временной последовательности. Расчет среднего уровня ряда динамики определяется видом этого ряда и величиной интервала, соответствующего каждому уровню.
Для интервальных временных рядов с равными периодами времени средний уровень рассчитывается следующим образом:
или ,
где n или (n+1) общая длина временного ряда или общее число равных временных отрезков, каждому из которых соответствует свой уровень Yi (i = 1, 2, ..., n или i = 0, 1, 2, ..., n).
Если в интервальном временном ряду отрезки времени имеют неравную длительность, то средний уровень рассчитывается по формуле средней арифметической:
или .
Для моментных временных рядов величина среднего уровня зависит от специфики развития явления в рамках интервалов, разделяющих отдельные наблюдения. Обычно считают, что в пределах каждого периода, разделяющего моментные наблюдения, развитие происходило по линейному закону. Тогда общий средний уровень находится как среднее значение из средних уровней по каждому интервалу. Для моментного ряда с равноотстоящими моментами получаем в итоге формулу средней хронологической. Вид формулы определяется способом нумерации уровней. Если уровни нумеруются начиная с нуля, то средняя хронологическая имеет вид
.
Если же уровни обозначены Y1, Y2, .... Yk, формула получает вид
Для моментного ряда с неравными интервалами предварительно находятся значения уровней в серединах интервалов:
а затем определяется общий средний уровень ряда:
.
1. По данным табл. 8.1,
2. Имеются данные о валютном курсе на ММВБ (руб./долл.):
Дата |
13.12.93 |
14.12.93 |
15.12.93 |
16.12.93 |
17.12.93 |
Курс |
1231 |
1237 |
1247 |
1247 |
1250 |
Средний абсолютный прирост рассчитывается в зависимости от способа нумерации интервалов (моментов).
или .
Средний темп роста:
,
Если уровни ряда нумеруются от 0 до n, то формула среднего коэффициента роста выглядит
.
Если уровни ряда нумеруются от 1 до n, то формула среднего коэффициента роста выглядит
.
Здесь Кцеп цепные коэффициенты роста; Kбаз базисный коэффициент роста.
Средний темп прироста (%) определяется по единственной методологии:
.
Например, по данным об объемах продаж акций имеем:
8.4. Проверка ряда на наличие тренда
Ряд динамики теоретически может быть представлен в виде составляющих:
1) тренд основная тенденция развития динамического ряда (к увеличению либо снижению его уровней);
2) циклические (периодические) колебания, в том числе сезонные;
3) случайные колебания.
Исследование тренда включает два основных этапа:
1) проверяется наличие тренда;
2) производится выравнивание временного ряда и непосредственное выделение тренда с экстраполяцией (прогнозированием) результатов развития.
Проверка ряда на наличие тренда может выполняться несколькими методами.
1. Метод средних. Изучаемый ряд динамики разбивается на несколько интервалов (обычно на два), для каждого из которых определяется средняя величина. Выдвигается гипотеза о существенном различии средних. Если эта гипотеза принимается, то признается наличие тренда. В более мощном критерии Кокса и Стюарта весь анализируемый ряд динамики разбивают на три группы и сравнивают между собой уровни первой и последней групп.
2. Метод серий. По этому способу каждый конкретный уровень временного ряда считается принадлежащим к одному из двух типов: например, если уровень ряда меньше медианного значения, то считается, что он имеет тип А, в противном случае тип В.
Теперь уровни временного ряда выступают как последовательность типов. В образовавшейся последовательности типов определяется число серий. Серией называется любая последовательность элементов одинакового типа, граничащая с элементами другого типа.
Так, временной ряд уровней брачности (см. ниже) имеет после упорядочения по возрастанию на 7-м месте значение 9,9 и на 8-м месте значение 10,4. Отсюда медиана ряда равна (9,9+10,4):2=10,15. Ряд типов выглядит как ВВВВВВВААААААА. В данном примере число серий R=2.
Для приведенного ниже ряда объемов продаж акций по месяцам имеем последовательность типов ААВВВАААВBAB. Для данного ряда R = 6.
Если во временном ряду общая тенденция к росту или снижению отсутствует, то количество серий является случайной величиной, распределенной приближенно по нормальному закону (для n>10). Следовательно, если закономерности в изменениях уровней нет, то случайная величина R оказывается в доверительном интервале
.
Параметр t назначается в соответствии с принятым уровнем доверительной вероятности Р. Например, для нормального распределения
Р |
0,683 |
0,950 |
0,954 |
0,990 |
0,997 |
t |
1 |
1,960 |
2 |
2,576 |
3 |
Среднее число серий: .
Среднее квадратическое отклонение числа серий: .
Здесь n число уровней ряда.
Выражение для доверительного интервала приобретает вид
.
Полученные границы доверительного интервала округляют до целых чисел, уменьшая нижнюю границу и увеличивая верхнюю.
В нашем примере (для Р = 0,954) имеем:
ряд уровней брачности: 3 R 12 ;
ряд объема продаж акций: 3 R 10.
Как видно, для ряда динамики брачности показатель числа серий R = 2 выходит за пределы возможного случайного поведения и, следовательно, в изменении уровней ряда имеется общая закономерность, тенденция. Напротив, для ряда объемов продажи акций число серий R = 6, что вполне (с Р = 0,954) укладывается в пределах случайного поведения, и гипотеза о наличии общей закономерности снижения или возрастания объемов продаж во времени не может быть принята (с вероятностью ошибки 0,046).
3. Графический метод. Для подтверждения наличия или отсутствия тренда часто достаточно представить уровни временного ряда на графике (см. тему «Статистические графики»). Графическая иллюстрация развития во времени считается достаточно убедительной.
Непосредственное выделение тренда может быть выполнено тремя методами.
1. Укрупнение интервалов. Ряд динамики разделяют на некоторое достаточно большое число равных интервалов. Если средние уровни по интервалам не позволяют увидеть тенденцию развития явления, переходят к расчету средних уровней за большие промежутки времени, увеличивая длину каждого интервала (одновременно уменьшается количество интервалов).
2. Скользящая средняя. В этом методе исходные уровни ряда заменяются средними величинами, которые получают из данного уровня и нескольких симметрично его окружающих. Количество уровней, по которым рассчитывается среднее значение, называют интервалом сглаживания. Интервал может быть нечетным (3, 5, 7 и т.д. точек) или четным (2, 4, 6 и т.д. точек). При нечетном сглаживании каждое полученное среднее арифметическое значение закрепляют за серединой интервала. При обработке ряда четными интервалами их искусственно делают нечетными, для чего образуют ближайший больший нечетный интервал, но из крайних его уровней берут только по 50 %; полученное среднее арифметическое значение также закрепляют за серединой каждого расчетного интервала. Последовательно передвигая интервал сглаживания получают последовательность средних (скользящих) значений.
Недостаток методики сглаживания скользящими средними состоит в условности определения сглаженных уровней для точек в начале и конце ряда. Если необходимо, то их получают специальными приемами. Так, при сглаживании по трем точкам выровненное значение в начале ряда рассчитывается по формуле
.
Для последней точки расчет симметричен.
При сглаживании по пяти точкам имеем:
,
.
Для последних двух точек ряда расчет сглаженных значений полностью симметричен сглаживанию в двух начальных точках.
3. Аналитическое выравнивание. Под этим понимается определение аналитического выражения, формулы f(t) для основной проявляющейся во времени тенденции развития изучаемого явления. Развитие предстает как бы в зависимости только от течения времени t. Отклонения конкретных уровней ряда от уровней, соответствующих общей тенденции, объясняют действием факторов, проявляющихся случайно или циклически.
Трендовая модель имеет вид
Уt = f(t) + t ,
где f(t) уровень, определяемый тенденцией развития (трендовая составляющая); t случайное и циклическое отклонение от тенденции.
В процессе аналитического выравнивания определяется конкретный вид и параметры аналитической зависимости f(t). На практике по имеющемуся временному ряду задают вид и находят параметры функции f(t), а затем анализируют поведение отклонений от тенденции. Функцию f(t) выбирают таким образом, чтобы она давала содержательное объяснение изучаемого процесса.
Обычно при выравнивании ряда используются следующие зависимости:
линейная f(t) = a0 + a1·t;
параболическая f(t) = a0 + a1·t + a2·t2,
экспоненциальные f(t) = exp(a0 + a1·t)
или f(t) = ехр(а0 + a1·t + a2·t2).
Линейная зависимость выбирается в тех случаях, когда в исходном временном ряду наблюдаются более или менее постоянные абсолютные цепные приросты, не проявляющие тенденции ни к увеличению, ни к снижению.
Параболическая зависимость используется, если абсолютные цепные приросты сами по себе обнаруживают некоторую тенденцию развития, но абсолютные цепные приросты абсолютных цепных приростов (разности второго порядка) никакой тенденции развития не проявляют.
Экспоненциальные зависимости применяются, если в исходном временном ряду наблюдается либо более или менее постоянный относительный рост (устойчивость цепных темпов роста, темпов прироста, коэффициентов роста), либо, при отсутствии такого постоянства, устойчивость в изменении показателей относительного роста (цепных темпов роста цепных же темпов роста, цепных коэффициентов роста цепных же коэффициентов или темпов роста и т.п.).
В большинстве случаев для оценка параметров (а0, а1, а2, ...) используют метод наименьших квадратов, который обеспечивает наименьшую сумму квадратов отклонений фактических уровней от выровненных:
Для линейной зависимости f(t)=a0+ a1·t; параметр a0 рассматривают как обобщенный начальный уровень ряда; а1 параметр, показывающий, на сколько изменится результат при изменении времени на единицу. Таким образом, а1 можно представить как теоретический средний абсолютный прирост.
Оценку надежности полученного уравнения выполняют через критерий (F). Определяется фактический уровень (Fфакт)
который сравнивается с теоретическим (табличным) значением. Здесь k число параметров уравнения тенденции; n число уровней ряда. В расчете участвуют показатели факторной и остаточной дисперсий. Факторная дисперсия оценивает вариацию теоретических, полученных по уравнению тренда уровней ряда динамики относительно общего среднего значения этого ряда. Остаточная дисперсия оценивает вариацию теоретических, полученных по уравнению тренда уровней ряда динамики относительно их фактических значений. Общая дисперсия ряда динамики состоит из факторной и остаточной дисперсий.
Табличное (теоретическое) значение F-статистики находится при 1=(k1), 2=(n-k) степенях свободы и уровне значимости α (обычно α=0,05). Если Fфакт>Fтеор, то уравнение тренда признается статистически значимым; построенная модель адекватна фактической временной тенденции.
В качестве примера рассмотрим число зарегистрированных браков на 1000 жителей России за период с 1977 по 1990 г.
Год |
Число зарегистрированных браков, |
1977 |
11,2 |
1978 |
10,9 |
1979 |
10,7 |
1980 |
10,6 |
1981 |
10,6 |
1982 |
10,4 |
1983 |
10,4 |
1984 |
9,6 |
1985 |
9,7 |
1986 |
9,8 |
1987 |
9,9 |
1988 |
9,5 |
1989 |
9,4 |
1990 |
9,1 |
Для определения параметров линейной трендовой модели (а0 и а1)следует решить систему из двух уравнений:
В этой системе нумерация уровней может быть принята либо естественной (1977, 1978 и т.д.), что не очень удобно для вычислений, особенно ручных, либо взята условной от 1 до 1412. Решение системы дает параметры: а0 =11,22308; а1 = 0,14593. Таким образом, уравнение линейной тенденции имеет вид;
Yt = 11,22308 0,14593·t ; где t = 1, 2, …, 14.
Параметры полученного уравнения можно интерпретировать следующим образом: а0 = 11,223 это исходный уровень брачности по России за период до 1977 г.; а1= 0,146 показывает, что в России за период с 1977 по 1990 г. происходило снижение уровня брачности на 0,146 %о ежегодно.
На графике (рисунок 8.1) видно, что в 1977÷90 гг. отчетливо наблюдалась общая тенденция снижения уровня брачности. Статическая проверка подтверждает значимость линейного тренда: фактическое значение F-статистики равно 137,265. Табличное значение F-статистики Fтеор=4,747 при значимости =0,05 и степенях свободы 1=(k1)=1; 2=(nk)=12 (Fтеор=9,330 при =0,01, 1=1, 2=12). Коэффициент линейной корреляции равен 0,95896, что убедительно подтверждает адекватность полученного уравнения линейной тенденции данного ряда динамики.
8.5. Анализ сезонных колебаний
Если в анализируемой временной последовательности наблюдаются устойчивые систематические отклонения от тенденции, то можно предположить наличие в этом ряду некоторых (одного или нескольких) колебательных процессов. Это особенно заметно, когда изучаемые явления имеют сезонный характер, возрастание или убывание уровней повторяется регулярно с интервалом в один год (например, производство молока и мяса по месяцам года, потребление топлива и электроэнергии для бытовых нужд, сезонная продажа товаров и т.д.).
Уровень сезонности оценивается с помощью индексов сезонности и гармонического анализа.
Рисунок 8.1. Графическое представление тенденции уровня брачности
Индексы сезонности показывают, во сколько раз фактический уровень ряда в момент или интервал времени t больше среднего уровня либо уровня, вычисляемого по уравнению тенденции f(t). При анализе сезонности уровни временного ряда показывают развитие явления по месяцам (кварталам) одного или нескольких лет. Для каждого месяца (квартала) получают обобщенный индекс сезонности как среднюю арифметическую из одноименных индексов нескольких лет. Индексы сезонности это, по существу, относительные величины координации, когда за базу сравнения принят либо средний уровень ряда, либо уровень тенденции. Способы определения индексов сезонности зависят от наличия или отсутствия основной тенденции.
Если тренда нет или он незначителен, то для каждого месяца (квартала)
,
где Уt уровень показателя за месяц (квартал) t; Уср общий средний уровень показателя. Для обеспечения устойчивости показателей можно взять больший промежуток времени. В этом случае за Т лет рассчитывают:
,
где средний уровень показателя по одноименным месяцам за ряд лет.
Пример. Имеются данные об объеме продаж акций на 15 крупнейших биржах России за 1993 г. (млн. руб.):
Месяц |
Уровень показателя (Yt) |
it,сез |
Январь |
12,78 |
0,027 |
Февраль |
122,08 |
0,254 |
Март |
709,98 |
1,477 |
Апрель |
1602,61 |
3,334 |
Май |
651,83 |
1,356 |
Июнь |
220,80 |
0,459 |
Июль |
327,68 |
0,682 |
Август |
277,12 |
0,576 |
Сентябрь |
418,31 |
0,870 |
Октябрь |
521,18 |
1,084 |
Ноябрь |
396,20 |
0,824 |
Декабрь |
508,34 |
1,057 |
Как видно, в 1993 г. самый значительный пик объема продаж акций был зарегистрирован в мартеапрелемае.
При наличии тренда индекс сезонности определяется на основе методов, исключающих влияние тенденции. Порядок расчета следующий:
1) для каждого уровня определяют выровненные значения по тренду f(t);
2) рассчитывают отношения it = Yt / f(t);
3) при необходимости находят среднее из этих отношений для одноименных месяцев (кварталов)
Другим методом изучения уровня сезонности является гармонический анализ. Его выполняют, представляя временной ряд как сумму гармонических колебательных процессов. Для каждой точки этого ряда справедливо выражение
, t=1, 2, .... Т.
Здесь Yt фактический уровень ряда в момент (интервал) времени t; f(t) выровненный уровень ряда в тот же момент (интервал) t; an, bn параметры колебательного процесса (гармоники) с номером n. Эти параметры в совокупности оценивают размах (амплитуду) отклонений от общей тенденции и сдвиг колебаний относительно начальной точки.
Общее число колебательных процессов, которые можно выделить для ряда, состоящего из Т уровней, равно Т/2. Обычно ограничиваются меньшим числом наиболее важных гармоник. Расчеты параметров гармоники достаточно трудоемки и выполняются в настоящее время на компьютерах по известным формулам математического анализа. Аппарат гармонического анализа позволяет оценить роль каждого колебательного процесса в общей вариации уровней временного ряда. Удельный вес гармоники с номером n определяется как dn = Дn / Д, где Д дисперсия ряда, рассчитанная обычным способом; Дnдисперсия, вносимая колебательным процессом (гармоникой) с номером n:
Для примера продаж акций обнаруживаем, что важнейшими колебательными процессами, проявившимися в данном временном ряду и объяснившими дисперсию ряда более, чем на 70 % были гармоника с номером 2 (два полных цикла на протяжении года) и гармоника с номером 3 (3 полных цикла в течение года). Уравнение, описывающее поведение ряда будет:
Yt = 480,74250 - 161,067·cos(2·t·2π/12) - 351,052·sin(2·t·2π/12)+
+254,002·cos(3·t·2π/12)-58.490·sin(3·t·2π/12).
8.6. Анализ взаимосвязанных рядов динамики
Под взаимосвязанными рядами динамики понимают такие, в которых уровни одного ряда в какой-то степени определяют уровни другого. Например, ряд, отражающий внесение удобрений на 1 га, связан с временным рядом урожайности; ряд уровней средней выработки связан с рядом динамики средней заработной платы; ряд среднегодового поголовья молочного стада определяет годовые надои молока и т.д. В простейших случаях анализа исчисляют коэффициенты опережения по темпам роста или прироста.
Коэффициенты опережения по темпам роста это отношение темпов роста (цепных или базисных) одного ряда к соответствующим по времени темпам роста (также цепным или базисным) другого ряда. Аналогично находятся и коэффициенты опережения по темпам прироста.
Анализ взаимосвязанных рядов одна из наиболее сложных задач при изучении временных последовательностей. Нередко совпадение общих тенденций развития объясняется не взаимной связью, а прочими не учитываемыми факторами. Поэтому в сопоставляемых рядах предварительно избавляются от влияния существующих в них тенденций, после чего проводится анализ взаимосвязи по отклонениям от тренда.
Отклонения проверяются и на наличие автокорреляции. Под автокорреляцией понимается зависимость последующих уровней ряда от предыдущих. Для проверки наличия автокорреляции используется критерий Дарбина-Уотсона:
,
где t отклонение фактического уровня ряда в точке t от теоретического (выровненного) значения. При К=0 имеется полная положительная автокорреляция, при К=2 автокорреляция отсутствует, при К=4 полная отрицательная автокорреляция. Если в отклонениях от тенденции подтверждается наличие автокорреляции (положительной или отрицательной), её исключают. Это можно сделать тремя способами.
1. Для каждого из взаимосвязанных рядов динамики Х и Y получают уравнение тренда и рассчитывают отклонения:
Для каждой последовательности (t) и (t) выполняется проверка на автокорреляцию по критерию Дарбина-Уотсона. Если значение К близко к 2, то данный ряд отклонений оставляют без изменений. Если же К заметно отличается от 2, то находят параметры уравнения авторегрессии13.
Подсчитываются новые остатки: и, в заключение, коэффициент корреляции признаков X и Y:
2. Корреляция первых разностей. От исходных рядов динамики Х и Y переходят к новым, построенным по первым разностям:
По Х и У определяют направление и силу связи в регрессии:
У = f(X) = С0 + С1·Х.
3. Включение времени в уравнение связи. Уt = f(Xt, t). В простейших случаях уравнение выглядит следующим образом:
Yt = а0 + а1·Xt + a2∙t.
Контрольные вопросы
1. Понятие ряда динамики, основные элементы, классификация
2. Правила построения рядов динамики
3. Основные показатели анализа рядов динамики
4. Структура временного ряда
5. Способы проверки ряда динамики на наличие тренда
6. Методы определения тенденции временного ряда
7. Аналитическое выравнивание, основные этапы
8. Методы исследования сезонных колебаний в рядах динамики
9. Понятие связного анализа, автокорреляция, методы ее исключения
ТЕМА 9. ИНДЕКСЫ·
9.1. Индивидуальные индексы и их применение в экономическом анализе
9.2. Общие индексы и их применение
9.3. Общий индекс как средняя величина индивидуальных индексов
9.4. Индексный метод анализа итогового показателя и структурных изменений
9.5. Индексы средних величин
9.6. Территориальные индексы
9.1. Индивидуальные индексы и их применение
в экономическом анализе
Индекс это относительная величина, показывающая, во сколько раз уровень изучаемого явления в данных условиях отличается от уровня того же явления в других условиях. Условия могут различаться во времени (индексы динамики), в пространстве {территориальные индексы}, в выборе в качестве базы сравнения какого-либо условного уровня, например планового показателя, уровня договорных обязательств (индекс выполнения обязательств, индекс планового задания). В экономическом анализе индексы используются не только для сопоставления уровней изучаемого явления, но и для оценки значимости причин, объясняющих абсолютное различие сравниваемых уровней.
Относительная величина, получаемая при сравнении уровней, называется индивидуальным индексом, если исследователь не интересуется структурой изучаемого явления и количественную оценку уровня в данных условиях сравнивает с конкретной величиной уровня этого явления в других условиях. Так, сумма выручки от продажи товара в условиях отчетного года Q1 сравнивается с аналогичной суммой выручки базисного года Q2. В итоге получаем индивидуальный индекс товарооборота
io = Q1/Q2.
Индивидуальные индексы можно рассчитать для любого интересующего нас показателя, если он имеет количественное выражение. В частности, сумма выручки определяется ценой товара (р) и количеством продаж в натуральном измерении (q). Можно определить индивидуальные индексы цены ip и количества проданных товаров iq:
ip = p1/p0 , iq = q1/q0 .
С аналитической стороны iq показывает, во сколько раз увеличилась (или уменьшилась) общая сумма выручки под влиянием изменения объема продажи в натуральных единицах. Аналогично ip показывает, во сколько раз изменилась общая сумма выручки под влиянием изменения цены товара. Очевидно, что
iQ = iq·ip или Q1 = Q0 ·iq·ip .
Вторая формула представляет двухфакторную индексную мультипликативную модель итогового показателя, в данном случае объема товарооборота. Посредством такой модели находят прирост итога под влиянием каждого фактора в отдельности. Так, если выручка от продажи некоторого товара возросла с 8 млн. руб. в предыдущем периоде до 12,180 млн. руб. в последующем и известно, что это объясняется увеличением количества проданного товара на 5 % при цене на 45 % большей, чем в предыдущем периоде, то имеет место соотношение:
12,180=8·1,05·1,45 млн. руб.
Очевидно, что общий прирост выручки в сумме 12,180-8 = 4,180 млн. руб. объясняется изменением объема продажи и цены. Прирост выручки за счет изменения объема продажи (в натуральном выражении) составит
Q(q) = Q0·(iq - 1),
или в нашем примере Q(q) = 8∙(1,05 - 1) =+0,40 млн. руб.
Тогда за счет изменения цены данного товара сумма выручки изменилась на
Q(p) = (Q1Q0)Q(q) = Q1Q0∙iq = Q0∙iq·(ip1),
или Q(p) =8∙1,05∙(1,45 - 1) = +3,78 млн. руб.,
(проверка: 3,780 + 0,400 = 4,180).
Возможен другой способ распределения общего прироста по факторам в двухфакторной индексной мультипликативной модели, а именно:
Q(q) = Q0∙ip∙(iq-1) и Q(p) = Q0 ∙(ip1).
Прирост выручки (4,18 млн руб.) объясняется теперь: ∙
изменением цены Q(p) = 8∙(1,45 - 1)=3,60 млн. руб.,
изменением объема продажи Q(q) = 8∙1,45∙(1,05 - 1) = 0,58 млн. руб.
Выбор конкретной формы разложения общего прироста итога должен определяться конкретными условиями развития изучаемого показателя, в данном случае конъюнктурой спроса-предложения. На практике и в большинстве научных рекомендаций в настоящее время преобладает первое направление, когда сначала выясняют вклад в общий прирост количественного фактора (q) при базисном уровне качественного признака (p), а затем вклад качественного фактора (цены) в расчете на отчетный уровень количественного показателя.
9.2. Общие индексы и их применение в анализе
Если известно, что изучаемое явление неоднородно и сравнение уровней можно провести только после приведения их к общей мере, анализ выполняют посредством так называемых общих индексов. Индекс выступает как общий, когда в расчетной формуле показывается неоднородность изучаемой совокупности. Примером неоднородной совокупности является общая масса проданных товаров всех или нескольких видов. Тогда сумму выручки можно записать в виде агрегата (суммы произведений взвешивающего показателя на объемный), например:
Q = р∙q.
Отношение агрегатов, построенных для разных условий, дает общий индекс показателя в агрегатной форме. Так, например, получают индекс динамики общего объема товарооборота в агрегатной форме:
Прирост товарооборота объясняется изменением уровня цен и количества проданных товаров. Влияние на прирост товарооборота общего изменения цен выражается агрегатным индексом цен Ip, который в предположении первичности изменения количественного показателя (q) и вторичности качественного (р) имеет вид
Влияние на прирост товарооборота изменения количества проданных товаров отражается агрегатным индексом физического объема Iq, который строится также в предположении первичности изменения количественных показателей (q) и вторичности влияния качественных (р):
В форме мультипликативной индексной модели динамика товарооборота будет выражаться соотношениями
IQ = Iq · Ip или Q1 = Q0 · Iq · Ip ,
где Q0 = p0·q0; Q1 = p1·q1.
Общий прирост товарооборота будет распределяться по факторам следующим образом: Q(q) = Q0·(Iq-1); Q(p) = Q0∙Iq∙(Iр - 1).
Если же принимается предположение об обратной последовательности влияния факторов сначала р, затем q, то меняются и формулы разложения прироста и формулы расчета индексов Iq и Iр. Тогда
Q(q) = Q0∙Ip∙(Iq 1);
Q(p) = Q0∙(Iр 1).
где Ip = (p1∙q0)/(p0∙q0); Iq = (p1∙q0)/(p0∙q0).
(Отдельные слагаемые общего изменения итогового показателя можно, в принципе, получить и как разности числителя и знаменателя в формулах соответствующих агрегатных индексов).
Примером мультипликативной индексной модели с большим числом факторов является изменение общей суммы материальных затрат на производство продукции. Сумма затрат зависит от количества выпущенной продукции (индекс Iq), удельных расходов (норм) материала на единицу продукции (индекс In) и цены на материалы (индекс Iр). Прирост общей суммы затрат распределяется следующим образом:
M(q) = M0·(Iq 1);
М(n)=М0·Iq·(In 1);
М(р)=М0·Iq·In ·(Ip 1).
где М0 = q0·n0·р0, а величины индексов таковы:
индекс увеличения суммы затрат в связи с изменением объемов производства продукции (индекс физического объема)
;
индекс изменения суммы затрат за счет изменения удельных расходов материала (индекс удельных расходов)
;
индекс изменения общей суммы затрат, объясняемого изменением цен на материалы (индекс цен на материалы)
.
Приведем формулы некоторых агрегатных индексов наиболее употребляемых в экономическом анализе.
Индекс изменения общей суммы затрат на производство продукции в зависимости от объема производства (q) и затрат на единицу (z):
.
Индекс изменения фонда оплаты труда в связи с изменением общей численности персонада (Т) и заработной платы (f):
.
Индекс изменения объема продукции в связи с изменением численности работающих (Т) и уровня их выработки (w):
.
Индекс изменения объема продукции в связи с изменением объема основных производственных фондов (Ф) и показателя эффективности их использования фондоотдачи (Н).
.
Аналогичным образом находят общие агрегатные индексы и по многим другим экономическим показателям. Используемые в приведенных формулах индексы Iq, IТ, IФ получаются по методу индекса физического объема, а индексы Iz, If, Iw, IH, по методу индекса цен. Таким образом, рассмотренная выше методика полностью приложима к анализу прироста продукции, изменения общих затрат на производство, изменения общего фонда оплаты труда и т.д.
Отметим, что для распределения прироста итогового показателя по нескольким факторам динамики предварительно задается последовательность, очередность соответствующих индексов в мультипликативной индексной модели. В классической схеме индексного анализа предполагается последовательное изменение итогового показателя сначала за счет сугубо количественного, а затем за счет все более и более качественных факторов. При отсутствии информации о фактической динамике явления, когда и индексы, и величина итогового признака становятся известными лишь по конечному результату всего периода, любая последовательность влияния факторов в мультипликативной индексной схеме оказывается равновероятной; исследователь вправе выбрать для анализа любую в наибольшей степени отражающую реальность схему очередности факторов. В условиях же полной неопределенности следует ориентироваться на так называемые равновероятностные схемы индексного анализа. Рассмотрение их выходит за пределы данного курса.
9.3. Общий индекс как средняя величина
индивидуальных индексов
Общий индекс можно получить как среднее значение соответствующих индивидуальных индексов. В этом смысле общим индексом отражаются результаты изменения уровня явления у отдельных единиц совокупности. При расчете общего индекса как средней величины веса индивидуальных индексов подбираются так, чтобы был возможен алгебраический переход от общего индекса в форме средней величины к общему индексу в агрегатной форме14. Эти преобразования, как правило, не сложны. Например, индекс общего объема товарооборота можно представить средней арифметической величиной -
.
Тот же индекс может быть записан в форме средней гармонической величины.
.
Индекс изменения общей суммы товарооборота в связи с изменением количества проданных товаров (индекс физического объема Iq) можно представить как
(В форме средней гармонической индекс физического объема практически не используется).
Индекс изменения общей суммы товарооборота в связи с изменением цен на товары (Ip) можно представить средней гармонической величиной:
9.4. Индексный метод анализа итогового показателя
и структурных изменений
Показанные выше общие индексы в агрегатной форме либо в форме средней величины позволяют оценить вклад отдельных факторов (например, изменение объема продаж и цены товаров, объема кредитных услуг и процентной ставки и т.п.) в общий прирост итогового показателя. Методика индексного анализа изменения итогового показателя (изменения общей суммы выручки от реализации, прироста общей суммы дохода от предоставления кредитных услуг разного типа и т.д.) применима при анализе совокупностей, состоящих как из разных объектов, так и из объектов одного и того же типа.
Если совокупность неоднородна (например, совокупность товаров различного вида), то индекс физического объема единственный способ показать динамику такой массы различных предметов, выражая ее через взвешивающий множитель (цену, себестоимость, трудоемкость), а агрегатный индекс качественного показателя, например, агрегатный индекс цен это единственный способ оценить общее изменение уровня качественного признака, например, общее изменение цен.
Если же совокупность состоит из объектов одного типа, то динамику этой массы можно показать непосредственным сравнением общего количества таких предметов в отчетном периоде с аналогичным значением в базисном периоде. Так, при анализе изменения валового дохода банка можно определить индекс общего объема кредитных услуг как отношение суммы кредитных услуг банка (объема среднегодовой задолженности) в отчетном периоде к соответствующей сумме в базисном периоде
IK = K1 / K0,
а также индекс физического объема кредитных услуг, показывающий, во сколько раз изменилась общая сумма дохода банка за счет изменения объема по отдельным видам предоставляемого кредита
Рассмотрим пример движения валового дохода коммерческого банка в зависимости от изменения среднегодовой задолженности по кредитам (количественный фактор K) и процентной ставки за кредит (качественный фактор S). Исходные данные приведены в таблице
Виды кредитов |
Базисный период |
Отчетный период |
||
Среднегодовая задолженность (K0), млн. руб. |
Средняя процентная ставка (S0), % |
Среднегодовая задолженность (K0), млн. руб. |
Средняя процентная ставка (S0), % |
|
1. Краткосрочные |
665,5 |
4,7032306 |
702,0 |
4,8290598 |
2. Долгосрочные |
169,5 |
1,7286135 |
298,0 |
1,8020134 |
Итого |
835,0 |
4,0994011 |
1000,0 |
3,927 |
Валовой доход от реализации кредита составлял:
в базисном году ВД0 = К0·S0 = 34,23 млн. руб.,
в отчетном году - ВД1 =К1·S1 = 39,27 млн. руб.
Прирост валового дохода (ВД1 - ВД0) = 5,04 млн. руб.
Условная величина дохода от предоставления кредитных услуг в отчетном периоде при базисной процентной ставке была бы равна К1·S0 = 38,168 млн. руб.
Индекс общего объема кредитных услуг равен
IK = K1 / K0 = 1000/835 = 1,1976047.
Индекс физического объема кредитных услуг равен
.
Индекс изменения величины процентной ставки за кредит равен
.
Таким образом, прирост валового дохода объясняется
а) изменением объема кредитных услуг Д(К) = 34,230(1,11504371) = 3,938 млн. руб.;
б) изменением процентной ставки Д(S) = 34,2301,1150437(1,02887371) = 1,102 млн. руб.
Более детальный анализ изменения итогового показателя возможен при изучении так называемых структурных сдвигов и их влияния на прирост итогового показателя (продукции, валового дохода, общих затрат на производство и т.д.).
Рассмотрим соотношение между индексами физического объема (IK) и общего объема (IK). В формуле IK разделим и умножим числитель на K1 а знаменатель на K0. Получим
Таким образом, для однородных совокупностей (допускающих суммирование по количественному признаку) индекс физического объема есть произведение индекса общего объема совокупности на индекс, выражающий изменение структуры совокупности (в данном случае это изменение удельного веса отдельных видов кредитных услуг в общей их сумме).
Формула индекса структурных изменений для нашего примера:
,
где d0 удельные веса, доли отдельных видов кредитных услуг в общем их объеме в базисном периоде, а d1 удельные веса или доли отдельных видов кредитных услуг в общем их объеме в отчетном периоде:
d0 = K0 / K0, d1 = K1 / K1.
Знаменатель в формуле индекса структурных изменений в нашем примере есть не что иное, как средний размер процентной ставки по всем видам кредитов в базисном периоде, так как .
Экономическая сущность индекса структурных изменений в том, что он показывает влияние процессов перераспределения на общий прирост итогового показателя. В той же мере этот индекс показывает, во сколько раз изменился общий средний уровень качественного показателя (средней процентной ставки, средней цены, среднего уровня оплаты труда и т.п.) только за счет изменения удельного веса каждого объекта в общем объеме количественного признака.
При известных значениях IK и IK, влияние структурных сдвигов на средний уровень процентной ставки и на общий дохода банка определяется просто: Iстр = IK /IK . В примере Iстр= IK /IK .= 1,1150437/1,1976047 = 0,9310615.
Для непосредственного расчета Iстр следует определить долю каждого вида кредитных услуг в базисном (d0) и в отчетном (d1) периодах и использовать формулу Iстр:
Виды кредита |
d0 |
d1 |
S0 |
1. Краткосрочные |
0,797006 |
0,702 |
4,7032306 |
2. Долгосрочные |
0,202994 |
0,298 |
1,7286135 |
Отсюда
Таким образом, прирост валового дохода банка происходил за счет:
1) изменения объема задолженности (объема кредитных услуг)
Д(К) = Д0 (I 1) = 34,23 (1,1976047 1) = +6,764 млн. руб.;
2) перераспределения задолженности по разным формам кредита
Дстр = Д0·I·(Iстр 1) = 34,23∙1,1976047∙(0,93106151) = 2,826 млн. руб.;
3) изменения процентной ставки за кредит
Д(S) = Д0·I·Iстр·(IS 1) = 1,102 млн. руб.
Вклад разных факторов в общий прирост можно распределить по отдельным объектам совокупности , для каждого из которых применяют мультипликативную индексную модель
q1 = q0 · IK ∙ id ∙ is , ∙
где q0, q1 объемы итогового признака (дохода) по данному объекту (виду услуг);
IK общий для всей совокупности индекс количественного признака; is индивидуальный для данного объекта индекс изменения уровня качественного признака;
id индивидуальный индекс доли данного объекта в общем объеме количественного признака.
Распределение общего прироста валового дохода по видам кредитных услуг и по факторам в окончательном виде выглядит:
Вид кредита |
Прирост валового дохода банка за счет: |
Всего |
||
изменения объема задолженности |
перераспределения задолженности по видам кредита |
изменения процентной ставки |
||
Краткосрочный |
6,185 |
4,468 |
0,883 |
2,60 |
Долгосрочный |
0,579 |
1,642 |
0,219 |
2,44 |
Итого |
6,764 |
2,826 |
1,102 |
5,04 |
9.5. Индексы средних величин
Отношение средних величин называется в статистике индексом переменного состава. В индексе переменного состава учитывается одновременно и влияние структурных изменений в составе совокупности, и изменение уровня качественного признака у отдельных объектов. В этом смысле показанные ранее индексы, полученные по типу индекса цен, являются индексами постоянного, или фиксированного состава. Индекс переменного состава выражается произведением индекса структурных изменений на индекс постоянного состава:
Iпер.сост = Iстр ·Iпост.сост .
Представление индекса переменного состава произведением двух сопряженных индексов позволяет выяснить роль соответствующих факторов в изменении среднего уровня качественного показателя. Так, в примере, средний уровень процентной ставки (4,0994011 в базисном периоде; 3,927 в отчетном) изменился в форме индекса переменного состава в
Iпер.сост = 3,927/4,0994011 = 0,957945 раза.
За счет перераспределения суммы кредитов между их видами средний уровень процентной ставки изменился в Iстр=0,9310615 раза (индекс структурных изменений). За счет изменения процентной ставки по отдельным видам кредита средний размер этой ставки изменился в Iпост.сост=1,0288737 раза (индекс постоянного состава).
Формулы расчета этих индексов показаны выше, именно эти индексы использовались при анализе изменения общей суммы дохода, полученного банком от предоставления кредитных услуг. Единственное замечание это то, что при расчете индекса постоянного состава можно использовать либо постоянный количественный состав совокупности, либо постоянный удельный вес каждой части совокупности в общем объеме количественного признака (в общей сумме кредитных услуг. Действительно,
9.6. Территориальные индексы
Территориальные индексы это разновидность относительных величин сравнения, когда сопоставляются сложные показатели, относящиеся к одному и тому же периоду времени, но к разным территориям (городам, районам, областям). На основе территориальных индексов выполняются международные сопоставления. Построение простейших территориальных индексов рассмотрим на примере показателя товарооборота для двух районов.
Территориальный индекс товарооборота это отношение суммы выручки от продажи в одном из районов (А) к аналогичному показателю в другом (Б).
.
Различие объемов товарооборота вызвано различием ассортимента и количества проданных товаров, а также различием цен. Территориальный индекс физического объема товарооборота рассчитывается как
.
Территориальный индекс цен
.
В этих формулах средняя межрайонная цена товара каждого вида, = (pА·qА+pБ∙qБ)/(qА+qБ); q = (qА+qБ) суммарный по двум районам объем продаж каждого вида товара. Более сложные, чем ранее, взвешивающие показатели применяются для того, чтобы результаты расчета были обратимыми, т.е. чтобы выполнялись соотношения
Iq,А/Б = 1/Iq,Б/А и Ip,А/Б = 1/Ip,Б/А .
Заметим, однако, что условия индексной модели
Iq,А/Б·Ip,А/Б = IQ,А/Б
Iq,Б/А·Ip,Б/А = IQ,Б/А
могут нарушаться, хотя, как правило, и не очень существенно.
Контрольные вопросы
1. Дайте определение индекса, назовите виды индексов
2. Задачи индексного анализа
3. Принципы построения общих индексов
4. Агрегатная форма общих индексов
5. Виды средних индексов
6. Индексы средних величин
7. Изучение структурных изменений с помощью индексного метода
8. Проблемы построения территориальных индексов
1 Иногда, если таблица очень простая и содержание ее очевидно, название таблицы не приводится.
2 На гистограмме (рисунок 3.8) для большей наглядности выделен начальный интервал доходов: известно, что у первых 0,3 % населения среднедушевой денежный доход не превышал 150 руб. Соответствующим образом изменилось значение плотности в интервале 150÷750 руб.
3 Если число наблюдений в квартилях не целое, то квартильные значения признака находятся интерполяцией.
4 Иногда обзорные рисунки включают доверительные интервалы для медианного значения, показывают средние значения и наблюдения, выделяющиеся из общей массы и т.д.
5 Если имеются данные о площадях, и валовом сборе по каждой культуре, то определяющим будет непосредственно показатель урожайности. Преобразования выводят на логическую формулу среднего значения: отношение всего валового сбора к общей посевной площади.
6 Напомним, что алгебраическая сумма отклонений от среднего уровня равна нулю
7 У такого способа оценки вариации есть и существенный недостаток. Действительно, пусть, например, исходная совокупность рабочих, имеющих средний стаж 15 лет, со средним квадратическим отклонением = 10 лет, “состарилась” еще на 15 лет. Теперь = 30 лет, а среднеквадратическое отклонение будет по-прежнему равно 10 лет. Совокупность, ранее бывшая неоднородной () со временем оказывается, таким образом, вполне однородной (10/30100 = 33,3 %).
8 Следует учитывать, что достаточно много статистических и просто экономических показателей по своему содержанию не могут изменить свое численное значение на 1. Например, доля рабочих в общей численности, доля затрат на покупные комплектующие, доля брака в производстве и т.п. В этих случаях интерпретируется изменение признака Х на 0,01 своей величины
9 Надо иметь в виду, что при этом оценивается не сама нелинейная функция, но ее линейное преобразование, а это может вызвать смещение оценок параметров.
10 Однокачественность уровней временного ряда предполагает, что в пределах всего изучаемого периода, к которому относятся уровни, проведена типологическая группировка. После выделения однородных групп могут использоваться и анализироваться уровни ряда.
11 Например, численность скота в домашнем хозяйстве на 20.11.1980 г. и 20.11.1990 г. качественно различается в связи с ранней зимой 1980 г., что привело соответственно к раннему забою скота. Регистрацию таких процессов лучше выполнять в “нейтральные” даты. Это середина зимы, когда забой прекращается, и середина лета, когда процесс появления приплода стабилизируется и заканчивается.
12 При ручных расчетах обычно уровни нумеруют таким образом, чтобы Σt = 0.
13 Заметим, что более полные уравнения авторегрессии можно получить на основе анализа автокорреляционной функции, когда определяются число параметров (0, 1, 2, ...; 0, 1, 2, …) и соответствующие этим параметрам величины лагов.
14 И наоборот, агрегатная форма общего индекса позволяет выбрать взвешивающий показатель при расчете общего индекса в виде средней величины.