Поможем написать учебную работу
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
Если у вас возникли сложности с курсовой, контрольной, дипломной, рефератом, отчетом по практике, научно-исследовательской и любой другой работой - мы готовы помочь.
3.2 Материалы заседания 2
___________________________________
ИННОВАЦИОННЫЕ КОМПЬЮТЕРНЫЕ МЕТОДЫ ДЛЯ ДЕМОГРАФИЧЕСКИХ ОПРОСОВ ИНФОРМАЦИИ О НАСЕЛЕНИИ
Арий Деккер
___________________________________
1. Введение
1.1 Подходящая технология
Данный доклад написан для одной из нескольких встреч экспертов, субсидированных Фондом народонаселения ООН, в процессе подготовки цикла переписей населения 2000 года. Первоначальная цель доклада предоставление обзора последних, но проверенных технологических разработок, представляющих интерес для развивающихся или недавно появившихся стран. Инновационные методы, которые все еще находятся на экспериментальной стадии, могут здесь быть также упомянуты, но глубоко обсуждаться не будут. Такие идеи представляют интерес для исследовательских отделов государственных статистических организаций развитых государств. Их немедленный перенос для практического применения в менее развитые окружения вряд ли является разумной стратегией.
Конечно, государственные статистические организации во всех странах поступают правильно, внимательно следя за развитием инновационных методов, разработанных в других местах. Однако введение их без независимой предшествующей критической оценки может быть связано с риском, которого можно избежать, если продолжать использовать традиционные проверенные временем методы. Новые высокотехнологичные методы следует серьезно обсуждать только тогда, когда их преимущества очевидны, а связанный с ними риск неудачи достаточно мал, чтобы не принимать его во внимание.
При обсуждении этих вопросов необходимо учесть, что хотя страны и их государственные статистические организации явно находятся на разных стадиях развития, не следует противопоставлять развитые и развивающиеся страны. На самом деле каждая страна имеет свой собственный набор условий, который определяет, будут или не будут определенные статистические методы полезны или применимы. Например, если некоторые страны имеют рабочую силу с многими подходящими навыками, но недостаточные финансовые ресурсы для обеспечения техническими средствами и программным обеспечением, то в других местах имеет место прямо противоположное. Большие различия в размере между государствами как в физическом плане, так и в численности населения, также очерчивает общие выводы относительно рискованного предприятия.
Можно сказать, что в каждой стране люди, планирующие перепись населения или большое демографическое обследование, должны принимать во внимание два основные исходные пункта. Первый: какие проверенные на международном уровне технологии и концепции есть в мире и в каком направлении они движутся? Второй, в равной степени важный: какие информационные требования в нашем специфическом контексте и какие технические методы соответствуют этим условиям? Среди факторов, которые необходимо принять во внимание по этому пункту, накопленный ранее опыт, уровень местных служб поддержки, инфраструктура, трудовые навыки и аспекты затрат. Отдельно можно упомянуть, что статистическая работа может быть полезным средством введения инновационной технологии в стране. Но это не должно происходить ценой риска неудачи или чрезмерных затрат.
Современный переход от цельных систем больших ЭВМ к составным небольшим микрокомпьютерным системам, связанным в сети, является преимуществом для пользователей в менее развитых странах (Ellis, 1994). Лучшая доступность, меньшие требования к окружению и более легкое использование, по крайней мере внешне, современных компьютерных систем уменьшили препятствия, которые в прошлом преграждали путь к прогрессу. Использование современной апробированной технологии в статистических операциях вошло в практику многих государственных статистических организаций.
1.2 Техническое знание и навыки
Многие развивающиеся страны еще не ввели в должной мере современные технологии обработки данных и продолжают применять устаревшие концепции и оборудование. Основной причиной часто является недостаточность нужных навыков и знаний в статистических службах. Проблемы в этой области хорошо известны: персоналу недостаточно хорошо платят, и он уходит в частный сектор или за границу как только возникнет возможность. Формирование навыков через обучение не институциализировано и, следовательно, зависит от редких случайных возможностей; не всегда могут быть выбраны наиболее подходящие кандидаты. Учебники и справочники отсутствуют, трудно доступны, или слишком сложны, особенно там, где английский язык является иностранным языком.
Следует упомянуть, что даже с этими различными препятствиями статистические службы являются плодотворной почвой для компьютерных специалистов, которые продвигаются к эффективной карьере повсюду. Однако это небольшое утешение для руководящего персонала, который испытывает трудность в работе с существующими уровнями навыков, не говоря уже о расширении в новые области.
Между методами обработки данных для больших статистических опросов в основах существует много общего. Нужно упомянуть в этом отношении, что многие страны проводят переписи сельского хозяйства и предприятий, которые требуют одинаковых навыков и обеспечивают более продолжительную работу для специалистов. К сожалению, государственная статистическая структура может послужить препятствием, поскольку за сбор данных ответственны разные организации. Это побуждает к творчеству со стороны статистических властей в организации команд по проектам, использовании персонала на временной основе или инициировании других форм полезного распределения ресурсов.
1.3 Обучение, сбор информации и техническая помощь
Вероятно, естественно, что статистический персонал будет всегда сравнительно низко оплачиваемым. Более того, в тех развивающихся странах, где в настоящее время происходит значительное экономическое развитие, в ближайшем будущем потребность в компьютерных навыках будет высокой. Таким образом, у статистических служб нет другого выбора как предпринять компьютерное обучение на непрерывной основе (как это на самом деле уже наблюдается в некоторых местах). Никто просто не может обучить так много персонала, как это необходимо сегодня, и закончить с этим. Продолжающаяся “утечка мозгов” и непрерывно развивающаяся технология требуют структурированного и постоянного обучения и программ по сбору информации, что обеспечивает постоянный приток соответствующих навыков. Отсутствие или постепенное исчезновение необходимого человеческого таланта поставит статистическую службу в затруднительное положение, даже если стоимость технического и программного обеспечения будет продолжать снижаться.
Необходимо отметить в этом отношении, что жесткое различие между статистиками и персоналом по обработке данных, еще сохраняющееся во многих странах, не решает проблему. Сегодня опытные статистики должны хорошо разбираться в методах обработки данных и в значительной мере брать на себя ответственность за выполнение задач этой обработки. Подобным образом, можно ожидать, что эксперт по обработке данных, работающий в статистическом окружении, имеет приемлемое понимание предмета. Статистики часто имеют много качеств, благодаря которым их легко обучать информатике, где требуются навыки уже знакомого логического мышления. Включение обучающихся статистиков в число потенциальных кандидатов для базового и усовершенствованного компьютерного обучения служит нескольким целям: это увеличивает количество возможных обучающихся, отражается на персонале с развитыми способностями и обеспечивает статистиками с дополнительными профессиональными интересами и возможностями карьеры.
Таким образом, перед обсуждением деталей инновационных компьютерных методов в статистике может быть полезно подчеркнуть, что улучшенное применение существующих и апробированных методов может обеспечить большие непосредственные преимущества, чем многообещающее исследование самых последних идей. Создание последовательной программы обучения является важным шагом на этом пути. Фактически серьезное использование обучения на рабочих местах и отношение к нему как к главной обязанности организации-работодателя будет важным нововведением во многих странах. Это заслуживает поддержки всех, кто заинтересован в постоянном потоке необходимой надежной и своевременной статистической информации.
Большинство более крупных статистических организаций в развитых странах основали постоянные программы обучения на местах, хотя некоторые из них начаты только недавно. Эти организации признали преимущества постоянного обучения их служащих и сейчас выделяют бюджетные средства для учебных отделов, разработки учебных программ, обучения инструкторов и замен действующего персонала, который временно не выполняет свои нормальные обязанности. Это может гарантировать, что начатый технический прогресс пустит корни и распространится по всей организации.
В развивающихся странах часто поддержка исходит от донорских организаций, особенно от Фонда народонаселения ООН, для особых демографических опросов, которые имеют большое значение. Где необходимо, вместе с финансовой и технической помощью, приходящей от донора, обеспечивается техническое руководство в обработке данных. Действительно, Фонд народонаселения ООН создал девять региональных групп поддержки стран в целях предоставления технической помощи по проектам на обширной территории. Этот региональный подход исходит из более ранней и более централизованной поддержки. Работа в скоординированных группах и ближе к целевым странам имеет явные преимущества по сравнению со сложившимся порядком. Могут быть и недостатки, особенно в быстро меняющихся областях, таких как компьютерная обработка данных, сети и передача данных. Специалисты по информатике, долгосрочно пребывающие в отдаленных столицах, должны принимать участие в текущих, периодически повторяющихся программах усовершенствования знаний, чтобы защититься от риска отставания.
Таким образом, необходимость в постоянном образовании в развивающейся среде, также как и везде, должна быть понята не только самими статистическими службами, но также донорскими организациями, которые действуют на основе проектов. Слишком часто проект признается успешным, если проведено желательное обследование и сделана публикация. Это ограниченная точка зрения. Проект может быть назван завершенным только тогда, когда навыки, требуемые для осуществления подобной задачи снова, основательно внедрены в такую же организацию и не зависят от продолжающегося наличия лишь одного или двух человек персонала. Созданная основа компетентности должна поддерживаться обменом с экспертами во внешнем мире. Этой цели могут содействовать встречи, такие как эта, для которой написан настоящий доклад, а также легкий доступ и свободное использование современных средств информации, таких как Интернет. В некоторых странах опыт, полученный в более раннем проекте переписи населения, исчезал ко времени следующей переписи. Ввести структуру поддержки для постоянного образования, вероятно, является довольно высокой целью и, конечно, заслуживает дальнейшей разработки. Однако данная дискуссия выходит за рамки этого доклада.
В разделах 25 мы рассмотрим несколько методов и технику, которые недавно выдвинулись на первое место, исследуем их настоящий статус и применимость в среде развивающихся стран. Систематическое обсуждение обработки обследований и переписей, обзор различных фаз статистических мероприятий от разработки обследования до распространения и анализа рассматриваются в докладе, подготовленном для Встречи группы экспертов ООН по Всемирной программе переписей населения и жилья 2000 года, проводимой Отделом статистики ООН в Нью Йорке (Dekker, к 1996 году). Эта встреча, первоначально запланированная на ноябрь 1995 года, в настоящее время была отложена на вторую половину 1996 года.
1.4 Программные операционные среды
Так как инновации в компьютерной технологии и родственные области выдвигаются вперед, статистические организации оказываются перед вопросом, какую программную операционную среду(-ы) выбрать. Этот вопрос можно разделить на две части:
i) Какие стандартные пакеты программ будут использованы?
ii) Какой будет основная операционная система? Так как многие пакеты программ пригодны только для определенных операционных систем, эти вопросы связаны.
При выборе предпочтительных пакетов программного обеспечения выяснится, что многие общедоступные прикладные системы, предназначенные для общего использования автоматизация офисных операций, проектирование, даже картографирование в настоящее время наиболее активно разработаны и поддерживаются средой Microsoft Windows. Статистические системы программного обеспечения редактирование, составление таблиц, анализ обычно отстают и могут существовать только в версии для DOS. Их версии для Windows вероятно находятся в стадии разработки, но они не проверены и не готовы к применению. В этих проектах обычны значительные задержки. Что касается локальных вычислительных сетей (ЛВС) и серверов, ситуация такова, что более общедоступными являются другие операционные среды: Novell Netware, Microsoft LAN Manager и IBM LAN Server для управления ЛВС, UNIX и Windows NT для сервера приложений и сервера Интернет. Территория ни в коем случае не делится; функциональные возможности и коммерческие союзы между разработчиками постоянно меняются. Пользователям трудно сравнивать различные продукты по цене и качеству, не говоря уже о предсказании, кто будет возможным победителем в этих соревнованиях.
Следование общераспространенным тенденциям в базовых программных средствах вызывает необходимость поддерживать ряд операционных сред, каждая из которых имеет свой собственный путь развития. Поддержка на необходимом уровне нескольких таких систем не только будет забирать много времени у квалифицированного персонала, но и будет также дорогостоящей. К сожалению, в настоящее время нет простого выхода из этой дилеммы. Конечно, статистическая служба может и должна контролировать количество поддерживаемых прикладных программ, ограничивая пользователей выбором только одной или двух программ в каждой категории. Но использование настольных компьютеров, локальной сети и узла Интернет будет почти всегда означать, что требуются знания по нескольким операционным системам. Даже если Microsoft Windows надежно укрепилась, функциональные возможности Windows-95 и ее пригодность как многопользовательской платформы является недостаточными, чтобы рекомендовать ее в качестве стандартного решения. Некоторые наблюдатели считают, что новые версии Windows NT возможно будут предоставлять обширные ресурсы, необходимые для обеспечения почти всех требований. Это упростит жизнь разработчикам программного обеспечения и пользователям, но преобладание одного коммерческого продукта может также принести нежелательную монопольную власть его изготовителю.
1.5 Внешние ресурсы
Все более признается, что у статистической организации не всегда существует необходимость мобилизовать все внутренние возможности и навыки, требующиеся для переписи. Действительной альтернативой чаще всего является наем внешних подрядчиков, которые могут работать за более низкую оплату, быстрее и более профессионально. Это возможно потому, что они уже компетентны в этой работе, имеют опытный персонал, а также необходимое готовое к работе оборудование. Среди областей, где внешние ресурсы могли бы быть альтернативой, являются картографирование (полевые карты и специализированные атласы), сбор данных и подготовка специальных выходных продуктов, таких как компакт-диски.
Преимущества исполнения работ на основе контрактов следует сопоставить с определенными отрицательными сторонами. Статистическая служба в любом случае будет нуждаться в соответствующих квалифицированных специалистах, чтобы детализировать работу и руководить ею. Это является в значительной степени дополнительными расходами. Влияние эффекта “выхода из штопора” переписи в отношении улучшенной технологии и оборудования в офисе будут сокращены. Если что-то идет очень плохо подобно тому, что подрядчик серьезно не выполняет своих обязательств исправляющее действие может быть более трудным. И службы подрядчика, такие как поставщик карт, могут стать такими незаменимыми, что компанию, занимающую отталкивающе сильную коммерческую позицию, нелегко будет заменить. Последнее требует внимательной формулировки контракта, где, например, основные карты могут быть депонированы у третьего лица для обеспечения постоянного доступа к ним. Подобные условия часто практикуются разработчиками программного обеспечения и их клиентами.
Возможности использования внешних ресурсов различаются от страны к стране. Все еще чувствуется, что в этой области есть важные возможности, которые не были использованы из-за недостатка дальновидности или бюрократических препятствий. Использование внешних ресурсов следует рассматривать как серьезный выбор в проектировании переписи, учитывая при этом его достоинства в каждой определенной ситуации.
2. Управление переписью/обследованием и его разработка
2.1 Компьютерное планирование и управление
Перепись населения или крупное демографическое обследование требует внимательного и детального проектирования, организации и управления. В этом отношении она не отличается от любого другого крупного проекта. Однако особенно в случае переписей населения, повторяющихся каждые десять лет, проект может быть уникальным по организации в том смысле, что никакой деятельности подобного масштаба и сложности не проводилось в недавнем времени или не будет проводиться в ближайшем будущем. Проект переписи является единственным в своем роде, и может не существовать носителя знаний и опыта, относящихся к таким крупным операциям.
Более того, перепись должна соблюдать точные сроки. Период опроса на местах должен быть определен заранее. Откладывание может быть неудобным и разрушительным; оно может быть фактически невозможным из-за необходимости использовать школьные каникулы (чтобы получить резерв счетчиков) и благоприятные погодные условия во время определенного периода года. Что касается обработки после переписи, то, чем больше она займет времени, тем больше устареют полученные результаты. Следовательно, при напряженностях в наличных ресурсах важны быстрые и эффективные процедуры.
Принимая во внимание эти факторы сложности, затрат и напряженности во времени, не нуждается в доказательстве то, что перепись является основным примером мероприятия, где компьютерное проектирование, организация и управление могут быть высокоэффективными. Есть отличные компьютерные пакеты программ, которые можно использовать для поддержки этих задач. Большинство из них имеет то общее, что делает их применимыми к любому крупному проекту. Имеется также некоторое программное обеспечение, специально разработанное для управления переписью (US Bureau of the Census, 1994). Использование компьютеров, как средства управления всей переписью, было далеко от общераспространенного в цикле переписей 1990 года. Таким образом, это должно быть определено как важное нововведение, которое может обеспечить значительные преимущества практически в любой среде.
Выборочные обследования проще по материально-техническому обеспечению, особенно если ряд охваченных случаев не очень большой. Но здесь большое внимание должно быть направлено на то, чтобы правильно установить индивидуальные выборочные единицы, свести на нет неудачные визиты и правильно заменить выбывших и нежелающих сотрудничать респондентов, поскольку каждая ошибка будет умножена весовым фактором. Описана система, специально разработанная для обследований, использующих портативные компьютеры (Hofman, 1995). Ее принципы могут быть применимы в проведении традиционных обследований.
Для того, чтобы компьютерные методы стали частью мероприятий переписи, настоятельно необходимо, чтобы они использовались с самого начала. Многие государственные статистические организации создают специальный отдел или даже отдельный офис для проведения переписи населения. Почти весь персонал, набранный для работы, должен быть компьютерно грамотным. Если не будет найдено достаточно квалифицированных людей, то обучение основного персонала обработки данных должно быть среди первых предусматриваемых видов деятельности. Также как с квалифицированными людьми, как можно ранее должно быть в наличии необходимое оборудование, включая микрокомпьютеры, принтеры, сетевую связь и необходимое программное обеспечение. Если персонал вынужден ждать такие современные средства слишком долго, могут укорениться устаревшие и импровизированные методы, затрудняя их замену позднее.
Даже если сама перепись является уникальной операцией, важно, чтобы культура обработки данных опиралась на предшествующий опыт, то есть укоренилась в способе действий государственной статистической организации. По возможности, следует применять сходное техническое и программное обеспечение для всей статистической деятельности. Это облегчит использование существующего опыта и, позднее, перенос полученного опыта на другую статистическую работу.
Никакое количество программного обеспечения и оборудования не заменит здравое мышление. Когда могут создаваться красивые на вид графики, которые не представляют никакой ценности, наилучшее программное обеспечение проектирования может быть использовано для создания внушающих страх планов. Для того чтобы предотвратить появление таких проблем, руководители переписи должны не просто полагаться на программистов, а прежде всего быть уверенными, что все их планы хорошо продуманы. Далее планы должны быть полностью и правильно реализованы в компьютерной модели, возможно через процесс повторений. Как только начинается текущая работа по переписи, и разработки могут сопоставляться с реальностью, как можно раньше должны быть сделаны поправки в планировании. Применение компьютеров только тогда принесет оптимальные плоды, если информация опроса будет быстро собрана и обновление данных будет проводиться сразу же после того, как появится информация. Менеджеры должны будут руководить этим процессом и следить, чтобы извлечь выгоды из поддержки, содержащейся в системах планирования и управления. Слишком часто отмечается, что управление осуществляется на основе импровизации, а внимательно подготовленный компьютеризованный план обновляется как вид учета. Это, конечно, наносит удар по цели всего процесса.
2.2 Средства разработки
В отдельных странах перепись населения может быть редким событием, но в любом цикле переписи в этом процессе участвуют более 150 стран. Каждая страна должна разработать вопросник, составить план построения таблиц, установить редакторские правила и написать все виды справочников, используемых персоналом, который участвует в различных операциях. Для некоторых из этих работ изданы международные справочники, но до сих пор нет компьютерной системы.
Центр международных программ (IPC) Бюро переписей США в настоящее время предложил план развития такой системы (Brownrigg, 1995). Проходя через серию меню, пользователь может разработать вопросник, словарь данных и план построения таблиц. Лежащее в основе программное обеспечение гарантирует, что каждый из них не имеет отклонений от международных стандартов, иначе разработчик ставится в известность об этом. Среди автоматически получаемых производных продуктов находятся: справочник счетчика, справочник полевого руководителя, справочник по кодированию и канцелярскому редактированию, спецификации набора на клавиатуре и правила автоматического редактирования. Первоначально будет поддерживаться только английский язык. Система будет взаимодействовать с программным обеспечением обработки данных IMPS (US Bureau of the Census, 1994).
Результатом предположительно будет тип готовой разработки переписи, точно отражающий стиль редактирования IPС и другие особенности. Однако ничто не мешает пользователю видоизменять конечные результаты для их лучшей адаптации к местным условиям. План обещает значительную экономию в процессе разработки. Это программное обеспечение, как и многие другие, пройдет через несколько версий, чтобы стать полностью функциональным. Однако IPC предложил то, что несомненно можно назвать инновационной идеей в области программного обеспечения по населению, и есть надежда, что будет найдено финансирование для поддержки завершения системы до цикла переписей 2000 года.
Исследование того, насколько полезны различные типы разработки вопросников, справочников и способов распространения результатов, входит в сферу науки о познании. Существуют многочисленные примеры документов переписи, которые на самом деле так плохо написаны, разработаны или воспроизведены, что это должно отрицательно влиять на их эффективность. Беспристрастное рассмотрение таких вопросов, вероятно, принесет важные идеи для усовершенствования. Лучшей альтернативой будет проверка специалистами в области познания (особенно из коммерческой сферы) и полевое апробирование альтернатив, особенно в разработке вопросников.
2.3 Служебная связь
Крупный статистический опрос требует многочисленного персонала, значительная часть которого находится в поле, иногда перемещаясь от места к месту. Некоторые приняты на работу временно. Непредвиденные ситуации могут возникнуть там, где опасны поспешные действия, особенно относительно даты переписи. Эта сложная ситуация создает большую потребность в связи, которую трудно адекватно обеспечить, особенно в странах с неразвитой инфраструктурой. Там, где расстояния велики, телефон ненадежен и почтовая служба затрачивает много времени, полевой персонал вынужден работать в сравнительной изоляции, которая может привести к неправильным концепциям, характеризующимся долговечностью. Проблемы могут усложняться трудностями расчета, когда не ясно, кто будет платить или компенсировать издержки по связи.
Проблемы могут быть частично решены путем децентрализации, у которой много сопутствующих преимуществ. Однако степень технической поддержки и финансовой ответственности, которая может быть распространена на региональные бюро, ограничена из-за недостатка квалифицированного персонала и финансовых ресурсов. Удовлетворительной альтернативы эффективным системам связи по всему проекту переписи/обследования нет.
Многие страны обновляют свои телефонные системы, используя спутники и волоконно-оптический кабель. Это, а также разработка специальных модемов для шумных телефонных линий позволила наладить электронную почту с использованием персональных компьютеров как полезного нового средства внутренней коммуникации. Преимущества таковы:
i) Нет необходимости во встречах для прямого контакта;
ii) Меньше бумаги в обороте;
iii) Быстрота;
iv) Автоматизированные процедуры позволяют определенную степень использования автономного режима выполнения операций.
Наилучшим путем организации электронной почты может быть частная электронная доска объявлений (см. раздел 5. 1). Это позволит организовать список часто задаваемых вопросов (FAQ) и распространение сообщений для всех участников. Информация, предназначенная только для одного получателя, может быть защищена паролем. Для электронной почты можно также использовать специализированное программное обеспечение, такое как Lotus Notes. Типичная связь в переписи может иметь отношение к персоналу, счетам, планированию и продвижению мероприятий, существенным вопросам и горячей линии переписи.
2.4 Управление качеством
В любом крупном и сложном проекте стараются достичь уровня качества, который соответствует установленным стандартам во всех мероприятиях. Очевидно, что одна неправильная фаза в проведении переписи может полностью испортить все результаты. Но не обязательно тратить время и деньги, чтобы усовершенствовать определенную операцию сверх того момента, где оставшиеся дефекты уже имеют незначительное влияние на качество в целом. Среди многих мероприятий, где качество является важным фактором, находятся картографирование, обучение персонала, занимающегося переписью, сбор данных, кодирование и обработка запросов на информацию.
Существуют систематические методы обзора всех процессов в определенных системах, чтобы быть уверенным, что они хорошо разработаны, правильно документированы и согласованы в отношении взаимосвязей и качества. Такой обзор наилучшим образом проводится внешними специалистами, которые не имеют предвзятых мнений и не преследуют личные корыстные цели. Это может вести к государственной аттестации по нормам стандартизации ISO серии 9000. Хотя аттестация ISO стала общепринятой и, действительно, является маркой качества для коммерческих разработчиков, нет никакой информации о каких-либо статистических проектах, рассмотренных с этой целью.
Для того чтобы осуществлять управление качеством (или “контроль качества”), необходимо определить каждую главную операцию и ее структурные компоненты. Для каждой элементарной задачи должны быть оценены затраты, а также ее качество в отношении действия на конечный продукт. Простейшим примером является массовое производство, в котором дефектная часть делает негодным конечный продукт. Потом, когда затраты на улучшения, а также их влияние на конечные коэффициенты отбраковки известны, стоящие улучшения могут быть просто внесены в список в порядке приоритетности.
В статистике возможно, конечно, вычислить стоимость каждой элементарной операции и финансовые результаты возможных усовершенствований. Это должна быть легко доступная управленческая информация, полученная в процессе планирования. Качество каждой части работы может быть определено методами, подобными тем, которые применяются в обследованиях после переписи: возьмите выборку, повторите работу очень внимательно и сравните два результата. Однако влияние каждого дефекта на конечный продукт измерить труднее. Тем не менее принципы управления качеством заслуживают более пристального внимания в большинстве мероприятий переписи.
3. Картографирование и полевые операции
3.1 Картографирование
Пространственная информация в форме карт местности необходима в течение всей переписи, но главным образом в начале, когда данные собирают в поле, и в конце, когда в публикациях и других формах распространения данных необходимо принять во внимание географическое распределение статистических показателей. В последние годы компьютерное картографирование достигло больших успехов, среди других причин, в связи с появлением географических информационных систем (ГИС). Сами переписи не являются основой ГИС, но они весьма важны как источники информации для таких систем.
Полевым счетчикам обычно необходимы карты местности малых территориальных единиц, чтобы знать их размеры и местоположение жилых районов. Такие карты обычно готовятся полевыми картографическими группами, которые работают на основе существующего картографического материала. Используется также аэро- и спутниковая фотосъемка. Аэрокартографирование особенно эффективно в густонаселенных городских районах трущоб, которые не имеют четко определенных границ или улиц. Недавней разработкой является глобальная система позиционирования (GPS), которая дает точное определение долготы, широты и высоты любого местоположения на земной поверхности, используя известное положение 24 (в настоящее время) геосинхронных спутников (Suharto and Benzine, 1994). Этот метод может найти применение в картографировании для переписи в отдаленных и малонаселенных районах. Он также определенно может использоваться в географической выборке, которая необходима для некоторых сельскохозяйственных и экологических обследований. Полевой персонал, оснащенный все более доступным оборудованием GPS, может получать координаты своего местоположения одним нажатием кнопки. Любой фиксированный объект, такой как дом или электрический столб, однажды правильно геокодированный, позднее довольно легко может быть найден снова. Новая технология изменила значение термина геокодирование. Ранее он означал для создание схемы полного иерархического кодирования местностей по принципу сверху-вниз. В настоящее время, как уже обсуждалось, он используется главным образом в процессе привязки точных координат к объектам на земле. Эти понятия, конечно, разные и их следует различать.
Карты счетчика обычно начерчены на копировальной бумаге или на пластиковой пленке. Подготовка и копирование большого количества начерченных вручную карт требует специального умения и средств. Сохранение их от переписи к переписи иногда было проблематично, особенно там, где временные службы переписи закрываются между переписями. Для детального обзора картографирования для переписей см. Suharto and Vu (1995).
В настоящее время возможной альтернативой является компьютеризация всей этой операции. Чертежными инструментами могут быть мышь или дигитайзер, возможно, в комбинации со сканером для быстрого ввода имеющихся базовых карт. Чертежник будет видеть продвижение работы на мониторе компьютера. Промежуточные и конечные продукты будут храниться на компьютерных носителях и, таким образом, могут быть легко защищены от износа. На компьютерных принтерах можно быстро распечатать необходимое число копий. Можно спорить, что вложения в оборудование велики, однако те же компьютеры могут позже использоваться для других задач обработки.
Что касается требуемого программного обеспечения, следует отметить, что для полевого опроса необходимы только схематические карты. Они должны быть легко понимаемы и недвусмысленны, но, как внутренние документы, они могут не соответствовать тем требованиям, которые предъявляются к картам для публикаций. Фактически, для подготовки карт скорее могут подойти простые чертежные программы, чем специализированные картографические системы. Результатом будет то, что известно как растровая карта. Карта хранится как изображение в цифровом виде и точно также, как любой другой тип изображения, может быть записана.
Векторные карты создают более сложными методами, сохраняя каждый графический элемент на карте как один или нескольких математических векторов (текст хранится как строки). Полевые карты переписи в векторном формате обычно подготавливают лишь с тем количеством подробностей, которое необходимо для этой конкретной цели. Они занимают значительно меньше места на машинных носителях информации, чем растровые карты. Благодаря своей природе наборов координат, они также значительно более пригодны для последующей компьютерной обработки. Но подготовка векторных карт требует более значительных вложений в получение квалификации, оборудование и затраты времени персонала.
В этом случае, предпочтительным чертежным инструментом должен быть дигитайзер. Когда оператор прослеживает линии на бумажной карте, которая прикреплена к дигитайзеру, его движения будут автоматически переведены в векторные координаты. Возможно также сначала сканировать карту, которая будет оцифровываться, и вывести ее на монитор, а потом проследить линии перекрестием курсора. По очевидным причинам это называется “оцифровкой на экране”. Векторные карты для малых территориальных единиц могут быть объединены при помощи компьютера, чтобы охватить большие территории, устраняя необходимость в отдельной оцифровке карт более высокого уровня для использования руководителями и контролерами.
Создание эффективных карт переписных участков требуют навыков, будь-то традиционное или компьютерное черчение. Вовлеченному в работу персоналу необходимо пройти обучение и продемонстрировать склонность к этой работе. Технические средства для хранения, а также быстрой и эффективной выборки карт, также чрезвычайно важны. Разработчики приложений будут должны разработать соответствующие соглашения относительно хранения и присвоения названий. Система полного и логического кодирования местности, которая кодирует районы всех географических уровней систематическим и легко понимаемым образом, является основным требованием всей переписи.
Эффективные процедуры резервного копирования для защиты работы от случайных потерь важна здесь, как нигде более. Так как объемы данных довольно велики, обязательным является хорошее планирование первичных и вторичных требований к хранению. Сложностью, остающейся за пределами контроля разработчиков, является обширная область конкурирующих форматов хранения для растровых и векторных карт. Нельзя быть уверенным в том, что формат, выбранный сегодня, будет поддерживаться другим программным обеспечением, которое будет использоваться в следующей переписи через десять лет.
По окончании переписи пространственное представление мероприятия в форме тематических карт будет использоваться для распространения данных. Эти карты могут также готовиться черчением вручную, но быстрее и более согласованно, если используются системы компьютерного картографирования. В этом случае настоятельно рекомендуется использовать только специализированное программное обеспечение картографирования, которое имеет различные уровни сложности и стоимости. Хотя это требует больших навыков, чем применение простого чертежного программного обеспечения, возможности поддержки системы географических координат, тематической штриховки, вклейки и так далее, обеспечивают достаточную компенсацию. Такие компьютерные карты могут быть импортированы прямо в публикации, ускоряя их подготовку, давая более цельные результаты и снижая среднюю стоимость страницы. Это позволит учреждениям переписи расширить и обогатить свои программы публикаций. Если карты не распечатаны, а распространены в форме файла, который можно прочесть на компьютере, можно использовать термин “электронный атлас переписи” (Бюро статистики США, 1996), который по своей точности и оправданной умеренности более предпочтителен по сравнению с “ГИС переписи”.
Карты для публикаций обычно готовятся в векторном формате. При необходимости любую векторную карту можно преобразовать в растровую цифровым сканированием. Обратная операция обычно требует ручной оцифровки, как описано выше, но некоторые компьютерные программы могут справится с большей частью этой задачи автоматической “векторизацией” подходящего сканированного изображения. Есть перспектива, что одна такая программа, MapScan, может в скором времени стать бесплатно доступной от Отдела статистики ООН (см. снова Suharto and Vu, 1995).
Если векторные карты используются для картографирования переписных участков, а также для целей распространения данных, то все картографирование может осуществляться в одной системе, что более эффективно. Карты более высокого уровня для публикаций могут потом формироваться автоматически, путем объединения карт переписных участков. Возможность автоматического составления карт на всех географических уровнях существующих базовых единиц имеет определенную привлекательность. Но следует также учитывать, что создание базовых векторных карт достаточного качества для этой дополнительной цели требует большого труда, и что опубликованные карты должны в любом случае отвечать другим требованиям, чем полевые карты. Следовательно, сформированная карта высокого уровня обычно будет требовать дополнительной работы перед тем, как она может быть использована.
Можно сделать ошибку, если использовать сложное картографическое программное обеспечение, которое по существу предназначено для специализированных географов. Оно может быть чрезмерно сложным для использования картографами бюро переписи. Следует отметить, что карты в статистических публикациях должны быть профессионально надежными, но они не должны конкурировать со специализированными картографическими продуктами. Если кто-то намеревается подготовить атлас переписи высочайшего профессионального стандарта, то этот проект может быть лучшим образом осуществлен статистической службой в сотрудничестве с национальным географическим агентством или подобной ему организацией.
Некоторые цифровые результаты распространения переписи в цикле 1990 года содержали модуль для подготовки тематических карт налету. В этом случае пользователь определяет тему и интересующий его район, а программное обеспечение потом выдает таблицу результатов и карту(-ы), которые можно также распечатать. Это очень эффективно при предоставлении информации в гибкой форме непосредственно в компьютерную систему пользователя, который в дальнейшем может извлекать любую необходимую ему информацию. Конечные таблицы и карты могут импортироваться в публикации или использоваться другим способом. Совсем не обязательно встраивать модуль картографирования в продукт распространения, так как удобный интерфейс к общепринятому программному обеспечению общецелевого картографирования может быть в равной степени эффективным. Этот вопрос обсуждается далее в разделе 5.2 о статистических и демографических базах данных. Хорошо известным примером страны, широко использовавшей компьютеризованное картографирование в начале и в конце переписи, является Зимбабве (перепись 1992 года).
3.2. Сбор данных
Традиционным методом сбора данных является собирание от дома к дому, в котором интервьюер заполняет бумажный вопросник во время одного или нескольких интервью в домохозяйстве. Это требует целой небольшой армии обученных интервьюеров, порождает проблемы управления, а также имеет высокую стоимость. Понятно, что было обсуждено много альтернатив, которые могли бы, вероятно, увеличить эффективность и уменьшить затраты на сбор данных. Некоторыми из этих альтернатив являются:
i) Требовать от домохозяйств заполнять вопросники, предоставляя помощь счетчика только в случае трудностей;
ii) Посылать и/или получать по почте почтовая служба используется, чтобы распространять вопросники и/или собирать их;
iii) Телефонные интервью использовать телефон для проведения интервью или выяснять явные проблемы по вопроснику;
iv) Предварительно распечатать вопросник с уже известной информацией, касающейся домохозяйства, такой как имена членов семьи и даты их рождения такая информация может быть доступной из гражданского и других регистров;
v) Провести перепись по регистрам, то есть не интервьюировать респондентов, а извлекать информацию непосредственно из всех видов второстепенных источников, таких как различные правительственные регистры (Corby, 1994).
Все методы имеют сходство в том, что они зависят от того, что в широком смысле можно назвать уровнем развития страны. Если большинство домохозяйств имеют грамотных членов, то может быть целесообразным пункт i). Если есть хорошо развитая почтовая служба, может рассматриваться пункт ii). Там где существуют широко распространенные телефонные службы, возможны телефонные интервью iii). Пункты iv) и v) зависят от существования надежной и достаточно полной системы гражданской регистрации.
В большинстве развивающихся стран многие из этих условий, вероятно за исключением общей грамотности, пока не выполнены. Следовательно, такие методы, увеличивающие эффективность сбора, не могут быть применены, кроме, возможно, определенных городских районов.
Некоторые передовые страны используют ряд методов сбора, зависящих от того, насколько “трудным” ожидается определенный район. Это позволяет переместить ресурсы в эти регионы, при этом экономя в других местах, где, например, самоперепись будет давать результаты приемлемого качества. Чтобы распределить районы по классам, необходимо начать с надежной статистической информации. Необходимо также справиться с дополнительными организационными накладными расходами, связанными со сбором данных.
Еще раз следует отметить, что традиционные методы должны быть отброшены или изменены только тогда, если очевидно, что альтернативы будут работать. Иначе можно столкнуться со значительными проблемами. Например, если принята методика возврата вопросников почтой и существенный процент домохозяйств не вернул пригодные ответы, то стоимость организации последующих визитов может превзойти затраты на мероприятие обычного сбора, не говоря уже о том, что такие неудачи могут повлечь за собой задержку и замешательство (Groves, 1995). Любое нововведение следует внимательно оценить путем одной или нескольких экспериментальных проверок. Нельзя сказать, что полный опрос счетчиком является методом, свободным от риска. Статистические и политические трудности, появившиеся в переписи США 1990 года, где явный дифференциальный недоучет (по определенным группам) привел к затянувшимся дискуссиям, доказали обратное (Choldin, 1994).
4. Офисная обработка
4.1 Ввод данных
Для перевода вопросников в файлы для компьютерной обработки, нормой был ввод данных с клавиатуры. Обычно также применялась некоторая форма верификации методом повторного ввода. Машина ввода данных потом подтверждает, что данные в обоих случаях идентичны, а если нет, то оповещает сигналом тревоги, давая возможность проверки. Полная верификация довольно дорогостоящая, поэтому основные данные обычно верифицировались при помощи некоторой формы выборочного контроля. Это может выявить отстающих работников среди персонала ввода данных и обеспечить приемлемый общий уровень качества. Однако некоторые низкокачественные данные могут проскользнуть.
Со временем ввод данных с клавиатуры перешел от механических перфораторов к сетевым микрокомпьютерам со специализированным программным обеспечением, направляющим операторов, вводящих данные. Это само по себе улучшило эффективность и качество работы. Правильно запрограммированные пакеты программного обеспечения могут защитить от ошибок или найти многие ошибки оператора, определяя путь через вопросник (обходя не относящиеся к делу вопросы) и останавливаясь на ошибках диапазона или несовместимости. Однако такие остановки в определенных случаях могут быть непродуктивными когда оператор не может сам решить, какая модификация данных необходима.
В дополнение к постепенному введению все более совершенного клавиатурного оборудования с лучшими возможностями, имеется множество попыток радикального перехода к методам автоматического ввода данных. Большинство использует некоторую форму оптического считывания: меток, только цифровых символов или всех символов. Такие методы автоматического считывания обещают исключить человеческие ошибки, являющиеся неизбежным побочным продуктом ввода с клавиатуры. Они сократят проблемы управления и могут снизить затраты. Наконец, возможно наиболее важное следствие: они дают возможность значительно уменьшить запаздывание между сбором данных и публикацией результатов переписи. Эти преимущества обходятся дорогой ценой: увеличивается риск ввода неапробированных или плохо поддерживаемых на местах технологий. Хотя методы оптического считывания известны в течение какого-то времени, нельзя сказать, что ими последовательно овладевают. Пожалуй, есть пример колебания: некоторые страны испробовали методы оптического считывания только для того, чтобы вернуться к традиционному вводу данных с клавиатуры. Тем не менее в последние годы автоматическое считывание и различные связанные с ним методики начинают приближаться по распространенности к традиционным методам.
Самым простым методом оптического ввода данных является оптическое считывание меток (OMR). Позиция метки в листке ответов является указателем определенного ответа, который считывающее устройство запишет как код в выходной записи. Если процесс хорошо разработан и проверен (должное качество бумаги, аккуратная распечатка, внимательное маркирование, правильное обращение с листами), на метод OMR можно положиться в отношении обеспечения отличных результатов по скорости и точности. Этот метод находит свое главное применение в индустрии торговли и в исследованиях с многократным отбором. Поэтому производители оборудования могут быть не очень знакомы с его применением в официальной статистике.
Формы OMR требуют так много маркированных позиций, сколько существует альтернатив для определенного однопозиционного кода. Как следствие, маркирование буквенными символами для ввода слов весьма непрактично. Наилучшее использование метода может быть достигнуто там, где ответы легко предварительно кодируются, и количество вариантов невелико. Поэтому OMR может хорошо подходить для больших переписей, использующих относительно простой вопросник. Хорошим примером явилась перепись 1991 года в Бангладеш, которая была проведена почти полностью с использованием формы для OMR с дополнительным углубленным обследованием около 1% домохозяйств при помощи традиционных вопросников. Даже если условия окружающей среды в Бангладеш не благоприятствовали тонкой технологии, применение OMR в этом случае было полностью успешным.
Оппоненты применения OMR в развивающихся странах указывают на факт, что это не обязательно принесет финансовые преимущества, так как бумага и печатное оборудование чаще всего являются дорогостоящим импортом. Формы должны быть разработаны в соответствии с требованиями метода считывания, что сокращает возможности их оптимизации для использования человеком. В противоположность вводу с клавиатуры, после этой операции не остается офис с большим количеством полезных микрокомпьютеров. OMR также не создает особых возможностей занятости, отсутствует положительный эффект обучения многочисленного персонала ввода данных, который может построить свое будущее на основе новоприобретенных навыков набора.
Следующим шагом после OMR является оптическое считывание (или “распознавание”) символов (OCR). В случаях, когда для анализа символов используются усовершенствованные программные методы, применяется также акроним интеллектуальное распознавание символов (ICR). Большинство современных прикладных программ OCR работают только с печатным текстом. В этой ситуации большинство шрифтов в настоящее время могут быть распознаны без больших трудностей. Однако в сборе статистических данных обычно имеют дело с рукописными ответами. Хотя распознавание рукописных записей многие годы является темой интенсивного исследования, оно все еще находится на стадии экспериментов. Коэффициент распознавания рукописных буквенных символов, где пишущий “неизвестен” машине, обычно еще считается слишком низким для практического применения (Archer and Scott, 1995a). Поэтому применение OCR в статистике обычно ограничивается цифровыми символами в форме кодов и количеств. По сравнению с OMR, OCR имеет большое преимущество в не намного большем требовании к пространству для записей ответов, чем в традиционном вопроснике. Словесные ответы обычно кодируются цифрами до того, как форма OCR обрабатывается машиной.
Методы OCR, даже если они ограничены цифрами, должны быть тщательно проверены до принятия. Существует ряд “ловушек”, которые отсутствуют при вводе с клавиатуры. Например, при правильном распознавании существующих цифр машины срабатывают временами на пятна или другие нарушения на форме, таким образом формируя дополнительные знаки. При этом возраст “8” может стать “18”, уровень образования “0” может измениться на “90” и т. д. Такие ошибки могут фиксироваться контролем диапазонов допустимых значений и проверкой на согласованность и могут замедлить процесс ввода данных. Если ошибки не проверены, они могут значительно исказить распределения переменных.
Вопрос 42 обрабатывается OMR, вопрос 43
путем цифровой обработки изображений (Новая Зеландия 96.)
В ответ на практические проблемы появились различные смешанные формы технологий ввода данных. Почти все оборудование OCR также будет распознавать метки, таким образом принимая на себя функциональные возможности читающих устройств OMR. Некоторые машины работают совместно с одним или более операторами ввода данных. Изображения определенных зон формы, где ожидается словесные места, или места, где имеются проблемы распознавания, выводятся на экран оператора для разрешения проблемы вручную. Это позволяет всем формам в наборе обрабатываться в одном цикле, избавляя от прежних проблемы работы с грудами бракованных листов, незаконченными считываниями и так далее. Для того чтобы упростить эту операцию, полезно вести работу только с несколькими операторами за одним считывающим устройством OCR. Это будет иметь результатом системы с довольно низкой пропускной способностью, в сравнении с автономными машинами OMR и OCR, применявшимися ранее, которые обычно обрабатывают тысячи форм в час.
Более экзотические решения ввода данных включают: самоперепись с использованием телефонных ключей или оборудования распознавания речи; форм, расположенных на WEB страницах Интернет или интерактивного телевидения. Также могут быть упомянуты интервью, проводимые счетчиками на заранее запрограммированных портативных компьютерах, несмотря на то, что они являются усовершенствованной формой набора с клавиатуры. Такие методы могут стать общепринятыми для специализированных обследований в очень высокоразвитых регионах, но в настоящее время в остальной части мира в крупных статистических опросах они имеют небольшую применимость.
4.2 Кодирование
Программы редактирования и разработки таблиц не могут иметь дело с номинальными переменными, особенно если они имеют открытую конечную область. Следовательно, кодирование словесных ответов в коды, обычно цифровые, является главной деятельностью в большинстве переписей. Так как надежное решение требует приписывать правильные коды, ручное кодирование является медленным процессом, для которого необходимы квалифицированные работники и много времени. Созданы и являются темой дальнейшего исследования и разработки компьютерные методы для помощи кодировщикам и улучшения качества и эффективности их работы. Апробировалось также автоматическое компьютерное кодирование, в которое кодировщик привлекается только тогда, когда компьютерная система решает, что она не может справиться с проблемой.
Проблемы кодирования сильно отличаются от одной переменной к другой. Хорошо знакомая система обработки обследования BLAISE подтверждает это, поскольку поддерживает небольшое разнообразие компьютерных методик кодирования (Lina, 1993). Переменные типа “национальность” или “предыдущее место жительства” обычно не создают слишком много проблем, так как общее представление о них хорошо понятно и ряд возможных кодов ограничен. С другой стороны, обычно собираемая информация, такая как “образование”, “место работы” и “отрасль промышленности” может принести значительно больше проблем. Относительно вопроса типа “национальность”, например, указывается, что большинство населения принадлежит только к нескольким национальностям, каждая из которых может быть предварительно кодироваться в вопроснике. Для оставшихся случаев строка “вписать” может быть запасной, где можно буквами вписать другую национальность. Вероятно попадется не больше, чем несколько сот разных национальностей, которые могут храниться вместе с их соответствующими кодами в компьютере. Синонимы и записи, содержащие распространенные орфографические ошибки, будут также введены предварительно. Этот файл должен предоставить эффективный источник информации для компьютерного и автоматического кодирования.
Обычна форма компьютерного кодирования, при которой оператор вводит только несколько значимых букв словесного описания национальности. Компьютерная система затем соотносит их со списком национальностей, содержащих эти буквенные комбинации, и их коды. В большинстве случаев оператор может выбрать правильный код с экрана без использования справочника кодов. При автоматическом кодировании полное словесное описание обычно вводится вручную, а компьютер содержит программу, которая сама преобразует введенные термины в коды национальностей. Там, где нельзя найти подходящие решения, вопрос будет направляться квалифицированному кодировщику. Программа должна быть развита настолько, чтобы быть способной фиксировать простые опечатки и неправильные употребления названий.
Более сложные переменные обычно имеют намного больше кодов для выбора. Эти коды организованы в иерархическую структуру. Имеется также более или менее хорошо определенное взаимодействие, такое как между “местом работы” и “образованием”. Хотя методы, описанные в предшествующем абзаце, еще применяются, они могут иметь результатом такой низкий процент правильной кодировки, что их полезность становится предметом обсуждения. Обычной проблемой является то обстоятельство, что словесные описания слишком общие, чтобы сделать возможным требуемое подробное кодирование, например, когда “занятие” закодировано как “секретарь” или “фермер”, в то время как схема кодирования требует более подробной информации о работе. Внимательный кодировщик, глядя на заполненный вопросник и имея знания об окружающей обстановке, в которой определенный человек работает, в этих случаях может справиться значительно лучше, чем упрощенная компьютерная программа.
Часто цитируемое преимущество компьютеризованных методов то, что они совместимы (Dalton and Keogh, 1995). Одна и та же проблема будет всегда сопровождаться одинаковым кратким списком кодов для выбора. Повторяющиеся ошибки в этом логическом процессе должны быть удалены во время стадий разработки. Среди кодировщиков существует неизбежная несовместимость из-за различия индивидуальных решений.
Особым случаем является переменная “отрасль промышленности”, для которой некоторые страны могут использовать существующий регистр предприятий. Если у респондента спрашивают название и адрес места работы, то информация может быть достаточной, чтобы подтвердить, дополнить или отбросить информационный элемент в поле “отрасль промышленности” .
Сложности кодирования в статистике составляют проблему для тех, кто пытается перенести человеческое рассуждение на компьютер. В число различных инновационных методологий, испытываемых в этой области, входят эвристические методы, нечеткая логика, нейронные сети (Doucet, 1995) и экспертные системы. Несомненно, имеется определенный прогресс, но следует помнить о следующих пунктах:
i) Редко можно слышать о неудачных попытках;
ii) Системы, которые оказались успешными, обычно приспособлены к определенным статистическим опросам в определенной стране: их нелегко применить в других условиях;
iii) Разработка программного обеспечения дорогостоящая и длительная. Только там, где разработка начата заранее, и стоимость традиционного кодирования велика, есть приемлемый шанс возмещения вложений;
iv) Достаточно надежные официальные регистры населения и предприятий редки (вероятно, возможно использовать перепись, чтобы их улучшить);
v) Кодировщики, использующие только традиционные методы, должны вводить коды, которые они определили; методы компьютерного кодирования требуют вводить словесные термины, так как OCR для рукописных текстов еще несовершенно.
В заключение можно сказать, что отношение к применению компьютерного или автоматического кодирования в развивающихся странах должно оставаться скептическим. Только там, где отсутствуют трудные для кодирования переменные, или схемы иерархического кодирования для таких переменных остаются относительно поверхностными, может быть применено компьютерное кодирование. На практике эти условия выполняются не часто. Во многих случаях работа по кодированию в таких странах осуществлялась бы лучше при более внимательной организации традиционной работы. Например, есть смысл использовать специализированных кодировщиков для трудных переменных. Изданные книги кодов должны быть разработаны таким образом, чтобы их было легко использовать. Коды должны вписываться прямо в вопросник или непосредственно вводиться в компьютер, так как использование отдельных листов кодировки неизбежно приведет к многочисленным ошибкам при переписывании.
Некоторых проблем кодирования можно также избежать путем лучшей разработки вопросника и обучения счетчиков. Должны быть даны примеры недостаточно точных ответов, чтобы счетчики и респонденты представляли требуемый уровень детализации. Понятия места работы и отрасли промышленности, часто являющиеся источником замешательства, требуют простых и ясных объяснений. Образовательные навыки являются одной из тем, где следует избегать чрезмерной детализации, например, в типах профессионального обучения. При необходимости углубленной информации об уровнях образования, специальные выборочные обследования на базе совокупности выборки, основанной на переписи, могут быть намного более эффективными, чем переписи.
4.3 Контроль ошибок и вменение значений
Выявление и исправление ошибок является процессом, который проходит через всю перепись или обследование. В каждой фазе необходима бдительность по отношению к возможности, что среди больших количеств данных есть ошибки, которые искажают действительность. Некоторые ошибки появляются потому, что респонденты, сознательно или не нет, дают неправильную информацию. Счетчики добавляют свою долю, ошибаясь в записях или делая записи плохим почерком. Большой и часто недооцениваемый процент ошибок возникает на основе правильных ответов при неаккуратном вводе данных и работе по кодировке в центрах обработки.
Технология дает новые средства для уменьшения числа ошибок. Например, программы ввода данных и кодирования могут проверить, находится ли значение в рамках допустимого диапазона, а также отвечает ли оно контролю определенной согласованности с соответствующими атрибутами. Это называют “предварительным редактированием”, так как оно предшествует официальной фазе редактирования. Оно может начинаться на этапе полевого опроса, если счетчики используют портативные компьютеры. Хотя важно бороться с ошибками ближе к их источнику, полевой персонал и персонал ввода данных может быть неквалифицированным, чтобы иметь дело со сложными проблемами согласованности. По этой и другим причинам почти всегда в план обработки входит фаза контроля и исправления ошибок, а также вменения значений.
Часто говорят, что в большой переписи могут присутствовать любые мыслимые ошибки. Фактически, могут возникать ошибки данных, о которых разработчики даже не предполагали. Само по себе существование неверных данных в переписи вполне нормально, так как статистический опрос не является операцией точного учета. Если наличие некоторых ошибок не влияет на распределение переменных и выводы, следующие из него, то данные достаточно хорошими для той цели, для которой они были собраны. Однако это нелегко объяснить широкой публике. Например, в опубликованной таблице некоторые внебрачные дети могут быть показаны в более старшей возрастной группе, чем возраст их матерей. Статистики могут попытаться объяснить, что это лишь результат нескольких статистически незначительных ошибок в записях, относящихся к возрасту, и что это в любом случае не влияет на общие выводы о важных показателях, таких как общая рождаемость, возраст при рождении первого ребенка и т. д. Тем не менее, эта явная неточность может привести к неприятным комментариям и подорвать уважение ко всму мероприятию.
Поэтому общепринятой практикой является замена явно ошибочных кодов или величин другими значениями, которые, хотя, вероятно, все еще неверны, не нарушают какого-либо правила контроля ошибок и будут выглядеть ненавязчиво при проверке. Для некоторых неверных переменных может быть приемлема модификация в класс “неопределенные”. Для переменных, где такая категория неприемлема, таких как возраст и пол, значение должно быть вменено. Это значение должно быть не только в рамках определенного диапазона, но и отражать наилучшее предположение о том, каким на самом деле мог быть правильный ответ, принимая во внимание значения соответствующих переменных в той же или соседней записях. В случаях двусторонней несогласованности проблема состоит в том, что часто трудно выявить, какая из двух противоречивых переменных неверна, и возникает вопрос, какое значение модифицировать. В любом случае количество исправлений должно быть небольшим и оставаться менее 1% всех случаев для определенной переменной. Если появляется большой процент ошибок, возникает вопрос о качестве обследования и/или правил контроля. Эти вопросы должны быть исследованы предметными специалистами. В конечном счете может быть сделано заключение, что качество (определенной части) опроса неудовлетворительное для целей дальнейшей обработки.
Кроме простого решения перевода значений переменных в класс “неопределенные”, в обработке переписей распространился так называемый метод последовательного вменения “hot-deck”. Он поддерживается большинством систем программного обеспечения, используемых для редактирования данных, в частности CONCOR Бюро переписей США (US Bureau of the Census, 1994). По существу, он состоит в копировании “верного” значения из другой записи. Например, если возраст человека не указан или является неверным, то ищем другого человека с такими же характеристиками (пол, семейное положение, отношение к главе домохозяйства, число детей, . . .) и копируем возраст оттуда. Метод последовательного вменения “hot-deck” предписывает использование в качестве донора последней подходящей записи, предшествующей вменяемой.
Хотя автоматическое вменение обычно неизбежно в больших переписях, оно никогда не было распространенным предметом исследования. Необходимо согласиться, что в случаях, когда имеется недостаточно избыточной информации для эффективного определения неверного или недостающего значения, эта операция является главным образом косметической и не может улучшить результаты с точки зрения статистика. Наоборот, небрежное компьютерное вменение было известным источником ложных заключений, которые смущали разработчиков статистики. После первой работы Fellegi и Holt (1976), которая дала теоретическую основу методам “hot-deck”, наблюдался длительный период относительного спокойствия.
Полезное краткое изложение современного диапазона доступных методов вменения было недавно опубликовано в (Schulte Nordholt и Hooft van Huijsduijnen, 1995). Оно выдвигает на передний план тот факт, что методы “hot-deck” не обязательно должны быть последовательными. Вместо выбора подходящей предшествующей записи в качестве донора, запись-донор можно также выбрать иначе, например, случайным образом из всех возможных. Это может быть полезным, если ошибки находятся в кластерах, являясь причиной повторного обращения к предшествующей донорской записи при последовательном подходе. Другой полностью отличный метод использует все принятые данные для определения уравнения регрессии между целевой переменной и некоторыми поясняющими переменными. Там, где целевая переменная неверна или неизвестна, она может быть вычислена из уравнения. На следующем этапе к этому результату может быть добавлен случайный компонент с учетом известной изменчивости принятых целевых значений.
Какой бы метод ни применялся, автоматическое вменение является ненадежной областью, которой лучше всего избегать, насколько это возможно. Усложняющим фактором, который еще не упомянут, является выбор наилучшего метода, как и в автоматическом кодировании, что может зависеть от специфического характера рассматриваемой переменной. Кроме того, в случаях несообразности, когда нельзя определить ошибочную переменную, может быть лучше заменить их все вместе, чем модифицировать единичное значение. Общепринято, что вменения не должны заметно изменять статистические характеристики целевой переменной, такие как центральное значение и стандартное отклонение. Это может быть легко проверено сравнением распределений до и после операции. Следует полностью документировать порядок всех модификаций. Это позволит автоматическую отмену любых вменений, оказавшихся неоправданными.
Нельзя сказать, что сделаны последние решающих нововведения в области исследования ошибок и вменения, но понимание риска автоматического корректирования и диапазона выбираемых методов улучшилось. Доступные в настоящее время пакеты программного обеспечения поддерживают лишь подгруппу таких методов. Применение менее распространенных методов обычно будет требовать значительных усилий по разработке программного обеспечения. Это может быть неоправданным в контексте обработки обычной переписи, но может являться предметом последующего исследования.
4.4 Создание таблиц
Прогресс в создании таблиц является, главным образом, прямым результатом разработки лучшего компьютерного оборудования. В не очень далеком прошлом программное обеспечение для составления статистических таблиц должно было разрабатываться с учетом скорости обработки. Программное обеспечение, специально не разработанное для эффективной обработки миллионов записей микроданных, обычно было недопустимо медленным. Примеры можно найти в хорошо известных системах программного обеспечения SPSS и SAS. В настоящее время, когда фактически все компоненты компьютеров, включая процессоры и системы хранения данных, стали значительно более производительными, этот аргумент потерял смысл. Стало вполне возможным сводить результаты переписи в таблицы, используя эти две упомянутые системы.
Таким образом, кроме скорости, приобретают относительную важность другие аспекты программного обеспечения создания таблиц, такие как легкость использования и увеличение возможностей вывода результатов. Можно подумать, что может также выдвинуться вперед современная альтернатива средству традиционного распространения многомерных таблиц. Действительно, разработано много других форм представления, и традиционные таблицы сейчас сопровождаются растущим количеством легко воспринимающихся графических средств. Однако распространения путем составления таблиц остается весьма популярным. Введение поддержки таблиц в языке WEB-публикаций Интернет HTML (Benzine and Gerland, 1995a) приветствовалось как главный шаг вперед. Носитель публикаций является предметом более значительных нововведений, чем визуальный формат, в котором происходит распространение.
4.5 Системы метаданных
Метаданные описываются как данные о “значении, содержании, организации и назначении данных” (Laub et al, 1995b). В настоящее время широко признано, что статистические службы оперируют большим количеством статистической метаинформации, которую следует рассматривать и сохранять как ценный организационный вклад. Большинство сегментов метаинформации имеют также государственную и международную значимость. Можно считать пункты настолько варьирующими, насколько изменяется определение основных переменных (GDP, частное домохозяйство), кодовые наборы (занятия, болезни), планы составления таблиц, географические разграничения и схемы организации. Весьма важно, что статистические опросы используют и опираются на такую базу существующих метаданных. Если этого не сделано, то, вероятно, приходится иметь дело с большими проблемами несовместимости между различными переписями и обследованиями, чем могло бы быть при использовании системы метаданных.
Метаданные были одной из тем, исследовавшихся проектами статистической обработки данных Экономической комиссии ООН для Европы (United Nations, 1984). Эти усилия нашли свое продолжение в государственных программах и полукоммерческой системе EMMA (WS, World Systems Luxembourg, a personal communication, 1996). Более того, на обновление и усовершенствование метаданных широкого использования был направлен ряд международных действий. Одним из результатов этих попыток является исправленная версия справочника “Принципы и рекомендации для переписей населения и жилья”, изданная последний раз в 1980 году (United Nations, 1980). Этот документ содержит определения и модельные таблицы, которые могут помочь странам в определении и приведении в порядок их собственных метаданных на уровне общих руководств, таким образом содействуя международной сопоставимости. Другие международные руководства, такие как международная стандартная промышленная классификация всей экономической деятельности (ISIC) и международная стандартная классификация предприятий (ISCO) предоставляют такой же сервис.
Многие государственные статистические организации установили базы данных метаинформации, которой в режиме on-line может пользоваться персонал, а иногда и неспециалисты. Это обеспечивает немедленную проверку важных понятий и копирование соответствующих структур, которые используются в прикладных программах. В идеальном случае система метаданных будет автоматически соединяться с прикладными программами, обеспечивая использование идентичной информации по всей статистической системе без разработчиков, вынужденных совершать осознанные усилия для осуществления этого. Это, однако, требует общей операционной среды (см. Раздел 1.4). EMMA, например, работает в системе Microsoft Windows (3.x или NT) и требует приложений сторонних разработчиков, чтобы использовать прикладные интерфейсы программирования (API), который имеет система для доступа к ее информационным ресурсам. Более простые автоматически разделяемые системы метаданных работают с общими словарями данных. Они являются частью системы обработки переписи и обследования IMPS, разработанной Бюро переписей США (US Bureau of the Census, 1994), и косвенным образом, ее британского двойника U-SP, поддерживаемого Университетом Кента (University of Kent, 1995). Подобные средства становятся доступными, когда статистические приложения разработаны в контексте той же прикладной программы четвертого поколения, как SAS, или когда применяется распространенная система баз данных, которая включает средства словаря данных. Beyritz и Lenz (1995b) предлагают систему просмотра метаданных для сопровождения статистического ежегодника Федеральной статистической службы Германии. Все это является частичными решениями. Из-за меняющейся характеристики метаданных большинство государственных статистических агентств не завершили разработку исчерпывающей автоматической системы и работают с группой более простых средств.
4.6 Новые средства хранения информации
Полные микроданные переписи находились в числе самых больших файлов в компьютерной обработке. Они хранились на открытых бобинах магнитных лент 1/2'', причем на большом количестве лент в случае больших стран. С появлением микрокомпьютерных платформ выдвинулись вперед другие магнитные носители информации, такие как ленточные кассеты 1/4'' и кассеты Бернулли. Все магнитные носители подвержены электромагнитному влиянию, а также порче из-за старения. Это требует хранения многочисленных копий и периодических перезаписей. В длительные периоды между переписями не всегда предпринимались адекватные меры предосторожности. Иногда прежние микроданные переписи, необходимые для сравнительных целей в текущей переписи, бывают невосполнимо потеряны.
Ситуация, относящаяся к хранению данных, в настоящее время основательно изменилась. Возможности хранения, связанные с микрокомпьютерами, значительно усовершенствовались благодаря намного более емким жестким дискам, магнитооптическим системам хранения и оптическим носителям информации, таким как WORM (Write Once, Read Multiple) и компакт-дискам. Хотя различие между ролью и функциональными возможностями этих периферийных устройств стало отчасти неясным, их роль можно описать следующим образом: жесткие диски в настоящее время могут хранить гигабайты данных, что достаточно для всех микроданных страны средних размеров или большой провинции. Больше нет никакой необходимости в манипулировании многочисленными внешними магнитными носителями данных для целей обработки. Магнитооптические системы (МО диски), иногда называемые перезаписываемыми оптическими дисками, могут иметь даже большие объемы, но обычно они несколько медленнее. Такие системы также очень подходят для обработки переписи. Так как диски обычно съемные, все данные переписи могут обрабатываться одним и тем же компьютером. Поскольку хранение мегабайта информации постоянно снижается, становится экономически возможным хранение всех микроданных переписи в режиме on-line постоянно, по крайней мере в течение периода основной обработки.
С появлением записываемого компакт-диска (CD-ROM) такой носитель информации стал наиболее распространенной технологией WORM. Объем стандартизированного компакт-диска, сейчас составляющий около 600 мегабайт, в общем недостаточен для целей обработки переписи. Так как стирание данных невозможно, CD-ROM также неэффективен для подготовки последовательных версий файла данных, как это требуется во время процесса редактирования. Однако этот носитель информации имеет большие преимущества для хранения версий, которые хранятся постоянно, таких как первоначальные необработанные данные и обработанный файл, который является конечным результатом процесса редактирования. Записи на компакт-дисках не подвержены влиянию электромагнитных полей и, благодаря постоянной природе физических изменений, вызванных процессом записи, едва ли чувствительны к процессам старения любого типа. Если их внимательно хранить, то они будут сохранять резервные копии в безопасности для последующих поколений. Благодаря их стойкости, компакт-диски также довольно удобны для распространения информации переписи среди пользователей (обсуждается в Разделе 5.1 ниже).
В декабре 1995 года почти все главные производители пришли к соглашению по техническим спецификациям для дополнительного стандарта CD-ROM, названного “цифровой видео диск” (DVD) или “супер-плотный диск” (SD). Он будет иметь объем (1-4)x4,7 гигабайт (GB), так что минимум будет составлять 4,7, а максимум до поразительных 18,8 GB. Новое оборудование, разрабатываемое для этого формата, должно также быть способным считывать диски прежнего стандарта. Ожидается, что такое оборудование будет широко доступным в 1997 году, до цикла переписей 2000 года. Единичный диск этого нового формата будет способен хранить файлы полных микроданных переписи для всех, кроме нескольких наибольших стран. Так как предвидятся различные варианты реализации перезаписи, этот универсально поддерживаемый формат может вполне отобрать значительную часть рынка у главным образом патентованных (нестандартных) систем магнитооптических дисков.
5. Распространение и базы данных
5.1 Распространение без бумаги
Результаты переписей и обследований традиционно становились доступными для общественности через печатные отчеты и книги. Обычен ранний выпуск предварительных данных для обеспечения потребности общества в немедленной информации. Позже в печать поступает ряд томов, содержащих более подробные и окончательные результаты. Могут также быть изданы обширные отчеты по методологии переписи или обследования и результатам демографического анализа. Обычно статистическая организация также отвечает на специфические запросы на информацию, которую нельзя получить из этих публикаций, но из-за других обязательств такой ответ не может быть очень быстрым.
Так как процессы печати и публикации дорогостоящи и занимают много времени, это накладывает практическое ограничение на объем информации, которая может быть распространена через другие каналы. На практике очень полезный материал, особенно относящийся к малым географическим районам, остается недостаточно использованным. Разработка новой технологии в настоящее время открыла много альтернатив для массовой печати. Статистические организации должны быть информированными о ряде открытых сейчас для них возможностей и выбирать то, что подходит в контексте их мероприятий. Относительно глубинного анализа изменений в распространении статистической информации читатель может обратиться к новому докладу шведского автора Bo Sundgren (1996).
Преимущества CD-ROM как носителя публикации уже затрагивались. CD-ROM как носитель данных имеет большой объем, устойчив к повреждениям и не может быть испорчен путем изменения хранящихся на нем данных. Во всех этих отношениях он выше по качеству, чем магнитные дискеты, которыми пользовались для целей распространения в прошлом. Хотя то, что пользователи не имели необходимых считывающих устройств, составляло проблему, оборудование CD-ROM постепенно стало обычной микрокомпьютерной периферией, так как пакеты программного обеспечения увеличились настолько, что они больше не могли надежно распространяться на дискетах. Существует много форматов, в которых возможна запись данных переписи на CD-ROM. Простейшим является использование этого носителя информации для хранения эквивалента отпечатанных страниц. Пользователь потом может отобрать интересующий его материал и отпечатать их на своем компьютерном принтере. “Отчет на CD-ROM” может быть создан быстрее, а также дешевле, чем его эквивалент на бумаге.
Однако благодаря своим свойствам читаемого компьютером носителя информации, CD-ROM может использоваться в нескольких других направлениях. Например, файлы электронных таблиц могут храниться вместо или после печатных изображений. Это позволит пользователю импортировать данные прямо в его компьютерные приложения для дальнейшего использования. Более усовершенствованное использование CD-ROM затрагивает распространение баз данных о населении и будет обсуждаться в данной работе позже. Следует отметить, что по мере того как содержание компакт-диска становится более сложным, время и усилия, затраченные на его разработку, также будут увеличиваться, что сводит на нет некоторые преимущества, упомянутые ранее.
On-line доступ к Бюро статистики Нидерландов через Интернет (вверху, используя динамический генератор Web страниц Witch) или специализированную BBS (ниже) по (Keller et al, 1995).
Во время написания этого доклада проводилась интересная дискуссия. Некоторые люди аргументировали то, что с увеличением связности мощные микрокомпьютеры постепенно исчезнут. Большинство пользователей будет работать только с относительно простыми интерфейсами, и необходимая вычислительная мощность будет передаваться им через общедоступную сеть, как электричество или вода. Из-за вопросов масштаба такой подход будет более эффективным. Так как данный вопрос еще не решен, он сравнивается с двумя технологиями, в настоящее время конкурирующими в области распространения информации. Это носители данных большого объема, физически транспортируемые почтой или курьером и службы on-line. Обе технологии успешно используются и быстро разрабатываются, но, в конечном счете, вероятно будет преобладать распространение через on-line.
Ситуация такова, что в местах, где инфраструктура общедоступной сети все еще неразвита и дорогостояща, как в большинстве развивающихся стран, нет шанса на доступность служб on-line в предсказуемом будущем. В то же самое время следует отметить, что с распространением в настоящее время по всему миру доступной спутниковой связи, больше нет ни одного основательного технического препятствия, которое удерживало бы от подсоединения к международных сетям. On-line публикация распространяется по всему миру как в отношении глубины, так и всесторонности. Поставщикам информации трудно оставаться в стороне от весьма популярной области Интернет и подобных служб (Benzine and Gerland, 1995a), где их отсутствие можно объяснить как отсталость. Пользователи информации не могут отрицать исследования ресурсов Интернет, если они хотят “добывать” все доступные данные (к сожалению, качество некоторой хранящейся в Интернет информации далеко от совершенства).
Результаты переписей и обследований могут распространяться через узлы Интернет, уже основанные статистическими учреждениями. Перепись может также быть побудительным мотивом для открытия этого канала распространения. Обычно, будет доступна не только информация, имеющая отношение к одному опросу. Большинство существующих статистических узлов предлагают обширный ряд статистической информации, собранной поддерживающими учреждениями. Так как доступ из любой точки мира прост, может быть также доступна более общая информация, например, относящаяся к организации национального правительства и статистической деятельности. Для того, чтобы открыть узел Интернет, необходима довольно мощная компьютерная система, которая вмещает требуемое программное обеспечение и информацию для распространения. Такой компьютер будет целесообразно физически отделить от остальной компьютерной системы, чтобы избежать возможных проблем вторжения других людей через сеть. Далее высокоскоростная связь с поставщиком услуг Интернет свяжет систему со всемирной сетью. Большинство стран в настоящее время имеют одну или больше поставщиков сетевых услуг Интернет, которыми могут быть университеты, специально учрежденные правительственные службы или частные компании. Статистическое учреждение само может стать поставщиком сетевых услуг Интернет, если пожелает. Международные организации, такие как ITU и UNDP имеют программы для помощи странам в подключении к Интернет и создания государственной сетевой структуры. Эта работа продолжается. Африка, в частности, все еще отстает в этом вопросе (Unistar, 1995).
За последний год или более World Wide Web (WWW) стал доминирующей парадигмой обмена информацией в Интернет. Как известно, он состоит из страниц информации, подготовленных на языке описания страниц, называемом языком разметки гипертекста (Hyper Text Markup Language, HTML). Как подразумевается этим названием, страницы могут связываться через маркеры, таким образом позволяя пользователю перемещаться в “документе” по древовидной структуре. Эта функциональная возможность просмотра не имеет фундаментальных отличий от того, что предлагалось печатными публикациями, где различные части имеют ссылки друг на друга. Таким же образом пользователь Web также может перемещаться между различными узлами Web, следуя заранее задуманным связям, встроенным разработчиками системы. Поисковые средства Web обычно являются базами данных, построенными по типу директорий, некоторые из которых (Yahoo) предоставляют немедленный доступ к несметным ресурсам в Интернет.
Пользователи имеют на своих компьютерах броузеры (Netscape, Spry Mosaic), которые отображают страницы, обычно по одной странице за раз. Такие WEB броузеры существуют для множества базовых аппаратных и программных платформ.
Недостатком системы Web раннего периода была его статическая природа. Пользователь мог выбирать только из подготовленных страниц и вынужден был следовать установленным заранее связям или бродить без дальнейшей помощи. Однако с интенсивными исследованиями и разработками, сконцентрированными теперь на Интернет, барьеры имеют тенденцию быть недолговечными. Возникло понятие “динамических” страниц Web. Не существовавшие ранее страницы формируются налету, следуя потребностям пользователя, который определяет информацию для просмотра. Это предоставляет непрямой доступ к вторичным базам данных.
Другой разработкой, столь же важной для статистики, является то, что версия 3 HTML, как и современные броузеры, поддерживает табличные структуры. Эти два новые качества открывают возможность формирования требуемых таблиц, которые могут загружаться в табличный процессор пользователя. Эта процедура, конечно же, не тривиальна (см. раздел 5.2), но не встречает существенных преград. Страницы, содержащие графику и тематические карты, могут формироваться и передаваться таким же образом.
Существуют другие разработки, такие как программное обеспечение, которое сочетает функциональную возможность Web броузера с возможностью загружать программы небольших встроенных страниц из сервера для исполнения пользователем (Hot Java из Sun Microsystems) или сценарии общего межсетевого интерфейса (Common Gateway Interface, CGI). Этот вопрос выходит за рамки настоящего доклада. Читатель может обратиться к существующим обзорам таких тем в большинстве компьютерных журналов и следующим за ними обсуждениям в самом Интернет. Из-за скорости разработок, печатные книги быстро устаревают, вскоре после того, как попадают на книжные полки.
Важным докладом по этим вопросам, описывающим не только теорию, но и практическое применение в Бюро статистики Нидерландов, является доклад (Keller et al, 1995). Как в нем указывается, с продолжающимся улучшением средств доступа обязательно станут более явными концептуальные и фактические недостатки в статистической информации. Потребуются большие усилия по созданию структурных систем статистической информации, таких как SNA, но с гораздо большей областью охвата. Последовательные основные системы метаданных развиваются из “хорошего дополнения” в важные блоки основы. “Открытие окон” в Интернет может втянуть государственные статистические агентства в беспрецедентные операции по наведению порядка в своих информационных системах.
Еще более смелой идеей является создание национальных узлов Web как частичных ресурсов в международной распределенной базе данных статистической информации. В этом случае усилия по устранению неоднородности метаданных в ближайшем будущем, вероятно, не могут быть успешными, если только не рассматривать связанную группу стран, таких как члены Европейского Союза. Тем не менее, регистрация всех наличных ресурсов на центральном узле и обеспечение доступа к ним через общий интерфейс может облегчить исследования и устранить необходимость в дублированных бумажных библиотеках. Было выдвинуто предложение по такой межгосударственной системе доступа к распределенным базам данных статистической информации и анализа (ADD-SIA) (Laub et al, 1995b). Настройка и поддержка такой базы данных облегчится, если первоначально ее сократить только до определенного статистического сектора, например статистики населения. Управление межгосударственной информационной системой по населению является задачей, которую лучше всего предпринять должным образом финансируемой международной организации.
Благодаря огромному интересу, технические и коммерческие разработки в области Интернет быстры, а также крайне трудны для предсказания. Некоторые люди считают, что Интернет станет жертвой собственного успеха и постепенно угаснет из-за чрезмерной нагрузки и увеличения задержек в сети. Другие утверждают, что он действительно станет важной всемирной службой. Многое будет зависеть от того, насколько успешным окажется коммерческое применение Интернет.
Следует заметить, что открытие узла Интернет подразумевает постоянную поддержку и обновление предлагаемой информации. Это требует финансирования. Поддержка узла Интернет также включает затраты на оборудование, линии связи и программное обеспечение. Так как еще не появился широко принятый метод для обмена информацией пользователей, эти затраты не будут возмещены сопутствующим потоком дохода. В результате, многие узлы Интернет существуют только короткое время: им или явно не хватает поддержки, или они просто не содержат ничего интересного.
Возможным выгодным методом интерактивного распространения данных является так называемая электронная доска объявлений (BBS). Эта информационная система, не связанная с Интернет, может быть доступна непосредственно через телефонную линию и модем. Хотя существует много разных систем программного обеспечения для BBS, они по существу предлагают сервис, эквивалентный узлу Интернет, но лишь с одним поставщиком информации. В некоторых странах доступ может оплачиваться за использование телефонного соединения. В других случаях поставщик информации может требовать предоплату и позволять доступ только через пароль, для которого внесена необходимая оплата. Существует несколько примеров самофинансируемых BBS, поддерживаемых статистическими службами.
В телевизионных системах телетекста по телевизионному каналу передается относительно ограниченное количество текстовой информации в составе телесигнала. В некоторых развитых странах статистическая служба заполняет ограниченное число страниц общедоступной и текущей статистикой, обычно в сервисе телетекста телевизионного канала, субсидируемого правительством. Всякий, кто имеет телевизор с соответствующей возможностью, может обратиться к этой информации. В течение нескольких лет большинство телевизионных систем, проданных в Европе, предусматривают прием телетекста. В настоящее время эта технология распространяется на другие регионы. Телеканал может сделать службу телетекста доступной только для абонентов, как было сделано международной вещательной компанией CNN. Однако взимание платы за телетекст встречается довольно редко.
Факс по запросу и автоматические речевые ответчики также заслуживают упоминания как инновационные методы безбумажного распространения данных. Факс по запросу позволяет звонящему выбрать факсовое изображение (возможно, таблицу), которое может быть получено как графическое растровое изображение на факсовой бумаге. Этот метод пригоден для профессиональных пользователей, которым необходим немедленный ответ, больше, чем несколько единичных показателей, и легкий способ получить результат на бумаге. Затраты для статистического агентства малы, так как расходы на связь обычно автоматически покрываются звонящим.
Автоматические речевые ответчики хороши для словесной передачи небольшого количества информации, например, индекса инфляции в текущем месяце. В этом случае затраты для поставщика информации также небольшие, поскольку они ограничены расходами на установку и поддержание системы автоответчика. Факс по запросу и автоответчики являются методами для определенных “ниш”, в основном представляющими интерес в развитых странах. Полным использованием возможностей, предлагаемых такими новыми технологиями, статистическое агентство может выразить уверенность, что пользователь информации в конечном счете оправдывает ее существование. Максимально эффективное обслуживание пользователя, с концентрацией внимания на затратах, всегда должно находиться в центре политики.
5.2 Статистические и демографические
базы данных
Переменные, собранные в обследованиях и переписях, следует рассматривать в их взаимосвязях. Редко бывает полезным изолированное рассмотрение одного статистического показателя. Кроме того, большинство обследований периодически повторяют: отслеживание тенденций и прогнозирование будущего развития является главной задачей статистического анализа. Поэтому целесообразно хранить структурированную статистическую информацию, что позволит легко выявить отношения и изменения во времени. Создание таких статистических баз данных длительное время является предметом значительной заинтересованности и усилий.
Наиболее распространенными статистическими базами данных, существовавшими в традиционной форме многие годы до их компьютеризации, являются базы данных временных рядов. В настоящее время их часто комбинируют с аналитическим программным обеспечением, которое предлагает возможности выравнивания сезонных колебаний, прочие формы выравнивания, анализ тенденций и прогнозирование. Как составная часть наличных средств может также проводиться моделирование с использованием нескольких временных рядов в качестве поясняющих переменных для оценки предметного ряда регрессионными методами. Некоторые базы данных временных рядов в развивающихся странах или международных организациях имеют чрезвычайно большой размер, охватывая сотни тысяч рядов (это иногда делает их сложными в поддержке и интерпретировании). Программное обеспечение анализа временных рядов входит как часть в основные пакеты статистических программ. Кроме того, коммерчески доступны специализированные системы, имеющие дело только с временными рядами. Большинство систем анализа временных рядов делает акцент на экономической статистике.
Причиной того, что данные о населении имеют тенденцию быть не полностью представленными в системах анализа временных рядов, вероятно, является то, что некоторые показатели получают через большие промежутки времени, например, каждые десять лет. Однако следует заметить, что демографическая информация часто доступна из других источников, кроме десятилетних переписей. Административные регистры, будучи возможно недостаточно надежными в абсолютном отношении, могут верно отражать тенденции на основе текущих данных. Создание базы данных временных рядов, суммирующей всю доступную демографическую информацию как автономной системы информации о населении или как части большей статистической базы данных, может дать мощные аналитические возможности.
Инновационный демографический метод (Каир 94)
Типом базы данных о населении, который стал реальным только с появлением мощных компьютеров, является база микроданных. Она будет содержать в структурированной форме все данные, собранные в ходе определенной переписи или обследования, и может быть расширена дополнительными опросами. В последнем случае важно то, что существует степень согласованности между переменными, собранными во время разных операций (см. дискуссию о метаданных в разделе 4.5). Сохранение микроданных в динамичной базе данных делает дополнительный анализ простым и легким. Такой анализ может включать построение комбинированных таблиц по переменным, взаимосвязь между которыми заранее не устанавливалась, или изучение географических районов, которые не присутствовали в первоначальных планах составления таблиц. Наличие такого типа доступа может значительно увеличить выгоды, которые дает перепись. В старом сценарии кто-либо, нуждающийся в информации, которая относится к малым территориям, или в неготовых к использованию данных, вынужден был пройти через административную иерархию, чтобы его проект был “санкционирован”. Следует написать программы, взять данные переписи оттуда, где они хранятся, и запланировать необходимую компьютерную работу. Барьеры, которые создавались этими сложностями, часто были слишком высокими, так что пользователь данных оставался без информации или проводил независимое обследование.
В новой ситуации базы микроданных будут храниться на непосредственно доступном носителе информации. Благодаря большому объему съемных носителей информации, можно хранить все данные на одном или нескольких дисках, возможно CD-ROM, и переносить их между компьютерами. Специально разработанное программное обеспечение для баз данных по населению имеет встроенные модули для построения таблиц (UN Economic Comission for Latin America and the Caribbean, 1991), что делает простые формы анализа доступными даже для тех, кто не может назвать себя компьютерными специалистами. Кроме того, возможно использование существующих коммерческих систем хранения информации, таких как файлы систем SAS или базы данных xBase (dBase, FoxPro, и т. д.). Последние требуют большей емкости хранения и работают медленнее, но, как обсуждалось ранее, все увеличивающаяся мощность компьютеров делает это меньшей проблемой, чем ранее.
Даже если микроданные должны всегда быть анонимными (Sundgren, 1996), то есть если имена и адреса не хранятся, по базам данных микроданных имеются дополнительные соображения об их конфиденциальности. Анализ отдельных микроданных мог бы обнаружить домохозяйства или людей с определенными характеристиками, данные о которых могли бы быть использованы для коммерческих целей, или еще хуже. Некоторые страны не беспокоятся по поводу этой проблемы, считая, что информация, собранная в переписи, не критична к попыткам ее использования не по назначению, и она для начала может быть сдалана общедоступной. При отсутствии имен и адресов определение личности может быть сложным, даже если не будет предпринято никаких мер защиты.
В других странах микроданные переписи считаются конфиденциальными и как таковые не могут распространяться. Это, конечно же, не отменяет необходимости в создании хорошо защищенной базы данных для внутреннего пользования в статистической службе. Существует также ряд методов, чтобы сделать микроданные (часть микроданных) более удобными для распространения. Это может быть осуществлено путем выборки из данных или путем видоизменения данных таким образом, чтобы статистический анализ продолжал давать такие же результаты, но чтобы индивиды были лучше защищены от идентификации. Краткий обзор этих методов дан в работе Dekker (1996).
Базы данных макроданных обычно могут свободно распространяться или быть доступными on-line для пользователей за пределами статистической организации. Макроданные могут иметь много форм, например, данные по совокупностям малых территорий. Совокупности характеризуются количеством индивидов и домохозяйств, которые живут на определенной малой территории, и которые имеют одинаковые признаки, такие как пол, возрастная группа, тип жилья и т. д. Очевидно, что в процессе укрупнения теряется некоторая информация, относящаяся к взаимосвязям переменных. Но итоговые показатели легко использовать в различных формах представления данных, таких как тематические карты и графики, визуализуя таким образом большую область основных результатов переписи на различных уровнях укрупнения.
Макроданные можно также хранить как подготовленные таблицы для небольших географических районов. Подобные таблицы для больших территорий можно потом получить дополнительно. В практических ситуациях данные часто хранятся в многомерных таблицах (также называемых “cubicles”). Пользователю дается возможность устранить одну или несколько величин, упрощая таблицу и делая ее таким образом более удобной для целей анализа или публикации. Добавление или сокращение являются только двумя из нескольких “табличных операций”, которые могут быть предусмотрены. Это привлекло внимание разработчиков программного обеспечения, которые хотели бы определить таблицу как логический объект, который может быть предметом современного объектно-ориентированного программирования. Это не было бы проблемой для элементарных ячеек таблицы, которые могут обрабатываться как прямоугольная матрица цифровой информации. Но традиционная статистическая таблица с названием, заголовками колонок, обрывистостью рядов, производными колонками и рядами (итоги, проценты) и, что хуже всего, сносками не вполне соответствует такой концепции. Успешная попытка создать базу данных многомерных статистических таблиц путем традиционного подхода была предпринята Бюро статистики Швеции (1993). Евростат также осуществляет работу в этом направлении (Eurostat, 1995). Обзор того, как статистические структуры подходят для коммерческих реляционных систем баз данных см. Уэстлейк (Westlake, 1990).
Цикл переписей 1990 года дал несколько интересных примеров баз данных переписи с высоко развитыми возможностями графики и картографирования, которые хранились на CD-ROM и были поставлены на коммерческую основу в этой форме. Некоторыми примерами являются перепись Венгрии 1990 года (Nagy, 1996), Австралии 1991 года (Australian Bureau of Statistics, 1994), Новой Зеландии 1991 года (Department of Statistics of New Zealand, 1992) и США 1990 года (ARGUS, 1995). При условии предложения надлежащей комбинации полезной информации, легкого доступа и приемлемой цены, такие проекты могут быть удачными и иметь значительное положительное влияние на общее понимание информации о населении. Компакт-диски важны не только для коммерческих компаний, желающих продать на рынке свою продукцию, но также для правительственных служб планирования, общественных библиотек и школ от начального до университетского уровня. Программное обеспечение для этих проектов обычно разрабатывается статистической организацией собственными силами, подрядчиком, или коммерческой компанией, получающей основные данные от бюро переписи. Можно также связать базовую информационно-поисковую систему с коммерческими пакетами программ графики и картографирования.
База данных временных рядов также является в сущности базой макроданных. Действительно, наличие временной характеристики является решающе важным в продуктивном анализе в официальной статистике. С увеличивающейся емкостью устройств хранения данных и растущей осведомленностью статистических учреждений о методах безбумажной публикации, определенно заметен рост количества баз данных, которые содержат данные нескольких последовательно проведенных переписей и демографических обследований. Необходимы внимательные и продолжающиеся усилия по контролю и согласованию, чтобы информация различных мероприятий по сбору данных была сопоставима. Наличие эффективных систем баз метаданных, которые обсуждались в разделе 4.5, может быть основным вкладом в деятельность такого вида. При наличии внимания и терпения эта работа будет иметь результатом весьма портативные и полные источники считываемой компьютером информации о населении.
Недавно вызвали новый интерес попытки объединить все ресурсы статистических данных общим интерфейсом доступа (Tam, 1995). Попытки создания обширных статистических баз данных предпринимались и ранее, но они часто прекращались под бременем чрезмерного количества данных и их неудовлетворительной согласованности. Другими словами, система метаданных была слишком несовершенна. С развитием Интернет наше понимание того, как работать с большими количествами относительно несопоставимых данных, улучшилось, появилось умение “складирования данных”. Тем не менее, нужно понимать, что существенные проблемы фундаментально не изменились. Управление обширной статистической базой данных создает такие же проблемы, как и интегрированной базой данных о населении, но еще более сложные.
После цикла переписей 1990 года Фонд народонаселения ООН субсидировал ряд семинаров по базам данных о населении (United Nations DTCD and the Statistical Office, 1990, 1991; United Nations DESD, 1992; Hungarian Central Statistical Office and UN Statistics Division, 1993). Основной целью этих встреч всегда было выявление больших преимуществ, получаемых в результате огромных усилий, вкладываемых в сбор данных переписей населения и крупных демографических обследований.
5.3 Приложения мультимедиа
Можно ли улучшить распространение статистических данных при помощи звука, видеоклипов, голограмм и того, что еще волнует воображение современного поколения компьютерных игроков? Ответить на этот вопрос отрицательно, вероятно, будет подобно движению по следам работников раннего периода фирмы IBM, по оценкам которых спрос на большие ЭВМ не должен был превысить пару дюжин. Тем не менее, убедительные применения мультимедиа в официальной статистике еще редки. Разработать продукты, в которых инновационные возможности мультимедиа имеют значительное влияние, чрезвычайно трудно.
Некоторые важные принципы указаны в работе Guittet (1995): работа с модулями, позволяющая легко обновлять устаревшую информацию или технологии. Обеспечение независимости от физической поддержки: прикладная программа мультимедиа должна распространяться через Интернет, в режиме on-line, или же выполняться с компакт-диска или любого накопителя значительной емкости с прямым доступом. Стремиться к наиболее низким техническим требованиям, так как немногие пользователи имеют самые последние звуковые платы и графические акселераторы. Рассмотрим весь ряд возможностей: текст (включая гипертекстовые связи), статистика, графики, анимация, фотоснимки, видео и звук. Возможно, в этой области произойдет прорыв и мы привыкнем получать нашу статистическую информацию через мультимедийные продукты. Обратиться к изображению директора Eurostat и потом слышать его речь на вашем языке по выбору (Guittet, 1995) это только начало.
6. Заключение
Нововведения полезны и необходимы, но если они проводятся поспешно и без должного исследования, оправдывающего использование нового подхода, они также могут принести серьезные проблемы. Число инновационных методов обработки переписей и обследований, особо подходящих для развивающихся стран, невелико. Поэтому такие страны поступят наилучшим образом, если они исследуют то, что было опробовано в наиболее технически совершенных окружениях, и рассмотрят новые идеи и методы, которые вероятно пригодны для их конкретных ситуаций.
В число нововведений и уже созданных современных методов, заслуживающих внимания, входят такие:
Статистическая подготовка в учреждениях и программы сбора информации;
Разделение ресурсов между государственными исполнителями больших мероприятий по сбору информации;
Ограничение разнообразия программного обеспечения обдуманный выбор операционных сред и наборов приложений;
Контрактное выполнение определенных задач переписи;
Интегрированные системы планирования и управления в организации;
Компьютерное проектирование переписи;
Внутренняя связь через электронную почту;
Полное управление качеством;
Компьютерное картографирование для целей переписи, а также целей распространения данных;
Сбор данных без посещения домохозяйств;
Усовершенствованное программное обеспечение и оборудование для ввода данных с клавиатуры;
Методы оптического считывания данных, в частности считывание меток;
Компьютерное кодирование;
Вменение, приспособленное к характеристикам статистического исследования и переменных проверки после вменения;
Создание таблиц по запросу;
Интегрированные системы метаданных;
Архивирование с использованием оптических устройств хранения информации;
Распространение данных в режиме on-line, с использованием электронные досок объявлений (BBS) и узлов Интернет;
Распространение данных при помощи высокоемких носителей информации, таких как CD-ROM;
Создание структурированных баз данных о населении;
Создание информационных хранилищ, включая узлы WEB для общего доступа к распределенным национальным или международным ресурсам данных о населении;
Мультимедийная статистическая продукция.
Литература
Australian Bureau of Statistics: CDATA91 News, Census Update 6, 7 and other issues (1993, 1994).
Arriaga, E.: Population Analysis with Microcomputers, USAID/UNFPA, Bureau of the Census, Washington (1994).
Archer, D. and D. Scott: Use of Imaging in the 1996 New Zealand Census of Population and Dwellings, Preprints of NTTS-95, paper 3, GMD, D-53754 Sankt Augustin. Germany (1995).
ARGUS Census Maps USA, available from ARGUS Inc. U. S. A. (1995).
IMPS, Integrated Microcomputer Processing System, International Programs Center, United States Bureau of the Census, Washington (1994).
Benzine D. -E. and P. Gerland: Accessing and Using the Internet, Proceedings of the UNFPA TSS/CST Meeting, United Nations Statistics Division. New York (1995).
Beyritz, 1. and H.-J. Lenz: MetaSys. A Metadata Browser, Preprints of NTTS-95, paper 6. GMD. D-53754 Sankt Augustin, Germany (1995).
Brownrigg, L. A.: The Census Design System, international Programs Center, United States Bureau of the Census, Washington (1995).
REDATAM-Plus, Retrieval of Data for Small Areas by Microcomputer, United Nations Economic Commission for Latin America and the Caribbean, Latin-American Demographic Centre, Document LC/DEM/G-90 (1991).
Choldin, H.: Looking for the Last Percent. The Controversy over Census Undercounts, University Press, New Brunsvick, New Jersey, U. S. A. (1994).
Corby. P.: Exit the Population Census, Ned. Official Stat. Page 41 (Summer 1994).
Dalton. P. and G. Keogh: Automatic Coding of Occupations, the Irish Experience, Preprints of NTTS-95. paper 10, GMD, D-53754 Sankt Augustin, Germany (1995).
Dekker, A. L.: Census Data Processing and Dissemination, Proceedings of the Expert Meeting on Principles and Recommendations for the 2000 Round of Population and Housing Censuses, New York (1996, to be published).
Doucet, J. E.: The Application of Information Technology (IT) to Data Collection and Capture for Surveys. An IT View, preprints of NTTS-95, paper 11. GMD, D-53754 Sankt Augustin, Germany (1995).
Ellis, C.: Networks, wiring considerations and wireless LANs, UNSTAT Technical Notes, United Nations Statistics Division, New York (September 1994).
ENVSTAT the Multi-Dimensional Solution, Eurostat, Directorate F. Unit Environment, Luxemburg (1995).
Fellegi, 1. P. and D. Holt: A Systematic Approach to Automatic Edit and Imputation, Journal of the American Statistical Association 71, 353 (1976).
Groves, P. M.: Challenges of Methodological Innovation in Government Statistic Agencies, in The Future of Statistics, ISI, Voorburg. The Netherlands (1995).
Guittet. C.: Eurostat, a Major Actor in the Global Information Society, Preprints of NTTS-95, paper 13, GMD, D-53754 Sankt Augustin, Germany (1995).
Report on the International Seminar on Optical Technology for Development of Population Databases, Hungarian Central Statistical Office and UN Statistics Division. Budapest (1993) also available on CD-ROM.
Hotman. L. P. M. B.: Survey Management Systems, Preprints of NTTS-95. paper 17, GMD. D-53754 Sankt Augustin, Germany (1995).
Keller, W. , E. Kalvelagen and J. Bethlehem: Statistics on the Internet, Preprints of NTTS-95. paper 21, GMD, D-53754 Sankt Augustin, Germany (1995).
Kinal, G. V.: Where on Earth am I?, Byte Magazine 21, 2 (February 1996).
Laaksonen, S.: Advanced Technology a Good Servant and a Bad Master for Statistics, Preprints of NTTS-95, paper 27, GMD, D-53754 Sankt Augustin, Germany (1995).
Lamb, J. et al: Using the Internet to Analyze Statistical Data in a Distributed Environment, Preprints of NTTS-95, paper 28, GMD, D-53754 Sankt Augustin. Germany (1995).
Lina, M.: BLAISE 2.5 Interactive Coding Users Manual, Netherlands Statistics, Voorburg (1993).
Martin, J.: Defining a Household Reference Person, OPCS Survey Methodology Bulletin No. 37 (July 1995).
Nagy, Zoltan: An Essential Solution for Dissemination and Analysis of Population Data Using Optical Media, Proceedings of the Expert Meeting on Principles and Recommendations for the 2000 Round of Population and Housing Censuses, New York (1996, to be published).
Department of Statistics of New Zeland: Supermap 2 Users Guide. Wellington (1992).
Guide de lIntemet en Afrique (Version prйliminaire), Observatoire du Sahara et du Sahel/UNITAR (Fйvrier 1995).
Population Software Notes. Newsletter produced by the Computer Software and Support for Population Activities Project, United Nations Statistics Division, New York (January 1996).
Schulte Nordholt, E. and J. Hooft van Huijsduijnen: The Treatment of Item Nonresponse during the Editing of Survey Results, Preprints of NTTS-95. paper 40, GMD, D-53754 Sankt Augustin, Germany (1995).
PC-AXIS Users Guide, Statistics Sweden (1993).
Suharto, S. and D.-E. Benzine: Wider Use of Microcomputers in Population Census Operations, UNSTAT Technical Notes, United Nations Statistics Division, New York (September 1994).
Suharto, S. and Vu Duy Man: Computerized Cartographic Work for Censuses and Surveys, Proceedings of the UNFPA TSS/CST Meeting. United Nations Statistics Division. New York (1995).
Sundgren, B.: Making Statistical Data More Available, International Statistical Review 64, 1. 1-22 (April 1996).
Tam, S.-M.: Infomiation Warehouse, Census Mapping Project and Better Serving Users Spatial Information Needs, paper presented to the 16th Population Census Conference of the Association of National Census and Statistics Directors of America, Asia and the Pacific. New Delhi (1995).
U-SP Reference Manual Version 3.4, U-SP Secretariat, Applied Statistics Research Unit Ltd., University of Kent at Canterbury, UK (1995).
Principles and Recommendations for Population and Housing Censuses, United Nations Document ST/ESA/STAT/SER. M/67, New York (1980).
Users Guide to Meta-information Systems in Statistical Offices, United Nations Document ECE/UNDP/ SCP/H.4, Geneva (1984).
The 1989 Interregional Workshop on Population Databases and Related Topics Technical Papers, Document INT-88-P07/1. United Nations DTCD and the Statistical Office. New York (1990).
The Second Interregional Workshop on Population Databases and Related Topics Technical Papers, Document INT-88-P07/2, United Nations DTCD and the Statistical Office, New York (1991).
The Third Interregional Workshop on Population Data-bases and Related Topics Technical Papers, Document INT-88-P07/3. United Nations DESD, NewYork (1992).
Westlake, A.: Statistical Database Management and the Relational Model, Tutorial Presentation, COMPSTAT 90. Dubrovnik (1990).
World systems Luxembourg, personal communication (1996).