Рандомизированный алгоритм корректировки выборочных данных

Тип работы:
Реферат
Предмет:
Физико-математические науки
Узнать стоимость новой

Детальная информация о работе

Выдержка из работы

2015 ВЕСТНИК САНКТ-ПЕТЕРБУРГСКОГО УНИВЕРСИТЕТА Сер. 10 Вып. 3
ИНФОРМАТИКА
УДК 519. 253+519. 712 А. В. Орехов
РАНДОМИЗИРОВАННЫЙ АЛГОРИТМ КОРРЕКТИРОВКИ ВЫБОРОЧНЫХ ДАННЫХ
Санкт-Петербургский государственный университет, Российская Федерация,
199 034, Санкт-Петербург, Университетская наб., 7/9
Одной из основных проблем статистического анализа экспериментальных данных является получение несмещенных (репрезентативных) выборочных совокупностей. Вполне естественным является желание получить репрезентативную выборку вычислительными методами. Процедура приведения структуры выборки в соответствие со структурой генеральной совокупности называется «корректировкой выборки». Все известные методы корректировки выборочных данных обладают существенным недостатком: они «исправляют» эмпирические функции распределения, а не сами выборочные совокупности. В предлагаемой статье вводятся понятия пространств контрольных и изучаемых признаков, дается формальное определение репрезентативной выборочной совокупности, рассматривается рандомизированный алгоритм корректировки именно выборочных данных, а не их эмпирических распределений. Итерации рандомизированного алгоритма корректировки выборочных данных можно описать следующим образом. Сначала выбирается спектральное значение одного из контрольных признаков такое, что модуль разности между соответствующими выборочной и генеральной долями имеет максимальное значение, т. е. по всем к таким, что 1 ^ к ^ n, ищется max wk — Pk. Если таких спектральных значений несколько, то случайным образом выбирается любое из них. Пусть это будет г-я компонента векторов WX и PX. Затем, если Wi — pi & gt- 0, из выборочной совокупности случайным образом удаляется некоторый вектор Zt, в котором компонента Xi = 1- если же Wi -pi & lt- 0, то в выборочной совокупности случайным образом дублируется вектор Zt, в котором компонента Xi = 1. Библиогр. 9 назв.
Ключевые слова: рандомизированный алгоритм, выборочная совокупность.
A. V. Orekhov
RANDOMIZED ALGORITHM FOR ADJUSTING SAMPLE DATA
St. Petersburg State University, 7/9, Universitetskaya embankment, St. Petersburg,
199 034, Russian Federation
One of the main problems of statistical analysis of experimental data is obtaining an unbiased (representative) sample. It is a natural desire to obtain a representative sample of computational methods. The procedure for adjusting the structure of the sample in accordance with the structure of the population is said to be & quot-adjusted sample& quot-. All known methods of adjusting the sample data have a significant drawback: these methods are & quot-correct"- empirical distribution functions, not the sample. In this paper we introduce the concepts of control spaces and studied traits, given the formal definition of a representative sample population- described
Орехов Андрей Владимирович — старший преподаватель- e-mail: A_V_Orehov@mail. ru Orekhov Audrey Vladimirovich — senior lecturer- e-mail: A_V_Orehov@mail. ru
randomized, algorithm, adjustment is sample data, not their empirical distributions. Iteration of algorithm of randomized sample corrections of data can be described as follows. Please select one spectral value of the control characteristics such that the absolute difference between the respective selective and general shares has a maximum value, then have all к | 1 ^ к ^ n, sought max Wk — Pk |. If spectral values of a few, then randomly selects any of them. Let it be the i-th component of the vector WX and PX. Then, if Wi — pi & gt- 0, of the total sample randomly is to remove some vector Zt, in which the component Xi = 1, if Wi — pi & lt- 0, the total sample randomly duplicated vector Zt, in which the component Xi = 1. Refs 9.
Keywords: randomized algorithm, sampling frame.
1. Введение. «В математической статистике генеральной совокупностью называется множество каких-либо однородных элементов, из которого по определенному правилу выделяется некоторое подмножество, называемое выборкой» [1, стб. 917].
«Под статистическим наблюдением понимается научно организованный, планомерный и систематический сбор массовых данных о различных процессах, явлениях и фактах» [2, с. 26].
Любое однократное статистическое наблюдение некоторого объекта можно считать элементом выборки, извлеченным из генеральной совокупности. В таком наблюдении фиксируются или количественные, или качественные (атрибутивные) признаки объекта. Среди наблюдаемых признаков будем различать контрольные (законы распределения таких признаков в генеральной совокупности считаются известными) и изучаемые (их законы распределения в генеральной совокупности неизвестны). Закон распределения значений признака в генеральной совокупности принято называть теоретическим, а соответствующий закон в выборке — эмпирическим.
По общепринятому соглашению достаточным условием достоверности результатов выборочного исследования является соответствие структуры выборки структуре генеральной совокупности. Такие выборочные совокупности называют «репрезентативными» или «несмещенными». Ниже будет дано формальное определение несмещенной выборки, согласно которому выборочная совокупность будет называться репрезентативной по контрольным признакам, если соответствующие эмпирические и теоретические законы распределения совпадут (в идеальном случае) или будут отличаться друг от друга меньше наперед заданной величины.
Контрольными могут быть любые признаки, инвариантные задачам исследования. Если таких признаков несколько, то их можно рассматривать как многомерную величину с совместным законом распределения.
Закон распределения по любому из подмножеств наблюдаемых признаков (в том числе и контрольных) называется маргинальным.
Явление, когда структура выборки отличается от структуры генеральной совокупности, называется «смещением выборки». Помимо грубых ошибок измерения (регистрации для качественных признаков) именно смещение выборочной совокупности приводит к возникновению ошибок при использовании выборочного метода. Например, контрольными признаками в социологическом опросе, посвященном вопросам материнства и детства, могут быть пол и семейное положение. В этом случае можно рассмотреть три маргинальных закона распределения контрольных признаков: по полу, по семейному положению или совместный по полу и семейному положению. В последнем случае возможны четыре различных реализации значений контрольных признаков. Частота каждого варианта ответа для любого из изучаемых вопросов по выборке в целом будет равна сумме четырех частот в условных распределениях: для незамужних женщин, замужних женщин, холостых мужчин и женатых мужчин. Эмпирические распределения изучаемых признаков зависят от распределения
контрольных признаков. Если в указанном выше социологическом опросе выборочная доля холостых мужчин будет в 3 раза больше соответствующей генеральной доли, а выборочная доля замужних женщин, наоборот, в 2 раза меньше, чем их генеральная доля, то можно не сомневаться, что распределение ответов на вопросы этого опроса не будет отвечать реальному положению вещей в общественном мнении.
2. Постановка задачи. Одна из основных проблем статистического анализа экспериментальных данных — получение несмещенных выборочных совокупностей. Вполне естественным является желание получить репрезентативную выборку вычислительными методами. Процедура приведения структуры выборки в соответствие со структурой генеральной совокупности по одному или нескольким контрольным признакам называется «корректировкой выборки».
В 1940 г. в работе [3] был предложен алгоритм для корректировки данных, полученных при проведении переписи населения США- впоследствии за ним устойчиво закрепилось название «Iterative Proportional Fitting» (IPF). Наиболее полное описание этого алгоритма можно найти в книге [4], где IPF отводится большая часть третьей главы. Первая статья, посвященная сходимости алгоритма IPF, была опубликована в 1942 г. [5], но полное и строгое доказательство сходимости IPF для положительных чисел было приведено только в 1970 г. [6].
В 1989 г. был описан способ корректировки выборочных данных, получивший название «метода штрафных функций» [7].
Но в настоящий момент времени именно IPF чаще всего используется для корректировки выборки по нескольким контрольным признакам при проведении социологических, маркетинговых или иных статистических исследований, в которых изучаются атрибутивные признаки.
Однако все известные методы корректировки выборочных данных обладают существенным недостатком: они «исправляют» эмпирические законы распределения, а не сами выборочные совокупности- как следствие, становится невозможным получение таких важных характеристик выборки как различные виды маргинальных законов совместного распределения всевозможных комбинаций изучаемых признаков.
В настоящей статье рассматривается рандомизированный алгоритм корректировки именно выборки (как множества, извлеченного из генеральной совокупности), а не эмпирических законов распределения выборочных данных.
3. Контрольные и изучаемые признаки. Если признак A принимает конечное число значений: ai,…, an, вероятности которых не равны нулю, P (A = ak) = 0, где 1 ^ к ^ n, то эти значения называются «спектром признака A».
Обозначим через Ik индикатор спектрального значения a^. Если произошло событие A = ak, то по определению его индикатор Ik = 1, если же произошло событие A = ak, — то Ik = 0. Таким образом, индикатор любого спектрального значения является бернуллиевской случайной величиной. При помощи индикаторов удобно вычислять частоты спектральных значений вне зависимости от того, какие признаки они описывают — количественные или атрибутивные. Действительно, пусть признак A, принимающий значения ai ,…, an, наблюдается N раз. В таком случае каждому единичному наблюдению Aj, где 1 ^ j ^ N, будет соответствовать случайный вектор
Aj = (а1,… аj), компоненты которого будут иметь распределение Бернулли.
Причем, если в ^'--м наблюдении, А = а*, то все компоненты, А будут равны 0 и только а* = 1. Тогда вектор частот Р = ,…, дп) спектральных значений признака, А в выборке из N наблюдений будет выражаться элементарной формулой
Р = А1 + … + Ам.
Если положить
Яг
N '-
то W = (и& gt-1,…, и) п] - вектор относительных частот спектральных значений признака, А для этой же выборки.
Пусть в однократном статистическом наблюдении фиксируются в + г признаков- поставим им в соответствие упорядоченный набор
(Х1,…, Х6, Уи…, Уг), (1)
где признаки Х1,…, Х8 являются контрольными, а У1,…, У — изучаемыми.
Положим, что любой Хк, где 1 ^ к ^ в, и любой У1, где 1 ^ I ^ г, как одномерные признаки обладают конечными спектрами:
12 ак 12 01
хк, хк,…, хкк и у,, у, ,…, Ув соответственно. Тогда (1) можно переписать в развернутом виде:
(х1,…, ха1, х2,…, х22 ,…, х^,…, х^, у-[,…, ув1 у2,…, ув2,.., у1,… 1уГг).
Теперь определим вектор Ъ, компоненты которого — индикаторы спектральных значений признаков Хк и У,. Спектральным значениям х]-,…
, х11 первого контрольного признака Х1 поставим в соответствие индикаторы х1,…, ха1, спектральным значениям х1,…, ха2 контрольного признака Х2 — индикаторы х1+а1,…, ха1 +а2, ит. д., спектральным значениям признака Х8 — индикаторы х1+. +ад1,…, ха1 +… +а.
Спектральным значениям изучаемого признака У1 поставим в соответствие индикаторы У1,…, ув1, спектральным значениям изучаемого признака У2 — индикаторы У1+в1,…, У/з1+02, и т. д., спектральным значениям изучаемого признака Уг — индикаторы У1+… + вг1 ,…, У01+… +0г.
Тогда вектор Ъ можно записать как
Ъ = (х1, х2 ,.. ., ха1, х1+а1 ,.., ха1+… +а3 ¦. УЪ У2 ,…, У 01, У1+01, …, У01+… +0г),
где все его компоненты имеют распределение Бернулли.
Для удобства дальнейшего изложения введем такие обозначения:
«1 + … + а8 = п- в1 + … + вг = т. (2)
Согласно (2) вектор Ъ можно представить в более краткой форме:
Ъ = (хьх2,…, хп, У1, У2,…, Ут). (3)
4. Подпространства признаков. Множество контрольных признаков и множество изучаемых признаков не пересекаются, поэтому представляется вполне логичным формально «разграничить» соответствующие им случайные величины.
Случайный вектор Z принадлежит линейному пространству Rn+m, в котором ei = (1,0,…, 0), e2 = (0,1,0,…, 0),…, en+m = (0,0,…, 1) — единичные базисные векторы. Представим Rn+m в виде прямой суммы линейных подпространств: Rn+m = X0Y, где подпространство X — линейная оболочка векторов ei,…, en, а дополнительное подпространство Y — линейная оболочка векторов en+i,…, en+m. Из Rn+m = Хф Y следует, что Z = X+Y, где X — проекция Z на X, а Y — проекция Z на Y, X — вектор контрольных признаков, Y — вектор изучаемых признаков.
Обозначим через P = (pi,…, pn, pn+i,…, pn+m) вектор вероятностей (генеральных долей) событий xi = 1 и yj = 1, т. е. pi = P (xi = 1), pn+j = P (yj = 1). Проекциями P на подпространства X и Y будут заданный вектор PX = (pi,…, pn) и неизвестный вектор PY = (pn+1 ,…, pn+m).
Рассмотрим теперь выборочную совокупность
{ZJi=i = {Zi zn}.
Случайный вектор из этой выборки имеет вид (3), каждая его компонента xi или yj является индикатором какого-либо спектрального значения и имеет распределение Бернулли. Индикаторы xi (1 ^ i ^ n) соответствуют контрольным признакам, а индикаторы yj (1 ^ j ^ m) — изучаемым.
Обозначим через W = (wi,…, wn, wn+i,…, wn+m) вектор, компоненты которого — относительные частоты (выборочные доли) событий xi = 1 и yj = 1, т. е. эти компоненты задают эмпирические вероятности событий Xk = x^ и Y? = yf для соответствующих одномерных признаков Xk и Y?.
Проекциями W на взаимно дополнительные подпространства X и Y будут векторы
WX = (wi ,…, wn) и WY = (wn+1 ,…, wn+m),
все компоненты которых известны.
5. Формальное определение репрезентативности. Одна из основных задач выборочного исследования состоит в приближении значений координат неизвестного вектора PY их статистическими оценками. Эти оценки являются компонентами случайного вектора WY. Так как эмпирические распределения изучаемых признаков зависят от распределения контрольных признаков, то точность такого приближения тем выше, чем меньше координаты векторов PX и WX отличаются друг от друга.
Определение 1. Число 9k & gt- 0 будем называть смещением выборочной совокупности по контрольному признаку Xk, если 9k = max wi — pi, где максимум ищется на множестве натуральных индексов i, удовлетворяющих неравенству
1 + … + a& gt-k-1 & lt- i & lt- ai + … + ak.
Определение 2. Число? & gt- 0 будем называть показателем репрезентативности выборочной совокупности по контрольным признакам Х1, …, Х3, если
? = шах (^1,.., в8).
Заметим, что показатель репрезентативности равен максимальному смещению выборки по всем значениям контрольных признаков.
Определение 3. Выборку будем называть идеально репрезентативной
по контрольным признакам X1 ,…, Xs, если для V i, такого, что 1 ^ i ^ n, будет выполняться равенство wi = pi, т. е. WX = PX.
При решении прикладных задач, за исключением ряда частных случаев, невозможно добиться тождества между теоретическими и соответствующими эмпирическими законами распределения контрольных признаков. В этой связи возникает проблема корректировки выборочной совокупности таким образом, чтобы для некоторого достаточно малого и наперед заданного S & gt- 0 выполнялось неравенство е ^ S.
Определение 4. Пусть S & gt- 0 — наперед заданное число. Назовем выборочную совокупность S-репрезентативной (или просто репрезентативной) по кон-
трольным признакам X1 ,…, Xs, если для ев показателя репрезентативности е справедливо неравенство е ^ S.
6. Алгоритм корректировки выборочных данных. Рандомизированными называются алгоритмы, в которых выполнение одной или нескольких итераций основано на случайном правиле, т. е. среди многих детерминированных правил хотя бы одно выбирается случайно [8].
Если компоненты случайного вектора из выборочной совокупности подчиняются распределению Бернулли, то корректировку выборки можно произвести при помощи рандомизированного алгоритма. Опишем этот алгоритм, используя схему, предложенную Д. Э. Кнутом [9].
Алгоритм RAAS (Рандомизированный алгоритм корректировки выборочных данных). Даны: закон распределения контрольных признаков PX в генеральной совокупности, значение верхней границы показателя репрезентативности S, выборочная совокупность {Z^^. Требуется произвести корректировку выборки {Z^^i так, чтобы для ее показателя репрезентативности е было справедливо неравенство е ^ S. RAASX-рвод PX.] RAAS2. ввод S.] RAAS3. ввод {Zt}NL1
RAAS4. Вычисление WX.] Вычисляются выборочные доли контрольных признаков в выборочной совокупности {Z^^.
RAAS5. Нахождение максимального смещения (показателя репрезентативности).] Определяется спектральное значение одного из контрольных признаков такое, что модуль разности между соответствующими выборочной и генеральной долями имеет максимальное значение, т. е. по всем к таким, что 1 ^ к ^ n, ищется max Wk — pk = е.
Если таких спектральных значений несколько, то случайным образом выбирается любое из них (здесь используется любой из стандартных алгоритмов, включающий генератор случайных чисел). Пусть это i-я компонента векторов WX и PX.
RAAS6. Сравнение с S.] Если е ^ S, то переходим к RAAS12, иначе переходим к RAAS7.
RAAS7. Сравнение с 0.] Если wi — pi & gt- 0, то переходим к RAAS8, если wi — pi & lt- 0 — то к RAAS10.
RAAS8. Удаление.] Из выборочной совокупности случайным образом удаляется некоторый вектор Zt, в котором компонента xi = 1. Здесь, так же как и в RAAS5, используется любой из стандартных алгоритмов, включающий генератор случайных чисел.
RAAS9. Переход к RAAS4. ]
RAAS10. Дублирование.] В выборочной совокупности случайным образом дублируется вектор Zt, в котором компонента xi = 1. Здесь, так же как и в RAAS5,
используется любой из стандартных алгоритмов, включающий генератор случайных чисел.
RAAS11. Переход к RAAS4. ]
RAAS12. Завершение алгоритма. ]
Обоснованием для применения этого алгоритма является тот факт, что при увеличении генеральной совокупности гипергеометрическое распределение все меньше и меньше отличается от биноминального, т. е. при стремлении объема генеральной совокупности к бесконечности нет существенного различия между повторными и бесповторными выборками. Поэтому, когда объем выборки намного меньше объема генеральной совокупности, расчет выборочных долей для бесповторной выборки будет мало отличаться от расчета выборочных долей для повторной выборки.
Блок-схема алгоритма RAAS имеет следующий вид:
7. Заключение. Изучение сходимости представленного рандомизированного алгоритма является отдельной большой темой. Как указывалось в п. 2, на доказательство сходимости IPF, являющегося прототипом предложенного алгоритма, ушло 30 лет. В настоящее время можно отметить следующее.
При каждой итерации рандомизированного алгоритма корректировки выборочных данных будет формироваться новая выборочная совокупность, в которой компоненты вектора W будут принимать значения, отличные от предыдущих. Получение новой выборки — случайное событие Пь- ему соответствует определенное значение показателя репрезентативности, которое обозначим как.
Рассмотрим последовательность: Пх,…, Пь,…
Этим случайным событиям поставим в соответствие двухэлементное множество исходов {C, B}, где C — событие? k ^ ?к+1, т. е. показатель репрезентативности выборочной совокупности не уменьшился- исход B — событие? и & gt- ?fc+i, т. е. показатель репрезентативности выборочной совокупности уменьшился.
Так как вероятность наступления либо C, либо B зависит только от вида выборочной совокупности в данный момент времени и не зависит от предыдущих состояний, последовательность случайных событий Пх,…, Пь,… является неоднородной цепью Маркова с двухэлементным множеством состояний {C, B}.
В вычислительных экспериментах удалось установить: если объем выборки на два порядка и более превосходит количество контрольных признаков, то представленный рандомизированный алгоритм с вероятностью, близкой к 1, «асимптотически сходится», в том смысле, что максимальное смещение выборочной совокупности хоть и не монотонно, но все же уменьшается. При этом показатель репрезентативности стабилизируется около 10~2, так как при таких значениях все четыре вероятности матрицы переходов цепи Маркова, соответствующей этому алгоритму, стремятся к 0. 5, т. е. случайные события C и B становятся практически равновероятными.
Литература
1. Математическая энциклопедия: в 5 т. / гл. ред. И. М. Виноградов. М.: Изд-во «Советская Энциклопедия», 1977. Т. 1. 1152 с.
2. Октябрьский П. Я. Статистика. СПб.: Изд-во С. -Петерб. ун-та, 2001. 344 с.
3. Deming W.E., Stephan F. F. On a least square adjustment of a sampled frequency table when the expected marginal totals are known // The Annals of Mathematical Statistics. 1940. Vol. 11, N 4. P. 427−444.
4. Bishop Y. M., Fienberg S. E., Holland P. W. Discrete Multivariate Analysis: Theory and Practice. New York: Springer-Verlag, 2007. 568 р.
5. Stephan F. F. An iterative method of adjusting sample frequency tables when expected marginal totals are known // The Annals of Mathematical Statistics. 1942. Vol. 13, N 2. P. 166−178.
6. Fienberg S. E. An Iterative Procedure for Estimation in Contingency Tables // Annals of Mathematical Statistics. 1970. Vol. 41, N 3. P. 907−917.
7. Крыштановский А. О., Кузнецов А. Г. Перевзвешивание выборки // Комплексный подход к анализу данных в социологии. М.: Ин-т статистики АН СССР, 1989. C. 16−24.
8. Granichin O., Volkovich V., Toledano-Kitai D. Randomized Algorithms in Automatic Control and Data Mining. Heidelberg- New York- Dordrecht- London: Springer-Verlag, 2014. 275 p.
9. Кнут Д. Э. Искусство программирования: в 3 т. Т. 1. Основные алгоритмы. М.: Мир, 1976. 735 с.
References
1. Matematicheskaia Entsiklopediia: v 5 t. [Mathematical Encyclopedia: in 5 vol.]. Ed. by I. M. Vinogradov. Moscow, & quot-Sovetskaia Entsiklopediia& quot- Publ., 1977, vol. 1, 1152 p. (In Russian)
2. Oktiabr'-skii P. Ia. Statistika [Statistics]. St. Petersburg, St. Petersburg University Press, 2001, 344 p. (In Russian)
3. Deming W. E., Stephan F. F. On a least square adjustment of a sampled frequency table when
the expected marginal totals are known. The Annals of Mathematical? Statistics, 1940, vol. 11, no. 4, pp. 427−444.
4. Bishop Y. M., Fienberg S. E., Holland, P. W. Discrete Multivariate Analysis: Theory and Practice. New York, Springer-Verlag, 2007, 568 р.
5. Stephan F. F. An iterative method of adjusting sample frequency tables when expected marginal totals are known. Annals of Mathematical? Statistics, 1942, vol. 13, no. 2, pp. 166−178.
6. Fienberg S. E. An Iterative Procedure for Estimation in Contingency Tables. Annals of Mathematical? Statistics, 1970, vol. 41, no. 3, pp. 907−917.
7. Kryshtanovskii A. O., Kuznetsov A. G. Perevzveshivanie vyborki [Reweighting the sample]. Kompleksnyi podkhod k analizu dannykh v sotsiologii [An integrated approach to data analysis in sociology]. Moscow, Institute of statistics AS USSR, 1989, p. 16−24. (In Russian)
8. Granichin O., Volkovich V., Toledano-Kitai D. Randomized Algorithms in Automatic Control and Data Mining. Heidelberg, New York, Dordrecht, London, Springer-Verlag, 2014, 275 p.
9. Knut D. E. Iskusstvo programmirovaniia: v 3 t. T. 1. Osnovnye algoritmy [The Art of Computer Programming: in 3 vol. Vol. 1. Fundamental Algorithms]. Moscow, Mir Publ., 1976, 735 p. (In Russian)
Статья рекомендована к печати доц. В. Ю. Добрыниным. Статья поступила в редакцию 30 апреля 2015 г.

Показать Свернуть
Заполнить форму текущей работой