Элементы математической статистики

Реферат

Математическая статистика — наука о математических методах систематизации и использования статистических данных для научных и практических выводов. Во многих своих разделах математическая статистика опирается на теорию вероятностей, позволяющую оценить надежность и точность выводов, делаемых на основании ограниченного статистического материала (напр., оценить необходимый объем выборки для получения результатов требуемой точности при выборочном обследовании).

В теории вероятностей рассматриваются случайные величины с заданным распределением или случайные эксперименты, свойства которых целиком известны. Предмет теории вероятностей — свойства и взаимосвязи этих величин (распределений).

Но часто эксперимент представляет собой черный ящик, выдающий лишь некие результаты, по которым требуется сделать вывод о свойствах самого эксперимента. Наблюдатель имеет набор числовых (или их можно сделать числовыми) результатов, полученных повторением одного и того же случайного эксперимента в одинаковых условиях.

При этом возникают, например, следующие вопросы: Если мы наблюдаем одну случайную величину — как по набору ее значений в нескольких опытах сделать как можно более точный вывод о ее распределении?

Примером такой серии экспериментов может служить социологический опрос, набор экономических показателей или, наконец, последовательность гербов и решек при тысячекратном подбрасывании монеты.

Все вышеприведенные факторы обуславливают актуальность и значимость тематики работы на современном этапе, направленной на глубокое и всестороннее изучение основных понятий математической статистики.

В связи с этим целью данной работы является систематизация, накопление и закрепление знаний о понятиях математической статистики.

1. Предмет и методы математической статистики

Статистика (stato — состояние ) — это совокупность данных наблюдений, статистическая совокупность — это, как правило, количественная оценка исследуемого явления, собранная из разных источников или в одном месте в разное время (числовые значения).

Практически любое статистическое исследование базируется на некоторой выборке, состоящей из случайных величин (CВ).

Различаются случайные величины дискретного (прерывного) и непрерывного типа. Возможные значения дискретных СВ могут быть заранее перечислены. Допустимые значения непрерывных величин не могут быть заранее перечислены и непрерывно заполняют некоторый промежуток конечный или бесконечный. Кроме того существует СВ смешанного типа. В дальнейшем рассматриваются только непрерывные и дискретные величины. Под законом распределения СВ понимается соотношение, устанавливающее связь между возможными множествами значений случайной величины и соответствующим им вероятностями.

39 стр., 19493 слов

Математическая cтатистика

... во многих приложениях теоретической и прикладной статистики. Продемонстрируем этот путь, рассматривая вопрос о вероятностях случайных величин дальше. Обозначим величину вероятности того, что событие A не произойдет. ... то, скорее всего, можем наблюдать, фиксировать факты его появления. Потребность в понятии вероятности и ее вычисления возникнет, очевидно, только тогда, когда мы наблюдаем ...

Законом распределения дискретной СВ является таблица соответствий возможных значений и вероятностей носит название — ряд распределения. Графическое представление — полигон, гистограмма. Каждое из значений Х= xi дискретной СВ возможно, но не достоверно, поэтому может принять каждое из них с некоторой вероятностью pi.=Р(Х=xi).Сумма вероятностей всех возможных значений равна единице. условие нормировки Для непрерывных СВ величин табличное представление оказывается невозможным, поэтому, применяется вероятность не отдельного значения события , а некоторого интервала значений, т.е. применяется функция распределения . Эта функция иногда называется интегральной функцией распределения или интегральным законом распределения Функция — производная функции распределения характеризует плотность распределения. С условием нормировки Кривая, изображающая плотность распределения случайной величины, называется кривой распределения.

Генеральной совокупностью — называется совокупность, включающая в себя все возможные значения данных CВ. Такую совокупность практически трудно создать в силу бесконечного ее объема, поэтому чаще всего статистика оперирует с некоторой частью генеральной совокупности, которая называется — выборкой. Под случайной повторной выборкой объема n понимают совокупность случайных величин , не зависимых между собой. Под случайной величиной понимается величина, которая в результате опыта может принять то или иное значение, неизвестно заранее — какое именно.

Случайная повторная выборка есть математическая модель проводимых в одинаковых условиях независимых измерений. В противном случае выборка называется бесповторной.

Задачи статистических наблюдений :

  • Учет явлений (как правило в количественном измерении) ;
  • на основе которого проводится деление (обобщение) однородных явлений;
  • при любых статистических исследованиях обязательно должно быть достаточно много наблюдений (испытаний, опытов);
  • это необходимо для того, чтобы получить достоверные результаты ;

1. Аккуратная регистрация наблюдений (опытов) ;

2. Строгое соблюдение размеренности величин, соответствие точности.

3. Обрабатывая статистическими методами выборочные наблюдения, должны получать результаты, которые соответствуют всей генеральной совокупности.

Целью статистических исследований является :

  • анализ существующего положения ;
  • выявление тенденций ;
  • прогнозирование на будущий период наблюдаемых показателей.

Математическая статистика — наука о математических методах анализа данных, полученных при проведении массовых наблюдений (измерений, опытов).

В зависимости от математической природы конкретных результатов наблюдений статистика математическая делится на статистику чисел, многомерный статистический анализ, анализ функций (процессов) и временных рядов, статистику объектов нечисловой природы. Существенная часть статистики математической основана на вероятностных моделях. Выделяют общие задачи описания данных, оценивания и проверки гипотез. Рассматривают и более частные задачи, связанные с проведением выборочных обследований, восстановлением зависимостей, построением и использованием классификаций (типологий) и др.

46 стр., 22663 слов

Математическое моделирование экономических процессов на железнодорожном ...

... , 1. Сформировать математическое описание задачи. , 2. Построить первоначальное распределение. , 3. Найти ... плана перевозок. 4. Найти экономический эффект от оптимизации. Экономический эффект от оптимизации рассчитывается ... AN=20; CL=20; CD=40; EM=80. , Исходные данные: A H B J C ... - индекс ресурсов , j - индекс производимой продукции, работы, выполняемых перевозок , xij - количество ресурсов i ...

Для описания данных строят таблицы, диаграммы, иные наглядные представления, например, корреляционные поля. Вероятностные модели обычно не применяются. Некоторые методы описания данных опираются на продвинутую теорию и возможности современных компьютеров. К ним относятся, в частности, кластер-анализ, нацеленный на выделение групп объектов, похожих друг на друга, и многомерное шкалирование, позволяющее наглядно представить объекты на плоскости, в наименьшей степени исказив расстояния между ними.

Методы оценивания и проверки гипотез опираются на вероятностные модели порождения данных. Эти модели делятся на параметрические и непараметрические. В параметрических моделях предполагается, что изучаемые объекты описываются функциями распределения, зависящими от небольшого числа (1-4) числовых параметров. В непараметрических моделях функции распределения предполагаются произвольными непрерывными. В статистике математической оценивают параметры и характеристики распределения (математическое ожидание, медиану, дисперсию, квантили и др.), плотности и функции распределения, зависимости между переменными (на основе линейных и непараметрических коэффициентов корреляции, а также параметрических или непараметрических оценок функций, выражающих зависимости) и др. Используют точечные и интервальные (дающие границы для истинных значений) оценки.

В математической статистике есть общая теория проверки гипотез и большое число методов, посвященных проверке конкретных гипотез. Рассматривают гипотезы о значениях параметров и характеристик, о проверке однородности (то есть о совпадении характеристик или функций распределения в двух выборках), о согласии эмпирической функции распределения с заданной функцией распределения или с параметрическим семейством таких функций, о симметрии распределения и др.

Большое значение имеет раздел математической статистики, связанный с проведением выборочных обследований, со свойствами различных схем организации выборок и построением адекватных методов оценивания и проверки гипотез.

Задачи восстановления зависимостей активно изучаются более 200 лет, с момента разработки К. Гауссом в 1794 г. метода наименьших квадратов. В настоящее время наиболее актуальны методы поиска информативного подмножества переменных и непараметрические методы.

Математические методы в статистике основаны либо на использовании сумм (на основе Центральной Предельной Теоремы теории вероятностей) или показателей различия (расстояний, метрик), как в статистике объектов нечисловой природы. Строго обоснованы обычно лишь асимптотические результаты. В настоящее время компьютеры играют большую роль в математической статистике. Они используются как для расчетов, так и для имитационного моделирования (в частности, в методах размножения выборок и при изучении пригодности асимптотических результатов).

2. Основные понятия математической статистики

Пространством элементарных событий называется множество исходов некоторого эксперимента.

2 стр., 608 слов

Функции и роли вожатого

Способность вдохновить детей на высокие обязательства, забота о развитии и поддержке детей Вседозволенность, каждый занимается «своим делом», не думая об эффективности общей деятельности Развитию детей не придается значения, у детей нет перспектив личностного роста 2. Фасилитатор- Он должен воспитывать в коллективе стремление к согласию, улаживать межличностные конфликты. Ожидаемое поведение ...

Элементарным событием называется любой элемент пространства элементарных событий.

Событием называется любое подмножество пространства элементарных событий.

Генеральной совокупностью называется достаточно большое, быть может, бесконечное подмножество элементарных событий.

Случайной величиной называют функцию от элементарного события.

Экспериментом называется функция, принимающая значение на пространстве элементарных событий.

Статистическая моделью называется совокупность законов, которым подчиняется процедура эксперимента.

Случайной выборкой 1 или просто выборкой1 объема n называется набор некоторого числа элементов генеральной совокупности, наблюденных при серии из n одинаковых экспериментов

Выборкой 2 объема n называется набор 1,…,n случайных величин, определенных на натуральных числах 1,…,n , k -я с.в. принимает значение исхода k i го эксперимента на числе i , при условии, что все эксперименты одинаковы.

Статистикой называется любая измеримая функция от выборки.

Функцией правдоподобия называется плотность распределения выборки 2 , как n-мерной случайной величины.

Вариационный ряд, распределение порядковых статистик. Эмпирические Квантили ГММЕ 398.

к-й порядковой статистикой выборки х 1 ,…,хn называется такая случайная величина х(k) , что для каждого набора значений выборки х 1 ,…,х n х (k) равна такому х i , для которого найдется ровно i-1 элементов выборки, которые меньше х i .

Если х 1 ,…,х n — независимые, одинаково распределенные случайные величины, что распределение к-й порядковой статистики задается следующей формулой:

где B(a,b) — плотность бета распределения.

Вариационным рядом называется последовательность порядковых статистик x (1) ,…,x (n) . Выборочным квантилем порядка р называется значение х ([np]+1). Квантилью p для с.в. х с функцией распределения F(x) называется любой корень уравнения F( p )=p.

Эмпирическая функция распределения, ее св-ва, как функции распределения и как случайного элемента (распределения и числовые характеристики) СКТ 191.

Эмпирическим распределением называется распределение, которое каждому элементу выборки 1х 1 ,…,х n ставит в соответствие вероятность1/n.

Эмпирическим распределением n для выборки х 1 ,…,х n называется функция, по определению равная

где равно 1, если х k принадлежит В, и нулю иначе.

Эмпирической функцией распределения называется функция

F n (x)=(-,x).

Математическое ожидание эмпирической функции распределения M (x) равно среднему арифметическому значений х1 ,…,хn .

4 стр., 1547 слов

Функции нескольких переменных

... данной функции найдены в примере 3: Дифференцируя и по переменным х и y, получим ; ; 5. Экстремум функции нескольких переменных. Необходимые и достаточные условия существования экстремума Точка называется точкой минимума (максимума) функции , если ...

Дисперсия эмпирической функции распределения

Выборочным моментом порядка k называется значение

Сходимость эмпирической функции распределения. Теорема Гливенко — Кантелли (БМС 22).

Теорема. Для эмпирического распределения

и распределения генеральной совокупности

Теорема Колмогорова. Доказательство независимости статистики Колмогорова от вида непрерывной функции распределения — СКТ 209 ГММЕ 173.

Статистикой Колмогорова для непрерывной функции распределения генеральной совокупности F(x) и — эмпирической функция распределения F n (x) , построенной по выборке х 1 ,…,х n , называется функция

Теорема. Если F(x) непрерывна, то распределения статистики Колмогорова D n не зависит от F(x).

Условные математические ожидания и условные распределения. Св-ва условных мат. ожиданий. Аналоги формул полной вероятности и формулы Байеса для мат. ожиданий ГММЕ 173 ШВ 91.

Условным законом распределения д.с.в. при заданном значении д.с.в. k называется набор условных вероятностей

l=1,…,m.

Условным математическим ожиданием д.с.в. при заданном значении д.с.в. k называется сумма

Имеет место равенство M [M( )] = M. М (Р ( = y l | =x k )) = P( = y l ).

Достаточные статистики. Теорема Неймана-Фишера (критерий достаточности) СКТ 221.

Достаточной называется такая статистика t(x) , что для случайной величины с распределением p(x,) условное распределение P( | t() = t 0 ) не зависит от параметра (то есть через нее можно определить значение параметра ).

Теорема. Статистика t(x) с распределением p(x,)=g(t(x);)h(x) является достаточной.

Статистические оценки. Св-ва оценок: состоятельность, несмещенность, эффективность. Задача оптимального статистического оценивания СКТ 215.

Оценкой для независимой выборки (x 1 ,…,x n ) называют статистику , предназначенную для использования вместо параметра , в качестве его приближения, однозначно определяемому исходным распределением F из семейства распределений F (x) .

Несмещенной называется такая оценка , что ее мат. ожидание равно .

Состоятельной называется последовательность оценок , сходящаяся по вероятности к .

Эффективной называется такая оценка что ее дисперсия минимальна среди последовательности оценок .

Улучшение оценок с помощью достаточных статистик. Теорема Колмогорова Блекуэла Рао ВДВ СКТ 222.

Теорема Колмогорова Блекуэла Рао. Пусть t(х) — достаточная статистика семейства распределений p(x,) , а — несмещенная оценка параметра с конечной дисперсией для некоторой выборки (x 1 ,…,x n ) . Тогда условное мат. ожидание при фиксированном t(х) будет несмещенной оценкой с дисперсией не превосходящей дисперсию .

Полные достаточные статистики и их использование для нахождения несмещенных оценок с минимальной дисперсией СКТ 222 БМС 142.

Полным семейством распределений G, зависящих от к-мерного параметра называется такое семейство G , что из равенства нулю для любой измеримой функции y(s), следует , что y(s)=0.

Полной называется статистика с полным семейством распределений G, индуцированным распределением генеральной совокупности G.

Теорема. Для полной достаточной статистики S и оценки , оценка s =M(|S) является единственной эффективной оценкой.

Неравенство Крамера-Рао-Фреше. Эффективные оценки в регулярном случае. Информация Фишера и ее св-ва СКТ 224.

Информацией Фишера для плотности p(x, ) называют математическое ожидание

Неравенство Рао-Крамера. Для семейства плотностей p(x, ) и оценки с математическим ожиданием g() таких, что и , имеет место неравенство

Эффективностью оценки с математическим ожиданием g() называется отношение

Эффективной называется оценка, эффективность которой равна 1.

Метод моментов св-ва оценок СКТ 228.

Методом моментов называют способ нахождения оценок к к=1,…,r, получаемых как решение системы

m k0 =m k ( 1 ,…,r),

где , а m k — моменты порядка к для независимой выборки с плотностью p(x, 1 ,…, n ).

Теорема. Непрерывные оценки к к=1,…,r, получаемые методом моментов, состоятельны.

Асимптотические св-ва статистических оценок. Состоятельность, асимптотическая эффективность, асимптотическая нормальность СКТ 227 ВДВ 221.

Асимптотически эффективностью оценки

Асимптотически эффективной называется такая оценка, асимптотическая эффективность к-рой равна единице.

Асимптотически нормальной называется оценка, которая в пределе сходится к нормальному распределению.

Состоятельность и асимптотическая нормальность эмпирических моментов и функций от эмпирических характеристик (БМС 40).

Теорема. Пусть F 0 — функция распределения генеральной совокупности и g, S n таковы, что

где h — дифференцируема в точке , , то , где — н.р.с.в. с параметрами 0 и

Асимптотические св-ва оценок максимального правдоподобия. Метод максимального правдоподобия. Оптимальные св-ва оценок СКТ 229 ГММЕ 541 ВДВ 221 ВДВ 249.

Оценкой максимального правдоподобия называется оценка, обращающая в максимум функцию правдоподобия:

  • L(x; )=max

Теорема. Если 1 << 2 , , , , и , где М не зависит от , то уравнение правдоподобия имеет решение, которое в пределе сходится по вероятности к 0 . Эта оценка наибольшего правдоподобия асимптотически нормальна и асимптотически эффективна.

Основные понятия общей теории статистических решений: пр-во решений, функция потерь и функция риска. Байесовский и минимальный подходы к задачам статистических решений (БМС 120).

Байесовский подход состоит в представлении параметра как случайной величины с некоторой плотностью q(t), называемой априорной.

Байесовской оценкой ~ , минимизирующей M(- ~ ) 2 является функция

где — апостериорное распределение , , t (x) — функция правдоподобия, — мера.

Минимальной называется такая оценка ~ , что для любой другой оценки

Байесовские оценки при квадратичной функции потерь. Априорный и апостериорный риск. Сравнение с эффективными оценками. Нормальное распределение в R n . Эквивалентность различных определений и св-ва. ГММЕ 341 СКТ 164.

Нормально распределенным называется такой случайный вектор , что его характеристическая функция равна

где, а — вектор, а В — симметрическая матрица положительно определенной КВАФ. Любое линейное преобразование нормально распределенного случайного вектора также является нормальным случайным вектором.

Теорема. Для того чтобы вектор был нормально распределен, необходимо и достаточно, чтобы имело место представление

где i — набор нормально распределенных н.о.р.с.в., g — некоторая матрица, M =a .

Распределение хи квадрат. Стьюдента, Фишера и их использование в мат. статистике СКТ 169.

Распределение

Формула плотности

E

Геометрическое xQ

p(x)=(1-) x

(1-)/

(1-)/ 2

Пуассона xQ

Нормальное xR

a

2

Гамма x>0

Хи квадрат с k степенями свободы х0

Стьюдента с k степенями свободы

xR

Фишера

х0

Независимость среднего арифметического и среднего квадратичного для независимых нормально распределенных случайных величин ГММЕ 413 СКТ 237.

Теорема. Статистики (выборочное среднее) и (дисперсия) незав. норм. р.с.в. независимы, случайная величина s 2 (n-1)/ 2 имеет распределение хи квадрат с (n-1) й степенью свободы.

Понятие доверительного интервала — интервальной статистической оценки и его хар-ки. Точные и асимптотические доверительные интервалы СКТ 234.

Доверительным интервалом для выборки с распределением p(x, ) называется такой отрезок, что принимает значение из этого отрезка с вероятностью 1-, называемой доверительной вероятностью.

Асимптотическим доверительным интервалом уровня называется такой интервал ( 1 , 2 ), что

Доверительные интервалы для параметров нормального распределения СКТ 236.Доверительные интервалы для параметров биномиального распределения СКТ 240.Проверка статистических гипотез. Общие понятия: простые и сложные статистические гипотезы, критерии, ошибки 1го и 2го рода, размер, мощность критерия СКТ 197.

Статистической гипотезой называются предположения о значении параметра для выборки с распределением p(x, ).

Простой называется статистическая гипотеза, состоящая в том, что = 0 .

Сложной называется статистическая гипотеза, предполагающая принадлежность к некоторому мн-ву 0 .

Ошибкой первого рода называется опровержение верной гипотезы.

Ошибкой второго рода называется принятие ложной гипотезы при существующей истинной.

Критерий — правило, по которому гипотеза Н будет отвергнута, если случайная величина принимает значение из критического мн-ва S.

S критерием

Уровнем значимости называется вероятность ошибки первого рода.

при истинном значении параметра

Оптимальным, или наиболее мощным называется критерий S для которого

Проверка двух простых гипотез. Лемма Неймана-Пирсона. Критерий отношения правдоподобия как наиболее мощный критерий ГММЕ 541.

критерием называется такой критерий, согласно которому гипотеза Н отвергается, если некоторая бинарная случайная величина от выборки, принимающая свои значения с вероятностями и 1- соотв., принимает нулевое значение .

Оптимальным, или наиболее мощным называется такой критерий, что W(, 0 )=, W(, 1 ) максимален среди всех — критериев с уровнем значимости .

Теорема Неймана-Пирсона. Для любого от нуля до единицы существуют такие числа с, большее нуля, и , что критерий с функцией равной 1, если p(x, 1 )>cp(x, 0 ), , если они равны и 0, если p(x, 1 )<cp(x, 0 ), определяет оптимальный критерий с уровнем значимости .

Равномерно наиболее мощные критерии. Семейство распределений с монотонным отношением правдоподобия ГММЕ 571 580.

Равномерно наиболее мощным называется такой критерий, что для любых двух значений неизвестного параметра из множества их допустимых значений и не равных фиксированному 0 множество Х, определяемое соотношением (x, 1 )c(x, 0 ) одно и тоже.

Критерий согласия. Критерий Колмогорова, критерий хи квадрат Пирсона СКТ 209 ГММЕ 368 453 488.

Критерием согласия называется критерий, позволяющий выяснить согласие между распределением выборки и эмпирическим распределением.

Критерием Колмогорова называется критерий, принимающий гипотезу о характере функции распределения для случайной выборки, если n 1/2 D n k , где k — квантиль предела распределения n 1/2 D n при n, D n =sup|F n (x)-F(x)| по всем x, F n (x) — эмпирическая функция распределения выборки, F(x) — непрерывная функция распределения генеральной совокупности.

Теорема. Если F(x) непрерывна, то распределение статистики D n не зависит от F(x).

Критерием хи квадрат называется критерий, в котором за меру расхождения эмпирической функции распределения с гипотетической равна 2 =v i 2 /np i n, где р i — вероятность нек-рого подмножества выборки, разбитой на прямую сумму непересекающихся подмножеств.

Критерий однородности различных выборок. Критерий Смирнова, критерий Стьюдента. Критерий независимости СКТ 211 ГММЕ 482.

Критерием Смирнова называется критерий, позволяющий проверять гипотезу о том, что две выборки х 1 …х n и у 1 …у m взяты из одного и того же распределения, основанный на том, что если их функции распределения F(x) и G(x) непрерывны и совпадают, то при n,m, n/mc 0<c<, случайная величина

где имеет тот же закон распределения, как и в критерии Колмогорова.

Критерием Стьюдента называется критерий, позволяющий проверять гипотезу о том, что две выборки х 1 …х n и у 1 имеют одинаковую дисперсию, он основывается на рассмотрении отношения дисперсии двух эмпирических распределений. Если F=|D 1 /D 2 | принадлежит доверительному интервалу распределения Фишера, то гипотеза о равенстве дисперсии для двух выборок считается состоятельной.

Критерий однородности двух выборок c объемами n 1, n 2 , разделенные на l групп с численностями m’ i и m» i соотв. I=1,…,l состоит в вычислении значения и сравнивания его с табличным значением хи квадрат для соотв. Уровня значимости.

3. Основные понятия выборочного метода

Рассматривают два типа выборок:

  • повторные, если наблюдения проводятся при повторяющихся условиях и при этом случайные величины Xi (i=1,2,…, n) независимы и одинако распределены;
  • бесповторные, если условие повторности нарушается, т.е.

невыпоняется хотя бы одно из условий независимости и одинаковой распределенности случайных величин Xi (i=1,2,…, n).

Вся совокупность значений, которые могут принимать наблюдаемые величины Xi называется генеральной совокупностью, а ее числовые характеристики генеральными в отличии от выборочных подсчитанных на основе реализации выборки.

Вариационным рядом — называется ранжированная (упорядоченная по возрастанию) совокупность дискретных значений и соответствующая каждому значению частота. Вариационный ряд может быть дискретным и интервальным (сгруппированным).Вариационный ряд можно считать распределенным признаком. Сгруппированный вариационный ряд состоит не из конкретных значений совокупности, а из некоторых интервалов этих значений и соответствующих каждому интервалу частот.

Пусть — случайная величина, наблюдаемая в случайном эксперименте. Предполагается, что вероятностное пространство задано (и не будет нас интересовать).

Будем считать, что, проведя раз этот эксперимент в одинаковых условиях, мы получили числа , , , — значения этой случайной величины в первом, втором, и т.д. экспериментах. Случайная величина имеет некоторое распределение , которое нам частично или полностью неизвестно.

Рассмотрим подробнее набор , называемый выборкой.

В серии уже произведенных экспериментов выборка — это набор чисел. Но если эту серию экспериментов повторить еще раз, то вместо этого набора мы получим новый набор чисел. Вместо числа появится другое число — одно из значений случайной величины . То есть (и , и , и т.д.) — переменная величина, которая может принимать те же значения, что и случайная величина , и так же часто (с теми же вероятностями).

Поэтому до опыта — случайная величина, одинаково распределенная с , а после опыта — число, которое мы наблюдаем в данном первом эксперименте, т.е. одно из возможных значений случайной величины .

Выборка объема — это набор из независимых и одинаково распределенных случайных величин («копий »), имеющих, как и , распределение .

Что значит «по выборке сделать вывод о распределении»? Распределение характеризуется функцией распределения, плотностью или таблицей, набором числовых характеристик — , , и т.д. По выборке нужно уметь строить приближения для всех этих характеристик.

4. Выборочное распределение

Рассмотрим реализацию выборки на одном элементарном исходе — набор чисел , , . На подходящем вероятностном пространстве введем случайную величину , принимающую значения , , с вероятностями по (если какие-то из значений совпали, сложим вероятности соответствующее число раз).

Таблица распределения вероятностей и функция распределения случайной величины выглядят так:

Распределение величины называют эмпирическим или выборочным распределением. Вычислим математическое ожидание и дисперсию величины и введем обозначения для этих величин:

Точно так же вычислим и момент порядка

В общем случае обозначим через величину

Если при построении всех введенных нами характеристик считать выборку , , набором случайных величин, то и сами эти характеристики — , , , , — станут величинами случайными. Эти характеристики выборочного распределения используют для оценки (приближения) соответствующих неизвестных характеристик истинного распределения.

Причина использования характеристик распределения для оценки характеристик истинного распределения (или ) — в близости этих распределений при больших .

Рассмотрим, для примера, подбрасываний правильного кубика. Пусть — количество очков, выпавших при -м броске, . Предположим, что единица в выборке встретится раз, двойка — раз и т.д. Тогда случайная величина будет принимать значения 1, , 6 с вероятностями , , соответственно. Но эти пропорции с ростом приближаются к согласно закону больших чисел. То есть распределение величины в некотором смысле сближается с истинным распределением числа очков, выпадающих при подбрасывании правильного кубика.

Мы не станем уточнять, что имеется в виду под близостью выборочного и истинного распределений. В следующих параграфах мы подробнее познакомимся с каждой из введенных выше характеристик и исследуем ее свойства, в том числе ее поведение с ростом объема выборки.

5. Эмпирическая функция распределения, гистограмм

Поскольку неизвестное распределение можно описать, например, его функцией распределения , построим по выборке «оценку» для этой функции.

Определение 1.

Эмпирической функцией распределения, построенной по выборке объема , называется случайная функция , при каждом равная

Напоминание: Случайная функция

называется индикатором события . При каждом это — случайная величина, имеющая распределение Бернулли с параметром . почему?

Иначе говоря, при любом значение , равное истинной вероятности случайной величине быть меньше , оценивается долей элементов выборки, меньших .

Если элементы выборки , , упорядочить по возрастанию (на каждом элементарном исходе), получится новый набор случайных величин, называемый вариационным рядом:

Здесь

Элемент , , называется -м членом вариационного ряда или -й порядковой статистикой.

Пример 1.

Выборка:

Вариационный ряд:

Рис. 1. Пример 1

Эмпирическая функция распределения имеет скачки в точках выборки, величина скачка в точке равна , где — количество элементов выборки, совпадающих с .

Можно построить эмпирическую функцию распределения по вариационному ряду:

Другой характеристикой распределения является таблица (для дискретных распределений) или плотность (для абсолютно непрерывных).

Эмпирическим, или выборочным аналогом таблицы или плотности является так называемая гистограмма.

Гистограмма строится по группированным данным. Предполагаемую область значений случайной величины (или область выборочных данных) делят независимо от выборки на некоторое количество интервалов (не обязательно одинаковых).

Пусть , , — интервалы на прямой, называемые интервалами группировки. Обозначим для через число элементов выборки, попавших в интервал :

(1)

На каждом из интервалов строят прямоугольник, площадь которого пропорциональна . Общая площадь всех прямоугольников должна равняться единице. Пусть — длина интервала . Высота прямоугольника над равна

Полученная фигура называется гистограммой.

Пример 2.

Имеется вариационный ряд (см. пример 1):

Разобьем отрезок на 4 равных отрезка. В отрезок попали 4 элемента выборки, в — 6, в — 3, и в отрезок попали 2 элемента выборки. Строим гистограмму (рис. 2).

На рис. 3 — тоже гистограмма для той же выборки, но при разбиении области на 5 равных отрезков.

Рис. 2. Пример 2

Рис. 3. Пример 2

Замечание 1.

В курсе «Эконометрика» утверждается, что наилучшим числом интервалов группировки («формула Стерджесса») является

Здесь — десятичный логарифм, поэтому , т.е. при увеличении выборки вдвое число интервалов группировки увеличивается на 1. Заметим, что чем больше интервалов группировки, тем лучше. Но, если брать число интервалов, скажем, порядка , то с ростом гистограмма не будет приближаться к плотности.

Справедливо следующее утверждение:

Если плотность распределения элементов выборки является непрерывной функцией, то при так, что , имеет место поточечная сходимость по вероятности гистограммы к плотности.

Так что выбор логарифма разумен, но не является единственно возможным.

Заключение

Математическая (или теоретическая) статистика опирается на методы и понятия теории вероятностей, но решает в каком-то смысле обратные задачи.

Если мы наблюдаем одновременно проявление двух (или более) признаков, т.е. имеем набор значений нескольких случайных величин — что можно сказать об их зависимости? Есть она или нет? А если есть, то какова эта зависимость?

Часто бывает возможно высказать некие предположения о распределении, спрятанном в «черном ящике», или о его свойствах. В этом случае по опытным данным требуется подтвердить или опровергнуть эти предположения («гипотезы»).

При этом надо помнить, что ответ «да» или «нет» может быть дан лишь с определенной степенью достоверности, и чем дольше мы можем продолжать эксперимент, тем точнее могут быть выводы. Наиболее благоприятной для исследования оказывается ситуация, когда можно уверенно утверждать о некоторых свойствах наблюдаемого эксперимента — например, о наличии функциональной зависимости между наблюдаемыми величинами, о нормальности распределения, о его симметричности, о наличии у распределения плотности или о его дискретном характере, и т.д.

Итак, о (математической) статистике имеет смысл вспоминать, если имеется случайный эксперимент, свойства которого частично или полностью неизвестны, мы умеем воспроизводить этот эксперимент в одних и тех же условиях некоторое (а лучше — какое угодно) число раз.

Список литературы

1. Баумоль У. Экономическая теория и исследование операций. — М.; Наука, 1999.

2. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М.: Наука, 1995.

3. Боровков А.А. Математическая статистика. М.: Наука, 1994

4. Коршунов Д.А., Чернова Н.И. Сборник задач и упражнений по математической статистике. Новосибирск: Изд-во Института математики им. С.Л.Соболева СО РАН, 2001.

5. Пехелецкий И.Д. Математика: учебник для студентов. — М.: Академия, 2003.

6. Суходольский В.Г. Лекции по высшей математике для гуманитариев. — СПБ Издательство Санкт-петербургского государственного университета. 2003

7. Феллер В. Введение в теорию вероятностей и ее приложения. — М.: Мир, Т.2, 1984.

8. Харман Г., Современный факторный анализ. — М.: Статистика, 1972.