Ранее рассматривались примеры, где по умолчанию было взято нормальное распределение итогов испытаний. Такое допущение не всегда можно принять без дополнительной проверки. Если у нас есть эмпирическое распределение, а его гистограмма имеет явные отличия от типичного нормального распределения, то необходимо каким-то способом точно выяснить – имеет место ошибка измерения, случайное отклонение, либо дело в законе распределения и необходимо подбирать какой-либо другой закон, отличный от нормального.
Надёжно удостовериться и провести проверку того, насколько итог испытания соответствует теоретически спрогнозированному распределению $N(a,\sigma)$ поможет критерий, разработанный английским математиком Пирсоном. Данный параметр также называется критерием согласия $\chi ^2$.
Проще всего разобраться с понятием, использовав для обоснования его ввода гипотезу о нормальном распределении. Чтобы осуществить данную проверку проведём несложную операцию — возьмём ось OX и сделаем её разбиение на интервалы в количестве l штук. Получим:
$(-\infty,x_1), (x_1,x_2)... (x_{l-1},+\infty)$
Проведя разбиение, осуществим независимые измерения в количестве n. В итоге которых получим ряд эмпирических значений изучаемой случайной величины. Определим количество исходов ($m_i$), вошедших в i интервал и для дальнейших вычислений используем следующую формулу:
$p'_i=P(x_i<x<x_{i+1})=P(\frac{x_i-a}{\sigma}<x<\frac{x_{i+1}-a}{\sigma})=Ф(t_2)-Ф(t_1)$
здесь
$t_1=\frac{x_i-a}{\sigma}, t_2=\frac{x_{i+1}-a}{\sigma}, m_i'=p_i'\cdot n$
С помощью данных вычислений, мы смогли установить значения теоретических частот. Также их можно вычислить и следующим способом:
$m_i'=\frac{n\cdot d}{s}\cdot f(t_i)$
d — длина имеющегося интервала,
$\bar{x}$— среднее значение выборки,
$s^2$— дисперсия выборки.
Применяем затем теорему Муавра-Лапласа, напомним, что она используется в случае, когда число экспериментов чрезвычайно велико, у нас оно составляет n. Каждый из параметров $m_i$ имеет нормальное распределение асимптотического типа. Центр при этом будет располагаться в точке $np_i$. Поэтому для распределения нормирующих характеристик можно использовать формулу:
$y_i=\frac{m_i-np_i}{\sqrt{np_iq_i}}$,
где i взято от 1 до k.
Полученная зависимость более всего совпадает с простейшим видом нормального распределения. При этом, окажись $y_1,y_2...y_i$ параметрами независимого типа, их распределение хорошо согласовывалось бы с распределением $\chi ^2$. Однако, дело обстоит иначе и данные величины связаны между собой линейно, а именно таким образом:
$\sum_{i=1}^{k} y_i \sqrt{np_iq_i}=\sum_{i=1}^{k}m_i-n\sum_{i=1}^{k}p_i=n-n=0$
Установлено, что, при умножении каждого $y_i^2$ на $q_i$, получаемое распределение суммы
$\sum_{i=1}^{k} y_i^2q_i= \sum_{i=1}^{k}\frac{(m_i-np_i)^2}{np_i}$
будет стремиться к $\chi ^2$ распределению с l-1 степенью свободы при $n\rightarrow \infty$.
По распределению Пирсона находят критическое значение $t_\gamma$ , для которого
$P(u>u_1)=\int_{t_\gamma}^{\infty} P_{\chi^2}(u)du=1-\gamma$ $k=l-1$,
Здесь $\gamma$ — заданная надежность вывода (и, значит, $1-\gamma$ пренебрежимо малая вероятность).
Если сумма
$\sum_{i=1}^{k}\frac{(m_i-np_i)^2}{np_i}$
окажется больше этого критического значения, то с надежностью$\gamma$ можно считать, что проверяемое нормальное распределение не согласуется с результатами эксперимента, а значит гипотезу о нормальном распределении признака X следует отвергнуть. Число степеней свободы находят по формуле k=l-1-r, где l- число интервалов, r- число параметров предполагаемого распределения, которые оцениваются по данным выборки.
Решение примера, с использованием формул и таблиц, относящихся к критерию согласия Пирсона
Пример
Имеется сто скважин, по данным, полученным от которых, надо провести проверку того, что логарифм y=lg x проницаемости пласта горизонта $Д_1$ подчиняется нормальному закону распределения.
Данные, необходимые для вычислений задаются с помощью следующей таблицы
Номер |
Промежутки для $y_i=lg x$ |
$m_i$ |
1 |
1,3-1,6 |
3 |
2 |
1,6-1,9 |
13 |
3 |
1,9-2,2 |
33 |
4 |
2,2-2,5 |
30 |
5 |
2,5-2,8 |
17 |
6 |
2,8-3,1 |
4 |
Решение
Требуется сделать проверку для предположения о нормальном распределении генеральной совокупности для этого выполним следующие действия:
1) Определим размер рассматриваемой выборки n, также рассчитаем среднее значение каждого промежутка $y_i$, определяем среднее выборочное $y_i \cdot m_i$ и вычисляем значение дисперсии$s^2$. Для вычисления значений $\bar y$ и $s^2$ пользуемся следующими формулами:
$ \bar y=(\sum_{i=1}^{6} y_i\cdot m_i)/n$ =2,22
$ s^2=(\sum_{i=1}^{6} (y_i-\bar y)^2 \cdot m_i)/(n-1)$ =0,1150
2) Согласно предположительному закону распределения проводим расчёт для определения теоретически значений частот:
$m_{iT} = \frac{nd}{s} \cdot f(t_i)$
В данной формуле значения параметров в свою очередь определяются согласно следующим формулам:
$t_i=\frac{y_i-\bar y}{s}$
$f(t_i)=frac{1}{\sqrt{2\pi} exp(-\frac{t_i^2}{2})}$
$n=\sum_{i=1}^{6}m_i=100$
$d=0,3$ (длина интервала)
$s=\sqrt{s^2}=\sqrt{0,1150}=0,3391$ (среднеквадратическое отклонение)
При вычислении будем учитывать, что закон, соответствующий случаю нормального распределения — это функция чётная, поэтому достаточно определить $|t_i|$. Рассчитанные в ходе решения значения $m_{iT}$ допустимо округлять таким образом, чтобы действовало условие $\sum m’_{iT}=n$. При этом, если значения параметров $m_{iT}$ и $m’_{iT}$ будут менее пяти, то наиболее приемлемый вариант — сгруппировать их с соседними частотами — столбец $m_{iT_2} $ в следующей таблице.
Номер |
Середина промежутка $y_i$ |
$y_i \cdot m_i$ |
$(y_i- \bar y_i)^2 \cdot m_i$ |
$|t_i|$ |
$f(t_i)$ |
$m_{iT} $ |
$m’_{iT} $ |
$m_{iT_2} $ |
$\chi^2_i$ |
1 |
1,45 |
4,35 |
1,7787 |
2,27 |
0,0303 |
2,7 |
3 |
|
|
2 |
1,75 |
22,75 |
2,8717 |
1,39 |
0,1518 |
13,4 |
13 |
16 |
0 |
3 |
2,05 |
67,65 |
0,9537 |
0,50 |
0,3521 |
31,1 |
31 |
31 |
0,1290 |
4 |
2,35 |
70,5 |
0,5070 |
0,38 |
0,3712 |
32,8 |
33 |
33 |
0,2727 |
5 |
2,65 |
45,05 |
3,1433 |
1,27 |
0,1781 |
15,9 |
16 |
20 |
0,05 |
6 |
2,95 |
11,8 |
2,136 |
2,15 |
0,0396 |
3,5 |
4 |
|
|
$n=100$ |
$\bar y$=2,22 |
$s^2$ =0,1150 |
99,4 |
100 |
100 |
0,4518 |
3) Закончив подготовительные расчёты определим критерий согласия $\chi^2$, используя формулу:
$ \chi^2 = \sum_{i=1}^{l} \chi^2_i $
где
$ \chi^2_i = \frac{(m_i-m_{iT_2})^2}{ m_{iT_2}} $
получаем:
$ \chi^2 = \sum_{i=1}^{l} \frac{(m_i-m_{iT_2})^2}{ m_{iT_2}} $ = 0,4518
где l=4 и соответствует количеству интегралов после группировки результатов.
4) При степенях свободы k=l-3 и уровне значимости q=0,05 можно с помощью таблицы определить значение $\chi^2$. Далее необходимо сравнить его с параметром $\chi^2_q.k.$, если выполняется условие $\chi^2<\chi^2_q.k.$ , то спрогнозированный закон распределения принимается как не вызывающий противоречий и согласующийся с итогами испытаний. Получаем, что в рассматриваемой задаче для параметра согласия:
$\chi^2=0,4518<\chi^2_q.k.=3,841$
А это значит, что нормальный закон распределения может быть использован как статистическая модель распределения для логарифма проницаемости пород. А сам закон распределения в аналитической форме, учитывая, что $\sigma$=0,3391 , $M(y)$=2,22 будет выглядеть следующим образом:
$f(y)=\frac{1}{0,3391\sqrt{2\pi}}\cdot exp(-\frac{(y-2,22)^2}{2\cdot 0,1150})$
Warning: file_put_contents(./students_count.txt): failed to open stream: Permission denied in
/var/www/webmath-q2ws/data/www/webmath.ru/poleznoe/guide_content_banner.php on line
20
Мы помогли уже 4 473 ученикам и студентам сдать работы от решения задач до дипломных на отлично! Узнай стоимость своей работы за 15 минут!