ВІКІСТОРІНКА
Навигация:
Інформатика
Історія
Автоматизація
Адміністрування
Антропологія
Архітектура
Біологія
Будівництво
Бухгалтерія
Військова наука
Виробництво
Географія
Геологія
Господарство
Демографія
Екологія
Економіка
Електроніка
Енергетика
Журналістика
Кінематографія
Комп'ютеризація
Креслення
Кулінарія
Культура
Культура
Лінгвістика
Література
Лексикологія
Логіка
Маркетинг
Математика
Медицина
Менеджмент
Металургія
Метрологія
Мистецтво
Музика
Наукознавство
Освіта
Охорона Праці
Підприємництво
Педагогіка
Поліграфія
Право
Приладобудування
Програмування
Психологія
Радіозв'язок
Релігія
Риторика
Соціологія
Спорт
Стандартизація
Статистика
Технології
Торгівля
Транспорт
Фізіологія
Фізика
Філософія
Фінанси
Фармакологія


ДЛЯ ПОЛУЧЕНИЯ БОЛЕЕ ТОЧНОЙ МЕРЫ ИЗМЕНЧИВОСТИ, КОТОРАЯ

2
называется дисперсией Sx и вычисляется по формуле:
2 n 2
Sx=( (xi-x)) : (n-1)
i=1
n 2 2 2 2
(xi-x) = (x1-x) + (x2-x) +...+ (xn-x) (сумма квадратов отклонений)
i=1
Чем больше дисперсия выборки, тем больше разбросаны наши исходные значения по числовой оси относительно среднего значения выборки. Пример вычисления дисперсии: вычислить дисперсию для следующей выборки: 1, 3, 3, 0, 4, 1. Составим расчетную таблицу:

xi xi-x (xi-x)
1 3 3 0 4 1 1-2=-1 3-2=1 3-2=1 0-2=-2 4-2=2 1-2=-1 1 1 1 4 4 1
  =0 =12

 

x= (1+3+3+0+4+1):6=2
2
Sx=12: (6-1)=12:5=2,4
На практике даже для выборки, которая состоит из целых чисел, может оказаться, что среднее значение является не целым числом. В результате этого отклонения тоже будут являться дробными числами, которые нам нужно возводить в квадрат. Поэтому для упрощения вычислений на практике используют следующую формулу:

2n2n2
Sx= (n xi– ( xi) ): n (n-1)
i=1 i=1

n 2 2 2 2
xi =x1 +x2 +…+xn
i=1

n 2 2
( xi) = (x1+x2+...+xn)
i=1

Вычислим дисперсию для рассмотренной выше выборки:

xi хi
1 3 3 0 4 1 1 9 9 0 16 1
xi=12 xi =36

2 Sx = (6 36 – (12) : 6 (6-1) =
= (216-144) : 6 5=72 :30=2,4

ЛУЧШЕ ВСЕГО ВЫЧИСЛЯТЬ ДИСПЕРСИЮ С ПОМОЩЬЮ КОМПЬЮТЕРА, ИСПОЛЬЗУЯ ВСТРОЕННУЮ ФУНКЦИЮ EXCEL (МАСТЕР ФУНКЦИЙ), КОТОРАЯ НАЗЫВАЕТСЯ ДИСП (ИСХОДНЫЙ ДИАПАЗОН).

Свойства дисперсии.
1.Если выборка состоит из одного и того же значения, то дисперсия

 

2
этой выборки будет равна 0. 12, 12, 12, 12, 12. Sx=0. Дисперсия такой выборки равна 0. Дисперсия является неотрицательной величиной, поэтому
2
Sx= -2,12 – не бывает.
2. Если каждый элемент выборки умножить на одну и ту же
2
величину с, то дисперсия выборки изменится в с раз.
2 2
3. Sнов.= с Sстар. хнов.= с хстар.
Пример: вычислить дисперсию следующей выборки: 102, 106, 111, 112, 112, 114, 115, 115, 116, 119, 120, 122. n=12.

xi yi=xi-112 yi
102 106 111 112 112 114 115 115 116 119 120 122 -10 -6 -1 0 0 2 3 3 4 7 8 10 100 36 1 0 0 4 9 9 16 49 64 100
  yi=20 yi=338

2 n 2 n 2
Sy= (n yi-( yi) ) : n(n-1)= (12
i=1 i=1
2
338-(20) ):12 (12-1)= (4656-

400):12 11=4256:132=32,24.

В данном случае вычтем из каждого элемента выборки одну и ту же величину, равную 112.

Стандартное отклонение.
Меры изменчивости тесно связаны с дисперсией – является стандартное отклонение, которое обычно обозначается Sx (сигма). Оно определяется как положительное значение квадратного корня из дисперсии.
2
Sx=Sx
Стандартное отклонение часто используется для оценки диапазона изменения наших исходных данных. Для этого применяется правило «трех стандартных отклонений»: 99,5% исходных данных находится в интервале от х – 3 Sx до х + 3 Sx.
х1, х2, …, хn

 

x – 3 Sx x x + 3 Sx

x=110; Sx=9; x – 3 Sx = 110 – 3 9 =83; x + 3 Sx = 110 + 3 9 =137 ; (83 ; 137) 142 0,5% (отклонение от стандартного отклонения).
Стандартное отклонение может быть использовано также в процедуре преобразования исходных данных, которая получила названиестандартизации. Чаще всего она применяется для «сырых» баллов.
Пусть в ходе эксперимента получили выборку х1, х2, …, хn, где значения представляют собой сырые баллы. Для другого теста можно получить аналогичные данные, однако часто бывает, что шкала тестов различается по диапазону. Для того, чтобы можно было сравнить полученные данные по различным шкалам и применяют процедуру стандартизации. В результате ее получается новая выборка: z1, z2, …, zn.
zi= (xi-x):Sx , где xi , где xi - среднее значение первоначальной выборки; Sx – стандартное отклонение этой выборки (использование компьютера – мастер функций).
В результате новые стандартизованные данные будут иметь среднее значение, равное 0, а стандартное отклонение – 1, независимо от исходных данных, (т.е.шкалы): z=0; Sz=1.

НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ

Значения показателей (признаков) невозможно предугадать даже при полностью известных условиях эксперимента, в которых они измеряются.
Мы можем лишь указать вероятность того, что признак принимает то или иное значение.
Знание частоты встречаемости этих значений позволяет нам судить о распределении частот. Знание этого распределения исследуемого признака позволяет делать выводы о событиях, в которых участвует этот признак. Однако эти выводы тоже носят вероятностный или столастический характер.
Среди распределений есть такие распределения, которые встречаются на практике особенно часто. Эти распределения детально изучены и свойства их хорошо известны.
Наиболее распространенным распределением является нормальное распределение. Оно часто используется для приближенного описания многих случайных явлений, в которых на интересующий нас признак оказывает воздействие большое количество независимых случайных факторов, среди которых нет резко выделяющихся.
Нормальное распределение однозначно распределяется, если мы указываем значения двух его параметров: 1) среднее значение а; 2) дисперсии
2
( сигма). График нормального распределения называется кривой Гаусса и является симметричным относительно среднего значения а.

Параметр а характеризует положение графика на плоскости и
2
называется поэтому параметром положения. Параметр характеризует степень сжатия или растяжения, поэтому он называетсяпараметром
2
масштаба. Если среднее значение а=0, а дисперсия =1, то такое нормальное распределение называется стандартным. Рассмотренная в предыдущем параграфе процедура стандартизации исходных данных как раз и приводит к тому, что преобразованные данные z1, z2, …, zn имеют стандартное нормальное распределение.
График стандартного нормального распределения является симметричным относительно вертикальной координатной оси.

Оно получается в результате деления частной величины, имеющей стандартное нормальное распределение на квадратный корень из случайной
2
величины, имеющей Х – распределение.
2
t = Z0: X :
t – распределение Стьюдента зависит от одного параметра – числа степеней свободы .
График этого распределения является симметричным относительно координатной вертикальной оси.

Рассмотренные выше четыре распределения протабулированы, т.е. для них имеются соответствующие статистические таблицы.

ПРЕДВАРИТЕЛЬНЫЙ АНАЛИЗ ВЫБОРКИ

К предварительному анализу выборки обычно относят следующие задачи:

· Восстановление пропущенных наблюдений.

· Анализ резко выделяющихся наблюдений.

· Проверка статистической независимости исходных данных (элементов выборки).

Восстановление пропущенных наблюдений.
Будем предполагать, что в нашей исходной выборке отсутствие какого-либо показателя у некоторого лица связано с причинами технического характера, т.е. с неисправностью измерительного прибора или грубой ошибкой при подготовке данных, в результате которой истинное значение стало неизвестным.
Однако отметим, что это не связано с состоянием самого объекта. В зависимости от решаемой проблемы исследователю может потребоваться либо оценить некоторые параметры при наличии пропущенных наблюдений, либо оценить сами пропущенные значения, либо и то, и другое, но вместе. Две последние задачи требуют больших исходных допущений, чем оценка самих параметров.
Методы решения таких задач основаны на использовании некоторой избыточной информации, которая возникает вследствие связи между признаками.
1. Самым простым подходом к проблеме обработки пропущенных наблюдений является использование исходных данных только для тех лиц, о которых мы имеем полную информацию.

Данный подход является наиболее целесообразным, если выборка содержит достаточное количество исследуемых объектов, а задача заполнения пропущенных значений не является целью обработки.
2. Однако для выборок небольшого объема, а также в ситуации, когда измерение имеет высокую стоимость, естественно попытаться использовать всю имеющуюся у нас информацию.
Одним из самых старых и простых способов обработки данных с пропущенными наблюдениями является следующий: пропущенное значение некоторого признака заполняется средним арифметическим значением, вычисленным по имеющимся данным. Недостатком этого способа является то, что в результате такого запоминания исходные данные становятся статистически зависимыми.
Анализ резко выделяющихся наблюдений.
Часто при предварительном просмотре исходных данных у исследователя возникают сомнения в истинности отдельных наблюдений, резко выделяющихся на общем фоне. Возникает вопрос, вправе ли мы объяснить обнаруженные отклонения только случайными колебаниями выборки или здесь дело в существенных искажениях стандартных условий сбора статистических данных.
Единственно абсолютно надежным способом решения вопроса резко выделяющихся наблюдений является тщательное рассмотрение условий, при которых эти наблюдения регистрировались. Однако во многих случаях это принципиально невозможно. Поэтому необходимо обращаться к соответствующим формальным статистическим методам. Иногда резко выделяющиеся наблюдения достаточно хорошо просматриваются с помощью построения графика.

Рассмотрим аналитический метод исследования одного резко выделяющегося наблюдения. Не нарушая общности будем считать, что речь идет о максимальном наблюдении. Пусть х(1), х(2), …, х(n) – вариационный ряд исходной выборки, когда в качестве резко выделяющегося наблюдения будет рассматриваться х(n). Решающее правило для исключения из выборки этого значения х(n) основано на следующей статистике.
Тn=(x(n) –x):Sx > Tкр, где х – среднее значение выборки, Sx – стандартное отклонение.
Если эта статистика Тn больше соответствующего критического значения Ткр, то делаем вывод о том, что наблюдение х(n) является резко выделяющимся наблюдением и мы должны это наблюдение удалить из исходной выборки. Если х(n) меньше или равно Ткр, то мы делаем вывод о том, что наблюдение х(n) не является резко выделяющимся наблюдением.
Т(n) < Ткр.
Критические значения находятся обычно в соответствующей статистической таблице или мастере функций. Наиболее полное собрание статистических таблиц находится в книге Большев Л.Н. Смирнов Н.В. Таблицы математической статистики. М. Наука. 1983.
Если в выборке мы подозреваем несколько резко выделяющихся наблюдений, то сначала рассмотренный выше критерий применяют к максимальному из них. Если это значение будет признано резко выделяющимся, то его удаляют из выборки и рассмотренный критерий применяется к следующему по величине элементу выборки и т.д. до тех пор, пока не будет признано, что резко выделяющихся наблюдений больше нет.
Одним из недостатков рассмотренного критерия является то, что «подозрительные» наблюдения часто расположены близко друг к другу, образуя при этом группу в стороне от основной массы наблюдений. В результате рассмотренная процедура, основанная на использовании среднего значения и стандартного отклонения, становится нечувствительной, т.е. не считает их резко выделяющимися. В таких случаях рекомендуют использовать вместо х и Sx более устойчивые оценки – медиану.
Проверка независимости элементов выборки.
Перед тем, как подвергнуть исходные данные статистической обработке, необходимо убедиться в том, что они действительно образуют случайную выборку и являются статистически независимыми, т.е. значение любого элемента выборки не зависит от значений других элементов выборки.
Рассмотрим несколько статистических критериев для проверки независимости элементов выборки.
1. Сначала обратимся к критерию серий, основанному на медиане выборки. Пусть х1, х2, …, хn – исходная выборка из некоторой генеральной совокупности. Найдем сначала по этой выборке ее медиану хmed, после этого каждый элемент исходной выборки заменяем на плюс, если этот элемент больше медианы (+ xi > xmed ) и заменяем его на -, если этот элемент меньше медианы (- xi < xmed ). Если же элемент выборки равен медиане, то мы его исключаем из рассмотрения. В результате такой обработки мы получаем некоторую последовательность плюсов и минусов ++ - +++ - - - - + - ++. Под серией будем понимать последовательность идущих подряд плюсов или минусов. В частном случае серия может состоять только из одного плюса или минуса. В этом случае ее протяженность считается равной 1. Тогда исходную выборку можно охарактеризовать двумя параметрами: (n) –общее количество серий и (n) – протяженность самой длинной серии. В нашем примере (n) = 7; (n) = 4. Если наши исходные наблюдения являются статистически независимыми, то чередование + и - в полученной нами последовательности должно быть случайным, т.е. эта последовательность не должна содержать слишком длинных серий, а общее количество не должно быть слишком малым. В результате таких рассуждений приходят к следующему правилу:
- Наша исходная выборка является случайной, т.е. ее элементы являются статистически независимыми, если выполняются два следующих неравенства:
(n) > ½ (n+1-1,96 n-1);
(n) < 3,3 lg (n+1), где n – общее количество + и - в последовательности, а не общее количество исходных данных, х – целая часть числа х.
- Если же хотя бы одно из этих неравенств не выполняется, то мы делаем вывод о том, что элементы исходной выборки являются статистически зависимыми.
2. Второй статистический критерий – критерий «нисходящих» и «восходящих» серий. Как и для рассмотренного выше критерия в данном критерии рассматривается последовательность + и -. Однако в этом случае правило получения такой последовательности несколько иное.
Как обычно в качестве исходных данных рассматривается выборка х1, х2, …, хn. Последовательность + и – получается следующим образом. На i-том месте ставится +-, если хi+1 - xi>0, т.е. последующий элемент выборки больше предыдущего; ставится знак=, если xi+1 - xi<0, т.е. последующий элемент меньше предыдущего. Если два или несколько последующих значений одинаковы, то принимается во внимание только одно из них.
3, 2, 2, 2, 4, 2, тогда последовательность подряд идущих плюсов будет

· +

соответствовать возрастанию элементов выборки, поэтому она называется восходящей серией. Последовательность подряд идущих минусов будет соответствовать убыванию элементов выборки, поэтому она называется нисходящей серией. Полученную последовательность + и – как и для предыдущего критерия можно охарактеризовать двумя параметрами:
(n) – общее количество серий

· - протяженность самой длинной серии.

Тогда аналогично предыдущему критерию элементы исходной выборки будут статистически независимыми, если в полученной нами + и – общее количество серий не является слишком малым, а протяженность самой длинной серии не является слишком большой.
Математически это правило формулируется следующим образом: 1. Элементы исходной выборки являются статистически независимыми, если выполняются два следующих неравенства:
а) (n) > 1/3 (2n-1) – 1,96 (16n-29):90
б) (n) < 0 (n)
2. Если же хотя бы одно из этих двух неравенств не выполняется, то элементы нашей исходной выборки считаются статистически зависимыми. В данных неравенствах: n –общее количество + и – ; х - целая часть числа х. Величина 0(n) в зависимости от величины n определяется следующим образом:

 

5, n<26
0(n) = 6, 26<n<153
7, 153<n<1170
Задача. Проверить на статистическую независимость выборку, состоящую из номеров месяца рождения студентов группы. 6, 7, 8, 11, 12, 12, 1, 12, 1, 12, 4, 11, 10, 5, 4, 12, 5, 3, 6, 8, 6, 5, 12, 10, 2, 4, 4,. 1.
Проверим независимость с помощью критерия, основанного на медиане выборки. Для этого найдем медиану выборки. Сначала исходную выборку упорядочим: 1, 1, 1, 2, 3, 4, 4, 4, 4, 5, 5, 5, 6, 6, 6, 7, 8, 8, 10, 10, 11, 11, 12, 12, 12, 12, 12, 12. Всего 28. xmed=(6+6):2=6 xmed=6. Получим теперь последовательность + и – по исходной выборке: +++++ - + - + - ++ - - + - - + - ++ - - - -. n=28 – 3 =25 (три шестерки = медиане, исключаются). (n) =14;
(n) =5.
Вычисляем теперь первые части неравенства:

· ½ (n+1 – 1,96 n – 1) = ½ (25+1 – 1,96 25 – 1 = 8,1 =8

· 3,3 lg (n+1) = 3,3lg (25+1) = 3,3 1,38 = 4,55 =4

Сравниваем теперь (n) и (n) с полученными значениями:
(n) = 14>8 (n) = 5>4
В результате получаем, что второе неравенство нарушено, следовательно, мы должны сделать вывод, что исходные данные являются статистически зависимыми.
Решим эту задачу с помощью критерия «нисходящих» и «восходящих» серий. 6, 7, 8, 11, 12, 12, 1, 12, 1, 12, 4, 11, 10, 5, 4, 12, 5, 3, 6, 8, 6, 5, 12, 10, 2, 4, 4, 1. ++++ - + - + - + - - - + - - ++ - - + - - + - (особенность попарно сравнивать) 25, на 1 меньше 3чел. – 2 пары; 12 и 4 искл., т.к. послед. Знач. одинаковы. n = 28 – 2 – 1 = 25; (n) = 16 (n) = 4. Вычисляем правые части неравенств: 1/3 (2n – 1) – 1,96 (16n – 29) : 90 = 1/3 (2 25 – 1) – 1,96 (16 25 – 29) : 90 = 12,4 = 12. 0(n) = 5 ( 5,25<26)
n

Сравниваем (n) и (n) с полученными значениями правых частей.
(n) = 16>12
(n) = 4<5
В данном случае оба требуемых неравенства выполняются, поэтому делаем вывод о том, что наши исходные данные являются статистическими независимыми (получили по 1-му и выбираете то, что вам нужно).

© 2013 wikipage.com.ua - Дякуємо за посилання на wikipage.com.ua | Контакти