ВІКІСТОРІНКА
Навигация:
Інформатика
Історія
Автоматизація
Адміністрування
Антропологія
Архітектура
Біологія
Будівництво
Бухгалтерія
Військова наука
Виробництво
Географія
Геологія
Господарство
Демографія
Екологія
Економіка
Електроніка
Енергетика
Журналістика
Кінематографія
Комп'ютеризація
Креслення
Кулінарія
Культура
Культура
Лінгвістика
Література
Лексикологія
Логіка
Маркетинг
Математика
Медицина
Менеджмент
Металургія
Метрологія
Мистецтво
Музика
Наукознавство
Освіта
Охорона Праці
Підприємництво
Педагогіка
Поліграфія
Право
Приладобудування
Програмування
Психологія
Радіозв'язок
Релігія
Риторика
Соціологія
Спорт
Стандартизація
Статистика
Технології
Торгівля
Транспорт
Фізіологія
Фізика
Філософія
Фінанси
Фармакологія


ОСНОВНЫЕ ЭТАПЫ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ

ВВЕДЕНИЕ

Математическую статистику условно делят на 3 части:
-описательная статистика;
-теория статистического вывода;
-планирование и анализ эксперимента.
Описательная статистика занимается описанием, графическим представлением и табулированием совокупности исходных данных.
Теория статистического вывода – общий класс задач, характеризующийся попытками вывести свойства большого массива данных путем обследования небольшого массива данных, т.е. выборки.
Планирование и анализ эксперимента – статистические методы, разработанные для обнаружения и проверки причинной связи между изучаемыми переменными (показателями).

ОСНОВНЫЕ ЭТАПЫ СТАТИСТИЧЕСКОГО АНАЛИЗА ДАННЫХ

1 этап – исходный предварительный анализ исследуемой реальной системы. В результате этого этапа определяются:
- основные цели исследования на содержательном неформализованном уровне;
- совокупность единиц, представляющих предмет статистического исследования;
- перечень отобранных из представленных специалистами априорных (независимых от опыта человека) показателей, характеризующих каждого из исследуемых объектов;
- степень формализации соответствующих записей при сборе исходных данных;
- общее время и трудозатраты на планируемые работы.
- формализованная постановка задачи, по возможности включающая статистическую модель изучаемого явления.
2 этап – составление детального плана сбора исходной информации. При составлении этого плана необходимо по возможности учитывать полную схему дальнейшего статистического анализа.
3 этап – сбор исходного материала и ввод этих данных в ЭВМ.
4 этап – первичная статистическая обработка данных. В ходе этой обработки решаются следующие задачи:
1.Отображение переменных, описанных текстом в номинальную или порядковую шкалу.

1. Анализ резко выделяющихся наблюдений.

2. Восстановление пропущенных наблюдений.

3. Проверка статистической независимости элементов исходной выборки.

5 этап – составление детального плана вычислительного анализа исходного материала. На этом этапе определяются основные группы, для которых будет проводиться дальнейший анализ. Обычно описывается блок-схема анализа с указанием привлекаемого метода.
6 этап – вычислительная реализация основной части статистической обработки данных.
7 этап – подведение итогов исследования. На этом этапе проверяется, в какой мере достигнуты сформулированные на 1 этапе содержательные цели работы. Если эти цели не достигнуты, то объясняется, почему. Работа завершается содержательной формулировкой новых задач, вытекающих из проведенного исследования.

ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ И ВЫБОРКА ИЗ НЕЕ. РЕПРЕЗЕНТАТИВНОСТЬ ВЫБОРКИ

Генеральная совокупность – это совокупность всех мысленных наблюдений (или всех мыслимо возможных объектов), которые могут быть проведены при данном реальном комплексе условий.
Понятие ГС – это абстрактное математическое понятие. ГС может быть конечной или бесконечной.
Выборкаиз данной ГС представляет собой результат ограниченного ряда наблюдений интересующего нас показателя (признака, переменной). ГС всегда больше, чем выборка. В статистике выборка обозначается х1, х2, …, хn количество наблюдений n.
Количество наблюдений – «n»- называется объемом выборки.
Сущность статистических методов – чтобы по некоторой части ГС, т.е. по выборке, выносить суждения о свойствах ГС в целом.
Одним из важнейших вопросов, от успешного решения которого зависит достоверность выводов, получаемых в результате статистической обработки данных, является вопрос репрезентативности выборки, т.е. вопрос полноты и адекватности представления выборкой интересующих нас свойств ГС. Одним из важных путей повышения степени репрезентативности выборки является достижение полностью случайного отбора объектов из ГС.

ШКАЛЫ ИЗМЕРЕНИЙ

Данные эксперимента представляют собой результат измерения (наблюдения, регистрации, описания) свойств исследуемых объектов.Измерение – приписывание значений признакам объекта в соответствии с определенными правилами или шкалой измерения. В статистике наиболее часто употребляются следующие шкалы измерения:
- шкала наименований (номинальная, номинативная, шкала классификации). Она используется для отнесения объектов к определенному классу. Объекты, отнесенные к одному и тому же классу, получают одни и те же обозначения. Если количество классов шкалы известно, а также известны правила отнесения к ним объекта, то такая шкала называется категоризованной(примером такой шкалы является пол: м и ж). Простейшим случаем номинальной шкалы является дихотомическая шкала, которая состоит только из двух классов (курит – не курит). К сожалению, для номинальной шкалы арифметические операции не имеют смысла. После того, как с помощью номинальной шкалы мы классифицировали исходные объекты на классы, мы можем перейти от наименований к числам, подсчитав количество наблюдений в каждом из классов. Такая величина называется частотой.Можно работать с помощью математических методов.
- порядковая шкала (ранговая, ординальная). Эта шкала используется для отнесения объектов к определенному классу в соответствии со степенью выраженности, заданности свойства. В порядковой шкале должно быть не менее 3-х классов. Например, 1 класс – подходит для занятия вакантной должности; 2 класс – подходит с оговорками; 3 класс – не подходит. В порядковой шкале мы можем только сказать «больше», «меньше». Но не можем сказать «на сколько». В нашем примере 1 и 2 классы могут быть ближе друг к другу, чем 2 и 3 классы. От класса мы можем перейти к числам с помощью ранжирования. Обычно принято считать, что низший класс получает ранг 2 и т.д. Чем больше классов в шкале, тем больше у нас возможности для математической обработки полученных данных. В общих случаях числа в порядковой шкале не отражают количества свойства, которыми обладают исследуемые объекты. Поэтому для этой шкалы арифметические операции также чаще всего не имеют смысла. Примерами порядковой шкалы являются оценки на экзамене. Основные психологические исследования обычно используют порядковую шкалу, при этом необходимо стараться, чтобы в порядковой шкале было достаточное количество классов. Фактически в качестве единицы измерения в порядковой шкале используется расстояние в1 ранг, но при этом расстояние между соседними рангами может быть различным.
- количественные шкалы. Таких шкал имеется 2 типа: интервальная и шкала отношений. Интервальная шкала позволяет классифицировать и упорядочивать объекты, а также количественно описать различия между свойствами объектов. Для задания такой шкалы устанавливают единицу измерения и произвольную точку отсчета. Примером является календарное время. Для этой шкалы арифметические операции имеют смысл. Шкала отношений отличается от интервальной шкалы только тем, что в ней задано абсолютное начало отсчета. Например, рост в см – абсолютное начало 0. В шкале отношений мы можем определить не только на сколько одно измерение превосходит другое, но и во сколько раз.
-5 С ------------0------------- +5 С
ОК --------------------------------------

Считается, что в психологии примером шкалы отношений являются шкала порога абсолютной чувствительности. Примечание: данные, полученные в одной шкале, можно перевести в другую шкалу только в следующих направлениях: : 3 2 1. От количественной к порядковой к номинальной (много курит, немного курит, не курит). В обратном направлении перевод информации не возможен. По мере возможности нужно стараться измерять в количественной шкале, т.к. в этом случае мы сможем перейти к любой из рассматриваемых выше шкал. Однако при этом происходит частичная потеря информации. Перевод исходной выборки из количественной шкалы называется ранжированием. При ранжировании каждому элементу выборки приписывается ранг, который соответствует месту этого элемента в упорядоченной выборке. Наиболее часто выборку ранжируют по возрастанию, т.е. ранг, равный 1, получает наименьший элемент выборки. В результате ранжирования «новая» выборка содержит значения от 1 до n. Пример ранжирования выборки. Пусть в ходе эксперимента измерялся коэффициент IQ и получена следующая выборка:
112, 108, 84, 96, 75, 124, 106, 89. n=8
7 6 2 4 1 8 5 3
Проранжировать полученную выборку (не путать с упорядочиванием). 75, 84, 89, 96, 106, 108, 112, 124.
Иногда в выборке встречаются несколько одинаковых значений. Такая ситуация называется проблемой совпадающих рангов. В этом случае каждому из совпадающих значений присваивается ранг, равный среднему значению рангов, если бы эти элементы не совпадали.
Пример: 108, 96, 96, 74, 84, 108, 104, 108, 103. (3+4):2=3,5
8 3,5 3,5 1 2 8 6 8 5 (7+8+9):3=8
Пример перевода исходной выборки из количественной шкалы в номинальную. Пусть в ходе эксперимента измеряется уровень тревожности в диапазоне от 0 до 20. Необходимо перевести полученные данные в номинальную шкалу, содержащую 3 класса: высший (15-20); средний (6-14); низший (0-5). Исходная выборка имеет вид:
Количественная 14, 6, 8, 4, 18, 12, 10, 9.
Номинальная с с с н в с с с.
Переводя, мы теряем информацию. в-1, с-6, н-1.

ТАБУЛИРОВАНИЕ ДАННЫХ

Для анализа и интерпретации исходных количественных данных их необходимо обобщить. Чаще всего 1 этапом представления исходных данных является упорядочивание их по величине (по возрастанию или по убыванию). Если исходная выборка упорядочена по возрастанию, т.е. сначала расположено наблюдение, наименьшее по величине, затем 2 по величине и т.д., то такая выборка называетсявариационным рядом и обозначается следующим образом: х(1), х(2), …, х(n) - упорядочены, х(1) < х(2) < … < х(n) (некоторые элементы 84, 84, 106, 106 могут совпадать); х1, х2 - не упорядочены, в произвольном порядке.
Когда исходная выборка имеет достаточно большой объем, то используют табулирование данных – т.е. представляют исходную выборку в виде таблицы соответствующего вида. Табулирование обычно осуществляется в 4 этапа:
1 этап – определение размаха выборки. Для этого из максимального элемента выборки вычитают минимальный.
R= хmax – xmin = x(n) - x(1), где R – размах выборки.
2 этап – определение ширины интервала, группирование данных. Прежде чем искать ширину интервала, необходимо определиться с количеством интервалов в группировании. Очень небольшое количество интервалов может слишком упростить и сгладить общую тенденцию, а слишком большое количество интервалов может привести к излишней детализации рассматриваемого явления. Рекомендация: количество интервалов выбирается таким образом, чтобы в каждый интервал попадало в среднем 5-6 элементов выборки. Для этого объем выборки делим на 5 и на 6, в результате получаем два числа.
k1=n/5, k2 = n/6, где n - объем выборки. После этого в качестве требуемого количества интервала выбирается целое число к, находящееся между k1 и k2 . Пример: n=32, k1=32/5=6,4; k2 =32/6=5,3; отсюда получается в качестве к будет 6 (к=6 или к=5). Тогда ширина интервала группирования получается путем деления размаха выборки на количество интервалов.
h=R/k, где h – ширина.
Т.к. в большинстве случаев наши исходные данные являются целыми числами, то ширину интервала можно также округлить до ближайшего целого числа. h=50/6=8,3=8
3 этап– определение границ интервалов группирования данных. При этом нужно обращать внимание на то, чтобы левая граница первого интервала не оказалась справа от наименьшего значения на числовой оси.

левая граница не может быть 44, а может 40, т.е. левая граница первого интервала не может быть больше наименьшего значения. Каждая последующая граница получается путем прибавления ширины интервала к предыдущей границе.
h=8, x min =42. Левая граница 40; 40 – 48; 48 – 56.
4 этап – непосредственно само табулирование данных. На этом этапе мы подсчитываем, сколько элементов выборки попало в каждый интервал. Количество наблюдений, попавших в интервал, называется частотой. Результатом табулирования данных является таблица, состоящая из двух столбцов, первый из которых содержит границы интервала, второй – частоты. Пример: в результате проведения контрольной работы по чтению в классе из 38 учеников были получены следующие результаты: 90, 66, 106, 84, 105, 83, 104, 82, 97, 97, 59, 95, 78, 70, 47, 95. 100, 69, 44, 80, 75, 75, 51, 109, 89, 58, 59, 72, 74, 75, 81, 71, 68, 112, 62, 91, 93, 84. Протабулировать полученные исходные данные. xmin=44; xmax=112; R=112-44=68; n=38; k1=38/5=7,5; k2=38/6=6,3 ; k=7. Находим ширину:h=R/k; h= 68/7=9,7=10.

Границы интервалов Частоты
40-50 50-60 60-70 70-80 80-90 90-100 100-110 110-120 11 2 1111 4 11111 5 11111111 8 1111111 7 1111111 7 1111 4 1 1
 

Перед непосредственным подсчетом частот мы определяем для себя, в какой интервал будем включать значения, попадающие точно на границу интервала (левую и правую). Для контроля правильности вычисления нужно сложить все полученные частоты, если мы все сделали правильно, то сумма частот должна равняться количеству наблюдений в выборке.
Иногда выборка может быть представлена в виде частотного ряда. Частотным рядом называется таблица следующего вида:

zi z1 z2 ... zk
ni n1 n2 ... nk

z1, z2, …, zn - различные значения элементов исходной выборки.
x1, х2, …, хn
k < n
n1, n2, …,nk – частота встречаемости того или иного различного значения в выборке.
Имеет смысл задача построения частотного ряда, если в исходной выборке встречается много одинаковых значений. Пример: на занятиях по статистике проводится эксперимент по регистрации номера месяца рождения каждого из студентов. Опрос проводится по списку. Представить полученную выборку в виде вариационного и частотного рядов, а также определить размах выборки.
4, 12, 12, 6, 5, 1, 8, 6, 12, 8, 7, 1, 10, 6, 10, 8, 12, 12, 10, 1, 11, 12, 2, 4, 10, 12. n=26;
в виде вариационного ряда (по возрастанию):1, 1, 1, 2, 4, 4, 5, 6, 6, 6, 7, 8, 8, 8, 10, 10, 10, 11, 12, 12, 12, 12, 12, 12, 12.
В виде частотного ряда:

z(i)
n(i)

n=26 (общее количество) ; к=10.
Для контроля правильности вычислений можно просуммировать частоты n1+n2+…+nk=n
Находим размах выборки: R=12-1=11; max –12; min –1; меньше 11 может быть, 1/2 - 26, 1 – 50.

КВАНТИЛЬ

Квантиль –это точка на числовой прямой, которая делит совокупность исходных наблюдений на две части с известными пропорциями в каждой из частей. Показатель одной из пропорций обычно записывается при обозначении квантили в качестве индекса справа внизу и называется уровнем или порядком. В общем виде записывается следующим образом:
Кр читается квантиль уровня (порядка); показатель от 0 до 1.
Например, К0,2. Пусть имеется квантиль уровня 0,2. Характеризует левую часть пропорции исходных наблюдений.

Квантиль – это общее понятие. Частными случаями квантиля являются: квартили; децили; процентили. Квартиль делит исходную совокупность на две части, каждая из которых пропорциональна одной или нескольким четвертым частям. Обычно рассматривают 3 квартиля: Q1, Q2,

МЕРЫ ЦЕНТРАЛЬНОЙ ТЕНДЕНЦИИ

В статистике наиболее распространенными являются следующие меры центральной тенденции: мода, медиана, среднее значение.
Мода – это такое значение в выборке, которое встречается наиболее часто. хmod . Например: 4, 2, 8, 8, 4, 8, 10. В данном случае хmod=8, т.к. 8 встречается наиболее часто во всей выборке. Возникают различные ситуации, в которых необходимо найти моду.
1 ситуация. В случае, когда все значения выборки встречаются одинаково часто, то принято считать, что выборка не имеет моды.
4, 2, 6, 7, 5, 10 – не имеет моды.
4, 2, 4, 2, 4, 2, 6, 6, 6 – не имеет моды.
4, 2, 4, 2, 4, 2, - не имеет моды.
4, 4, 4, 4, 4 – мода равняется 4 хmod=4.
2 ситуация. Когда два соседних значения в упорядоченнойвыборке встречаются одинаково часто и чаще, чем все остальные значения, то в этом случае мода равняется среднему значению этих двух соседних величин.
1, 4, 3, 3, 6, 2, 8, 2, 10
1, 2, 2, 3, 3, 4, 6, 8, 10 – упорядоченная выборка.
Хmod= (2+3):2=2,5
1, 2, 2, 5, 5, 7, 9 (если между ними нет других значений – то соседние значения) хmod= (2+5):2=3,5
1, 4, 3, 3, 6, 6, 8, 2, 10 – это не вторая ситуация, а третья. Выборка здесь не упорядочена.
3 ситуация. Если два не соседних значения в упорядоченной выборке встречаются одинаково часто и чаще, чем все остальные значения, то в этом случае говорят, что выборка имеет две моды и называют выборку бимодальной (тримодальной).
Пример: 4, 2, 3, 6, 4, 2
2, 2, 3, 4, 4, 6
4, 2, 3, 6, 4, 2, 6
2, 2, 3, 4, 4, 6, 6 хmod1=2; xmod2=(4+6):2=5
2, 2, 4, 4, 6, 6, 10, 12 хmod=(2+4+6):3=4
4, 4, 4, 8, 8, 8, 11, 11 xmod=(4+8):2=6
Например: xmod=108 (IQ). Значит, в этой группе наиболее часто встречается 108, но не говорится сколько.
4, 4, 4, 2, 6, 7 – хmod=4
Медиана – это такое значение, которое делит упорядоченнуювыборку пополам, т.е. половина значений выборки меньше медианы, а вторая половина больше медианы, хmed или Md.
xmed=K0,5(квантиль)=P50(процентиль)=D5(дециль)=Q2(квартиль).
При вычислении медианы возможны две ситуации:
1 ситуация. Количество наблюдений в выборке нечетно. В этом случае медиана равна значению, расположенному точно в серединеупорядоченнойвыборки.
3, 8, 6, 5, 4
3, 4, 5. 6. 8 – сначала упорядочиваем выборку, Хmed=5.
2 ситуация. Количество наблюдений в выборке четно. В этом случае в качестве медианы выбирается среднее значение двух центральных значений упорядоченной выборки.
2, 3, 5, 8, 7, 10
2, 3, 5, 7, 8, 10 хmed=(5+7):2=6
хmed=108. это говорит о том, что половина клиентов имеет IQ 108 и меньше, а вторая –108 и больше.
Если исходная выборка представлена в виде таблицы, полученной в результате табулирования данных, то медиану можно найти, рассматривая накопленные частоты. Пример: в результате табулирования получилась таблица:

Границы интервалов Частоты Накопленные частоты
4-6 6-8 8-10 10-12 12-14 2 5 4 13 3 2 7 11 24 27

 

13+1+13=27 – медианой будет выступать 14-ое значение, Хmed=11.
Среднее значение вычисляется следующим образом: суммируются все элементы выборки и полученная сумма делится на количество элементов в выборке. Обозначается х. хср, х.
x=(x1+x2+…+xn) : n= xi : n
n
xi=x1+x2+...+xn
i=1
48
х6+х7+…+х48= хi
i=6
21
y4+y5+…+y21= yk
k=4
n 2 2 2 2
xi = x1 + x2 +...+ xn
i=1
Если выборка представлена в виде частотного ряда

zi z1 z2 ... zk
ni n1 n2 ... nk

k k
x=(z1 n1+z2 n2+...+zk nk) : (n1+n2+...+nk)= (zi ni) : ni
i=1 i=1
Пример: вычислить моду, медиану и среднее значение следующей выборки: 7, 3, 3, 6, 4, 5, 1, 2, 1, 3
xmod=3
1, 1, 2, 3, 3, 3, 4, 5, 6, 7
n=10
xmed=(3+3):2=3
x= (7+3+3+6+4+5+1+2+1+3):10=35:10=3,5
Пример: вычислить моду, медиану и среднее значение для выборки, представленной в виде следующего частотного ряда:

zi  
ni =15

xmod=7 (самое большое число во второй строчке)
n=15
xmed=5
x=(2 3+3 1+4 2+5 3+7 4+10 2):15=80:15=5,33

Свойства среднего значения.
1. Если выборка состоит из одного и того же значения, то среднее значение этой выборки будет равно этому значению. 1245, 1245, 1245 х=1245.
2. Если к каждому элементу выборки добавить одну и ту же величину с, то среднее значение новой выборки будет равняться среднему значению старой выборки, измененному на эту величину с. хнов.=хстар.+с. с может быть положительным и отрицательным. 220, 221, 223, 225
0 1 3 5
хнов.=(0+1+3+5):4=9:4=2,25
хнов.=хстар.+с хстар.=хнов.-с=2,25-(-220)=2,25+220=222,25
3. Если каждый элемент выборки умножить на одну и ту же величину с, то среднее значение новой выборки будет равно среднему значению старой выборки, измененному в с раз. 2, 3, 5, 8 с=120
х=(2+3+5+8):4=18:4=4,5
240. 360, 600, 960 хнов.=4,5 120=540
Вычисление мер центральной тенденции можно производить с помощью мастера функций, имеющегося вMicrosoft Excel (fx). Мода выборки вычисляется с помощью функции Мода (исходный диапазон). В качестве аргумента указывается диапазон ячеек, в которых находится исходная выборка. Мода (А1:А38) #Н/Д (моды нет)

  А В С Д
   
   
   
   
   

К сожалению, в случае нескольких мод у одной выборки в качестве результата выдается только одна из них (не дают информации, что несколько мод).
Для вычисления медианы используется функция Медиана (исходный диапазон) С1:С36. Для вычисления среднего значения используется функция Срзнач (исходный диапазон)
Желательно при обработке исходных данных использовать все 3 меры центральной тенденции. Отметим некоторые особенности рассмотрения мер центральной тенденции.
1. В небольших выборках мода может быть совершенно не стабильной. 1, 1, 1, 3, 5, 7, 7, 8 хmod=1 xmod=7.
2. На медиану не влияют величины самых больших и самых малых значений. 1, 1, 3, 5, 7 хmed=3.
3. На величину среднего значения оказывает влияние каждый элемент выборки, если какой-либо элемент выборки изменится на величину с, то среднее значение изменится в том же направлении, на величину с/n.
4. Некоторые выборки вообще нельзя охарактеризовать с помощью мер центральной тенденции. Особенно это справедливо для выборок, имеющих более, чем 1 моду.
Пусть тест успеваемости, состоящий из 8 различных задач, позволяет разделить исследуемую группу учащихся на тех, кто усвоил определенные понятия и тех, кто не усвоил. Предположим, что усвоившие получают оценки 6,7,8, а не усвоившие 0,1,2. В ходе эксперимента получаемые результаты можно представить в виде следующей гистограммы:

С точки зрения трудности вычисления медиана занимает промежуточное положение между модой и средним значением. Рассмотрим пример, как изменяются меры центральной тенденции, если выборки отличаются хотя бы одним элементом.
1, 3, 3, 5, 6, 7, 8 xmod=3 xmed=5 x=(1+3+3+5+6+7+8):7=33/7
1, 3, 3, 5, 6, 7, 16 xmod=3 xmed=2 x=(1+3+3+5+6+7+16):7=41/7
Мода и медиана являются более устойчивыми характеристиками, чем среднее значение. В общем случае нельзя однозначно сказать, какая из мер центральной тенденции больше, а какая меньше, т.е. имеется в виду если изображать на числовой оси, могут оказаться различные варианты.

МЕРЫ ИЗМЕНЧИВОСТИ

Меры центральной тенденции позволяют нам судить о концентрации наших исходных данных на числовой оси. Каждая такая мера дает значение, которое представляет в каком-то смысле все элементы выборки. В этой ситуации фактически пренебрегают различиями, существующими между отдельными элементами выборки. Поэтому для учета таких различий будем использовать некоторые другие описательные статистики, которые называются мерами изменчивости (рассеяния, разброса). Самой простой мерой изменчивости является размах выборки, для вычисления которого необходимо из максимального элемента выборки вычесть минимальный. R=xmax-xmin
Т.к. размах определяется только двумя элементами выборки, то он не учитывает распределения остальных элементов выборки. Пример: пусть первая выборка содержит значения, равномерно распределенные от 1 до 10. И всего таких значений 100. Вторая выборка содержит также 100 значений, но одно из них равно единице, еще одно равно 10, а остальные 98 значений равны 5.
1) 1….1 2….2 … 10….10
10 10 10

2) 55….55 10
98
R1выб.=10-1=9 R2выб.=10-1=9
Иногда в качестве меры изменчивости используют интерквартильный размах (между квартилями).
Q=Q3-Q1

Интерквартильный размах используется достаточно редко. Наиболее популярной мерой изменчивости является дисперсия.
х1, х2, …, хn
n
(xi-x)=0
i=1

Дисперсия.

Для учета различий между отдельными элементами выборки в качестве меры изменчивости можно было бы взять сумму отклонений каждого элемента выборки от среднего значения выборки. Однако вследствие того, что эти отклонения могут быть как положительными, так и отрицательными, то их сумма для любой выборки всегда равна 0.
Поэтому вместо суммы отклонений можно рассмотреть сумму квадратов отклонений. Однако и в этом случае имеется недостаток: такая сумма сохраняет зависимость от количества элементов в выборке. Для устранения этого недостатка мы должны были бы разделить сумму квадратов отклонений на количество элементов выборки, т.е. n, но в статистике эту сумму делят не на n, a нa n-1.

НОРМАЛЬНОЕ РАСПРЕДЕЛЕНИЕ

Значения показателей (признаков) невозможно предугадать даже при полностью известных условиях эксперимента, в которых они измеряются.
Мы можем лишь указать вероятность того, что признак принимает то или иное значение.
Знание частоты встречаемости этих значений позволяет нам судить о распределении частот. Знание этого распределения исследуемого признака позволяет делать выводы о событиях, в которых участвует этот признак. Однако эти выводы тоже носят вероятностный или столастический характер.
Среди распределений есть такие распределения, которые встречаются на практике особенно часто. Эти распределения детально изучены и свойства их хорошо известны.
Наиболее распространенным распределением является нормальное распределение. Оно часто используется для приближенного описания многих случайных явлений, в которых на интересующий нас признак оказывает воздействие большое количество независимых случайных факторов, среди которых нет резко выделяющихся.
Нормальное распределение однозначно распределяется, если мы указываем значения двух его параметров: 1) среднее значение а; 2) дисперсии
2
( сигма). График нормального распределения называется кривой Гаусса и является симметричным относительно среднего значения а.

Параметр а характеризует положение графика на плоскости и
2
называется поэтому параметром положения. Параметр характеризует степень сжатия или растяжения, поэтому он называетсяпараметром
2
масштаба. Если среднее значение а=0, а дисперсия =1, то такое нормальное распределение называется стандартным. Рассмотренная в предыдущем параграфе процедура стандартизации исходных данных как раз и приводит к тому, что преобразованные данные z1, z2, …, zn имеют стандартное нормальное распределение.
График стандартного нормального распределения является симметричным относительно вертикальной координатной оси.

Оно получается в результате деления частной величины, имеющей стандартное нормальное распределение на квадратный корень из случайной
2
величины, имеющей Х – распределение.
2
t = Z0: X :
t – распределение Стьюдента зависит от одного параметра – числа степеней свободы .
График этого распределения является симметричным относительно координатной вертикальной оси.

Рассмотренные выше четыре распределения протабулированы, т.е. для них имеются соответствующие статистические таблицы.

ПРЕДВАРИТЕЛЬНЫЙ АНАЛИЗ ВЫБОРКИ

К предварительному анализу выборки обычно относят следующие задачи:

· Восстановление пропущенных наблюдений.

· Анализ резко выделяющихся наблюдений.

· Проверка статистической независимости исходных данных (элементов выборки).

Восстановление пропущенных наблюдений.
Будем предполагать, что в нашей исходной выборке отсутствие какого-либо показателя у некоторого лица связано с причинами технического характера, т.е. с неисправностью измерительного прибора или грубой ошибкой при подготовке данных, в результате которой истинное значение стало неизвестным.
Однако отметим, что это не связано с состоянием самого объекта. В зависимости от решаемой проблемы исследователю может потребоваться либо оценить некоторые параметры при наличии пропущенных наблюдений, либо оценить сами пропущенные значения, либо и то, и другое, но вместе. Две последние задачи требуют больших исходных допущений, чем оценка самих параметров.
Методы решения таких задач основаны на использовании некоторой избыточной информации, которая возникает вследствие связи между признаками.
1. Самым простым подходом к проблеме обработки пропущенных наблюдений является использование исходных данных только для тех лиц, о которых мы имеем полную информацию.

Данный подход является наиболее целесообразным, если выборка содержит достаточное количество исследуемых объектов, а задача заполнения пропущенных значений не является целью обработки.
2. Однако для выборок небольшого объема, а также в ситуации, когда измерение имеет высокую стоимость, естественно попытаться использовать всю имеющуюся у нас информацию.
Одним из самых старых и простых способов обработки данных с пропущенными наблюдениями является следующий: пропущенное значение некоторого признака заполняется средним арифметическим значением, вычисленным по имеющимся данным. Недостатком этого способа является то, что в результате такого запоминания исходные данные становятся статистически зависимыми.
Анализ резко выделяющихся наблюдений.
Часто при предварительном просмотре исходных данных у исследователя возникают сомнения в истинности отдельных наблюдений, резко выделяющихся на общем фоне. Возникает вопрос, вправе ли мы объяснить обнаруженные отклонения только случайными колебаниями выборки или здесь дело в существенных искажениях стандартных условий сбора статистических данных.
Единственно абсолютно надежным способом решения вопроса резко выделяющихся наблюдений является тщательное рассмотрение условий, при которых эти наблюдения регистрировались. Однако во многих случаях это принципиально невозможно. Поэтому необходимо обращаться к соответствующим формальным статистическим методам. Иногда резко выделяющиеся наблюдения достаточно хорошо просматриваются с помощью построения графика.

Рассмотрим аналитический метод исследования одного резко выделяющегося наблюдения. Не нарушая общности будем считать, что речь идет о максимальном наблюдении. Пусть х(1), х(2), …, х(n) – вариационный ряд исходной выборки, когда в качестве резко выделяющегося наблюдения будет рассматриваться х(n). Решающее правило для исключения из выборки этого значения х(n) основано на следующей статистике.
Тn=(x(n) –x):Sx > Tкр, где х – среднее значение выборки, Sx – стандартное отклонение.
Если эта статистика Тn больше соответствующего критического значения Ткр, то делаем вывод о том, что наблюдение х(n) является резко выделяющимся наблюдением и мы должны это наблюдение удалить из исходной выборки. Если х(n) меньше или равно Ткр, то мы делаем вывод о том, что наблюдение х(n) не является резко выделяющимся наблюдением.
Т(n) < Ткр.
Критические значения находятся обычно в соответствующей статистической таблице или мастере функций. Наиболее полное собрание статистических таблиц находится в книге Большев Л.Н. Смирнов Н.В. Таблицы математической статистики. М. Наука. 1983.
Если в выборке мы подозреваем несколько резко выделяющихся наблюдений, то сначала рассмотренный выше критерий применяют к максимальному из них. Если это значение будет признано резко выделяющимся, то его удаляют из выборки и рассмотренный критерий применяется к следующему по величине элементу выборки и т.д. до тех пор, пока не будет признано, что резко выделяющихся наблюдений больше нет.
Одним из недостатков рассмотренного критерия является то, что «подозрительные» наблюдения часто расположены близко друг к другу, образуя при этом группу в стороне от основной массы наблюдений. В результате рассмотренная процедура, основанная на использовании среднего значения и стандартного отклонения, становится нечувствительной, т.е. не считает их резко выделяющимися. В таких случаях рекомендуют использовать вместо х и Sx более устойчивые оценки – медиану.
Проверка независимости элементов выборки.
Перед тем, как подвергнуть исходные данные статистической обработке, необходимо убедиться в том, что они действительно образуют случайную выборку и являются статистически независимыми, т.е. значение любого элемента выборки не зависит от значений других элементов выборки.
Рассмотрим несколько статистических критериев для проверки независимости элементов выборки.
1. Сначала обратимся к критерию серий, основанному на медиане выборки. Пусть х1, х2, …, хn – исходная выборка из некоторой генеральной совокупности. Найдем сначала по этой выборке ее медиану хmed, после этого каждый элемент исходной выборки заменяем на плюс, если этот элемент больше медианы (+ xi > xmed ) и заменяем его на -, если этот элемент меньше медианы (- xi < xmed ). Если же элемент выборки равен медиане, то мы его исключаем из рассмотрения. В результате такой обработки мы получаем некоторую последовательность плюсов и минусов ++ - +++ - - - - + - ++. Под серией будем понимать последовательность идущих подряд плюсов или минусов. В частном случае серия может состоять только из одного плюса или минуса. В этом случае ее протяженность считается равной 1. Тогда исходную выборку можно охарактеризовать двумя параметрами: (n) –общее количество серий и (n) – протяженность самой длинной серии. В нашем примере (n) = 7; (n) = 4. Если наши исходные наблюдения являются статистически независимыми, то чередование + и - в полученной нами последовательности должно быть случайным, т.е. эта последовательность не должна содержать слишком длинных серий, а общее количество не должно быть слишком малым. В результате таких рассуждений приходят к следующему правилу:
- Наша исходная выборка является случайной, т.е. ее элементы являются статистически независимыми, если выполняются два следующих неравенства:
(n) > ½ (n+1-1,96 n-1);
(n) < 3,3 lg (n+1), где n – общее количество + и - в последовательности, а не общее количество исходных данных, х – целая часть числа х.
- Если же хотя бы одно из этих неравенств не выполняется, то мы делаем вывод о том, что элементы исходной выборки являются статистически зависимыми.
2. Второй статистический критерий – критерий «нисходящих» и «восходящих» серий. Как и для рассмотренного выше критерия в данном критерии рассматривается последовательность + и -. Однако в этом случае правило получения такой последовательности несколько иное.
Как обычно в качестве исходных данных рассматривается выборка х1, х2, …, хn. Последовательность + и – получается следующим образом. На i-том месте ставится +-, если хi+1 - xi>0, т.е. последующий элемент выборки больше предыдущего; ставится знак=, если xi+1 - xi<0, т.е. последующий элемент меньше предыдущего. Если два или несколько последующих значений одинаковы, то принимается во внимание только одно из них.
3, 2, 2, 2, 4, 2, тогда последовательность подряд идущих плюсов будет

· +

соответствовать возрастанию элементов выборки, поэтому она называется восходящей серией. Последовательность подряд идущих минусов будет соответствовать убыванию элементов выборки, поэтому она называется нисходящей серией. Полученную последовательность + и – как и для предыдущего критерия можно охарактеризовать двумя параметрами:
(n) – общее количество серий

· - протяженность самой длинной серии.

Тогда аналогично предыдущему критерию элементы исходной выборки будут статистически независимыми, если в полученной нами + и – общее количество серий н

© 2013 wikipage.com.ua - Дякуємо за посилання на wikipage.com.ua | Контакти