ПРОВЕРКА НОРМАЛЬНОСТИ РАСПРЕДЕЛЕНИЯ ИСХОДНЫХ ДАННЫХ
2 Для решения такой задачи чаще всего используют -критерий Пирсона. В качестве приближенного метода можно воспользоваться методикой проверки нормальности распределения исходных данных, имеющихся в книге Сидоренко Е.В. (с.230-234).
Статистическая обработка исходных данных с помощьюMicrosoftExcel. Эта обработка может проводиться тремя способами:
1. С помощью статистических функций
2. С помощью пакета анализа данных (ПАД).
3. Путем программирования самим пользователем необходимых расчетных формул.
С помощью статистических функций. Описательная статистика с помощью статистических функций для этого используется «мастер функций». Прежде, чем вызвать fx, необходимо выделить ячейку, в которую мы хотим поместить результат работы функций. «Мастер функций» вызывается путем нажатия кнопки fx на панели инструментов «стандартная». В появившемся окне в левой половине выбираем категорию «статистические», тогда в правой половине окна будет расположен список всех статистических функций, имеющихся в Excel в алфавитном порядке. Если мы недавно пользовались какой-либо функцией, то повторно ее можно использовать через категорию «10 недавно пользовавшихся». Для нахождения среднего значения выборки используется функция СРЗНАЧ. В качестве аргумента этой функции необходимо указать диапазон ячеек, в котором находится исходная выборка. Для вычисления дисперсии выборки используется функция ДИСП. Для вычисления стандартного отклонения выборки используется функция СТАНДОТКЛОН. Функции МАКС и МИН вычисляют соответственно наибольший и наименьший элементы выборки. Для нахождения медианы выборки используется функция МЕДИАНА (делит упорядоченную выборку пополам). Для нахождения мода используют МОДА. Если выборка не имеет моды, то функция возвращает значение #Н/Д. К сожалению, если выборка имеет две моды и больше, то функция мода возвращает только одну моду. Для вычисления асимметрии выборки используется функция СКОС. Если коэффициент асимметрии больше 0, то распределение (гистограмма) является несимметричным с правой асимметрии, т.е. более широкий диапазон значений расположен справа от моды.
| Функция КВАРТИЛЬ возвращает соответственную квартиль выборки. Эта функция имеет два аргумента: 1 «МАССИВ» - указывается диапазон ячеек, где находится исходная выборка; 2 «ЗНАЧЕНИЕ» - минимальное = 0; первый квартиль = 1; медиана = 2; третий квартиль = 3; максимальное значение = 4 (медиана = 2 квартиль).
Подключение ПАД. Для запуска пакета анализа данных необходимо выполнить команду «СЕРВИС», если в появившемся подменю имеется строка «АНАЛИЗ ДАННЫХ», то ПАД подключен и мы его запускаем путем нажатия этой строки. Если этой строки нет, то мы выбираем строку надстройки в появившемся окне находим строку «ПАКЕТ АНАЛИЗА» и устанавливаем птичку в квадратике, затем нажимаем ОК и смотрим начало подпункта. Описательная статистика с помощью ПАД. Для этого используется раздел «ОПИСАТЕЛЬНАЯ СТАТИСТИКА». В отличие от статистических функций ПАД позволяет вычислять основные статистические характеристики для нескольких выборок одновременно. Для запуска данного раздела осуществляется выбор его в окне пакета, после чего нажимается ОК и указываются в появившемся окне необходимые параметры: 1 параметр - входной интервал – указывается диапазон ячеек, где находятся все исходные данные.
1. параметр – группирование – указывается как расположены наши исходные выборки (по столбцам или по строкам).
2. параметр – метки в первой строке. Если этот параметр включен ( ), то во входном интервале необходимо включать названия переменных, которые задаются в 1 строке. Тогда в таблице результатов будут также приведены названия этих переменных. Если же этот параметр не включен ( ), то во входном интервале мы должны указывать только те ячейки (без заголовка), где находятся числа. Тогда в таблице результатов будут указаны стандартные названия переменных (столбец 1, столбец 2 и т.д.). Лучше включать этот режим ( ).
3. параметры вывода – таблица результатов может располагаться тремя способами: 1) на том же рабочем листе, что и исходные данные. В этом случае делаем активным параметр выходной интервал. Затем в соседнем прямоугольнике указываем координаты левой верхней ячейки, с которой будет располагаться таблица результатов. (Лучше этим режимом не пользоваться). 2) на новом рабочем листе. Для этого делаем активным «новый рабочий лист» и в соседнем прямоугольнике указываем название этого листа. Если это название не указать, то листу будет присвоено «лист…». Лучше пользоваться этим способом. 3) в новой рабочей книге. Делаем активным параметр «новая рабочая книга» (это второй файл; лучше, когда все хранится в одном файле).
4. итоговая статистика – данный параметр должен быть включен ( ), если мы хотим увидеть таблицу результатов.
5. уровень надежности к-ый наименьший
к-ый наибольший позволяют находить соответствующие по порядку элементы выборки. В таблице результатов не путать стандартные ошибки (строка 2) со структурными отклонениями (7). Интервал - это размах выборки, 14 строчка – сумма элементов соответствующей выборки; 15 – количество элементов в соответствующей выборке. Сумма – сумма элементов соответствующей выборки; счет – количество элементов в соответствующей выборке. Построение гистограммы с помощью ПАД. «Гистограмма» - анализа данных. «Входной интервал» - указывается диапазон ячеек, где находится исходная выборка. «Интервал карманов» - если этот параметр не указывать, то автоматически разобьет диапазон значений элементов выборки на необходимое количество интервалов. Однако эти интервалы могут иметь не целые границы. В таком случае мы можем сами выбрать границы. Интервалов, которые в пакете называются «карманами». Эти границы должны быть набраны на том же рабочем листе, где находятся исходные данные. Обязательно перед вызовом отдела гистограммы. В качестве кармана принято указывать правую границу интервала. Число карманов как правило меньше на 1, чем количество интервалов. Поэтому при включении параметра «интервал карманов» мы должны указать диапазон ячеек, в которых располагаются карманы. Параметр «метки» и параметр «выводы» аналогичны разделу «описательная статистика» (2 способ). «Парето» (отсортированная гистограмма). Если данный параметр включен ( ), то столбцы гистограммы выводятся в порядке убывания частот.
| «Интегральный процент» - это накопленные частоты в процентах. «Вывод графика» - этот параметр должен быть включен, если мы желаем увидеть гистограмму.
Вычисление коэффициента корреляции Пирсона. Его можно вычислить с помощью статистической функции KOPPEL в качестве аргументов массив 1, массив 2, указываются диапазоны ячеек, содержащие первую и вторую исходные выборки, между которыми вычисляется корреляция. Обе выборки должны быть одинакового объема и не должны содержать текстовую информацию. #Н/Д – ошибка. КК Пирсона можно также вычислить с помощью анализа ПАД, причем пакет позволяет вычислить одновременно несколько КК, для этого необходимо использовать раздел корреляция (ПАД). При этом задаются необходимые параметры: «вход интервалов», указывается диапазон ячеек, содержащих все исходные данные. Причем в этом диапазоне не должно быть пустых ячеек. Результаты расчета приводятся в таблице «корреляционная матрица» (называется в статистике). Так как она является симметричной, то на экране выводится только ее левая нижняя часть. На главной диагноле всегда будут расположены единички, т.к. это КК каждой переменной с самой собой. (max = 1). Число, стоящее в какой-либо другой ячейке, представляет собой КК Пирсона между переменными, названия которых содержатся в соответствующих строке и столбце. Проверка значимости КК Пирсона. К сожалению, в Excel не имеется стандартной процедуры для решения данной задачи. Поэтому необходимые формулы запрограммируем самостоятельно (параграф 22, 3 этап). 2 tнабл = n – 2 rxy : 1 - rxy Для этого сначала на новом рабочем листе в ячейке А1 введем название (можно русскими буквами) n=, а в ячейке В1 его значение, т.е. количество элементов выборки. После этого в ячейке А2 введем название КК=, а в ячейке В2 вычисленное значение КК (лист 2). В ячейке А3 введем название Тнабл =, а в ячейке В3 вводим формулу для его вычисления
| Пример: проверить значимость КК. С листа 1 запоминаем число, переходим на лист 2 и 10 считается по шаблону.
Вычисления КРК Спиреана. В Excel не имеется стандартной процедуры для его вычисления, поэтому создадим шаблон для расчета КРК Спирмена. 2 2 rc = 1 – 6 (xi – yi) + Tx + Ty : n (n – 1) Следовательно, сначала мы должны проранжировать исходные выборки (сервис, анализ данных). Так как раздел «ранг и персентиль» ПАД при ранжировании переставляет исходные данные, то мы им воспользоваться не можем, поэтому ранжирование проводится вручную. Если 300 человек выборки, то сделать «ранг и персентиль» и одинаковые ранги пересчитать и по возрастанию поставить, а не по убыванию (как там стоит). После ранжирования на новом рабочем листе помещаем ранги первой выборки в столбец А, а ранги второй выборки в столбец В. В столбце С необходимо получить разности этих рангов, поэтому в ячейке С1 введем название разности, а в ячейке С2 вводим формулу = А2 – В2. Теперь тиражируем формулу для остальных ячеек столбца С. Квадрат этих разностей будем получать в столбце Д. Для этого в ячейке Д1 вводим название квадраты, а в ячейке Д2 вводим формулу = С2 С2. Затем тиражируем эту формулу для остальных ячеек столбца Д. Дальнейшие необходимые значения Д. В ячейке Е1 вводим название русскими буквами СУММА =, а в ячейке F1 получаем сумму ячеек столбца Д с помощью f суммирования ( ). В ячейке Е2 вводим обозначение Тх = ; а в ячейке Е3 ту = . В ячейках F2 и F3 вводим значения вычисленных вручную поправок Тх и Ту, если совпадающих значений (рангов) нет, то в качестве поправки выбирается 3 Тх = (аi – ai) : 12 3 3 Tx = ((3 – 3)+(2 – 2)) :12 = 2,5 В ячейке F2 вводим 2,5 3 3 Ту = ((4 – 4)+(3 – 3)) : 12 = 7 В ячейку F4 вводим 7. В ячейку F4 вводим П= , а в ячейку F4 вводим 14. В ячейке Е5 вводим обозначения КРК=, а в ячейке F5 формулу для его вычисления 2 2 rs = 1 – 6 ( (xi – xi) + Tx+Ty) : n (n – 1) программируем числитель = 1 – 6 (F1+F2+F3) / (F4 (F4 F4 – 1)) (a/bc/ = a (b c) = a/b c) Проверка значимости КРК Спирмена полностью идентична проверке значимости КК Пирсона, поэтому можно воспользоваться шаблоном проверки значимости , созданным нами ранее (лист 2). Вычислить КРК Спирмена между психологами Н и психологами В. (Вставляем столбец. Вставка – столбец). 3 2 3 ((3 – 3) + (2 – 2) + (2 – 2)) : 12 = 3 КРК = 0,129371
Проверка статистических гипотез с помощью ПАД. Для проверки статистических гипотез в ПАД имеется следующий раздел:
1. Двухвыборочный F-тест для дисперсии.
2. Парный двухвыборочный t-тест для средних.
3. Двухвыборочный t-тест с одинаковыми дисперсиями.
4. Двухвыборочный t-тест с различными значениями.
5. Двухвыборочный Z-тест для средних.
Раздел 5 предназначен для проверки равенства средних значений, но он практически не используется, т.к. требует знания дисперсии ГС, что на практике редко встречается. Раздел 1 используется для сравнения лисперсий двух независимых выборок. Необходимо задавать параметры. Входные данные в 1 интервале – 1 выборка, во 2 интервале – 2 выборка и включить «метки»(заглавие). Альфа указывается выбранный нами уровень значимости. По умолчанию в окошке находится 0,05. Вывод о совпадении или различии дисперсий можно сделать по правилу, использующему Р значение. Если 1) Р> , то делаем вывод о совпадении дисперсий; 2) P < , то делаем вывод о статистическом различии дисперсий на уровне значимости . Дисперсии 88 и 45 на уровне значимости = 0,05 не различимы. Для сравнения средних значений двух независимых выборок используются разделы 3 или 4 в зависимости от того, совпадают дисперсии или нет. Для выполнения этих разделов необходимо задавать соответствующие параметры. Параметры аналогичны разделу 1 за исключением гипотетической средней разности, который в нашем случае должен быть равен. Результаты расчета помещаются в таблице, из которой нам необходимо сравнивать две величины (t-статистика и t-крит. двустороннее). Н0: Мх – Му = с Н1: Мх – Му /= с Н0: Мх = Му Мх – Му = 0 По следующему правилу:
| Вывод совпадений или различий средних значений можно сделать также с помощью Р-значения по правилу аналогично разделу 1, используя Р-двустороннее (строка 13). Вывод: они не совпадают –4,819 tдвуст. 2,06 (возвращ. на лист 1). Параметры раздела 4 аналогичны параметрам раздела 3, однако в таблице результатов для раздела 4 не приводится значение объединенной дисперсии, поэтому она меньше на одну строку по сравнению с разделом 3. 2 раздел используется для сравнения средних значений двух связанных выборок для данных типа «до-после». Отметим, что исходные выборки должны быть одинакового объема. Для использования раздела 2 необходимо задать соответствующие параметры, которые полностью аналогичны параметрам разделов 3 и 4. Результирующая таблица полностью совпадает с результирующей таблицей 3, только вместо строк «объединенная дисперсия» имеется строка «корреляция Пирсона» (гипотетическая разность ставим 0).
|