ВІКІСТОРІНКА
Навигация:
Інформатика
Історія
Автоматизація
Адміністрування
Антропологія
Архітектура
Біологія
Будівництво
Бухгалтерія
Військова наука
Виробництво
Географія
Геологія
Господарство
Демографія
Екологія
Економіка
Електроніка
Енергетика
Журналістика
Кінематографія
Комп'ютеризація
Креслення
Кулінарія
Культура
Культура
Лінгвістика
Література
Лексикологія
Логіка
Маркетинг
Математика
Медицина
Менеджмент
Металургія
Метрологія
Мистецтво
Музика
Наукознавство
Освіта
Охорона Праці
Підприємництво
Педагогіка
Поліграфія
Право
Приладобудування
Програмування
Психологія
Радіозв'язок
Релігія
Риторика
Соціологія
Спорт
Стандартизація
Статистика
Технології
Торгівля
Транспорт
Фізіологія
Фізика
Філософія
Фінанси
Фармакологія


ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ ДАННЫХ

Существует три основных метода графического представления данных – гистограмма (столбиковая диаграмма), полигон частот и сглаженная кривая (огива).
Гистограммапредставляет последовательность столбцов, каждый из которых опирается на один интервал группирования данных, а высота столбца соответствует количеству элементов выборки, попавших в этот интервал группирования. Для построения гистограммы по горизонтальной оси откладываются границы интервалов группирования данных, а по вертикальной оси частоты попадания наблюдений в интервалах.

 

Границы интервалов Частоты
40-50 50-60 60-70 70-80 80-90 90-100 100-110 110-120 2 4 5 8 7 7 4 1

 

1. 40 50 60 70 80 90 100 110 120

Если в гистограмме будут часто провалы, значит вы много интервалов взяли.
Полигон частот – построение полигона частот во многом напоминает построение гистограммы, только в этом случае по горизонтальной оси откладываются значения середин интервалов группирования данных (по вертикальной то же самое). После этого на координатной плоскости наносятся точки. Первая координата, которая соответствует середине интервала группирования и вторая – частоте. Для окончательного построения полигона частот точки соединяются отрезками прямых. На компьютере – двухлинейчатая (только в качестве 1 столбца середины значений интервалов)

 

Сглаженная кривая или огива иногда вместо гистограммы или полигона частот строят сглаженную кривую. Основное отличие в том, что она проводится по точкам таким образом, чтобы график не имел острых углов или зубцов. Для ее построения по горизонтальной оси всегда откладываются значения от 0 до 100 (они соответствуют процентам). По вертикальной оси откладываются границы интервалов группирования данных. После этого на координатной плоскости наносятся точки, вторая координата которой соответствует границе интервала, а первая координата накопленной частоте попадания, выраженной в процентах. Для окончательного построения нанесенные точки соединяются гладкой кривой.
В качестве исходных данных для построения огивы используется таблица, полученная после табулирования данных, но при этом второй столбец этой таблицы (частоты) мы должны преобразовать в накопленные частоты, а затем в проценты.

 

Границы интервалов Частоты Накопленные частоты Накопленные частоты в %
40-50 50-60 60-70 70-80 80-90 90-100 100-110 110-120 2 4 5 8 7 7 4 1 2 2/38=0,05 (4+2)=6 4/38=0,1 (6+5)=11 19 26 33 37 38 5 15 28 48 65 83 95 100

38 учеников; 38 –100%; 2 – х%; х=2 100/38=2 2,5

Иногда при построении гистограммы и полигона частот по вертикальной оси откладываются не частоты, которые вычисляются путем деления частоты на количество наблюдений. В этом случае максимальное значение по вертикальной оси не превосходит единицы.

МЕРЫ ЦЕНТРАЛЬНОЙ ТЕНДЕНЦИИ

В статистике наиболее распространенными являются следующие меры центральной тенденции: мода, медиана, среднее значение.
Мода – это такое значение в выборке, которое встречается наиболее часто. хmod . Например: 4, 2, 8, 8, 4, 8, 10. В данном случае хmod=8, т.к. 8 встречается наиболее часто во всей выборке. Возникают различные ситуации, в которых необходимо найти моду.
1 ситуация. В случае, когда все значения выборки встречаются одинаково часто, то принято считать, что выборка не имеет моды.
4, 2, 6, 7, 5, 10 – не имеет моды.
4, 2, 4, 2, 4, 2, 6, 6, 6 – не имеет моды.
4, 2, 4, 2, 4, 2, - не имеет моды.
4, 4, 4, 4, 4 – мода равняется 4 хmod=4.
2 ситуация. Когда два соседних значения в упорядоченнойвыборке встречаются одинаково часто и чаще, чем все остальные значения, то в этом случае мода равняется среднему значению этих двух соседних величин.
1, 4, 3, 3, 6, 2, 8, 2, 10
1, 2, 2, 3, 3, 4, 6, 8, 10 – упорядоченная выборка.
Хmod= (2+3):2=2,5
1, 2, 2, 5, 5, 7, 9 (если между ними нет других значений – то соседние значения) хmod= (2+5):2=3,5
1, 4, 3, 3, 6, 6, 8, 2, 10 – это не вторая ситуация, а третья. Выборка здесь не упорядочена.
3 ситуация. Если два не соседних значения в упорядоченной выборке встречаются одинаково часто и чаще, чем все остальные значения, то в этом случае говорят, что выборка имеет две моды и называют выборку бимодальной (тримодальной).
Пример: 4, 2, 3, 6, 4, 2
2, 2, 3, 4, 4, 6
4, 2, 3, 6, 4, 2, 6
2, 2, 3, 4, 4, 6, 6 хmod1=2; xmod2=(4+6):2=5
2, 2, 4, 4, 6, 6, 10, 12 хmod=(2+4+6):3=4
4, 4, 4, 8, 8, 8, 11, 11 xmod=(4+8):2=6
Например: xmod=108 (IQ). Значит, в этой группе наиболее часто встречается 108, но не говорится сколько.
4, 4, 4, 2, 6, 7 – хmod=4
Медиана – это такое значение, которое делит упорядоченнуювыборку пополам, т.е. половина значений выборки меньше медианы, а вторая половина больше медианы, хmed или Md.
xmed=K0,5(квантиль)=P50(процентиль)=D5(дециль)=Q2(квартиль).
При вычислении медианы возможны две ситуации:
1 ситуация. Количество наблюдений в выборке нечетно. В этом случае медиана равна значению, расположенному точно в серединеупорядоченнойвыборки.
3, 8, 6, 5, 4
3, 4, 5. 6. 8 – сначала упорядочиваем выборку, Хmed=5.
2 ситуация. Количество наблюдений в выборке четно. В этом случае в качестве медианы выбирается среднее значение двух центральных значений упорядоченной выборки.
2, 3, 5, 8, 7, 10
2, 3, 5, 7, 8, 10 хmed=(5+7):2=6
хmed=108. это говорит о том, что половина клиентов имеет IQ 108 и меньше, а вторая –108 и больше.
Если исходная выборка представлена в виде таблицы, полученной в результате табулирования данных, то медиану можно найти, рассматривая накопленные частоты. Пример: в результате табулирования получилась таблица:

Границы интервалов Частоты Накопленные частоты
4-6 6-8 8-10 10-12 12-14 2 5 4 13 3 2 7 11 24 27

 

13+1+13=27 – медианой будет выступать 14-ое значение, Хmed=11.
Среднее значение вычисляется следующим образом: суммируются все элементы выборки и полученная сумма делится на количество элементов в выборке. Обозначается х. хср, х.
x=(x1+x2+…+xn) : n= xi : n
n
xi=x1+x2+...+xn
i=1
48
х6+х7+…+х48= хi
i=6
21
y4+y5+…+y21= yk
k=4
n 2 2 2 2
xi = x1 + x2 +...+ xn
i=1
Если выборка представлена в виде частотного ряда

zi z1 z2 ... zk
ni n1 n2 ... nk

k k
x=(z1 n1+z2 n2+...+zk nk) : (n1+n2+...+nk)= (zi ni) : ni
i=1 i=1
Пример: вычислить моду, медиану и среднее значение следующей выборки: 7, 3, 3, 6, 4, 5, 1, 2, 1, 3
xmod=3
1, 1, 2, 3, 3, 3, 4, 5, 6, 7
n=10
xmed=(3+3):2=3
x= (7+3+3+6+4+5+1+2+1+3):10=35:10=3,5
Пример: вычислить моду, медиану и среднее значение для выборки, представленной в виде следующего частотного ряда:

zi  
ni =15

xmod=7 (самое большое число во второй строчке)
n=15
xmed=5
x=(2 3+3 1+4 2+5 3+7 4+10 2):15=80:15=5,33

Свойства среднего значения.
1. Если выборка состоит из одного и того же значения, то среднее значение этой выборки будет равно этому значению. 1245, 1245, 1245 х=1245.
2. Если к каждому элементу выборки добавить одну и ту же величину с, то среднее значение новой выборки будет равняться среднему значению старой выборки, измененному на эту величину с. хнов.=хстар.+с. с может быть положительным и отрицательным. 220, 221, 223, 225
0 1 3 5
хнов.=(0+1+3+5):4=9:4=2,25
хнов.=хстар.+с хстар.=хнов.-с=2,25-(-220)=2,25+220=222,25
3. Если каждый элемент выборки умножить на одну и ту же величину с, то среднее значение новой выборки будет равно среднему значению старой выборки, измененному в с раз. 2, 3, 5, 8 с=120
х=(2+3+5+8):4=18:4=4,5
240. 360, 600, 960 хнов.=4,5 120=540
Вычисление мер центральной тенденции можно производить с помощью мастера функций, имеющегося вMicrosoft Excel (fx). Мода выборки вычисляется с помощью функции Мода (исходный диапазон). В качестве аргумента указывается диапазон ячеек, в которых находится исходная выборка. Мода (А1:А38) #Н/Д (моды нет)

  А В С Д
   
   
   
   
   

К сожалению, в случае нескольких мод у одной выборки в качестве результата выдается только одна из них (не дают информации, что несколько мод).
Для вычисления медианы используется функция Медиана (исходный диапазон) С1:С36. Для вычисления среднего значения используется функция Срзнач (исходный диапазон)
Желательно при обработке исходных данных использовать все 3 меры центральной тенденции. Отметим некоторые особенности рассмотрения мер центральной тенденции.
1. В небольших выборках мода может быть совершенно не стабильной. 1, 1, 1, 3, 5, 7, 7, 8 хmod=1 xmod=7.
2. На медиану не влияют величины самых больших и самых малых значений. 1, 1, 3, 5, 7 хmed=3.
3. На величину среднего значения оказывает влияние каждый элемент выборки, если какой-либо элемент выборки изменится на величину с, то среднее значение изменится в том же направлении, на величину с/n.
4. Некоторые выборки вообще нельзя охарактеризовать с помощью мер центральной тенденции. Особенно это справедливо для выборок, имеющих более, чем 1 моду.
Пусть тест успеваемости, состоящий из 8 различных задач, позволяет разделить исследуемую группу учащихся на тех, кто усвоил определенные понятия и тех, кто не усвоил. Предположим, что усвоившие получают оценки 6,7,8, а не усвоившие 0,1,2. В ходе эксперимента получаемые результаты можно представить в виде следующей гистограммы:

С точки зрения трудности вычисления медиана занимает промежуточное положение между модой и средним значением. Рассмотрим пример, как изменяются меры центральной тенденции, если выборки отличаются хотя бы одним элементом.
1, 3, 3, 5, 6, 7, 8 xmod=3 xmed=5 x=(1+3+3+5+6+7+8):7=33/7
1, 3, 3, 5, 6, 7, 16 xmod=3 xmed=2 x=(1+3+3+5+6+7+16):7=41/7
Мода и медиана являются более устойчивыми характеристиками, чем среднее значение. В общем случае нельзя однозначно сказать, какая из мер центральной тенденции больше, а какая меньше, т.е. имеется в виду если изображать на числовой оси, могут оказаться различные варианты.

МЕРЫ ИЗМЕНЧИВОСТИ

Меры центральной тенденции позволяют нам судить о концентрации наших исходных данных на числовой оси. Каждая такая мера дает значение, которое представляет в каком-то смысле все элементы выборки. В этой ситуации фактически пренебрегают различиями, существующими между отдельными элементами выборки. Поэтому для учета таких различий будем использовать некоторые другие описательные статистики, которые называются мерами изменчивости (рассеяния, разброса). Самой простой мерой изменчивости является размах выборки, для вычисления которого необходимо из максимального элемента выборки вычесть минимальный. R=xmax-xmin
Т.к. размах определяется только двумя элементами выборки, то он не учитывает распределения остальных элементов выборки. Пример: пусть первая выборка содержит значения, равномерно распределенные от 1 до 10. И всего таких значений 100. Вторая выборка содержит также 100 значений, но одно из них равно единице, еще одно равно 10, а остальные 98 значений равны 5.
1) 1….1 2….2 … 10….10
10 10 10

2) 55….55 10
98
R1выб.=10-1=9 R2выб.=10-1=9
Иногда в качестве меры изменчивости используют интерквартильный размах (между квартилями).
Q=Q3-Q1

Интерквартильный размах используется достаточно редко. Наиболее популярной мерой изменчивости является дисперсия.
х1, х2, …, хn
n
(xi-x)=0
i=1

Дисперсия.

Для учета различий между отдельными элементами выборки в качестве меры изменчивости можно было бы взять сумму отклонений каждого элемента выборки от среднего значения выборки. Однако вследствие того, что эти отклонения могут быть как положительными, так и отрицательными, то их сумма для любой выборки всегда равна 0.
Поэтому вместо суммы отклонений можно рассмотреть сумму квадратов отклонений. Однако и в этом случае имеется недостаток: такая сумма сохраняет зависимость от количества элементов в выборке. Для устранения этого недостатка мы должны были бы разделить сумму квадратов отклонений на количество элементов выборки, т.е. n, но в статистике эту сумму делят не на n, a нa n-1.

© 2013 wikipage.com.ua - Дякуємо за посилання на wikipage.com.ua | Контакти