Значение по манна уитни. U-критерий Манна-Уитни

Дата публикации: 10.10.2017 20:53

Подавляющее большинство психологических исследований направлены на достижение двух главных целей:

Выявить взаимосвязь между показателя. Для этого используется корреляционный анализ .
Установить различия выраженности психологических показателей в двух или более группах. В этом случае используются либо U-критерий Манна-Уитни, либо t-критерий Стъюдента.

В данной статье мы рассмотрим основные аспекты использования критерия Манна-Уитни при обработке результатов эмпирического исследования в курсовых и дипломных работах, а также магистерских диссертациях по психологии.

Зачем нужен критерий Манна-Уитни

В психологическом исследовании изучаются не результаты отдельных испытуемых, а обобщенные данные. Например, при изучении особенностей психологических параметров в двух группах изучаются средние значения в этих группах.

Напомним, что среднее (среднее арифметическое) отражает усредненный по группе показатель. Рассчитывается среднее значение следующим образом:

Суммируются показатели у всех испытуемых в группе.
Сумма делиться на число испытуемых.

Таким образом, когда мы сравниваем психологические показатели у двух испытуемых, то никакие статистические критерии не нужны. Действительно, пусть в ходе тестирования уровень личностной тревожности Иванова оказался 40 баллов, а Петрова - 50 баллов. В этом случае мы смело говорим, что Петров более тревожен, чем Иванов. Однако, если речь идет о сравнении двух групп, то ситуация усложняется.

Например, мы рассчитали средний уровень личностной тревожности в группе женщин - 58 баллов, и мужчин - 49 баллов. Так как средние значения - это статистические показатели, а не просто числа, то просто так сравнивать их нельзя. То есть, мы не можем сказать, что тревожность женщин выше, чем у мужчин. Но как же быть? Как сравнить показатели тревожности в группах мужчин и женщин?

Для этого и существуют статистические критерии анализа различий. Их расчет позволяет с определённой точностью заключить, существуют различия выраженности показателей в двух группах или нет.

Для анализа различий средних значений в двух группах используется t-критерий Стъюдента. U-критерий Манна-Уитни позволяет сравнивать не средние значения, а выраженность показателей, но в этом случае и средние значения параметров в группах будут различаться соответствующим образом.

Расчет критерия Манна-Уитни: объяснение простыми словами

В подавляющем большинство психологических исследований расчет статистических критериев в том числе и критерия Манна-Уитни производится с помощью статистических программ. Наиболее известные - это SPSS и STATISTICA. Однако несмотря на это важно в общих чертах представлять себе сущность расчета - это придаст студенту-психологу на защите диплома.

Вернёмся к нашему пример с тревожностью мужчин и женщин. Предположим у нас две группы по 10 человек. У каждого испытуемого есть определенное значение личностной тревожности. Нам нужно выяснить, различаются ли уровни тревожности в группах мужчин и женщин. Расчет критерия Манна-Уитни примерно будет проходить по следующим шагам:

Показатели тревожности в группах заносятся в таблицу ранжируются, то есть располагаются в порядке возрастания.
Далее данные по мужчинам женщинам объединяются в общий столбец (при этом они помечаются, например, разными цветом) и опять ранжируются.
А далее проводится анализ. Если данные мужчин и женщин (синие и красные числа) в основном чередуются, то различий скорее всего нет.
А вот если данные по мужчинам сгруппированы в основном вверху, где низкие показатели, а у женщин внизу, где высокие, то скорее всего различия есть.

Мы привели объяснение на пальцах. Статистические программы для расчета используют специальные алгоритмы, которые позволяют численно оценить эти пересечения данных обеих групп (синих и красных чисел) и сделать вывод о существовании или не существовании различий.

Что нужно знать про критерий Манна-Уитни на защите диплома

U-критерий Манна-Уитни - это непараметрический статистический критерий, использующийся для сравнения выраженности показателей в двух несвязных выборках.

Что такое непараметрический? Не вдаваясь в статистические тонкости, нужно понимать следующее. Параметрические статистические критерии более точные, но они предъявляют более строгие требования к данным. То есть, перед расчетом нужно все данные в группах проверять, например, на нормальность распределение. Это значит, что на графике распределения такие данные должны располагаться в виде колокола - больше всего испытуемых со средними значениями, а меньшинство имеют низкие и высокие показатели. t-критерий Стъюдента является параметрическим критерием.

Непараметрические критерии менее точные, но зато у них нет жестких требований к данным. Эти данные могут быть почти любыми.

Что значит несвязные выборки? Это означает, что группы не пресекаются, то есть в них разные испытуемые. Расчет различий в связных выборках используется, например, при выявлении эффективности тренингов, когда производятся замеры «до» и «после», а потом сравниваются. У критерия Стъюдента есть вариант для связных выборок. Критерий Манна-Уитни используется только для несвязных.

Ограничения критерия Манна-Уитни

Число испытуемых в группах при использовании критерия Манна-Уитни не должно быть больше 60 человек.
Минимальное число испытуемых - 3 человека в каждой группе.
Объем групп не должен быть строго одинаковым, но не должен сильно различаться.
Сравниваемые показатели могут быть как психологическими (тревожность, агрессивность, самооценка и пр.), так и не психологическими (успешность обучения, эффективность профессиональной деятельности и пр.)

«Почему вы выбрали для расчета критерий Манна-Уитни?»

Очень многих студентов-психологов перед защитой диплома пугает именно этот вопрос. Предлагаем в качестве основы для индивидуальных модификаций следующий ответ:

«В данной работе мы не проверяли данные на нормальность распределения, поэтому мы использовали непараметрический статистический критерий анна-Уитни, предназначенный для выявления различий показателей в двух несвязных выборках».

Важно понимать, что фактически этот вопрос означает следующее: «Почему вы выбрали критерий Манна-Уитни, а не критерий Стъюдента». Именно эти критерии наиболее часто используются для сравнительного анализа в психологических исследованиях.

Поэтому в ответе и надо указать, что на нормальность данные не проверяли, например, из-за небольшого объема групп. Поэтому решили остановиться на непараметрическом критерии.

Уровень статистической значимости

Если вы будет пользоваться для расчета критерия Манна-Уитни статистической программой, то в выдаче результатов будут присутствовать два важных показателя:

U - это, собственно, численное значение критерия. Для определения достоверности различий выраженности показателей в группах нужно сравнить полученное значение Uэмп с критическим значением из специальной таблицы - Uкр. Если Uэмп≤ Uкр, то различия выраженности показателей в группах статистически значимы.
р - уровень статистической значимости. Этот показатель присутствует при расчете всех статистических критериев и отражает степень точности вывода о наличие различий. В психологических исследованиях приняты два уровня точности:

р≤0,01 - вероятность ошибки 1%;
р≤0,05 - вероятность ошибки 5%.

Пример анализа данных с помощью критерия Манна-Уитни в дипломе по психологии

Результаты сравнительного анализа показателей жизнестойкости у молодежи и людей зрелого возраста

	Средние значения		U-критерий Манна-Уитни	Уровень статистической значимости (p)
	молодежь	люди зрелого возраста	U-критерий Манна-Уитни	Уровень статистической значимости (p)
Вовлеченность	32,9	40,9		0,000*
Контроль	27,2	28,3	1170,5	0,584
Принятие риска	17,9	14,4		0,000*
Жизнестойкость	78,0	83,6	1022,5	0,117

* - различия статистически достоверны (р ≤ 0,05)

Анализ данных, приведенных в таблице, позволяет сделать следующие выводы:

Показатели по шкале «вовлеченность» в группе представителей старшего поколения статистически значимо выше, чем в группе представителей молодого поколения. Это означает, что люди зрелого возраста, по сравнению с молодежью, характеризуются более высокой вовлеченностью в происходящее, они в большей степени получают удовольствие от собственной деятельности. В то же время молодежь в большей степени, чем более зрелые люди, переживает чувство отвергнутости, ощущение себя «вне» жизни. Такой результат связан с психологическими особенностями возрастов: молодые люди еще не нашли своего места в жизни, что обуславливает их недостаточную вовлеченность в происходящее, в то же время зрелые люди в значительной степени укоренены в жизни, что позволяет им быть на более высоком уровне вовлеченности.

Показатели по шкале «принятие риска» в группе представителей молодежи статистически значимо выше, чем в группе представителей зрелого возраста. Это означает, что молодые люди, по сравнению с людьми зрелого возраста, характеризуются более высокой убежденностью в том, что все то, что с ним случается, способствует его развитию за счет знаний, извлекаемых из опыта, — неважно, позитивного или негативного. Молодые в больше степени, чем зрелые люди, рассматривают жизнь как способ приобретения опыта, готовы действовать в отсутствие надежных гарантий успеха, на свой страх и риск, считая стремление к простому комфорту и безопасности обедняющим жизнь личности.

Как показывают полученные данные, различия показателей жизнестойкости в группах представителей молодежи и людей зрелого возраста носят разнонаправленный характер, что в итоге предопределяет отсутствие различий в общем показателей жизнестойкости в группах испытуемых.

Итак, различия показателей жизнестойкости в группах представителей молодого поколения и людей зрелого возраста носят разнонаправленный характер: у молодежи в большей степени выражено принятие риска, а людей зрелого возраста - вовлеченность в происходящее. В итоге не выявлено различий в общем показателей жизнестойкости в группах испытуемых.

где
,

7. Определить критическое значение -критерия (см. прил., табл. А3).

8. Сравнить расчетное и критическое значение -критерия. Если расчетное значение больше или равно критическому, то гипотеза
равенства средних значений в двух выборках изменений отвергается. Во всех других случаях она принимается на заданном уровне значимости.

Лекция 4. Критерии для непараметрических распределений

4.1. -Критерий Манна-Уитни

Назначение критерия. Критерий предназначен для оценки различии между двумя непараметрическими выборками по уровню какого-либо признака, количественно измеренного. Он позволяет выявлять различия между малыми выборками, когда

Описание критерия

Этот метод определяет, достаточно ли мала зона пересекающихся значений между двумя рядами. Чем меньше эта область, тем более вероятно, что различия достоверны. Эмпирическое значение критерия и отражает то, насколько велика зона совпадения между рядами. Поэтому, чем меньше
тем более вероятно, что различия достоверны.

Гипотезы

Уровень признака в группе 2 не ниже уровня признака в группе 1.

Уровень признака в группе 2 ниже уровня признака в группе 1.

Алгоритм расчета критерия Манна-Уитни

1. Перенести все данные испытуемых на индивидуальные карточки.

2. Пометить карточки испытуемых выборки 1 одним цветом, скажем, красным, а все карточки из выборки 2 – другим, например синим.

3. Разложить все карточки в единый ряд по степеням нарастания признака, не считаясь с тем, к какой выборке они относятся, как если бы была одна большая выборка.

4. Проранжировать значения на карточках, приписывая меньшему значению меньший ранг.

5. Вновь разложить карточки на две группы, ориентируясь на цветные обозначения: красные карточки в один ряд, синие – в другой.

7. Определить большую из двух ранговых сумм.

8. Определить по формуле значение

где
количество испытуемых в выборке 1;
количество испытуемых в выборке 2;
большая из двух ранговых сумм;
количество испытуемых в группе с большей суммой рангов.

9. Определить критические значения . Если
то

гипотеза
принимается. Если
то отвергается. Чем меньше

значения , тем достоверность различий выше.

Пример. Сравнить эффективность двух методов обучения в двух группах. Результаты испытаний представлены в таблице 4.

Таблица 4

Перенесем все данные в другую таблицу, выделив данные второй группы, подчеркиваем и делаем ранжирование общей выборки (см. алгоритм ранжирования в методических указаниях к заданию).

Значения

Найдем сумму рангов двух выборок и выберем большую из них:

Рассчитаем эмпирическое значение критерия по формуле (3)

Определим критическое значение критерия при уровне значимости
(см. прил. табл. А1)

Вывод: так как расчетное значение критерия больше критического при уровне значимости
и
, гипотеза о равенстве средних принимается, различия в методиках обучения будут несущественны.

Критерий Манна-Уитни представляет непараметрическую альтернативу t -критерия для независимых выборок. Преимущество его состоит в том, что мы отказываемся от предположения нормальности распределения и одинаковых дисперсий. Необходимо, чтобы данные были измерены как минимум в порядковой шкале.

STATISTICA предполагает, что данные расположены тем же образом, что в и t -критерии для независимых выборок. Файл должен содержать кодовую (независимую) переменную, имеющую, по крайней мере, два разных кода для однозначной идентификации принадлежности каждого наблюдения к определенной группе.

Предположения и интерпретация. Критерий Манна-Уитни предполагает, что рассматриваемые переменные измерены, по крайней мере, в порядковой шкале (ранжированы). Интерпретация теста по существу похожа на интерпретацию результатов t -критерия для независимых выборок, за исключением того, что U критерий вычисляется, как сумма индикаторов попарного сравнения элементов первой выборки с элементами второй выборки. U критерий - наиболее мощная (чувствительная) непараметрическая альтернатива t-критерия для независимых выборок ; фактически, в некоторых случаях он имеет даже большую мощность, чем t -критерий.

Если объем выборки больше 20, то распределение выборки для U статистики быстро сходится к нормальному распределению (см. Siegel, 1956). Поэтому вместе с U статистикой будут показаны z значение (для нормального распределения и соответствующее p -значение.

Точные вероятности для малых выборок. Для выборок малого объема STATISTICA вычислит точную вероятность, связанную с соответствующей U статистикой. Эта вероятность основана на подсчете всех возможных значений U при заданном количестве наблюдений в двух выборках (см. Dinneen & Blakesley, 1973). Программа сообщит (в последнем столбце таблицы результатов) значение 2 * p, где p равно 1 минус кумулятивная (односторонняя) вероятность соответствующей U статистики. Заметим, что это обычно не приводит к большой недооценке статистической значимости соответствующих эффектов (см. Siegel, 1956).

Статистика критерия выглядит следующим образом.

где W - статистика Вилкоксона , предназначенная для проверки этой же гипотезы

в противном случае

Таким образом, статистика U считает общее число тех случаев, в которых элементы второй выборки превосходят элементы первой выборки. Если гипотеза верна, то

Критерий Манна-Уитни предполагает, что рассматриваемые переменные измерены, по крайней мере, в порядковой шкале (ранжированы). Интерпретация теста по существу похожа на интерпретацию результатов t -критерия для независимых выборок, за исключением того, что U критерий вычисляется, как сумма индикаторов попарного сравнения элементов первой выборки с элементами второй выборки. U критерий - наиболее мощная (чувствительная) непараметрическая альтернатива t -критерия для независимых выборок; фактически, в некоторых случаях он имеет даже большую мощность, чем t -критерий.

Если объем выборки больше 20, то распределение выборки для U статистики быстро сходится к нормальному распределению. Поэтому, вместе с U статистикой, будут показано z значение (для нормального распределения) и соответствующее p -значение.

Подробные инструкции по поводу того, как использовать критерий, вы можете найти дальше в части, касающейся примера применения.

Пример

Проверим гипотезу о принадлежности сравниваемых независимых выборок к одной и той же генеральной совокупности с помощью непараметрического U-критерия Манна-Уитни. Сравним результаты, полученные в примере Основные статистики и t-критерий Стьюдента для 2-го и 3-го столбцов таблицы по критерию Стьюдента, с результатами непараметрического сравнения.

Для расчета U-критерия Уилкоксона расположим варианты сравниваемых выборок в порядке возрастания в один обобщенный ряд и присвоим вариантам обобщенного ряда ранги от 1 до n1 + n2. Первая строка представляет собой варианты первой выборки, вторая - второй выборки, третья - соответствующие ранги в обобщенном ряду:

Надо обратить внимание, что если имеются одинаковые варианты, им присваивается средний ранг, однако значение последнего ранга должно быть равно n1 + n2 (в нашем случае 20). Это правило используют для проверки правильности ранжирования.

Отдельно для каждой выборки рассчитываем суммы рангов их вариант R1 и R2. В нашем случае:

R1 = 1 + 2,5 + 2,5 + 5 + 5 + 9 + 9 + 9 + 12 + 14 = 69

R2 = 5 + 9 + 9 + 14 + 14 + 17 + 17 +17 + 19,5 + 19,5 = 141

Для проверки правильности вычислений можно воспользоваться другим правилом: R1 + R2 = 0,5 * (n1 + n2) * (n1 + n2 + 1). В нашем случае R1 + R2 = 210.

Статистика U1 = 69 - 10*11/2 = 14; U2 = 141 - 10*11/2 = 86.

Для проверки одностороннего критерия выбираем минимальную статистику U1 = 14 и сравниваем ее с критическим значением для n1 = n2 = 10 и уровня значимости 1%, равным 19.

Так как вычисленное значение критерия меньше табличного, нулевая гипотеза отвергается на выбранном уровне значимости, и различия между выборками признаются статистически значимыми. Таким образом, вывод о существовании различий, сделанный с помощью параметрического критерия Cтьюдента, подтверждается с помощью данного непараметрического метода.

Методы математической обработки в психологии

ГЛАВА I. ОСНОВНЫЕ ПОНЯТИЯ, ИСПОЛЬЗУЕМЫЕ В МАТЕМАТИЧЕСКОЙ ОБРАБОТКЕ ПСИХОЛОГИЧЕСКИХ ДАННЫХ

Возможности и ограничения параметрических и непараметрических критериев

ПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ	НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
1. Позволяют прямо оценить различия в средних, полученных в двух выборках (t - критерий Стьюдента).	Позволяют оценить лишь средние тенденции, например, ответить на вопрос, чаще ли в выборке А встречаются более высокие, а в выборке Б - более низкие значения признака (критерии Q, U, φ и др.).
2. Позволяют прямо оценить различия в дисперсиях (критерий Фишера).	Позволяют оценить лишь различия в диапазонах вариативности признака (критерий φ).
3. Позволяют выявить тенденции изменения признака при переходе от условия к условию (дисперсионный однофакторный анализ), но лишь при условии нормального распределения признака.	Позволяют выявить тенденции изменения признака при переходе от условия к условию при любом распределении признака (критерии тенденций L и S).
4. Позволяют оценить взаимодействие двух и более факторов в их влиянии на изменения признака (двухфакторный дисперсионный анализ).	Эта возможность отсутствует.
5. Экспериментальные данные должны отвечать двум, а иногда трем, условиям: а) значения признака измерены по интервальной шкале; б) распределение признака является нормальным; в) в дисперсионном анализе должно соблюдаться требование равенства дисперсий в ячейках комплекса.	Экспериментальные данные могут не отвечать ни одному из этих условий: а) значения признака могут быть представлены в любой шкале, начиная от шкалы наименований; б) распределение признака может быть любым и совпадение его с каким-либо теоретическим законом распределения необязательно и не нуждается в проверке; в) требование равенства дисперсий отсутствует.
6. Математические расчеты довольно сложны.	Математические расчеты по большей части просты и занимают мало времени (за исключением критериев χ 2 и λ).
7. Если условия, перечисленные в п.5, выполняются, параметрические критерии оказываются несколько более мощными, чем непараметрические.	Если условия, перечисленные в п.5, не выполняются, непараметрические критерии оказываются более мощными, чем параметрические, так как они менее чувствительны к «засорениям».

Классификация задач и методов их решения

Задачи	Условия	Методы
1.Выявление различий в уровне исследуемого признака	а) 2 выборки испытуемых	Q- критерий Розенбаума; U - критерий Манна-Уитни; φ* - критерий (угловое преобразование Фишера)
б) 3 и более выборок испытуемых	S - критерий тенденций Джонкира; Н - критерий Крускала-Уоллиса.
2. Оценка сдвига значений исследуемого признака	а) 2 замера на одной и той же выборке испытуемых	Т - критерий Вилкоксона; G - критерий знаков; φ* - критерий (угловое преобразование Фишера).
б) 3 и более замеров на одной и той же выборке испытуемых	χ л 2 - критерий Фридмана; L - критерий тенденций Пейджа.
3. Выявление различий в распределении	а) при сопоставлении эмпирического признака распределения с теоретическим	χ 2 - критерий Пирсона; λ - критерий Колмогорова-Смирнова; m - биномиальный критерий.
б) при сопоставлении двух эмпирических распределений	χ 2 - критерий Пирсона; λ - критерий Колмогорова-Смирнова; φ* - критерий (угловое преобразование Фишера).
4.Выявление степени согласованности изменений	а) двух признаков
б) двух иерархий или профилей	r s - коэффициент ранговой корреляции Спирмена.
5. Анализ изменений признака под влиянием контролируемых условий	а) под влиянием одного фактора	S- критерий тенденций Джонкира; L - критерий тенденций Пейджа; однофакторный дисперсионный анализ Фишера.
б) под влиянием двух факторов одновременно	Двухфакторный дисперсионный анализ Фишера.

ГЛАВА II. ВЫЯВЛЕНИЕ РАЗЛИЧИЙ В УРОВНЕ ИССЛЕДУЕМОГО ПРИЗНАКА

Принятие решения о выборе метода математической обработки

Если данные уже получены, то вам предлагается следующий алгоритм определения задачи и метода.

АЛГОРИТМ 2

Принятие решения о задаче и методе обработки на стадии планирования исследования

1. Определите, какая модель вам кажется наиболее подходящей для доказательства ваших научных предположений.

2. Внимательно ознакомьтесь с описанием метода, примерами и задачами для самостоятельного решения, которые к нему прилагаются.

3. Если вы убедились, что это то, что вам нужно, вернитесь к разделу «Ограничения критерия» и решите, сможете ли вы собрать данные, которые будут отвечать этим ограничениям (большие объемы выборок, наличие нескольких выборок, монотонно различающихся по какому-либо признаку, например, по возрасту и т.п.).

4. Проводите исследование, а затем обрабатывайте полученные данные по заранее! выбранному алгоритму, если вам удалось выполнить ограничения.

5. Если ограничения выполнить не удалось, обратитесь к алгоритму 1.

Алгоритм принятия решения о выборе критерия для сопоставлений

Q - критерий Розенбаума

Назначение критерия . Критерий используется для оценки различий между двумявыборками по уровнюкакого-либо признака, количественно измеренного. В каждой из выборок должно быть не менее 11 испытуемых.

Пример.

У предполагаемых участников психологического эксперимента, моделирующего деятельность воздушного диспетчера, был измерен уровень вербального и невербального интеллекта с помощью методики Д. Векслера. Было обследовано 26 юношей в возрасте от 18 до 24 лет (средний возраст 20,5 лет). 14 из них были студентами физического факультета, а 12 - студентами психологического факультета Ленинградского университета. Можно ли утверждать, что одна из групп превосходит другую по уровню вербального интеллекта?

АЛГОРИТМ 3 Подсчет критерия Q Розенбаума 1. Проверить, выполняются ли ограничения: n 1 ,n 2 ≥11, n 1 ,n 2 ≈n 2. 2. Упорядочить значения отдельно в каждой выборке по степени возрастания признака. Считать выборкой 1 ту выборку, значения в которой предположительно выше, а выборкой 2 - ту, где значения предположительно ниже. 3. Определить самое высокое (максимальное) значение в выборке 2. 4. Подсчитать количество значений в выборке 1, которые выше максимального значения в выборке 2. Обозначить полученную величину как S 1 . 5. Определить самое низкое (минимальное) значение в выборке 1. 6. Подсчитать количество значений в выборке 2, которые ниже минимального значения выборки 1. Обозначить полученную величину как S 2 . 7. Подсчитать эмпирическое значение Q по формуле: Q=S 1 +S2 8. По Табл. I определить критические значения Q для данных n 1 и n 2 . Если Q эмп равно Q 0,05 или превышает его, уровень признака в выборке 1 превышает уровень признака в выборке 2. 9. При n 1 и n 2 >26сопоставить полученное эмпирическое значение с Q к p = 8 (р≤ 0,05) и Q к p = 10 (p≤ 0,01). Если Q эмп ≥ Q к p = 8, уровень признака в выборке 1 превышает уровень признака в выборке 2.

Таблица I. Критические значения критерия Q Розенбаума

p=0,05

p=0,01

U - критерий Манна-Уитни

Назначение критерия . Критерий предназначен для оценки различий между двумя выборками по уровню какого-либо признака, количественно измеренного. Он позволяет выявлять различия между малыми выборками, когда n 1 ,n 2 ≥ 3 или n 1 =2, n 2 ≥5, и является более мощным, чем критерий Розенбаума.

Пример

Уровень вербального интеллекта в выборке студентов физического факультета выше чем студентов психологического факультета Ленинградского университета. Попытаемся установить теперь, воспроизводится ли этот результат при сопоставлении выборок по уровню невербального интеллекта. Можно ли утверждать, что одна из выборок превосходит другую по уровню невербального интеллекта?

Правила ранжирования

1. Меньшему значению начисляется меньший ранг. Наименьшему значению начисляется ранг 1. Наибольшему значению начисляется ранг, соответствующий количеству ранжируемых значений. Например, если n=7, то наибольшее значение получит ранг 7, за возможным исключением для тех случаев, которые предусмотрены правилом 2.

2. В случае, если несколько значений равны, им начисляется ранг, представляющий собой среднее значение из тех рангов, которые они получили бы, если бы не были равны.

Допустим, следующие 2 значения равны 12 сек. Они должны были бы получить ранги 4 и 5, но, поскольку они равны, то получают средний ранг:

3. Общая сумма рангов должна совпадать с расчетной, которая определяется по формуле:

где N - общее количество ранжируемых наблюдений (значений). Несовпадение реальной и расчетной сумм рангов будет свидетельствовать об ошибке, допущенной при начислении рангов или их суммировании. Прежде чем продолжить работу, необходимо найти ошибку и устранить ее.

АЛГОРИТМ 4

Подсчет критерия U Манна-Уитни.

1. Перенести все данные испытуемых на индивидуальные карточки.

2. Пометить карточки испытуемых выборки 1 одним цветом, скажем красным, а все карточки из выборки 2 - другим, например синим.

3. Разложить все карточки в единый ряд по степени нарастания признака, не считаясь с тем, к какой выборке они относятся, как если бы мы работали с одной большой выборкой.

4. Проранжировать значения на карточках, приписывая меньшему значению меньший ранг. Всего рангов получится столько, сколько у нас (n 1 +п 2).

5. Вновь разложить карточки на две группы, ориентируясь на цветные обозначения: красные карточки в один ряд, синие - в другой.

7. Определить большую из двух ранговых сумм.

8. Определить значение U по формуле:

где n 1 - количество испытуемых в выборке 1;

n 2 - количество испытуемых в выборке 2;

Т х - большая из двух ранговых сумм;

n х - количество испытуемых в группе с большей суммой рангов.

9. Определить критические значения U по Табл. II. Если U эмп ≤ U к p _ 005 , различия достоверны. Чем меньше значения U, тем достоверность различий выше.

Таблица II. Критические значения критерия U Манна-Уитни

для уровней статистической значимости р≤0,05 и р≤0,01.

p=0,05

p=0,01

Таблица II. Продолжение

n 1

n 2

p=0,05

р=0,01

Таблица II. Продолжение

В этой статье Вы узнаете, почему кроме t-теста существуют другие методы сравнения двух выборок. Начнем мы с того, что вспомним о нормальности данных и связанной с ней делением статистических тестов на две категории: параметрические и непараметрические. О последних мы поговорим более подробно: разберем три наиболее популярных теста, а также научимся их запускать в среде R.

Параметрический или непараметрический критерий различия?

Статистические методы, использующие параметры нормального распределения данных (среднее, стандартное отклонение и прочее) называются параметрическими . Так например, рассмотренный в предыдущей статье является типичным параметрическим методом. Почему? Потому, что главным условием для его проведения является нормальное распределение количественных данных. Непараметрические методы, напротив, не зависят от распределения данных и позволяют работать как с количественными, так и с порядковыми данными (например: размер обуви, шкала силы землетрясений).

При нормальном распределении данных параметрические критерии имеют большую мощность по сравнению с непараметрическими. Однако, когда данные выборок не проходят тесты нормальности (такие, как qqplot и Шапиро тест), непараметрические методы дают более точные предсказания. Особенно они эффективны с выборками небольшого размера (<100 наблюдений), на распределение которых могут влиять неизвестные факторы. Сегодня мы познакомимся с непараметрическими аналогами t-теста, использующимися также, для сравнения двух выборок. При выборе критерия следует обратить внимание на две вещи: зависимость данных выборок друг от друга и объем выборок.

На приведенном выше рисунке Вы видите упрощенную классификацию методов сравнения средних (или медиан) двух выборок. Мы кратко поговорим о каждом из непараметрических критериев, и научимся применять их в среде R. Чтож, приступим!

Критерий Уилкоксона

Начнем знакомство с непараметрических тестов для зависимых выборок. Прежде всего стоит отметить, что выборки называются зависимыми, когда испытуемые одной и той же группы были протестированы в разные моменты времени с меняющимися (1) или неменяющимися (2) условиями эксперимента. В первом случае проверяется эффект какого либо действия в сравнении с контрольным измерением ("до и после"), во втором - повторяемость результатов эксперимента ("контроль-повтор").

Тест Уилкоксона (от английского "Wilcoxon signed-rank test") является широко используемым и эффективным методом выявления различий между медианами двух зависимых выборок с распределением данных отличным от нормального. Он идеально подходит для сравнения маленьких выборок, где количество испытуемых/исследований больше 5, но меньше 50. Как и для всех критериев, рассмотренных в этой статье, данные могут быть как количественными, так и порядковыми. Метод был разработан в 1945 году американским статистиком и химиком Фрэнком Уилкоксоном (фото справа).

Чтобы запустить тест Уилкоксона в среде R следует загрузить данные выборок и ввести следующую команду:

wilcox.test("выборка_1", "выборка_2" , paired = T)

Как и в t-тесте, в непараметрических статистических тестах внутри скобок можно добавить дополнительные параметры, такие как alternative , conf.int , conf.level . Чтобы посмотреть все аргументы функции, поставьте перед ней знак вопроса, в нашем случае: ?wilcox.test

G-критерий знаков

Если же количество исследований в выборке больше 50, то следует использовать G-критерий знаков. Критерий знаков по статистической мощности уступает Уилкоксону, но превосходит большинство других непараметрических аналогов. Данные выборок должны быть зависимыми, количество исследований в выборке от 5, но не более 300 (про механизм расчетов и ограничения метода можно почитать ).

Провести тест в R не сложно, но потребуется сделать несколько манипуляций с данными. Сначала мы загрузим данные двух зависимых выборок, например систолическое (верхнее) давление до и после применения лекарства у 60 пациентов-гипертоников. Загрузим данные "before" и "after" в среду R. Затем визуализируем их.

before <- c(171.2, 169.8, 154.6, 130.9, 158.5, 145.5, 143.5, 144.7, 147.7, 160.7, 154.7, 181.8, 167.2, 137.4, 180.2, 138.7, 159.9, 141.8, 172.2, 167.0, 137.2, 170.9, 168.4, 163.7, 160.1, 163.5, 146.7, 173.9, 180.1, 136.0, 159.0, 145.6, 186.5, 177.7, 167.7, 167.4, 165.9, 147.2, 165.2, 133.3, 175.0, 174.7, 163.0, 154.1, 189.4, 166.5, 153.0, 134.3, 177.1, 150.4, 152.4, 176.2, 160.3, 135.3, 131.2, 172.1, 137.0, 156.6, 178.5, 168.1) after <- c(179.5, 141.9, 124.7, 103.2, 143.1, 146.0, 132.2, 104.9, 145.3, 123.5, 135.2, 176.2, 142.7, 114.1, 171.9, 115.0, 126.4, 108.0, 171.7, 148.8, 103.5, 178.5, 138.9, 150.0, 131.8, 169.2, 131.4, 138.8, 146.2, 116.1, 148.8, 109.2, 186.3, 164.1, 147.3, 165.3, 140.0, 122.6, 174.4, 104.6, 156.6, 175.3, 126.8, 122.6, 184.0, 139.6, 149.4, 105.3, 181.9, 134.6, 129.4, 148.0, 170.2, 144.2, 133.3, 171.8, 118.4, 131.2, 150.0, 131.0) boxplot(before, after, col = c(6,5), main = "The effect of treatment", outer = TRUE) axis(1, at=1:2, labels=c("before","after"))

Затем найдем разность между векторами "before" и "after" и назовем новый вектор "difference", после чего при помощи команды length узнаем его длину. Так как нас интересует, снижает ли лекарство давление у пациентов, мы узнаем какое количество элементов в векторе "difference" больше нуля. Это количество принято называть числом "успехов".

difference <- before - after difference length(difference) length(difference)

Теперь все готово для того, чтобы запустить G-критерий знаков в R. Для этого воспользуемся командой binom.test , где в параметрах функции укажем сначала число "успехов", затем число исследований в выборке.

binom.test(50, 60)

Нулевая гипотеза говорит о том, что медианы выборок статистически не отличаются, альтернативная - что статистические различия есть. В нашем случае p-value значительно меньше 0.05, поэтому мы можем с уверенностью отвергнуть нулевую гипотезу и принять альтернативую: две выборки статистически отличаются друг от друга. Также мы видим, что у 83% пациентов давление снизилось. Для демонстрации статистической значимости результатов эксперимента, просто добавьте к графику надпись p-value < 0.001.

Критерий Манна-Уитни

Этот тест также был изначально разработан и опубликован Уилкоксоном в 1945 году. Однако спустя два года его существенно усовершенствовали два математика, в честь которых и был назван критерий. В отличие от двух предыдущих критериев, тест Манна-Уитни используется при сравнении двух независимых выборок , также имеющих отклонения от нормального распределения. Подробнее об алгоритме расчета данного критерия можете почитать в этой статье .

Запустить тест Манна-Уитни в R крайне просто, используем уже известную нам функцию "wilcox.test" и убираем из скобок "paired = T":

wilcox.test("выборка_1", "выборка_2" )

Однако при проведении этого метода необходимо соблюдать два условия. Во-первых, одинаковые значения в выборке должны быть сведены к минимуму (все числа должны быть разными). Во-вторых, в каждой выборке должно быть не менее трех исследований (минимум 3 и 3, также допускается 5 и 2).

Заключение

Непараметрических методов существует великое множество, сегодня мы познакомились лишь с тремя наиболее используемыми критериями для сравнения двух выборок. В среде R эти тесты запустить довольно просто, поэтому главный акцент в выборе метода следует делать на его пригодность к решению конкретно Вашей задачи.