телевизори. Конзоли. Проектори и аксесоари. Технологии. Цифрова телевизия

Примерно решение на критерия на Кендъл. Коефициенти на рангова корелация на Spearman, Kendall, коефициент на Fechner. От какво да изхождаме при определяне на темата, обекта, предмета, целта, задачите и хипотезата на изследването?

Кратка теория

Коефициентът на корелация на Кендъл се използва, когато променливите са представени в две ординални скали, при условие че няма свързани рангове. Изчисляването на коефициента на Kendall включва преброяване на броя на съвпаденията и инверсиите.

Този коефициент варира в граници и се изчислява по формулата:

За изчисление всички единици се класират според ; според ред от друга характеристика, за всеки ранг броят на следващите рангове над дадения (означаваме ги с ), и броят на следващите рангове под дадения (означаваме ги с ).

Може да се покаже, че

и коефициентът на рангова корелация на Кендъл може да се запише като

За да се тества нулевата хипотеза на ниво на значимост, че общият коефициент на рангова корелация на Kendall е равен на нула при конкурентна хипотеза, е необходимо да се изчисли критичната точка:

къде е размерът на извадката; – критична точка на двустранната критична област, която се намира от таблицата на функцията на Лаплас по равенство

Ако – няма причина да се отхвърли нулевата хипотеза. Ранговата корелация между характеристиките е незначима.

Ако – нулевата хипотеза се отхвърля. Съществува значителна рангова корелация между характеристиките.

Пример за решение на проблем

Задачата

По време на набирането на седем кандидати за вакантни позиции бяха подложени на два теста. Резултатите от теста (в точки) са показани в таблицата:

Тест Кандидат 1 2 3 4 5 6 7 1 31 82 25 26 53 30 29 2 21 55 8 27 32 42 26

Изчислете коефициента на рангова корелация на Kendall между резултатите от теста за два теста и оценете неговата значимост на ниво.

Решението на проблема

Нека изчислим коефициента на Кендъл

Ранговете на факторната характеристика се подреждат строго във възходящ ред и съответните рангове на резултантната характеристика се записват паралелно. За всеки ранг от броя на ранговете след него се брои броят на ранговете, по-големи от него по стойност (въведени в колоната) и броя на ранговете, по-малки по стойност (въведени в колоната).

1 1 6 0 2 4 3 2 3 3 3 1 4 6 1 2 5 2 2 0 6 5 1 0 7 7 0 0 Сума 16 5

Използва се за идентифициране на връзката между количествени или качествени показатели, ако те могат да бъдат класирани. Стойностите на индикатора X се показват във възходящ ред и им се присвояват рангове. Стойностите на индикатора Y се класират и се изчислява коефициентът на корелация Kendall:

Където С = ПQ.

П голямстойността на ранговете Y.

Q- общият брой наблюдения след текущите наблюдения с по-малъкстойността на ранговете Y. (равните рангове не се вземат предвид!)

Ако изследваните данни се повтарят (имат едни и същи рангове), тогава коригираният коефициент на корелация на Kendall се използва в изчисленията:

T- броят на свързаните рангове в серията X и Y, съответно.

19. От какво трябва да изхождаме при определяне на темата, обекта, предмета, целта, задачите и хипотезата на изследването?

Изследователската програма, като правило, има два раздела: методологичен и процедурен. Първият включва обосновка на актуалността на темата, формулиране на проблема, дефиниране на обекта и предмета, целите и задачите на изследването, формулиране на основни понятия (категориален апарат), предварителен системен анализ на обекта на изследване и формулиране на работна хипотеза. Вторият раздел разкрива стратегическия дизайн на изследването, както и дизайна и основните процедури за събиране и анализ на първични данни.

На първо място, при избора на тема за изследване трябва да се изхожда от уместността. Обосновка на релевантносттавключва индикация за необходимостта и навременността от изучаване и решаване на проблема за по-нататъшното развитие на теорията и практиката на обучението и възпитанието. Текущите изследвания дават отговори на най-належащите проблеми дадено времевъпроси, които отразяват социалния ред на обществото пред педагогическата наука, разкриват най-важните противоречия, които се срещат на практика. Критерият за релевантност е динамичен, гъвкав, зависим от времето, отчитайки конкретни и конкретни обстоятелства. В най-общата си форма релевантността характеризира степента на несъответствие между търсенето на научни идеи и практически препоръки (за задоволяване на определена потребност) и предложенията, които науката и практиката могат да предоставят в момента.

Най-убедителната основа, определяща темата на изследването, е общественият ред, отразяващ най-належащите, социално значими проблеми, изискващи спешни решения. Социалният ред изисква обосновка за конкретна тема. Обикновено това е анализ на степента, до която даден въпрос е развит в науката.

Ако социалният ред следва от анализа на педагогическата практика, то научен проблеме в друга равнина. Той изразява основното противоречие, което трябва да бъде разрешено със средствата на науката. Решението на проблема обикновено е цел на изследването.Целта е преформулиран проблем.

Постановката на проблема предполага избор на обектизследвания. Това може да бъде педагогически процес, област от педагогическата реалност или някаква педагогическа връзка, която съдържа противоречие. С други думи, обект може да бъде всичко, което явно или косвено съдържа противоречие и поражда проблемна ситуация. Обектът е това, към което е насочен процесът на познание. Предмет на изследване -част, страна на обект. Това са най-значимите свойства, аспекти и характеристики на даден обект от практическа или теоретична гледна точка, които подлежат на пряко изследване.

В съответствие с целта, обекта и предмета на изследването се определя изследването задачи,които обикновено са насочени към проверка хипотези.Последното е набор от теоретично обосновани предположения, чиято истинност подлежи на проверка.

Критерий научна новостприложими за оценка на качеството на завършените изследвания. Той характеризира нови теоретични и практически изводи, модели на образованието, неговата структура и механизми, съдържание, принципи и технологии, които в този момент не са били известни и не са записани в педагогическата литература. Новостта на изследването може да има както теоретично, така и практическо значение. Теоретичната значимост на изследването се състои в създаването на концепция, получаване на хипотеза, модел, метод, модел за идентифициране на проблем, тенденция, посока. Практическото значение на изследването се състои в изготвянето на предложения, препоръки и др. Критериите за новост, теоретична и практическа значимост варират в зависимост от вида на изследването, те също зависят от времето на получаване на нови знания.

Един фактор, ограничаващ използването на тестове, базирани на предположението за нормалност, е размерът на извадката. Докато извадката е достатъчно голяма (например 100 или повече наблюдения), можете да приемете, че разпределението на извадката е нормално, дори ако не сте сигурни, че разпределението на променливата в популацията е нормално. Въпреки това, ако извадката е малка, тези тестове трябва да се използват само ако сте сигурни, че променливата действително има нормално разпределение. Въпреки това, няма начин да се тества това предположение в малка извадка.

Използването на критерии, базирани на предположението за нормалност, също е ограничено от скалата на измерване (вижте главата Елементарни концепции за анализ на данни). Статистически методи като t-тест, регресия и др. предполагат, че оригиналните данни са непрекъснати. Има обаче ситуации, при които данните просто се класират (измерени по порядъчна скала), вместо да се измерват точно.

Типичен пример са рейтингите на сайтове в Интернет: на първо място е сайтът с максимален брой посетители, на второ място е сайтът с максимален брой посетители сред останалите сайтове (сред сайтовете от който беше изтрит първия сайт) и т.н. Познавайки рейтингите, можем да кажем, че броят на посетителите на един сайт е по-голям от броя на посетителите на друг, но колко повече не може да се каже. Представете си, че имате 5 сайта: A, B, C, D, E, които са класирани на първите 5 места. Нека влезе текущ месецимахме следната подредба: A, B, C, D, E, а през предходния месец: D, E, A, B, C. Въпросът е има ли съществени промени в класирането на сайтовете или не? В тази ситуация, очевидно, не можем да използваме t-теста, за да сравним тези две групи от данни, и преминаваме в областта на специфични вероятностни изчисления (а всеки статистически тест съдържа вероятностни изчисления!). Разсъждаваме приблизително по следния начин: доколко е вероятно разликата в подреждането на двете площадки да се дължи на чисто случайни причини или тази разлика е твърде голяма и не може да се обясни с чиста случайност. В тези дискусии ние използваме само рангове или пермутации на сайтове и по никакъв начин не използваме специфичен тип разпределение на броя на посетителите в тях.

Непараметричните методи се използват за анализ на малки проби и за данни, измерени в лоши мащаби.

Кратък преглед на непараметричните процедури

По същество за всеки параметричен критерий има поне една непараметрична алтернатива.

Като цяло тези процедури попадат в една от следните категории:

  • тестове за разлика за независими проби;
  • разлики тестове за зависими проби;
  • оценка на степента на зависимост между променливите.

Като цяло подходът към статистическите критерии при анализа на данни трябва да бъде прагматичен и да не е обременен с ненужни теоретични разсъждения. С компютър, изпълняващ STATISTICA, можете лесно да приложите множество критерии към вашите данни. Знаейки за някои от клопките на методите, вие ще изберете правилното решение чрез експериментиране. Развитието на сюжета е съвсем естествено: ако искате да сравните стойностите на две променливи, тогава използвате t-тест. Все пак трябва да се помни, че той се основава на предположението за нормалност и равенство на дисперсиите във всяка група. Премахването на тези предположения води до непараметрични тестове, които са особено полезни за малки проби.

Развитието на t-теста води до дисперсионен анализ, който се използва, когато броят на сравняваните групи е повече от две. Съответното развитие на непараметричните процедури води до непараметричен дисперсионен анализ, въпреки че е значително по-беден от класическия дисперсионен анализ.

За да се оцени зависимостта или, казано малко помпозно, степента на близост на връзката, се изчислява корелационният коефициент на Пиърсън. Строго погледнато, използването му има ограничения, свързани например с вида на мащаба, в който се измерват данните, и нелинейността на връзката, така че непараметричните или така наречените рангови коефициенти на корелация, използвани напр. , за класирани данни, също се използват като алтернатива. Ако данните се измерват по номинална скала, тогава е естествено те да бъдат представени в таблици за непредвидени обстоятелства, които използват теста хи-квадрат на Pearson с различни вариации и корекции за точност.

Така че по същество има само няколко вида критерии и процедури, които трябва да знаете и да можете да използвате, в зависимост от спецификата на данните. Трябва да определите кой критерий трябва да се приложи в конкретна ситуация.

Непараметричните методи са най-подходящи, когато размерите на извадката са малки. Ако има много данни (например n >100), често няма смисъл да се използват непараметрични статистики.

Ако размерът на извадката е много малък (например n = 10 или по-малко), тогава нивата на значимост за онези непараметрични тестове, които използват нормалното приближение, могат да се считат само за груби оценки.

Разлики между независимите групи. Ако имате две проби (например мъже и жени), които искате да сравните по отношение на някаква средна стойност, като средно кръвно налягане или брой бели кръвни клетки, тогава можете да използвате t теста за независими проби.

Непараметричните алтернативи на този тест са тестът на Wald-Wolfowitz, Mann-Whitney)/n, където x i е i-тата стойност, n е броят на наблюденията. Ако дадена променлива съдържа отрицателни стойности или нула (0), средната геометрична стойност не може да бъде изчислена.

Средно хармонично

Хармоничната средна стойност понякога се използва за осредняване на честотите. Средната хармонична стойност се изчислява по формулата: GS = n/S(1/x i), където GS е средната хармонична стойност, n е броят на наблюденията, x i е стойността на номер на наблюдение i. Ако дадена променлива съдържа нула (0), средната хармонична стойност не може да бъде изчислена.

Дисперсия и стандартно отклонение

Дисперсията на извадката и стандартното отклонение са най-често използваните мерки за променливост (вариация) в данните. Дисперсията се изчислява като сумата от квадратните отклонения на стойностите на променливата от средната стойност на извадката, разделена на n-1 (но не на n). Стандартното отклонение се изчислява като корен квадратен от оценката на дисперсията.

Обхват

Диапазонът на променливата е индикатор за променливост, изчислен като максимума минус минимума.

Квартилен диапазон

Тримесечният диапазон по дефиниция е горният квартил минус долния квартил (75% персентил минус 25% персентил). Тъй като 75% персентил (горен квартил) е стойността, вляво от която са 75% от наблюденията, а 25% персентил (долен квартил) е стойността, вляво от която са 25% от наблюденията, квартилът диапазонът е интервалът около медианата, който съдържа 50% от наблюденията (променливи стойности).

Асиметрия

Изкривеността е характеристика на формата на разпределението. Разпределението е изкривено наляво, ако стойността на изкривяване е отрицателна. Разпределението е изкривено надясно, ако изкривяването е положително. Изкривяването на стандартното нормално разпределение е 0. Изкривяването е свързано с третия момент и се определя като: изкривяване = n × M 3 /[(n-1) × (n-2) × s 3 ], където M 3 е равно на: (x i -xсредно x) 3, s 3 - стандартно отклонение на трета степен, n - брой наблюдения.

Излишък

Ексцесът е характеристика на формата на разпределение, а именно мярка за остротата на неговия пик (спрямо нормално разпределение, чийто ексцес е 0). Обикновено разпределенията с по-остър пик от нормалния имат положителен ексцес; разпределенията, чийто пик е по-малко остър от пика на нормално разпределение, имат отрицателен ексцес. Ексцесът е свързан с четвъртия момент и се определя по формулата:

ексцес = /[(n-1) × (n-2) × (n-3) × s 4 ], където M j е равно на: (x-средно x, s 4 - стандартно отклонение на четвърта степен, n - брой наблюдения.

Потребностите на икономическата и социалната практика изискват разработването на методи за количествено описание на процесите, които дават възможност за точно записване не само на количествени, но и на качествени фактори. При условие, че стойностите на качествените характеристики могат да бъдат подредени или класирани според степента на намаляване (нарастване) на характеристиката, е възможно да се оцени близостта на връзката между качествени признаци. Под качествени имаме предвид характеристика, която не може да бъде измерена точно, но ви позволява да сравнявате обекти един с друг и следователно да ги подреждате в ред на намаляване или нарастване на качеството. И истинското съдържание на измерванията в скалите за ранг е редът, в който обектите са подредени според степента на изразяване на характеристиката, която се измерва.

За практически цели използването на рангова корелация е много полезно. Например, ако се установи корелация с висок ранг между две качествени характеристики на продуктите, тогава е достатъчно продуктите да се контролират само по една от характеристиките, което намалява разходите и ускорява контрола.

Като пример можем да разгледаме наличието на връзка между наличието на търговски продукти на редица предприятия и режийните разходи за продажби. В хода на 10 наблюдения се получи следната таблица:

Нека подредим стойностите на X във възходящ ред и на всяка стойност ще бъде присвоен нейният сериен номер (ранг):

По този начин,

Нека изградим следната таблица, в която са записани двойките X и Y, получени в резултат на наблюдение с техните рангове:

Означавайки разликата в ранга като, ние записваме формулата за изчисляване на примерния коефициент на корелация на Спирман:

където n е броят на наблюденията, който също е броят на двойките рангове.

Коефициентът на Спирман има следните свойства:

Ако има пълна пряка връзка между качествените характеристики X и Y в смисъл, че ранговете на обектите съвпадат за всички стойности на i, тогава примерният коефициент на корелация на Спирман е равен на 1. Наистина, замествайки го във формулата, получаваме 1.

Ако има пълна обратна връзка между качествените характеристики X и Y в смисъл, че рангът съответства на ранга, тогава коефициентът на корелация на Спирман е равен на -1.

Наистина, ако

Като заместим стойността във формулата на коефициента на корелация на Спирман, получаваме -1.

Ако няма нито пълна права линия, нито пълна обратна връзка, тогава примерният коефициент на корелация на Спирман е между -1 и 1 и колкото по-близка е стойността му до 0, толкова по-малка е връзката между характеристиките.

Използвайки данните от горния пример, ще намерим стойността на P; за да направим това, ще попълним таблицата със стойностите и:

Примерен коефициент на корелация на Kendall. Можете да оцените връзката между две качествени характеристики, като използвате коефициента на рангова корелация на Kendall.

Нека ранговете на обектите в извадка с размер n са равни на:

по характеристика X:

по характеристика Y: . Да приемем, че вдясно има редици, големи, вдясно има редици, големи, вдясно има редици, големи. Нека въведем обозначението за сумата от ранговете

По подобен начин въвеждаме нотацията като сбор от броя на ранговете, лежащи вдясно, но по-малки.

Примерният коефициент на корелация на Kendall се записва като:

Където n е размерът на извадката.

Коефициентът на Кендъл има същите свойства като коефициента на Спирман:

Ако има пълна пряка връзка между качествените характеристики X и Y в смисъл, че ранговете на обектите съвпадат за всички стойности на i, тогава примерният коефициент на корелация на Кендъл е равен на 1. Наистина, вдясно има n -1 редици, големи, следователно, по същия начин установяваме, Какво. Тогава. И коефициентът на Кендъл е равен на: .

Ако има пълна обратна връзка между качествените характеристики X и Y в смисъл, че рангът съответства на ранга, тогава примерният коефициент на корелация на Kendall е равен на -1. Няма по-високи рангове вдясно, затова. По същия начин. Замествайки стойността R+=0 във формулата за коефициента на Кендъл, получаваме -1.

При достатъчно голям размер на извадката и със стойности на коефициентите на рангова корелация, които не са близки до 1, има приблизително равенство:

Коефициентът на Кендъл предоставя ли по-консервативна оценка на корелацията от коефициента на Спирман? (числова стойност? винаги по-малко от). Въпреки че изчисляването на коефициента? по-малко трудоемко от изчисляването на коефициента; последният е по-лесен за преизчисляване, ако към серията се добави нов член.

Важно предимство на коефициента е, че той може да се използва за определяне на коефициента на частична рангова корелация, което позволява да се оцени степента на „чиста“ връзка между две характеристики на класиране, елиминирайки влиянието на третата:

Значение на коефициентите на рангова корелация. Когато се определя силата на ранговата корелация от извадкови данни, трябва да се разгледа следният въпрос: колко уверено може да се разчита на заключението, че съществува корелация в популацията, ако се получи определен коефициент на рангова корелация на извадката. С други думи, значимостта на наблюдаваните рангови корелации трябва да се тества въз основа на хипотезата за статистическа независимост на двете разглеждани класации.

При относително голям размер на извадката n, проверката на значимостта на коефициентите на рангова корелация може да се извърши с помощта на таблицата за нормално разпределение (Таблица 1 в допълнение). За да проверите значението на коефициента на Спирман? (за n>20) изчислете стойността

и да тестваме значимостта на коефициента на Кендъл? (за n>10) изчислете стойността

където S=R+- R-, n - размер на извадката.

След това те задават нивото на значимост?, определят критичната стойност tcr(?,k) от таблицата на критичните точки на разпределението на Стюдънт и сравняват изчислената стойност или с нея. Броят на степените на свобода се приема за k = n-2. Ако или > tcr, тогава стойностите или се считат за значими.

Коефициент на корелация на Фехнер.

И накрая, трябва да споменем коефициента на Фехнер, който характеризира елементарната степен на близост на връзката, която е препоръчително да се използва за установяване на съществуването на връзка, когато има малко количество първоначална информация. Основата на неговото изчисляване е отчитане на посоката на отклонения от средноаритметичното на всяка вариационна серия и определяне на съответствието на знаците на тези отклонения за двете серии, връзката между които се измерва.

Този коефициент се определя по формулата:

където na е броят на съвпаденията на знаците за отклонения на отделните стойности от тяхната средна аритметична стойност; nb - съответно броят на несъответствията.

Коефициентът на Фехнер може да варира в рамките на -1,0<= Кф<= +1,0.

Приложни аспекти на ранговата корелация. Както вече беше отбелязано, коефициентите на рангова корелация могат да се използват не само за качествен анализ на връзката между две рангови характеристики, но и за определяне на силата на връзката между ранг и количествени характеристики. В този случай стойностите на количествената характеристика се подреждат и им се присвояват съответните рангове.

Има редица ситуации, когато изчисляването на коефициентите на рангова корелация също е препоръчително, когато се определя силата на връзката между две количествени характеристики. По този начин, ако разпределението на едно от тях (или и двете) значително се отклонява от нормалното разпределение, определянето на нивото на значимост на извадковия корелационен коефициент r става неправилно, докато коефициенти за класиране? И? не подлежат на такива ограничения при определяне на нивото на значимост.

Друга ситуация от този вид възниква, когато връзката между две количествени характеристики е нелинейна (но монотонна) по природа. Ако броят на обектите в извадката е малък или ако знакът на връзката е важен за изследователя, тогава използвайте корелационна връзка? може да е недостатъчно тук. Изчисляването на коефициента на рангова корелация позволява да се заобиколят тези трудности.

Практическа част

Задача 1. Корелационен и регресионен анализ

Постановка и формализиране на проблема:

Дава се емпирична извадка, съставена въз основа на множество наблюдения на състоянието на оборудването (за повреда) и броя на произведените изделия. Извадката имплицитно характеризира връзката между обема на повреденото оборудване и броя на произведените продукти. Въз основа на значението на извадката е ясно, че произведените продукти се произвеждат на оборудването, което остава в експлоатация, тъй като колкото по-висок е процентът на повреденото оборудване, толкова по-малко са произведените продукти. Необходимо е да се проведе изследване на извадката за корелационно-регресионна зависимост, т.е. да се установи формата на зависимостта, да се оцени регресионната функция (регресионен анализ), както и да се идентифицира връзката между случайни променливи и да се оцени нейната плътност (корелация анализ). Допълнителна задача на корелационния анализ е да се оцени регресионното уравнение на една променлива спрямо друга. Освен това е необходимо да се предвиди броят на произведените продукти при 30% повреда на оборудването.

Нека формализираме дадената извадка в таблицата, обозначавайки данните „Повреда на оборудването, %“ като X, данните „Брой продукти“ като Y:

Изходни данни. маса 1

От физическия смисъл на проблема става ясно, че броят на произведените продукти Y пряко зависи от % на отказ на оборудването, т.е. има зависимост на Y от X. При извършване на регресионен анализ е необходимо да се намери математическа връзка (регресия), свързваща стойностите на X и Y. В този случай регресионният анализ, за ​​разлика от корелацията, предполага, че стойността X действа като независима променлива или фактор, стойността Y - като зависима променлива или ефективен атрибут. Така е необходимо да се синтезира адекватен икономико-математически модел, т.е. определете (намерете, изберете) функцията Y = f(X), характеризираща връзката между стойностите на X и Y, използвайки която ще бъде възможно да се предвиди стойността на Y при X = 30. Решението на този проблем може да се извърши с помощта на корелационно-регресионен анализ.

Кратък преглед на методите за решаване на корелационно-регресионни задачи и обосновка на избрания метод за решаване.

Методите за регресионен анализ въз основа на броя на факторите, влияещи върху получената характеристика, се разделят на едно- и многофакторни. Еднофакторно - брой независими фактори = 1, т.е. Y = F(X)

многофакторни - брой фактори > 1, т.е.

Въз основа на броя на изследваните зависими променливи (резултатни характеристики), регресионните проблеми могат също да бъдат разделени на проблеми с една и много резултатни характеристики. Като цяло може да се напише проблем с много ефективни характеристики:

Методът на корелационно-регресионния анализ се състои в намирането на параметрите на апроксимиращата (апроксимираща) зависимост на формата

Тъй като горният проблем включва само една независима променлива, т.е. изследва се зависимостта само от един фактор, влияещ върху резултата, трябва да се използва изследване на еднофакторна зависимост или сдвоена регресия.

Ако има само един фактор, зависимостта се определя като:

Формата на писане на конкретно регресионно уравнение зависи от избора на функция, която показва статистическата връзка между фактора и получената характеристика и включва следното:

линейна регресия, уравнение на формата,

параболично, уравнение на формата

кубично, уравнение на формата

хиперболично, уравнение на формата

полулогаритмично, уравнение на формата

експоненциално, уравнение на формата

степенно уравнение на формата.

Намирането на функцията се свежда до определяне на параметрите на регресионното уравнение и оценка на надеждността на самото уравнение. За да определите параметрите, можете да използвате както метода на най-малките квадрати, така и метода на най-малкия модул.

Първият от тях е да се гарантира, че сумата от квадратните отклонения на емпиричните стойности на Yi от изчислената средна Yi е минимална.

Методът на най-малките модули се състои в минимизиране на сумата от модулите на разликата между емпиричните стойности на Yi и изчислената средна Yi.

За да решим проблема, ще изберем метода на най-малките квадрати, тъй като той е най-простият и дава добри оценки по отношение на статистически свойства.

Технология за решаване на задачата на регресионния анализ по метода на най-малките квадрати.

Можете да определите вида на връзката (линейна, квадратична, кубична и т.н.) между променливите, като оцените отклонението на действителната стойност y от изчислената:

където са емпирични стойности, са изчислени стойности с помощта на апроксимиращата функция. Чрез оценяване на стойностите на Si за различни функции и избиране на най-малката от тях, ние избираме апроксимираща функция.

Типът на определена функция се определя чрез намиране на коефициентите, които се намират за всяка функция като решение на определена система от уравнения:

линейна регресия, уравнение на формата, система -

параболичен, уравнение на формата, система -

куб, уравнение на формата, система -

След като решим системата, намираме, с помощта на която стигаме до конкретен израз на аналитичната функция, имайки който, намираме изчислените стойности. След това има всички данни за намиране на оценка на величината на отклонението S и анализиране на минимума.

За линейна връзка оценяваме близостта на връзката между фактор X и получената характеристика Y под формата на корелационния коефициент r:

Средна стойност на показателя;

Средна стойност на фактора;

y е експерименталната стойност на показателя;

x е експерименталната стойност на фактора;

Стандартно отклонение в x;

Стандартно отклонение в y.

Ако коефициентът на корелация е r = 0, тогава се счита, че връзката между характеристиките е незначителна или липсва; ако r = 1, тогава има много висока функционална връзка между характеристиките.

Използвайки таблицата Chaddock, можете да направите качествена оценка на близостта на корелацията между характеристиките:

Таблица на Chaddock Таблица 2.

За нелинейна зависимост се определят коефициентът на корелация (0 1) и индексът на корелация R, които се изчисляват от следните зависимости.

където стойността е стойността на показателя, изчислена от регресионната зависимост.

За да оценим точността на изчисленията, използваме стойността на средната относителна грешка на приближението

С висока точност е в диапазона 0-12%.

За да оценим избора на функционалната зависимост, използваме коефициента на детерминация

Коефициентът на детерминация се използва като „обобщена“ мярка за качеството на съответствие на функционален модел, тъй като той изразява връзката между фактора и общата дисперсия, или по-точно, дела на факторната дисперсия в общата сума.

За оценка на значимостта на корелационния индекс R се използва F-тестът на Фишер. Действителната стойност на критерия се определя по формулата:

където m е броят на параметрите на регресионното уравнение, n е броят на наблюденията. Стойността се сравнява с критичната стойност, която се определя от таблицата на F-критериите, като се вземат предвид приетото ниво на значимост и броя на степените на свобода и. Ако, тогава стойността на индекса на корелация R се счита за значима.

За избраната форма на регресия се изчисляват коефициентите на регресионното уравнение. За удобство резултатите от изчисленията са включени в таблица със следната структура (като цяло броят на колоните и техният тип варират в зависимост от вида на регресията):

Таблица 3

Решението на проблема.

Наблюдава се един икономически феномен - зависимостта на производителността на продукта от процента на отказ на оборудването. Получава се набор от стойности.

Избраните стойности са описани в таблица 1.

Изграждаме графика на емпиричната зависимост на базата на дадения образец (фиг. 1)

Въз основа на външния вид на графиката определяме, че аналитичната зависимост може да бъде представена като линейна функция:

Нека изчислим коефициента на корелация на двойката, за да оценим връзката между X и Y:

Нека изградим помощна таблица:

Таблица 4

Решаваме системата от уравнения, за да намерим коефициентите и:

от първото уравнение, замествайки стойността

във второто уравнение получаваме:

Намираме

Получаваме формата на регресионното уравнение:

9. За да оценим плътността на намерената връзка, използваме коефициента на корелация r:

Използвайки таблицата на Chaddock, установяваме, че за r = 0,90 връзката между X и Y е много висока, следователно надеждността на регресионното уравнение също е висока. За да оценим точността на изчисленията, използваме стойността на средната относителна грешка на приближението:

Вярваме, че стойността осигурява висока степен на надеждност на регресионното уравнение.

За линейна зависимост между X и Y, индексът на детерминация е равен на квадрата на корелационния коефициент r: . Следователно, 81% от общата вариация се обяснява с промените във факторната черта X.

За оценка на значимостта на корелационния индекс R, който при линейна зависимост е равен по абсолютна стойност на корелационния коефициент r, се използва F-тестът на Fisher. Определяме действителната стойност по формулата:

където m е броят на параметрите на регресионното уравнение, n е броят на наблюденията. Тоест n = 5, m = 2.

Като вземем предвид приетото ниво на значимост =0,05 и броя на степените на свобода, получаваме критичната таблична стойност. Тъй като стойността на индекса на корелация R се счита за значима.

Нека изчислим прогнозираната стойност на Y при X = 30:

Нека начертаем намерената функция:

11. Определете грешката на коефициента на корелация по стойността на стандартното отклонение

и след това определяне на стойността на нормираното отклонение

От съотношение > 2 с вероятност от 95% можем да говорим за значимостта на резултантния коефициент на корелация.

Задача 2. Линейна оптимизация

Опция 1.

Регионалният план за развитие предвижда въвеждането в експлоатация на 3 нефтени находища с общ обем на добив от 9 милиона тона. При първото находище обемът на добива е най-малко 1 милион тона, при второто - 3 милиона тона, при третото - 5 милиона тона. За да се постигне такава производителност е необходимо да се пробият най-малко 125 сондажа. За изпълнение на този план са отпуснати 25 милиона рубли. капитални инвестиции (показател K) и 80 км тръби (показател L).

Необходимо е да се определи оптималният (максимален) брой кладенци, за да се осигури планираната производителност на всяко поле. Изходните данни за задачата са дадени в таблицата.

Изходни данни

Изложението на проблема е дадено по-горе.

Нека формализираме условията и ограниченията, посочени в проблема. Целта на решаването на този проблем за оптимизация е да се намери максимална стойностпроизводство на нефт с оптимален брой кладенци за всяко поле, като се вземат предвид съществуващите ограничения на проблема.

Целевата функция, в съответствие с изискванията на проблема, ще приеме формата:

където е броят на кладенците за всяко поле.

Съществуващи ограничения на задачите за:

дължина на полагане на тръбата:

брой кладенци във всяко поле:

цена на изграждане на 1 кладенец:

Проблемите с линейната оптимизация се решават например чрез следните методи:

Графично

Симплексен метод

Използване графичен методудобен само при решаване на задачи за линейна оптимизация с две променливи. При по-голям брой променливи е необходимо да се използва алгебричен апарат. Нека разгледаме общ метод за решаване на проблеми с линейна оптимизация, наречен симплексен метод.

Симплексният метод е типичен пример за итеративни изчисления, използвани при решаването на повечето оптимизационни проблеми. Ние разглеждаме итеративни процедури от този вид, които предоставят решения на проблеми, използвайки модели за изследване на операциите.

За решаване на оптимизационна задача с помощта на симплексния метод е необходимо броят на неизвестните Xi да бъде по-голям от броя на уравненията, т.е. система от уравнения

удовлетворява отношението m

A=е равно на m.

Нека обозначим колоната на матрицата A като, а колоната от свободни членове като

Основното решение на система (1) е набор от m неизвестни, които са решение на система (1).

Накратко алгоритъмът на симплексния метод е описан, както следва:

Оригиналното ограничение, написано като неравенство на типа<= (=>) може да се изрази като равенство чрез добавяне на остатъчната променлива към лявата страна на ограничението (изваждане на излишната променлива от лявата страна).

Например от лявата страна на оригиналното ограничение

въвежда се остатъчна променлива, в резултат на което първоначалното неравенство се превръща в равенство

Ако първоначалното ограничение определя скоростта на потока на тръбите, тогава променливата трябва да се тълкува като остатъка или неизползваната част от този ресурс.

Максимизирането на целева функция е еквивалентно на минимизиране на същата функция, взета с обратен знак. Тоест в нашия случай

еквивалентен

Компилира се симплексна таблица за основно решение със следната форма:

Тази таблица показва, че след решаването на проблема тези клетки ще съдържат основното решение. - частни от деление на колона на една от колоните; - допълнителни множители за нулиране на стойности в клетките на таблицата, свързани с колоната за разделителна способност. - минимална стойност на целевата функция -Z, - стойности на коефициентите в целевата функция за неизвестни.

Всяка положителна стойност се намира сред стойностите. Ако това не е така, тогава проблемът се счита за разрешен. Изберете която и да е колона от таблицата, която съдържа, тази колона се нарича „разрешителна“ колона. Ако сред елементите на разделителната колона няма положителни числа, тогава задачата е неразрешима поради неограничеността на целевата функция върху множеството от нейните решения. Ако има положителни числа в колоната за разделителна способност, преминете към стъпка 5.

Колоната се попълва с дроби, чиито числител са елементите на колоната, а знаменателят са съответните елементи на разрешаващата колона. Избира се най-малката от всички стойности. Линията, която произвежда най-малката, се нарича "разрешаваща" линия. В пресечната точка на разрешаващия ред и разрешаващата колона се намира разделящ елемент, който е подчертан по някакъв начин, например с цвят.

Въз основа на първата симплексна таблица се компилира следващата, в която:

Заменя вектор ред с вектор колона

разрешаващият низ се заменя със същия низ, разделен на разрешаващия елемент

всеки от останалите редове на таблицата се заменя със сбора на този ред с разрешаващия, умножен по специално избран допълнителен коефициент, за да се получи 0 в клетката на разрешаващата колона.

Препращаме към точка 4 с новата таблица.

Решението на проблема.

Въз основа на формулировката на проблема имаме следната система от неравенства:

и целева функция

Нека преобразуваме системата от неравенства в система от уравнения, като въведем допълнителни променливи:

Нека намалим целевата функция до нейния еквивалент:

Нека изградим първоначалната симплексна таблица:

Нека изберем колоната за разделителна способност. Нека изчислим колоната:

Въвеждаме стойностите в таблицата. Като използваме най-малкото от тях = 10, определяме низа за разделителна способност: . В пресечната точка на разрешаващия ред и разрешаващата колона намираме разделящия елемент = 1. Попълваме част от таблицата с допълнителни фактори, така че: разрешаващият ред, умножен по тях, добавен към останалите редове на таблицата, образува 0s в елементите на разрешаващата колона.

Нека създадем втората симплексна таблица:

В него вземаме колоната за резолюция, изчисляваме стойностите и ги въвеждаме в таблицата. Като минимум получаваме разделителната линия. Разрешаващият елемент ще бъде 1. Намираме допълнителни фактори и попълваме колоните.

Създаваме следната симплексна таблица:

По подобен начин намираме разрешаващата колона, разрешаващият ред и разрешаващият елемент = 2. Изграждаме следната симплексна таблица:

Тъй като няма положителни стойности в реда -Z, тази таблица е крайна. Първата колона дава желаните стойности на неизвестните, т.е. оптимално основно решение:

В този случай стойността на целевата функция е -Z = -8000, което е еквивалентно на Zmax = 8000. Проблемът е решен.

Задача 3. Клъстерен анализ

Формулиране на проблема:

Разделете обекти въз основа на данните, дадени в таблицата. Изберете сами метод за решение и изградете графика на зависимост от данни.

Опция 1.

Изходни данни

Преглед на методите за решаване на този тип проблеми. Обосновка на метода на решение.

Проблемите с клъстерния анализ се решават чрез следните методи:

Методът на обединение или дървовидно клъстериране се използва при формирането на клъстери за "несходство" или "разстояние между обекти". Тези разстояния могат да бъдат определени в едномерно или многомерно пространство.

Двупосочно свързване се използва (сравнително рядко) при обстоятелства, при които данните се интерпретират не от гледна точка на „обекти“ и „свойства на обекта“, а от гледна точка на наблюдения и променливи. Както наблюденията, така и променливите се очаква да допринесат едновременно за откриването на значими клъстери.

Метод на K-средствата. Използва се, когато вече има хипотеза относно броя на клъстерите. Можете да кажете на системата да формира точно, например, три клъстера, така че да са възможно най-различни. IN общ случайМетодът K-means конструира точно K различни клъстера, разположени на възможно най-голямо разстояние един от друг.

Съществуват следните методи за измерване на разстояния:

Евклидово разстояние. Това е най-често срещаният тип разстояние. Това е просто геометрично разстояние в многомерно пространство и се изчислява, както следва:

Имайте предвид, че евклидовото разстояние (и неговият квадрат) се изчислява от оригиналните данни, а не от стандартизираните данни.

Разстояние от градски блок (разстояние Манхатън). Това разстояние е просто средната стойност на разликите в координатите. В повечето случаи тази мярка за разстояние дава същите резултати като обикновеното евклидово разстояние. Отбелязваме обаче, че за тази мярка влиянието на индивидуалните големи разлики (отклонения) е намалено (тъй като те не са повдигнати на квадрат). Разстоянието Манхатън се изчислява по формулата:

Чебишевско разстояние. Това разстояние може да бъде полезно, когато желаете да дефинирате два обекта като "различни", ако се различават по която и да е координата (във което и да е измерение). Разстоянието Чебишев се изчислява по формулата:

Силово разстояние. Понякога желаете прогресивно да увеличите или намалите тегло, свързано с измерение, за което съответните обекти са много различни. Това може да се постигне чрез степенно разстояние. Разстоянието на мощността се изчислява по формулата:

където r и p са дефинирани от потребителя параметри. Няколко примерни изчисления могат да покажат как „работи“ тази мярка. Параметърът p е отговорен за постепенното претегляне на разликите по отделните координати, параметърът r е отговорен за прогресивното претегляне на големи разстояния между обектите. Ако и двата параметъра r и p са равни на две, то това разстояние съвпада с евклидовото разстояние.

Процент на несъгласие. Тази мярка се използва, когато данните са категорични. Това разстояние се изчислява по формулата:

За да разрешим проблема, ще изберем метода на обединяване (групиране на дърво) като този, който най-добре отговаря на условията и формулировката на проблема (разделяне на обекти). От своя страна методът на присъединяване може да използва няколко варианта на комуникационни правила:

Единична връзка (метод на най-близкия съсед). При този метод разстоянието между два клъстера се определя от разстоянието между двата най-близки обекта (най-близки съседи) в различни клъстери. Тоест всеки два обекта в два клъстера са по-близо един до друг от съответното комуникационно разстояние. Това правило трябва, в известен смисъл, да свързва обекти заедно, за да образуват клъстери, а получените клъстери са склонни да бъдат представени от дълги "вериги".

Пълна връзка (метод на най-отдалечените съседи). При този метод разстоянията между клъстерите се определят от най-голямото разстояние между всеки два обекта в различни клъстери (т.е. „най-отдалечени съседи“).

Съществуват и много други методи за съединяване на клъстери като тези (напр. непретеглено съединяване по двойки, претеглено съединяване по двойки и т.н.).

Технология на метода на решение. Изчисляване на показатели.

На първата стъпка, когато всеки обект е отделен клъстер, разстоянията между тези обекти се определят от избраната мярка.

Тъй като в задачата не са посочени мерните единици на характеристиките, се приема, че те съвпадат. Следователно, няма нужда да нормализираме изходните данни, така че веднага пристъпваме към изчисляване на матрицата на разстоянието.

Решението на проблема.

Нека изградим графика на зависимостта въз основа на първоначалните данни (Фигура 2)

Ще приемем обичайното Евклидово разстояние като разстояние между обектите. След това по формулата:

където l са знаци; k е броят на характеристиките, разстоянието между обекти 1 и 2 е равно на:

Продължаваме да изчисляваме оставащите разстояния:

Нека изградим таблица от получените стойности:

Най-късото разстояние. Това означава, че комбинираме елементи 3,6 и 5 в един клъстер. Получаваме следната таблица:

Най-късото разстояние. В един клъстер се комбинират елементи 3,6,5 и 4. Получаваме таблица от два клъстера:

Минималното разстояние между елементи 3 и 6 е равно. Това означава, че елементи 3 и 6 са комбинирани в един клъстер. Избираме максималното разстояние между новосформирания клъстер и останалите елементи. Например разстоянието между клъстер 1 и клъстер 3.6 е max(13.34166, 13.60147)= 13.34166. Нека създадем следната таблица:

В него минималното разстояние е разстоянието между клъстери 1 и 2. Комбинирайки 1 и 2 в един клъстер, получаваме:

Така, използвайки метода на „отдалечения съсед“, получихме два клъстера: 1,2 и 3,4,5,6, разстоянието между които е 13.60147.

Проблемът е решен.

Приложения. Разрешаване на проблеми с помощта на пакети с приложения (MS Excel 7.0)

Задача за корелационен и регресионен анализ.

Въвеждаме първоначалните данни в таблицата (фиг. 1)

Изберете менюто „Услуга / Анализ на данни“. В прозореца, който се показва, изберете реда „Регресия“ (фиг. 2).

Нека да зададем входните интервали в X и Y в следващия прозорец, да оставим нивото на надеждност на 95% и да поставим изходните данни на отделен лист „Отчетен лист“ (фиг. 3)

След изчислението получаваме окончателните данни за регресионен анализ на листа „Отчетен лист“:

Тук също се показва точкова диаграма на апроксимиращата функция или „Fit Graph“:


Изчислените стойности и отклонения се показват в таблицата съответно в колоните „Предвидено Y“ и „Остатъци“.

Въз основа на първоначалните данни и отклонения се изгражда остатъчна графика:

Проблем с оптимизацията


Въвеждаме първоначалните данни, както следва:

Въвеждаме необходимите неизвестни X1, X2, X3 съответно в клетки C9, D9, E9.

Коефициентите на целевата функция за X1, X2, X3 се въвеждат съответно в C7, D7, E7.

Въвеждаме целевата функция в клетка B11 ​​като формулата: =C7*C9+D7*D9+E7*E9.

Съществуващи ограничения на задачите

За дължина на полагане на тръбата:

въведете клетки C5, D5, E5, F5, G5

Брой кладенци във всяко поле:

X3 £ 100; въведете в клетки C8, D8, E8.

Цената на изграждането на 1 кладенец:

въведете клетки C6, D6, E6, F6, G6.

Формулата за изчисляване на общата дължина C5*C9+D5*D9+E5*E9 се поставя в клетка B5, формулата за изчисляване на общата цена C6*C9+D6*D9+E6*E9 се поставя в клетка B6.


Изберете от менюто „Услуга/Търсене на решение“, въведете параметри за търсене на решение в съответствие с въведените изходни данни (фиг. 4):

Чрез бутона „Параметри“ задайте следните параметри за търсене на решение (фиг. 5):


След като търсим решение, получаваме отчет за резултатите:

Доклад с резултати от Microsoft Excel 8.0e

Докладът е създаден: 17.11.2002 г. 1:28:30 ч

Целева клетка (максимум)

Резултат

Общо производство

Сменяеми клетки

Резултат

Брой кладенци

Брой кладенци

Брой кладенци

Ограничения

Значение

Дължина

Свързани

Цена на проекта

няма връзка.

Брой кладенци

няма връзка.

Брой кладенци

Свързани

Брой кладенци

Свързани

Първата таблица показва началната и крайната (оптималната) стойност на целевата клетка, в която е поставена целевата функция на решавания проблем. Във втората таблица виждаме началните и крайните стойности на оптимизираните променливи, които се съдържат в променливите клетки. Третата таблица в отчета за резултатите съдържа информация за ограниченията. Колоната „Стойност“ съдържа оптималните стойности на необходимите ресурси и оптимизираните променливи. Колоната "Формула" съдържа ограничения за изразходвани ресурси и оптимизирани променливи, написани под формата на връзки към клетки, съдържащи тези данни. Колоната „Състояние“ определя дали определени ограничения са обвързани или необвързани. Тук „ограничени“ са ограничения, въведени в оптималното решение под формата на строги равенства. Колоната "Разлика" за ограничения на ресурсите определя баланса на използваните ресурси, т.е. разликата между необходимото количество ресурси и тяхната наличност.

По същия начин, като записваме резултата от търсенето на решение във формуляра „Доклад за стабилност“, получаваме следните таблици:

Доклад за устойчивост на Microsoft Excel 8.0e

Работен лист: [Решаване на проблема с оптимизацията.xls]Решаване на проблема с оптимизирането на производството

Докладът е създаден: 17.11.2002 г. 1:35:16 ч

Сменяеми клетки

Приемливо

Приемливо

значение

цена

Коефициент

Нараства

Намаляване

Брой кладенци

Брой кладенци

Брой кладенци

Ограничения

Ограничение

Приемливо

Приемливо

значение

Дясна част

Нараства

Намаляване

Дължина

Цена на проекта

Докладът за устойчивост съдържа информация за променливите, които се променят (оптимизират) и ограниченията на модела. Посочената информация е свързана със симплексния метод, използван при оптимизацията на линейни задачи, описан по-горе в частта за решаване на задачата. Позволява ви да оцените колко чувствително е полученото оптимално решение към възможни промени в параметрите на модела.

Първата част на отчета съдържа информация за променливи клетки, съдържащи стойности за броя на ямките в полетата. Колоната „Резултатна стойност“ показва оптималните стойности на оптимизираните променливи. Колоната „Целеви коефициент“ съдържа първоначалните данни за стойностите на коефициента на целевата функция. Следващите две колони илюстрират как тези фактори могат да се увеличават и намаляват, без да се променя намереното оптимално решение.

Втората част на доклада за устойчивост съдържа информация за ограниченията, наложени върху оптимизираните променливи. Първата колона показва изискванията за ресурси за оптималното решение. Втората съдържа сенчести цени за видовете използвани ресурси. Последните две колони съдържат данни за възможно увеличение или намаляване на обема на наличните ресурси.

Проблем с групирането.

По-горе е даден метод стъпка по стъпка за решаване на проблема. Ето таблици в Excel, илюстриращи напредъка на решаването на проблема:

"метод на най-близкия съсед"

Решаване на задачата на клъстерния анализ - "МЕТОД НА НАЙ-БЛИЗКИЯ СЪСЕД"

Изходни данни

където x1 е обемът на продукцията;

х2 - средна годишна цена на ДМА

Промишлени производствени активи

"метод на далечния съсед"

Решаване на проблема с клъстерния анализ - "МЕТОД НА ДАЛЕЧНИ СЪСЕДИ"

Изходни данни

където x1 е обемът на продукцията;

х2 - средна годишна цена на ДМА

Промишлени производствени активи

Ранг коефициент на корелацияхарактеризира общия характер на нелинейната връзка: увеличаване или намаляване на резултантния атрибут с увеличаване на факторния. Това е индикатор за плътността на монотонна нелинейна връзка.

Цел на услугата. С помощта на този онлайн калкулатор можете да изчислите Коефициент на рангова корелация на Kendalпо всички основни формули, както и оценка на неговата значимост.

Инструкции. Посочете количеството данни (броя редове). Полученото решение се записва във файл на Word.

Коефициентът, предложен от Kendal, се основава на връзки от типа „повече-по-малко“, чиято валидност е установена при конструирането на скалите.
Нека изберем няколко обекта и да сравним ранговете им според една характеристика и друга. Ако ранговете за дадена характеристика образуват директен ред (т.е. редът на естествената серия), тогава на двойката се присвоява +1, ако обратното, тогава –1. За избраната двойка съответните плюс и минус единици (по атрибут X и по атрибут Y) се умножават. Резултатът очевидно е +1; ако ранговете на двойка от двата признака са разположени в една и съща последователност и –1, ако са в обратен ред.
Ако редовете на ранговете за двете характеристики са еднакви за всички двойки, тогава сумата от единици, присвоени на всички двойки обекти, е максимална и равна на броя на двойките. Ако редовете на ранговете на всички двойки са обърнати, тогава –C 2 N . В общия случай C 2 N = P + Q, където P е броят на положителните и Q броят на отрицателните единици, присвоени на двойки, когато се сравняват ранговете им по двата критерия.
Стойността се нарича коефициент на Кендъл.
От формулата става ясно, че коефициентът τ представлява разликата между дела на двойки обекти, чийто ред е еднакъв по два признака (спрямо броя на всички двойки) и дела на двойки обекти, чийто ред не съвпада.
Например стойност на коефициента 0,60 означава, че 80% от двойките имат еднакъв ред на обекти, а 20% не (80% + 20% = 100%; 0,80 – 0,20 = 0,60). Тези. τ може да се тълкува като разликата във вероятностите за съвпадащи и несъвпадащи поръчки за двете характеристики за произволно избрана двойка обекти.
В общия случай изчисляването на τ (по-точно P или Q) дори за N от порядъка на 10 се оказва тромаво.
Ще ви покажем как да опростите изчисленията.


Пример. Връзката между обема на промишленото производство и инвестициите в основен капитал в 10 региона на един от федералните окръзи на Руската федерация през 2003 г. се характеризира със следните данни:


Изчислете корелационните коефициенти на Spearman и Kendal. Проверете тяхната значимост при α=0,05. Формулирайте заключение за връзката между обема на промишленото производство и инвестициите в основен капитал за разглежданите региони на Руската федерация.

Решение. Нека присвоим рангове на функция Y и фактор X.


Нека сортираме данните по X.
В реда Y отдясно на 3 има 7 ранга, по-големи от 3, следователно 3 ще генерира термина 7 в P.
Вдясно от 1 има 8 ранга, по-големи от 1 (това са 2, 4, 6, 9, 5, 10, 7, 8), т.е. P ще включва 8 и т.н. В резултат на това P = 37 и използвайки формулите имаме:

хYранг X, d xранг Y, d yПQ
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


Използване на опростени формули:




където n е размерът на извадката; z kp е критичната точка на двустранната критична област, която се намира от таблицата на функцията на Лаплас по равенството Ф(z kp)=(1-α)/2.
Ако |τ|< T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| >T kp - нулевата хипотеза се отхвърля. Съществува значителна рангова корелация между качествените характеристики.
Нека намерим критичната точка z kp
Ф(z kp) = (1-α)/2 = (1 - 0,05)/2 = 0,475

Нека намерим критичната точка:

Тъй като τ > T kp - отхвърляме нулевата хипотеза; ранговата корелация между резултатите от двата теста е значителна.

Пример. По данни за обема на извършените със собствени сили СМР и броя на служителите в 10 бр строителни фирмиедин от градовете на Руската федерация, определете връзката между тези характеристики с помощта на коефициента на Kendel.

Решениенамерете с помощта на калкулатор.
Нека присвоим рангове на функция Y и фактор X.
Нека подредим обектите така, че техните рангове в X да представляват естествената серия. Тъй като оценките, присвоени на всяка двойка от тази серия, са положителни, стойностите „+1“, включени в P, ще бъдат генерирани само от онези двойки, чиито рангове в Y образуват директен ред.
Те могат лесно да бъдат изчислени чрез последователно сравняване на ранговете на всеки обект в Y реда със стоманените.
Коефициент на Кендал.

В общия случай изчисляването на τ (по-точно P или Q) дори за N от порядъка на 10 се оказва тромаво. Ще ви покажем как да опростите изчисленията.

или

Решение.
Нека сортираме данните по X.
В реда Y отдясно на 2 има 8 ранга, по-големи от 2, следователно 2 ще генерира термина 8 в P.
Вдясно от 4 има 6 ранга, по-големи от 4 (това са 7, 5, 6, 8, 9, 10), т.е. P ще включва 6 и т.н. В резултат на това P = 29 и използвайки формулите имаме:

хYранг X, d xранг Y, d yПQ
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


Използване на опростени формули:


За да се тества нулевата хипотеза на ниво на значимост α, че общият коефициент на рангова корелация на Kendall е равен на нула при конкурентната хипотеза H 1: τ ≠ 0, е необходимо да се изчисли критичната точка:

където n е размерът на извадката; z kp е критичната точка на двустранната критична област, която се намира от таблицата на функцията на Лаплас по равенството Ф(z kp)=(1 - α)/2.
Ако |τ| T kp - нулевата хипотеза се отхвърля. Съществува значителна рангова корелация между качествените характеристики.
Нека намерим критичната точка z kp
Ф(z kp) = (1 - α)/2 = (1 - 0,05)/2 = 0,475
Използвайки таблицата на Лаплас намираме z kp = 1,96
Нека намерим критичната точка:

Тъй като τ

Свързани публикации