tévék. Konzolok. Projektorok és tartozékok. Technológiák. Digitális TV

Kendall rangkorrelációs számítás. Kendall és Spearman rangkorrelációs együtthatók. A gyakorlatban többféle értékelést alkalmaznak

A mennyiségi vagy minőségi mutatók közötti kapcsolat azonosítására szolgál, amennyiben rangsorolhatók. Az X indikátor értékei növekvő sorrendben és hozzárendelt rangokban jelennek meg. Az Y mutató értékeit rangsoroljuk, és kiszámítjuk a Kendall-korrelációs együtthatót:

Ahol S = PK.

P nagy az Y rangok értéke.

K- az aktuális megfigyeléseket követő megfigyelések teljes száma kisebb az Y rangok értéke. (az egyenlő rangokat nem vesszük figyelembe!)

Ha a vizsgált adatok ismétlődnek (azonos rangúak), akkor a korrigált Kendall-korrelációs együtthatót használjuk a számításokhoz:

t- a kapcsolódó rangok száma az X és Y sorozatban.

19. Miből induljunk ki a vizsgálat témájának, tárgyának, tárgyának, céljának, célkitűzéseinek és hipotézisének meghatározásakor?

A kutatási program általában két részből áll: módszertani és eljárási. Az első tartalmazza a téma relevanciájának indoklását, a probléma megfogalmazását, a tárgy és a tárgy meghatározását, a vizsgálat céljait és célkitűzéseit, az alapfogalmak megfogalmazását (kategorikus apparátus), a vizsgálat tárgyának előzetes rendszerszintű elemzését és a megfogalmazást. egy munkahipotézisről. A második rész feltárja a tanulmány stratégiai felépítését, valamint az elsődleges adatok gyűjtésének és elemzésének tervezését és alapvető eljárásait.

A kutatási téma kiválasztásánál mindenekelőtt a relevanciából kell kiindulni. A relevancia indoklása tartalmazza a tanulás és a problémamegoldás szükségességének és időszerűségének jelzését a tanítás és nevelés elméletének és gyakorlatának továbbfejlesztése érdekében. A jelenlegi kutatások választ adnak a legégetőbb problémákra adott idő a társadalom társadalmi rendjét tükröző kérdések a pedagógiai tudomány felé, feltárják a gyakorlatban lezajló legfontosabb ellentmondásokat. A relevancia kritériuma dinamikus, rugalmas, időfüggő, sajátos és konkrét körülményeket figyelembe véve. A relevancia legáltalánosabb formájában azt a mértéket jellemzi, hogy milyen eltérés van a tudományos ötletek és gyakorlati ajánlások iránti igény (egy adott igény kielégítésére) és azon javaslatok között, amelyeket a tudomány és a gyakorlat jelenleg tud nyújtani.

A kutatás témáját meghatározó legmeggyőzőbb alap a társadalmi rend, amely a legégetőbb, társadalmilag legjelentősebb, sürgős megoldást igénylő problémákat tükrözi. A társadalmi rend megköveteli az indoklást egy adott témakörhöz. Általában ez annak elemzése, hogy egy kérdést milyen mértékben fejlesztettek ki a tudományban.

Ha a pedagógiai gyakorlat elemzéséből következik a társadalmi rend, akkor a tudományos probléma más síkban van. Kifejezi azt a fő ellentmondást, amelyet a tudomány eszközeivel fel kell oldani. A probléma megoldása általában az a tanulmány célja. A cél egy újrafogalmazott probléma.

A probléma megfogalmazása magában foglalja objektum kiválasztása kutatás. Ez lehet egy pedagógiai folyamat, a pedagógiai valóság egy területe, vagy valamilyen pedagógiai kapcsolat, amely ellentmondást tartalmaz. Más szóval, a tárgy bármi lehet, ami kifejezetten vagy implicit ellentmondást tartalmaz, és problémás helyzetet szül. Egy tárgy az, amire a megismerési folyamat irányul. A kutatás tárgya - tárgy része, oldala. Ezek a tárgy gyakorlati vagy elméleti szempontból legjelentősebb tulajdonságai, szempontjai és jellemzői, amelyek közvetlen vizsgálat tárgyát képezik.

A kutatás céljának, tárgyának és tárgyának megfelelően kerül meghatározásra a kutatás feladatok, amelyek általában az ellenőrzést célozzák hipotéziseket. Ez utóbbi elméleti alapokon nyugvó feltevések halmaza, amelyek igazsága ellenőrzés alá vehető.

Kritérium tudományos újdonság alkalmazható a befejezett tanulmányok minőségének értékelésére. Olyan új elméleti és gyakorlati következtetéseket, az oktatás mintáit, szerkezetét és mechanizmusait, tartalmát, elveit és technológiáit jellemzi, amelyek ekkor még nem ismertek és nem rögzítettek a pedagógiai szakirodalomban. A kutatás újszerűsége elméleti és gyakorlati jelentőséggel is bírhat. A kutatás elméleti jelentősége abban rejlik, hogy koncepciót alkotunk, hipotézist, mintát, módszert, modellt kapunk egy probléma, trend, irány azonosítására. A kutatás gyakorlati jelentősége a javaslatok, ajánlások stb. elkészítésében rejlik. Az újdonság, az elméleti és gyakorlati jelentőség kritériumai a kutatás típusától függően változnak, az új ismeretek megszerzésének időpontjától is függnek.

Rövid elmélet

A Kendall-féle korrelációs együtthatót akkor használjuk, ha a változókat két ordinális skálán ábrázoljuk, feltéve, hogy nincsenek társított rangok. A Kendall-együttható kiszámítása magában foglalja az egyezések és az inverziók számának számolását.

Ez az együttható határokon belül változik, és a következő képlettel számítják ki:

A számításhoz minden egység a szerint van rangsorolva; egy másik jellemző sora szerint minden ranghoz az adott feletti sorszámot (ezeket -vel jelöljük), az azt követő rangok számát pedig az adott alatti (jellel jelöljük).

Meg lehet mutatni, hogy

és együttható rangkorreláció Kendall így írható

A nullhipotézis teszteléséhez azon a szignifikancia szinten, hogy az általános Kendall-rang korrelációs együttható nullával egyenlő egy versengő hipotézis mellett, ki kell számítani a kritikus pontot:

hol van a minta mérete;

– a kétoldali kritikus tartomány kritikus pontja, amelyet a Laplace-függvény táblázatából az egyenlőség alapján találunk

Ha – nincs ok a nullhipotézis elutasítására. A jellemzők közötti rangkorreláció jelentéktelen.

Ha – a nullhipotézist elutasítjuk. A jellemzők között jelentős rangkorreláció van.

Példa a probléma megoldására

Problémás állapot

A felvételi eljárás során hét, megüresedett pozícióra jelentkezőt két teszten végeztek. A vizsgálati eredményeket (pontokban) a táblázat tartalmazza: Teszt 1 2 3 4 5 6 7 1 31 82 25 26 53 30 29 2 21 55 8 27 32 42 26

Jelölt

Számítsa ki a Kendall rangkorrelációs együtthatót két teszt teszteredményei között, és értékelje a szignifikanciáját a szinten.

Probléma megoldás

Számítsuk ki a Kendall-együtthatót

1 1 6 0 2 4 3 2 3 3 3 1 4 6 1 2 5 2 2 0 6 5 1 0 7 7 0 0 A faktorkarakterisztika rangsorai szigorúan növekvő sorrendben vannak elrendezve, és ezzel párhuzamosan rögzítjük az eredő jellemző megfelelő sorait. Minden rangnál az azt követő rangok számából számítják ki a nála értékben nagyobb (az oszlopba beírt) és a kisebb értékű (az oszlopba írt) rangokat. 16 5

Összeg A gazdasági és társadalmi gyakorlat igényei megkövetelik a folyamatok kvantitatív leírására szolgáló módszerek kidolgozását, amelyek lehetővé teszik nemcsak a mennyiségi, hanem a minőségi tényezők pontos rögzítését is. Feltéve, hogy a minőségi jellemzők értékei a jellemző csökkenésének (növekedésének) mértéke szerint rendezhetők vagy rangsorolhatók, lehetőség nyílik a kapcsolat szorosságának felmérésére.. Kvalitatív alatt olyan jellemzőt értünk, amely nem mérhető pontosan, de lehetővé teszi az objektumok egymással való összehasonlítását, és ezáltal a minőség csökkenésének vagy növekedésének sorrendbe rendezését. A mérések valós tartalma pedig a rangsorolási skálákban az a sorrend, amelyben a tárgyak a mért jellemző kifejeződési foka szerint vannak elrendezve.

Gyakorlati célokra nagyon hasznos a rangkorreláció használata. Például, ha a termékek két minőségi jellemzője között magas rangú korrelációt állapítunk meg, akkor elegendő a termékeket csak az egyik jellemző alapján irányítani, ami csökkenti a költségeket és felgyorsítja az ellenőrzést.

Példaként tekinthetjük, hogy számos vállalkozás kereskedelmi termékeinek elérhetősége és az értékesítés rezsiköltsége között van összefüggés. 10 megfigyelés során a következő táblázatot kaptuk:

Soroljuk fel az X értékeit növekvő sorrendbe, és minden értékhez hozzárendeljük a sorszámot (rangsort):

Így,

Készítsük el a következő táblázatot, ahol az X és Y párok vannak feljegyezve, a megfigyelés eredményeként kapott rangjaikkal:

A rangkülönbséget így jelölve felírjuk a Spearman-féle korrelációs együttható kiszámításának képletét:

ahol n a megfigyelések száma, ami egyben a rangpárok száma is.

A Spearman együttható a következő tulajdonságokkal rendelkezik:

Ha teljes közvetlen kapcsolat áll fenn az X és Y minőségi jellemzők között abban az értelemben, hogy az objektumok rangsorai az i összes értékére egybeesnek, akkor a Spearman-féle korrelációs együttható 1-gyel egyenlő. kapunk 1.

Ha teljes inverz kapcsolat van az X és Y minőségi jellemzők között abban az értelemben, hogy a rang a rangnak felel meg, akkor a Spearman-féle korrelációs együttható minta -1.

Valóban, ha

Az értéket behelyettesítve a Spearman korrelációs együttható képletébe -1-et kapunk.

Ha nincs sem teljes egyenes, sem teljes visszacsatolás, akkor a minta Spearman-korrelációs együtthatója -1 és 1 között van, és minél közelebb van a 0-hoz, annál kisebb a kapcsolat a jellemzők között.

A fenti példa adatait felhasználva megtaláljuk a P értékét, és kiegészítjük a táblázatot az értékekkel és:

Minta Kendall korrelációs együttható. A Kendall rangkorrelációs együttható segítségével értékelheti két minőségi jellemző közötti kapcsolatot.

Legyen az objektumok rangsora egy n méretű mintában egyenlő:

X jellemző szerint:

Y karakterisztikával: . Tételezzük fel, hogy jobbra vannak nagyok, jobbra nagyok, jobbra nagyok. Vezessük be a rangok összegének jelölését

Hasonlóképpen bevezetjük a jelölést a jobbra fekvő, de kisebb rangok számának összegeként.

A minta Kendall-korrelációs együttható a következőképpen van felírva:

Ahol n a minta mérete.

A Kendall-együttható tulajdonságai megegyeznek a Spearman-együtthatóval:

Ha teljes közvetlen kapcsolat van az X és Y minőségi jellemzők között abban az értelemben, hogy az objektumok rangsorai az i összes értékére egybeesnek, akkor a minta Kendall-korrelációs együttható egyenlő 1-gyel. Valójában jobbra n van -1 rangú, nagy, ezért ugyanúgy megállapítjuk, Mit. Majd. És a Kendall-együttható egyenlő: .

Ha teljes inverz kapcsolat van az X és Y minőségi jellemzők között abban az értelemben, hogy a rang a rangnak felel meg, akkor a minta Kendall-korrelációs együtthatója -1. Nincsenek magasabb rangok a jobb oldalon, ezért. Hasonlóképpen. Az R+=0 értéket behelyettesítve a Kendall-együttható képletbe -1-et kapunk.

Megfelelően nagy mintamérettel és a rangkorrelációs együtthatók értékei nem közelítik meg az 1-et, közelítő egyenlőség áll fenn:

A Kendall-együttható konzervatívabb becslést ad a korrelációra, mint a Spearman-együttható? (numerikus érték? mindig kisebb, mint). Bár az együttható kiszámítása? kevésbé munkaigényes, mint az együttható kiszámítása, az utóbbit könnyebb újraszámolni, ha új tagot adunk a sorozathoz.

Az együttható fontos előnye, hogy segítségével meghatározható a parciális rangkorrelációs együttható, amely lehetővé teszi két rangsorolási jellemző „tiszta” kapcsolatának mértékét, kiküszöbölve a harmadik befolyását:

A rangkorrelációs együtthatók jelentősége. A rangkorreláció erősségének mintaadatokból történő meghatározásakor a következő kérdést kell figyelembe venni: mennyire lehet magabiztosan támaszkodni arra a következtetésre, hogy a sokaságban korreláció áll fenn, ha egy bizonyos minta rangkorrelációs együtthatót kapunk. Más szóval, a megfigyelt rangkorrelációk szignifikanciáját a vizsgált két rangsor statisztikai függetlenségének hipotézise alapján kell tesztelni.

Viszonylag nagy n mintaszám esetén a rangkorrelációs együtthatók szignifikanciájának ellenőrzése elvégezhető a normál eloszlási táblázat segítségével (1. számú melléklet). Hogy teszteljük a Spearman-együttható jelentőségét? (n>20 esetén) számítsa ki az értéket

és a Kendall-együttható jelentőségét tesztelni? (n>10 esetén) számítsa ki az értéket

ahol S=R+- R-, n - mintanagyság.

Ezután beállítják a szignifikancia szintet?, meghatározzák a tcr(?,k) kritikus értéket a Student-eloszlás kritikus pontjainak táblázatából, és összehasonlítják a számított értéket vagy azzal. Feltételezzük, hogy a szabadsági fokok száma k = n-2. Ha vagy > tcr, akkor a vagy értékek szignifikánsnak minősülnek.

Fechner korrelációs együttható.

Végül meg kell említeni a kapcsolat elemi szorossági fokát jellemző Fechner-együtthatót, amellyel csekély mennyiségű kiindulási információ esetén célszerű a kapcsolat meglétét megállapítani. Számításának alapja, hogy figyelembe veszi az egyes variációs sorozatok számtani átlagától való eltérés irányát, és meghatározza ezen eltérések előjeleinek konzisztenciáját a két sorozatra, amelyek közötti összefüggést mérjük.

Ezt az együtthatót a következő képlet határozza meg:

ahol na az egyes értékek számtani átlagától való eltérésére utaló jelek egybeesésének száma; nb - az eltérések száma.

A Fechner-együttható -1,0 belül változhat<= Кф<= +1,0.

A rangkorreláció alkalmazott szempontjai. Mint már említettük, a rangkorrelációs együtthatók nemcsak két rangjellemző közötti kapcsolat kvalitatív elemzésére használhatók, hanem a rang és a mennyiségi jellemzők közötti kapcsolat erősségének meghatározására is. Ebben az esetben a mennyiségi jellemző értékeit rendezik, és a megfelelő rangokat rendelik hozzájuk.

Számos olyan helyzet adódhat, amikor két mennyiségi jellemző közötti kapcsolat erősségének meghatározásakor a rangkorrelációs együtthatók számítása is célszerű. Ha tehát az egyik (vagy mindkettő) eloszlása ​​jelentősen eltér a normál eloszlástól, az r mintakorrelációs együttható szignifikanciaszintjének meghatározása hibássá válik, míg a rangegyütthatók? És? nem vonatkoznak ilyen korlátozások a jelentőség szintjének meghatározásakor.

Egy másik ilyen helyzet áll elő, amikor két mennyiségi jellemző közötti kapcsolat nemlineáris (de monoton) jellegű. Ha a mintában kevés az objektumok száma, vagy ha a kapcsolat előjele fontos a kutató számára, akkor korrelációs összefüggést kell használni? itt nem megfelelő. A rangkorrelációs együttható kiszámítása lehetővé teszi ezen nehézségek megkerülését.

Gyakorlati rész

1. feladat Korreláció- és regresszióanalízis

A probléma megfogalmazása és formalizálása:

Egy empirikus mintát adunk meg, amelyet a berendezés állapotára (meghibásodásra) és a gyártott termékek számára vonatkozó számos megfigyelés alapján állítunk össze. A minta implicit módon jellemzi a kapcsolatot a meghibásodott berendezések mennyisége és a gyártott termékek száma között. A minta jelentése szerint jól látható, hogy az üzemben maradó berendezéseken gyártott termékek készülnek, hiszen minél nagyobb a meghibásodott berendezések aránya, annál kevesebb a gyártott termék. Szükséges a minta korrelációs-regressziós függésének vizsgálata, azaz a függőség formájának megállapítása, a regressziós függvény értékelése (regresszióanalízis), valamint a valószínűségi változók közötti kapcsolat azonosítása és szorosságának értékelése (korreláció). elemzés). A korrelációelemzés további feladata az egyik változó regressziós egyenletének becslése a másikra. Ezenkívül meg kell jósolni az előállított termékek számát a berendezés 30%-os meghibásodása esetén.

Formalizáljuk az adott mintát a táblázatban, a „Berendezés meghibásodás, %” adatot X-el, a „Termékszám” adatot Y-vel jelölve:

Kezdeti adatok. 1. táblázat

A probléma fizikai jelentéséből kitűnik, hogy az Y gyártott termékek száma közvetlenül függ a berendezés meghibásodásának %-ától, vagyis Y függésben van X-től. A regressziós elemzés során meg kell találni a az X és Y értékeit összekötő matematikai összefüggés (regresszió). Ebben az esetben a regresszióanalízis a korrelációval ellentétben azt feltételezi, hogy az X érték független változóként vagy faktorként működik, az Y érték mint pl. egy függő változó vagy egy effektív attribútum. Így szükséges egy adekvát közgazdasági és matematikai modell szintetizálása, pl. határozzuk meg (keressük meg, válasszuk ki) az X és Y értékei közötti kapcsolatot jellemző Y = f(X) függvényt, amelynek segítségével előre megjósolható lesz Y értéke X = 30-nál. A probléma megoldása korrelációs-regressziós elemzéssel végezhető el.

A korrelációs-regressziós problémák megoldási módszereinek rövid áttekintése és a választott megoldási mód indoklása.

A kapott jellemzőt befolyásoló tényezők száma alapján végzett regresszióelemzési módszereket egy- és többtényezősre osztjuk. Egytényezős - a független tényezők száma = 1, azaz. Y = F(X)

többtényezős - a tényezők száma > 1, azaz.

A vizsgált függő változók (eredményjellemzők) száma alapján a regressziós problémák egy és több eredő jellemzőt tartalmazó problémákra is feloszthatók. Általában sok hatékony jellemzővel rendelkező probléma írható fel:

A korrelációs-regressziós analízis módszere abból áll, hogy megtaláljuk a forma közelítő (közelítő) függésének paramétereit.

Mivel a fenti probléma csak egy független változót érint, azaz csak egy, az eredményt befolyásoló tényezőtől való függést vizsgáljuk, az egytényezős függőség vizsgálatát, vagy páros regressziót kell alkalmazni.

Ha csak egy tényező van, a függőséget a következőképpen határozzuk meg:

Egy adott regressziós egyenlet felírásának formája a faktor és a kapott jellemző közötti statisztikai kapcsolatot megjelenítő függvény megválasztásától függ, és a következőket tartalmazza:

lineáris regresszió, formaegyenlet,

parabola, alakegyenlet

köb, alakegyenlet

hiperbolikus, a forma egyenlete

féllogaritmikus, a forma egyenlete

exponenciális, a forma egyenlete

forma hatványegyenlete.

A függvény megtalálása a regressziós egyenlet paramétereinek meghatározásán és magának az egyenletnek a megbízhatóságának felmérésén múlik. A paraméterek meghatározásához használhatja a legkisebb négyzetek módszerét és a legkisebb modulus módszerét is.

Ezek közül az első annak biztosítása, hogy az Yi tapasztalati értékeinek négyzetes eltéréseinek összege a számított átlagos Yi-től minimális legyen.

A legkisebb modulus módszere abból áll, hogy minimalizáljuk az Yi tapasztalati értékei és a számított átlagos Yi közötti különbség modulusainak összegét.

A probléma megoldásához a legkisebb négyzetek módszerét választjuk, mivel ez a legegyszerűbb és jó becsléseket ad a statisztikai tulajdonságok szempontjából.

Technológia a regressziós analízis problémájának megoldására a legkisebb négyzetek módszerével.

A változók közötti kapcsolat típusát (lineáris, másodfokú, köbös stb.) úgy határozhatja meg, hogy megbecsüli a tényleges y érték eltérését a számítotttól:

ahol tapasztalati értékek, a közelítő függvény segítségével számított értékek. Különböző függvények Si-értékeinek becslésével és közülük a legkisebb kiválasztásával közelítő függvényt választunk.

Egy adott függvény típusát úgy határozzuk meg, hogy megtaláljuk az egyes függvényekre talált együtthatókat egy bizonyos egyenletrendszer megoldásaként:

lineáris regresszió, formaegyenlet, rendszer -

parabola, formaegyenlet, rendszer -

köb, formaegyenlet, rendszer -

A rendszer megoldása után megtaláljuk, melynek segítségével az analitikai függvénynek egy konkrét kifejezéséhez jutunk, amelynek birtokában megtaláljuk a számított értékeket. Ezután ott van az összes adat az S eltérés nagyságának becsléséhez és a minimum elemzéséhez.

Lineáris összefüggés esetén megbecsüljük az X faktor és a kapott Y karakterisztiká közötti kapcsolat szorosságát az r korrelációs együttható formájában:

A mutató átlagos értéke;

Átlagos faktorérték;

y a mutató kísérleti értéke;

x a faktor kísérleti értéke;

Szórás x-ben;

Szórás y-ban.

Ha a korrelációs együttható r = 0, akkor azt tekintjük, hogy a jellemzők közötti kapcsolat jelentéktelen vagy hiányzik, ha r = 1, akkor a jellemzők között nagyon magas a funkcionális kapcsolat.

A Chaddock táblázat segítségével minőségileg értékelheti a jellemzők közötti összefüggés szorosságát:

Chaddock asztal 2. táblázat.

Nemlineáris függőség esetén meghatározzuk a korrelációs arányt (0 1) és az R korrelációs indexet, amelyeket a következő függőségekből számítunk ki.

ahol az érték a regressziós függésből számított mutató értéke.

A számítások pontosságának értékeléséhez a közelítés átlagos relatív hibájának értékét használjuk

Nagy pontossággal 0-12% tartományban van.

A funkcionális függőség kiválasztásának értékeléséhez a determinációs együtthatót használjuk

A determinációs együtthatót egy funkcionális modell illeszkedési minőségének „általánosított” mérőszámaként használjuk, mivel a faktor és a teljes variancia közötti kapcsolatot, pontosabban a faktorvarianciának az összesben való részesedését fejezi ki.

Az R korrelációs index szignifikanciájának felmérésére Fisher-féle F-tesztet használunk. A kritérium tényleges értékét a következő képlet határozza meg:

ahol m a regressziós egyenlet paramétereinek száma, n a megfigyelések száma. Az értéket összehasonlítjuk a kritikus értékkel, amelyet az F-kritérium táblázatból határozunk meg, figyelembe véve az elfogadott szignifikanciaszintet és a szabadságfokok számát és. Ha, akkor az R korrelációs index értéke szignifikánsnak tekinthető.

A kiválasztott regressziós formához a regressziós egyenlet együtthatóit számítjuk ki. Az egyszerűség kedvéért a számítási eredményeket egy táblázat tartalmazza a következő szerkezettel (általában az oszlopok száma és típusa a regresszió típusától függően változik):

3. táblázat

A probléma megoldása.

Megfigyelések történtek egy gazdasági jelenségről - a termékkibocsátás függését a berendezés meghibásodásának százalékától. Értékkészletet kapunk.

A kiválasztott értékeket az 1. táblázat tartalmazza.

Az adott minta alapján elkészítjük az empirikus függés grafikonját (1. ábra)

A grafikon megjelenése alapján megállapítjuk, hogy az analitikai függés lineáris függvényként ábrázolható:

Számítsuk ki a párkorrelációs együtthatót az X és Y közötti kapcsolat értékeléséhez:

Építsünk egy segédtáblát:

4. táblázat

Megoldjuk az egyenletrendszert, hogy megtaláljuk az együtthatókat, és:

az első egyenletből, helyettesítve az értéket

a második egyenletbe a következőket kapjuk:

találunk

Megkapjuk a regressziós egyenlet alakját:

9. A talált kapcsolat szorosságának értékeléséhez az r korrelációs együtthatót használjuk:

A Chaddock táblázat segítségével megállapítjuk, hogy r = 0,90 esetén az X és Y közötti kapcsolat nagyon magas, ezért a regressziós egyenlet megbízhatósága is magas. A számítások pontosságának értékeléséhez a közelítés átlagos relatív hibájának értékét használjuk:

Úgy gondoljuk, hogy az érték a regressziós egyenlet nagyfokú megbízhatóságát biztosítja.

X és Y közötti lineáris kapcsolat esetén a meghatározási index egyenlő az r korrelációs együttható négyzetével: . Következésképpen a teljes variáció 81%-a az X faktor tulajdonság változásával magyarázható.

Az R korrelációs index szignifikanciájának felmérésére, amely lineáris kapcsolat esetén abszolút értékben egyenlő az r korrelációs együtthatóval, a Fisher F tesztet alkalmazzuk. A tényleges értéket a következő képlet segítségével határozzuk meg:

ahol m a regressziós egyenlet paramétereinek száma, n a megfigyelések száma. Vagyis n = 5, m = 2.

Figyelembe véve az elfogadott =0,05 szignifikancia szintet és a szabadságfokok számát, megkapjuk a kritikus táblázatértéket. Mivel az R korrelációs index értéke szignifikánsnak tekinthető.

Számítsuk ki Y előrejelzett értékét X = 30-nál:

Ábrázoljuk a talált függvényt:

11. Határozza meg a korrelációs együttható hibáját a szórás értékével!

majd meghatározzuk a normalizált eltérés értékét

Egy > 2 arányból 95%-os valószínűséggel beszélhetünk a kapott korrelációs együttható szignifikanciájáról.

2. feladat. Lineáris optimalizálás

1. lehetőség.

A regionális fejlesztési terv 3 olajmező üzembe helyezését tervezi, összesen 9 millió tonna kitermeléssel. Az első mezőn a termelési mennyiség legalább 1 millió tonna, a másodikon - 3 millió tonna, a harmadikon - 5 millió tonna. Az ilyen termelékenység eléréséhez legalább 125 kutat kell fúrni. A terv megvalósítására 25 millió rubelt különítettek el. tőkebefektetések (K mutató) és 80 km vezeték (L mutató).

Meg kell határozni az optimális (maximális) kutak számát az egyes táblák tervezett termőképességének biztosításához. A feladat kiinduló adatait a táblázat tartalmazza.

Kezdeti adatok

A problémafelvetés fentebb található.

Formalizáljuk a feladatban megadott feltételeket, korlátozásokat. Az optimalizálási probléma megoldásának célja az, hogy megtaláljuk maximális érték olajtermelés optimális számú kúttal minden mezőhöz, figyelembe véve a probléma meglévő korlátait.

A célfüggvény a probléma követelményeinek megfelelően a következő formában lesz:

ahol az egyes mezők kutak száma.

Meglévő feladatkorlátozások:

csőfektetési hossz:

kutak száma minden mezőn:

1 kút építésének költsége:

A lineáris optimalizálási problémákat például a következő módszerekkel lehet megoldani:

Grafikusan

Simplex módszer

Használat grafikus módszer csak akkor kényelmes, ha lineáris optimalizálási feladatokat old meg két változóval. Nagyobb számú változó esetén algebrai apparátust kell használni. Tekintsünk egy általános módszert a lineáris optimalizálási feladatok megoldására, amelyet szimplex módszernek nevezünk.

A Simplex módszer az iteratív számítások tipikus példája a legtöbb optimalizálási probléma megoldásában. Ilyen iteratív eljárásokat tartunk számon, amelyek operációkutatási modellekkel adnak megoldást a problémákra.

Egy optimalizálási feladat szimplex módszerrel történő megoldásához szükséges, hogy az Xi ismeretlenek száma nagyobb legyen, mint az egyenletek száma, azaz. egyenletrendszer

elégedett a kapcsolat m

A= egyenlő volt m-mel.

Jelöljük az A mátrix oszlopát as, a szabad tagok oszlopát pedig as

Az (1) rendszer alapmegoldása egy m ismeretlen halmaz, amely az (1) rendszer megoldása.

A szimplex módszer algoritmusát röviden a következőképpen írjuk le:

Az eredeti megszorítás, típusegyenlőtlenségként írva<= (=>) egyenlőségként fejezhető ki, ha a megszorítás bal oldalához hozzáadjuk a reziduális változót (a bal oldali többletváltozót kivonva).

Például az eredeti kényszer bal oldalára

reziduális változót vezetünk be, aminek következtében az eredeti egyenlőtlenség egyenlőséggé változik

Ha a kezdeti kényszer határozza meg a csövek áramlási sebességét, akkor a változót az erőforrás maradékaként vagy fel nem használt részeként kell értelmezni.

Egy célfüggvény maximalizálása egyenértékű ugyanazon függvény ellentétes előjellel történő minimalizálásával. Vagyis a mi esetünkben

egyenértékű

A következő formájú alapmegoldáshoz egy szimplex táblázatot állítunk össze:

Ez a táblázat azt jelzi, hogy a probléma megoldása után ezek a cellák tartalmazzák az alapmegoldást. - egy oszlopnak az egyik oszloppal való elosztásából származó hányadosok; - további szorzók a felbontás oszlopához kapcsolódó táblázatcellákban lévő értékek visszaállításához. - a célfüggvény minimális értéke -Z, - az együtthatók értékei a célfüggvényben ismeretlenekre.

Bármilyen pozitív érték megtalálható az értékek között. Ha nem ez a helyzet, akkor a probléma megoldottnak tekintendő. Válassza ki a táblázat bármely oszlopát, amely tartalmazza ezt az oszlopot „megengedő” oszlopnak. Ha a felbontás oszlop elemei között nincs pozitív szám, akkor a probléma megoldhatatlan a célfüggvény korlátlansága miatt a megoldásai halmazán. Ha pozitív számok vannak a felbontás oszlopban, folytassa az 5. lépéssel.

Az oszlop törtekkel van kitöltve, amelyek számlálója az oszlop elemei, nevezője pedig a feloldó oszlop megfelelő elemei. Az összes érték közül a legkisebb van kiválasztva. A legkisebbet produkáló vonalat „feloldó” vonalnak nevezzük. A feloldó sor és a feloldó oszlop metszéspontjában található egy feloldó elem, amelyet valamilyen módon, például színnel kiemelünk.

Az első szimplex tábla alapján összeáll a következő, amelyben:

Egy sorvektort lecserél egy oszlopvektorra

az engedélyező karakterláncot ugyanazzal a karakterlánccal helyettesítjük, osztva az engedélyező elemmel

a táblázat minden fennmaradó sorát ennek a sornak az összegével helyettesítjük a feloldó sorral, megszorozva egy speciálisan kiválasztott járulékos tényezővel, hogy a feloldó oszlop cellájában 0 legyen.

Az új táblázattal a 4. pontra hivatkozunk.

A probléma megoldása.

A probléma megfogalmazása alapján a következő egyenlőtlenségi rendszert kapjuk:

és célfüggvény

Alakítsuk át az egyenlőtlenségrendszert egyenletrendszerré további változók bevezetésével:

Csökkentsük a célfüggvényt megfelelőjére:

Készítsük el a kezdeti szimplex táblát:

Válasszuk ki a felbontás oszlopot. Számítsuk ki az oszlopot:

Az értékeket beírjuk a táblázatba. Ezek közül a legkisebb = 10 felhasználásával meghatározzuk a felbontási karakterláncot: . A feloldó sor és a feloldó oszlop metszéspontjában találjuk a feloldó elemet = 1. A táblázat egy részét feltöltjük további tényezőkkel, így: a táblázat többi soraihoz hozzáadott feloldó sor ezekkel szorozva, 0s a feloldó oszlop elemeiben.

Hozzuk létre a második szimplex táblát:

Ebben vesszük a felbontás oszlopot, kiszámítjuk az értékeket, és beírjuk a táblázatba. Minimum a felbontási sort kapjuk. A feloldó elem 1 lesz. További tényezőket keresünk és kitöltjük az oszlopokat.

A következő szimplex táblázatot készítjük:

Hasonló módon megtaláljuk a feloldó oszlopot, a feloldó sort és a feloldó elemet = 2. Összeállítjuk a következő szimplex táblát:

Mivel a -Z sorban nincsenek pozitív értékek, ez a táblázat véges. Az első oszlop az ismeretlenek kívánt értékeit adja meg, pl. optimális alapmegoldás:

Ebben az esetben a célfüggvény értéke -Z = -8000, ami Zmax = 8000-nek felel meg. A probléma megoldva.

3. feladat Klaszterelemzés

Probléma kijelentés:

Objektumok felosztása a táblázatban megadott adatok alapján. Válasszon ki egy megoldási módszert, és készítsen adatfüggőségi grafikont.

1. lehetőség.

Kezdeti adatok

Az ilyen típusú problémák megoldására szolgáló módszerek áttekintése. A megoldási mód indoklása.

A klaszterelemzési problémákat a következő módszerekkel lehet megoldani:

Az unió vagy fa klaszterezési módszert "különbözőség" vagy "objektumok közötti távolság" klaszterek kialakítására használják. Ezek a távolságok meghatározhatók egydimenziós vagy többdimenziós térben.

A kétirányú összekapcsolást (viszonylag ritkán) olyan körülmények között alkalmazzák, amikor az adatokat nem "objektumok" és "objektumtulajdonságok", hanem megfigyelések és változók szerint értelmezik. Mind a megfigyelések, mind a változók várhatóan egyszerre járulnak hozzá az értelmes klaszterek felfedezéséhez.

K-módszer. Akkor használatos, ha már létezik hipotézis a klaszterek számával kapcsolatban. Megadhatja a rendszernek, hogy pontosan alkosson például három klasztert, hogy azok a lehető legkülönbözőbbek legyenek. Általánosságban elmondható, hogy a K-közép módszer pontosan K különböző klasztert hoz létre, amelyek egymástól a lehető legnagyobb távolságra helyezkednek el.

A távolságok mérésére a következő módszerek állnak rendelkezésre:

Euklideszi távolság. Ez a távolság legelterjedtebb típusa. Ez egyszerűen egy geometriai távolság többdimenziós térben, és a következőképpen számítható ki:

Ne feledje, hogy az euklideszi távolságot (és négyzetét) az eredeti adatokból számítják ki, nem a szabványosított adatokból.

Várostömb távolság (Manhattan távolság). Ez a távolság egyszerűen a koordináták közötti különbségek átlaga. A legtöbb esetben ez a távolságmérés ugyanazt az eredményt adja, mint a közönséges euklideszi távolság. Megjegyezzük azonban, hogy ennél a mértéknél az egyes nagy eltérések (outlierek) befolyása csökken (mivel nem négyzetesek). A Manhattan távolságot a következő képlettel számítják ki:

Csebisev távolság. Ez a távolság akkor lehet hasznos, ha két objektumot "különbözőként" akarunk definiálni, ha azok bármely koordinátában (bármelyik dimenzióban) különböznek. A Csebisev távolságot a következő képlettel számítják ki:

Teljesítmény távolság. Néha az ember fokozatosan növelni vagy csökkenteni kíván egy olyan dimenzióhoz kapcsolódó súlyt, amelyhez a megfelelő objektumok nagyon eltérőek. Ez a hatványtörvény távolság használatával érhető el. A teljesítménytávolságot a következő képlet segítségével számítjuk ki:

ahol r és p a felhasználó által meghatározott paraméterek. Néhány példaszámítás megmutathatja, hogyan „működik” ez a mérték. A p paraméter az egyes koordináták mentén fellépő különbségek fokozatos súlyozásáért, az r paraméter az objektumok közötti nagy távolságok progresszív súlyozásáért felelős. Ha mind az r, mind a p paraméter kettővel egyenlő, akkor ez a távolság egybeesik az euklideszi távolsággal.

A nézeteltérések százalékos aránya. Ezt a mértéket akkor használjuk, ha az adatok kategorikusak. Ezt a távolságot a következő képlettel számítjuk ki:

A probléma megoldásához a probléma feltételeinek és megfogalmazásának (objektumok felosztása) leginkább megfelelő egységesítési módszert (fa klaszterezés) választjuk. A csatlakozási módszer viszont többféle kommunikációs szabályt használhat:

Egyetlen link (legközelebbi szomszéd módszer). Ebben a módszerben a két klaszter közötti távolságot a különböző klaszterekben lévő két legközelebbi objektum (legközelebbi szomszéd) távolsága határozza meg. Vagyis két klaszterben lévő bármely két objektum közelebb van egymáshoz, mint a megfelelő kommunikációs távolság. Ennek a szabálynak bizonyos értelemben össze kell fűznie az objektumokat, hogy klasztereket képezzenek, és a kapott klasztereket általában hosszú "láncok" képviselik.

Teljes link (a legtávolabbi szomszédok módszere). Ebben a módszerben a klaszterek közötti távolságokat a különböző klaszterekben (vagyis a "legtávolabbi szomszédok") lévő bármely két objektum közötti legnagyobb távolság határozza meg.

Számos más, ehhez hasonló fürtcsatlakozási módszer is létezik (pl. súlyozatlan páronkénti összekapcsolás, súlyozott páronkénti összekapcsolás stb.).

Megoldásmódszer technológia. Mutatók számítása.

Az első lépésben, amikor minden objektum külön klaszter, az objektumok közötti távolságot a kiválasztott mérték határozza meg.

Mivel a probléma nem határozza meg a jellemzők mértékegységeit, feltételezzük, hogy ezek egybeesnek. Következésképpen nincs szükség a forrásadatok normalizálására, ezért azonnal folytatjuk a távolságmátrix kiszámítását.

A probléma megoldása.

A kiindulási adatok alapján készítsünk függőségi gráfot (2. ábra)

Az objektumok közötti távolságnak a szokásos euklideszi távolságot vesszük. Akkor a képlet szerint:

ahol l jelek; k a jellemzők száma, az 1 és 2 objektumok közötti távolság egyenlő:

Folytatjuk a fennmaradó távolságok kiszámítását:

A kapott értékekből készítsünk táblázatot:

Legrövidebb távolság. Ez azt jelenti, hogy a 3, 6 és 5 elemeket egy klaszterbe egyesítjük. A következő táblázatot kapjuk:

Legrövidebb távolság. A 3, 6, 5 és 4 elemeket egy klaszterbe egyesítjük.

A 3. és 6. elemek közötti minimális távolság egyenlő. Ez azt jelenti, hogy a 3. és 6. elem egy klaszterben van egyesítve. Kiválasztjuk a maximális távolságot az újonnan kialakított klaszter és a fennmaradó elemek között. Például az 1. fürt és a 3.6 fürt közötti távolság max(13.34166, 13.60147)= 13.34166. Készítsük el a következő táblázatot:

Ebben a minimális távolság az 1-es és 2-es klaszterek közötti távolság. Az 1-es és a 2-es klaszterek egy klaszterbe való összevonásával kapjuk:

Így a „távoli szomszéd” módszerrel két klasztert kaptunk: 1,2 és 3,4,5,6, amelyek közötti távolság 13,60147.

A probléma megoldódott.

Alkalmazások. Problémamegoldás alkalmazáscsomagokkal (MS Excel 7.0)

A korreláció- és regresszióanalízis feladata.

A kiindulási adatokat beírjuk a táblázatba (1. ábra)

Válassza a „Szolgáltatás / Adatelemzés” menüt. A megjelenő ablakban válassza ki a „Regression” sort (2. ábra).

Állítsuk be a következő ablakban a beviteli intervallumokat X-ben és Y-ben, hagyjuk a megbízhatósági szintet 95%-on, és a kimeneti adatokat helyezzük el egy külön lapra „Jelentéslap” (3. ábra)

A számítás után a „Jelentéslap” lapon megkapjuk a végső regresszióelemzési adatokat:

Itt is megjelenik a közelítő függvény, vagy „Fit Graph” szóródiagramja:


A kiszámított értékek és eltérések a táblázatban jelennek meg a „Predicted Y” és a „Residuals” oszlopban.

A kezdeti adatok és eltérések alapján egy maradék gráfot készítünk:

Optimalizálási probléma


A kezdeti adatokat a következőképpen írjuk be:

A C9, D9, E9 cellákba írjuk be a szükséges X1, X2, X3 ismeretleneket.

Az X1, X2, X3 célfüggvény együtthatói rendre C7, D7, E7-be kerülnek.

A célfüggvényt a B11 cellába a következő képlet szerint írjuk be: =C7*C9+D7*D9+E7*E9.

Meglévő feladatkorlátok

A csőfektetési hosszhoz:

írja be a C5, D5, E5, F5, G5 cellákba

A kutak száma minden mezőben:

X3 Ј 100; belép a C8, D8, E8 cellákba.

1 db kút építésének költsége:

írja be a C6, D6, E6, F6, G6 cellákba.

A C5*C9+D5*D9+E5*E9 teljes hossz kiszámítására szolgáló képlet a B5 cellába, a C6*C9+D6*D9+E6*E9 teljes költség számítási képlete a B6 cellába kerül.


A menüben válassza ki a „Szolgáltatás/Megoldás keresése” menüpontot, adja meg a megoldás kereséséhez szükséges paramétereket a megadott kezdő adatoknak megfelelően (4. ábra):

A „Paraméterek” gombbal állítsa be a következő paramétereket a megoldás kereséséhez (5. ábra):


A megoldás keresése után jelentést kapunk az eredményekről:

Microsoft Excel 8.0e eredményjelentés

Jelentés készült: 2002.11.17. 1:28:30

Célcella (maximum)

Eredmény

Teljes termelés

Cserélhető cellák

Eredmény

A kutak száma

A kutak száma

A kutak száma

Korlátozások

Jelentése

Hossz

Összefüggő

Projekt költsége

nincs csatlakoztatva.

A kutak száma

nincs csatlakoztatva.

A kutak száma

Összefüggő

A kutak száma

Összefüggő

Az első táblázat annak a célcellának a kezdeti és végső (optimális) értékét mutatja, amelybe a megoldandó probléma célfüggvénye került. A második táblázatban az optimalizált változók kezdeti és végső értékeit látjuk, amelyeket a változtatható cellák tartalmaznak. Az eredményjelentés harmadik táblázata információkat tartalmaz a korlátozásokról. Az „Érték” oszlop a szükséges erőforrások és az optimalizált változók optimális értékeit tartalmazza. A „Képlet” oszlop korlátozásokat tartalmaz az elhasznált erőforrásokra és az optimalizált változókra vonatkozóan, az ezeket az adatokat tartalmazó cellákra mutató hivatkozások formájában. Az „Állapot” oszlop határozza meg, hogy bizonyos korlátozások kötöttek-e vagy nem. Itt a „kötöttek” az optimális megoldásban szigorú egyenlőségek formájában megvalósított kényszerek. Az erőforrás-korlátozások "Különbség" oszlopa határozza meg a felhasznált erőforrások egyenlegét, pl. a szükséges forrásmennyiség és elérhetőségük közötti különbség.

Hasonlóképpen, ha a megoldáskeresés eredményét rögzítjük a „Stabilitási jelentés” űrlapon, a következő táblázatokat kapjuk:

Microsoft Excel 8.0e Fenntarthatósági jelentés

Munkalap: [Az optimalizálási feladat megoldása.xls]A termelésoptimalizálási feladat megoldása

Jelentés készült: 2002.11.17. 1:35:16

Cserélhető cellák

Elfogadható

Elfogadható

jelentése

ár

Együttható

Növekedés

Csökkenés

A kutak száma

A kutak száma

A kutak száma

Korlátozások

Korlátozás

Elfogadható

Elfogadható

jelentése

Jobb oldalt

Növekedés

Csökkenés

Hossz

Projekt költsége

A fenntarthatósági jelentés információkat tartalmaz a változó (optimalizált) változókról és a modell korlátairól. A megadott információk a lineáris feladatok optimalizálása során alkalmazott szimplex módszerre vonatkoznak, a feladat megoldásának fentebb leírt részében. Lehetővé teszi annak értékelését, hogy a kapott optimális megoldás mennyire érzékeny a modell paramétereinek esetleges változásaira.

A jelentés első része a változtatható cellákról tartalmaz információkat, amelyek a mezőkben lévő kutak számának értékét tartalmazzák. A „Resulting Value” oszlop az optimalizált változók optimális értékeit mutatja. A „Célegyüttható” oszlop tartalmazza a célfüggvény együtthatóértékeinek kezdeti adatait. A következő két oszlop azt szemlélteti, hogyan lehet ezeket a tényezőket növelni és csökkenteni a talált optimális megoldás megváltoztatása nélkül.

A fenntarthatósági jelentés második része az optimalizált változókra vonatkozó korlátozásokról tartalmaz információkat. Az első oszlop az optimális megoldás erőforrásigényét jelzi. A második a felhasznált erőforrástípusok árnyékárait tartalmazza. Az utolsó két oszlop a rendelkezésre álló erőforrások mennyiségének esetleges növekedésére vagy csökkentésére vonatkozó adatokat tartalmaz.

Klaszterezési probléma.

A probléma megoldásának lépésről lépésre bemutatott módszere fent található. Az alábbi Excel táblázatok mutatják be a probléma megoldásának előrehaladását:

"legközelebbi szomszéd módszer"

A klaszteranalízis feladatának megoldása - "KÖZELÉBI SZOMSZÉD MÓDSZER"

Kezdeti adatok

ahol x1 a kimenet térfogata;

x2 - a tárgyi eszközök átlagos éves költsége

Ipari termelési eszközök

"messzi szomszéd módszer"

A klaszteranalízis problémájának megoldása - "TÁVOLI SZOMSZÉD MÓDSZER"

Kezdeti adatok

ahol x1 a kimenet térfogata;

x2 - a tárgyi eszközök átlagos éves költsége

Ipari termelési eszközök

A Kendall rangkorrelációs együttható kiszámítása r k az adatokat az egyik jellemző szerint növekvő sorrendben kell rangsorolni, és a második jellemzőhöz meg kell határozni a megfelelő rangokat. Ezután a második attribútum minden egyes rangjához meghatározzuk a felvett rangnál nagyobb értékű következő rangok számát, és megtaláljuk ezeknek a számoknak az összegét.

A Kendall-féle rangkorrelációs együttható a


Ahol R i– a második változó rangsorainak száma, től kezdve én+1, amelynek értéke nagyobb, mint az érték én- ennek a változónak a rangja.

Vannak táblázatok az együttható eloszlás százalékpontjairól r k, amely lehetővé teszi a korrelációs együttható jelentőségére vonatkozó hipotézis tesztelését.

Nagy mintaméreteknél kritikus értékek r k nincsenek táblázatba foglalva, és közelítő képletekkel kell kiszámítani, amelyek azon alapulnak, hogy a H 0 nullhipotézis esetén: r k=0 és nagyobb n valószínűségi változó

megközelítőleg a szokásos normál törvény szerint oszlik el.

40. A névleges vagy ordinális skálán mért tulajdonságok közötti függés

Gyakran felmerül a feladat két, nominális vagy ordinális skálán mért jellemző függetlenségének ellenőrzése.

Legyen néhány objektum két jellemzője XÉs Y a szintek számával rÉs s illetőleg. Az ilyen megfigyelések eredményeit célszerű a jellemzők kontingenciatáblázatának nevezett táblázat formájában bemutatni.

A táblázatban u i(én = 1, ..., r) És v j (j= 1, ..., s) – a jellemzők által elfogadott értékek, érték n ij– az objektumok száma az attribútummal rendelkező objektumok teljes számából X elfogadta az értéket u i, és a jel Y- jelentése v j

Vezessük be a következő valószínűségi változókat:

u i


– az értékkel rendelkező objektumok száma v j


Ezen túlmenően nyilvánvaló egyenlőségek is vannak



Diszkrét valószínűségi változók XÉs Y független akkor és csak akkor

minden párnak én, j

Ezért a diszkrét valószínűségi változók függetlenségére vonatkozó hipotézis XÉs Yígy írható:

Alternatív megoldásként általában a hipotézist alkalmazzák

A H 0 hipotézis érvényességét a mintavételi gyakoriságok alapján kell megítélni n ij készenléti táblázatok. A nagy számok törvényének megfelelően amikor n→∞ relatív gyakoriságok közel vannak a megfelelő valószínűségekhez:



Statisztikát használunk a H 0 hipotézis tesztelésére

amelynek, ha a hipotézis igaz, van eloszlása χ 2 s rs − (r + s− 1) szabadsági fokok.

Függetlenségi kritérium χ 2 elveti a H 0 hipotézist α szignifikanciaszinttel, ha:


41. Regressziós elemzés. A regresszióanalízis alapfogalmai

A vizsgált változók közötti statisztikai összefüggések matematikai leírásához a következő problémákat kell megoldani:

ü válasszon ki egy olyan függvényosztályt, amelyben célszerű az érdeklődési függőség legjobb (bizonyos értelemben) közelítését keresni;

ü találja meg a kívánt függőség egyenleteiben szereplő paraméterek ismeretlen értékeinek becslését;

ü megállapítja az eredményül kapott egyenlet megfelelőségét a kívánt összefüggésre;

ü azonosítsa a leginkább informatív bemeneti változókat.

A felsorolt ​​feladatok összessége a regresszióelemző kutatás tárgya.

A regressziós függvény (vagy regresszió) az egyik valószínűségi változó matematikai elvárásának függése egy másik valószínűségi változó által felvett értéktől, és az elsővel egy kétdimenziós valószínűségi változó rendszert alkot.

Legyen egy valószínűségi változók rendszere ( X,Y), majd a regressziós függvényt Y-on X

És a regressziós függvény X-on Y

Regressziós függvények f(x) És φ (y), kölcsönösen nem reverzibilisek, kivéve, ha a kapcsolat között fennáll XÉs Y nem működőképes.

Amennyiben n-dimenziós vektor koordinátákkal X 1 , X 2 ,…, Xn a feltételes matematikai elvárást bármely komponensre tekinthetjük. Például azért X 1


regressziónak nevezzük X 1 per X 2 ,…, Xn.

A regressziós függvény teljes meghatározásához ismerni kell a kimeneti változó feltételes eloszlását a bemeneti változó fix értékeihez.

Mivel a valós helyzetben ilyen információ nem áll rendelkezésre, általában a megfelelő közelítő függvény keresésére korlátozódnak f a(x) Mert f(x forma statisztikai adatai alapján ( x i, y i), én = 1,…, n. Ez az adat az eredmény n független megfigyelések y 1 ,…, y n valószínűségi változó Y a bemeneti változó értékeire x 1 ,…, x n, míg a regressziós elemzésben azt feltételezzük, hogy a bemeneti változó értékei pontosan meg vannak adva.

A legjobb közelítő függvény kiválasztásának problémája f a(x), amely a fő a regressziós elemzésben, és nem rendelkezik formalizált eljárásokkal a megoldására. A választást esetenként kísérleti adatok elemzése, gyakrabban elméleti megfontolások alapján határozzák meg.

Ha a regressziós függvényt kellően simanak feltételezzük, akkor az azt közelítő függvényt f a(x) egy bizonyos lineárisan független bázisfüggvénykészlet lineáris kombinációjaként ábrázolható ψ k(x), k = 0, 1,…, m−1, azaz formában


Ahol m– az ismeretlen paraméterek száma θk(általános esetben a mennyiség nem ismert, a modell felépítése során finomodik).

Egy ilyen függvény paramétereiben lineáris, így a vizsgált esetben olyan regressziós függvénymodellről beszélünk, amely paramétereiben lineáris.

Ezután a feladat a regressziós egyenes legjobb közelítésének megtalálása f(x) olyan paraméterértékek megtalálására redukálódik, amelyeknél f a(x;θ) a legmegfelelőbb a rendelkezésre álló adatokhoz. Az egyik módszer, amely lehetővé teszi a probléma megoldását, a legkisebb négyzetek módszere.

42. A legkisebb négyzetek módszere

Legyen a ponthalmaz ( x i, y i), én= 1,…, n valamilyen egyenes mentén síkon helyezkedik el

Aztán függvényként f a(x), ami közelíti a regressziós függvényt f(x) = M [Y|x] természetes, hogy az argumentum lineáris függvényét vesszük x:


Vagyis az itt választott alapfüggvények azok ψ 0 (x)≡1 és ψ 1 (x)≡x. Az ilyen típusú regressziót egyszerű lineáris regressziónak nevezik.

Ha a ponthalmaz ( x i, y i), én= 1,…, n valamilyen görbe mentén helyezkedik el, majd as f a(x) természetes, hogy megpróbálunk parabolacsaládot választani

Ez a függvény paramétereiben nemlineáris θ 0 és θ 1, azonban funkcionális transzformációval (jelen esetben logaritmussal) egy új függvényre redukálható f' a(x) lineáris paraméterekben:


43. Egyszerű lineáris regresszió

A legegyszerűbb regressziós modell egy egyszerű (egyváltozós, egytényezős, páros) lineáris modell, amelynek a következő formája van:


Ahol εi– egymással nem korrelált valószínűségi változók (hibák), amelyek nulla matematikai várakozással és azonos szórással σ 2 , aÉs b– állandó együtthatók (paraméterek), amelyeket a mért válaszértékekből meg kell becsülni y i.

Paraméterbecslések keresése aÉs b lineáris regresszió, a kísérleti adatokat legjobban kielégítő egyenes meghatározása:


A legkisebb négyzetek módszerét alkalmazzuk.

Szerint legkisebb négyzetek módszere paraméterbecslések aÉs b az értékek négyzetes eltéréseinek összegének minimalizálásának feltételéből található y i függőlegesen az „igazi” regressziós egyenestől:

Tegyünk tíz megfigyelést egy valószínűségi változóról Y a változó fix értékeihez X

Minimalizálásra D vonatkoztatva egyenlősítsük nullával a parciális deriváltokat aÉs b:



Ennek eredményeként a következő egyenletrendszert kapjuk a becslések megtalálásához aÉs b:


A két egyenlet megoldása a következőt kapja:



Paraméterbecslések kifejezései aÉs b a következőképpen is ábrázolható:

Ezután a regressziós egyenes empirikus egyenlete Y-on Xígy írható:


Elfogulatlan varianciabecslő σ 2 érték eltérés y i az illesztett egyenes regressziós egyenesből adjuk meg

Számítsuk ki a regressziós egyenlet paramétereit!


Így a regressziós egyenes így néz ki:


És az értékek eltéréseinek szórásának becslése y i az illesztett egyenes regressziós egyenesből


44. A regressziós egyenes jelentőségének ellenőrzése

Talált becslés b≠ 0 egy olyan valószínűségi változó realizációja lehet, amelynek matematikai elvárása nulla, vagyis kiderülhet, hogy valójában nincs regressziófüggés.

Ennek a helyzetnek a megoldásához tesztelni kell a H 0 hipotézist: b= 0 a versengő H 1 hipotézissel: b ≠ 0.

Egy regressziós egyenes szignifikancia tesztelése elvégezhető varianciaanalízissel.

Vegye figyelembe a következő azonosságot:

Nagyságrend y iŷi = εi maradéknak nevezzük, és ez a különbség két mennyiség között:

ü a megfigyelt érték (válasz) eltérése a teljes átlagos választól;

ü az előrejelzett válaszérték eltérése ŷi ugyanabból az átlagból

Az írott identitás a formába írható


Mindkét oldal négyzetre emelésével és összegzésével én, kapunk:


Ahol a mennyiségek meg vannak nevezve:

az SC n négyzetek teljes (teljes) összege, amely egyenlő a megfigyelések átlagértékéhez viszonyított eltérések négyzetes összegével

az SC p regressziója miatti négyzetösszeg, amely egyenlő a regressziós egyenes értékeinek a megfigyelések átlagához viszonyított eltéréseinek négyzetes összegével.

maradék négyzetösszeg SC 0 . amely egyenlő a megfigyelések regressziós egyenes értékéhez viszonyított eltéréseinek négyzetes összegével

Így a terjedés Y-kov az átlagukhoz képest bizonyos mértékig annak tudható be, hogy nem minden megfigyelés esik a regressziós egyenesen. Ha ez a helyzet, akkor a regresszióhoz viszonyított négyzetösszeg nulla lenne. Ebből következik, hogy a regresszió akkor lesz szignifikáns, ha SC p négyzetösszege nagyobb, mint SC 0 négyzetösszege.

A regresszió szignifikánsságának tesztelésére szolgáló számításokat az alábbi ANOVA táblázat tartalmazza

Ha hibák εi normáltörvény szerint oszlanak meg, akkor ha igaz a H 0 hipotézis: b= 0 statisztika:


a Fisher-törvény szerint elosztva a szabadságfokok száma 1 és n−2.

A nullhipotézist α szignifikancia szinten el kell utasítani, ha a statisztika számított értéke F nagyobb lesz, mint az α százalékpont f 1;n−2;α Fisher-eloszlások.

45. A regressziós modell megfelelőségének ellenőrzése. Maradék módszer

A megszerkesztett regressziós modell megfelelősége azt jelenti, hogy egyetlen más modell sem nyújt jelentős javulást a válasz előrejelzésében.

Ha az összes válaszértéket különböző értékeken kapjuk x, azaz nincs egyszerre több válaszérték x i, akkor a lineáris modell megfelelőségének csak korlátozott tesztelése végezhető el. Az ilyen ellenőrzés alapja az egyenlegek:

Eltérés a megállapított mintától:

Mivel X– egydimenziós változó, pontok ( x i, d i) egy síkon ábrázolható úgynevezett reziduális gráf formájában. Ez a reprezentáció néha lehetővé teszi a maradékok viselkedésében valamilyen minta kimutatását. Ezenkívül a maradékelemzés lehetővé teszi a hibaeloszlási törvényre vonatkozó feltételezések elemzését.

Abban az esetben, ha a hibák a normál törvény szerint oszlanak el, és szóródásukra van a priori becslés σ 2 (korábban elvégzett mérések alapján kapott becslés), akkor lehetséges a modell megfelelőségének pontosabb megítélése.

Használatával F-A Fisher-teszt segítségével ellenőrizhető, hogy a reziduális variancia szignifikáns-e s 0 2 eltér az a priori becsléstől. Ha lényegesen nagyobb, akkor elégtelenségről van szó, és a modellt felül kell vizsgálni.

Ha az a priori becslés σ 2 nem, de válaszmérések Y kétszer vagy többször megismételve ugyanazokkal az értékekkel X, akkor ezek az ismételt megfigyelések felhasználhatók újabb becslések készítésére σ 2 (az első a reziduális variancia). Egy ilyen becslés „tiszta” hibát jelent, hiszen ha x azonos két vagy több megfigyelés esetén, akkor csak a véletlenszerű változások befolyásolhatják az eredményeket és szóródhatnak közöttük.

Az így kapott becslés a variancia megbízhatóbb becslése, mint a más módszerekkel kapott becslések. Emiatt a kísérletek tervezésénél célszerű ismétlésekkel végzett kísérleteket végezni.

Tegyük fel, hogy van m különböző jelentések X : x 1 , x 2 , ..., x m. Legyen ezen értékek mindegyikére x i elérhető n i válaszmegfigyelések Y. Az összes megfigyelés a következő:

Ekkor az egyszerű lineáris regressziós modell a következőképpen írható fel:


Határozzuk meg a „tiszta” hibák szórását. Ez a szórás az összevont varianciabecslés σ 2 ha elképzeljük a válaszértékeket y ij at x = x i minta térfogataként n i. Ennek eredményeként a „tiszta” hibák szórása egyenlő:

Ez az eltérés becslésként szolgál σ 2, függetlenül attól, hogy a felszerelt modell megfelelő-e.

Mutassuk meg, hogy a „tiszta hibák” négyzetösszege része a maradék négyzetösszegnek (a reziduális variancia kifejezésében szereplő négyzetösszeg). Maradva j th megfigyelés at x iígy írható:

Ha ennek az egyenletnek mindkét oldalát négyzetre emeljük, majd összeadjuk őket jés által én, akkor kapjuk:

A bal oldalon ebben az egyenlőségben a maradék négyzetösszeg látható. A jobb oldalon lévő első tag a „tiszta” hibák négyzetösszege, a második tag az elégtelenség négyzetösszege. Az utolsó összeg megvan m−2 szabadságfok, innen ered az elégtelenség varianciája

A H 0 hipotézis tesztelésének kritériumstatisztikája: az egyszerű lineáris modell megfelelő, a H 1 hipotézissel szemben: az egyszerű lineáris modell nem megfelelő, valószínűségi változó

Ha a nullhipotézis igaz, az érték F szabadságfokokkal rendelkező Fisher-eloszlása ​​van m−2 és nm. A regressziós egyenes linearitási hipotézisét α szignifikancia szinten el kell utasítani, ha a kapott statisztikai érték nagyobb, mint a Fisher-eloszlás α százalékpontja szabadságfokkal. m−2 és nm.

46. A regressziós modell megfelelőségének ellenőrzése (lásd 45). Varianciaanalízis

47. A regressziós modell megfelelőségének ellenőrzése (lásd 45). Meghatározási együttható

Néha mintameghatározási együtthatót használnak egy regressziós egyenes minőségének jellemzésére R A 2. ábra azt mutatja, hogy a regresszióból adódó négyzetösszeg SC p mekkora részt (részesedést) tesz ki az SC p négyzetek teljes összegében:

Minél közelebb R 2 egységre, minél jobban közelíti a regresszió a kísérleti adatokat, annál közelebb vannak a megfigyelések a regressziós egyeneshez. Ha R 2 = 0, akkor a válasz változása teljes egészében a figyelembe nem vett tényezők hatásának köszönhető, és a regressziós egyenes párhuzamos a tengellyel x-s. Egyszerű lineáris regresszió esetén a determinációs együttható R 2 egyenlő a korrelációs együttható négyzetével r 2 .

Az R 2 =1 maximális értéke csak abban az esetben érhető el, ha a megfigyeléseket különböző x-értékeken végeztük. Ha az adatok ismétlődő kísérleteket tartalmaznak, akkor az R 2 értéke nem érheti el az egységet, bármennyire is jó a modell.

48. Konfidencia intervallumok egyszerű lineáris regressziós paraméterekhez

Ahogy a minta átlaga a valódi átlag becslése (a sokaság átlaga), úgy a regressziós egyenlet mintaparaméterei is. aÉs b- nem más, mint a valódi regressziós együtthatók becslése. A különböző minták eltérő becsléseket adnak az átlagról, ahogy a különböző minták különböző regressziós együtthatók becsléseit is.

Feltéve, hogy a hibaeloszlási törvény εi normál törvény, paraméterbecslés írja le b normál eloszlású lesz a következő paraméterekkel:


Mivel a paraméterbecslés a független normális eloszlású mennyiségek lineáris kombinációja, normális eloszlása ​​is lesz matematikai elvárásokkal és varianciával:


Ebben az esetben (1 − α) konfidencia intervallum a diszperzió becsléséhez σ 2 figyelembe véve, hogy az arány ( n−2)s 0 2 /σ 2 törvény szerint terjesztik χ 2 szabadságfokkal n−2-t a kifejezés határozza meg


49. A regressziós egyenes konfidencia intervallumai. Konfidenciaintervallum függő változóértékekhez

Általában nem ismerjük a regressziós együtthatók valódi értékeit AÉs b. Csak a becsléseiket ismerjük. Más szóval, a valódi regressziós egyenes lehet magasabb vagy alacsonyabb, meredekebb vagy laposabb, mint a mintaadatokból felépített. A regressziós együtthatók konfidencia intervallumait számoltuk. Kiszámíthatja magának a regressziós egyenesnek a konfidenciatartományát is.

Az egyszerű lineáris regresszióhoz meg kell alkotnunk (1− α ) konfidenciaintervallum a válasz matematikai elvárására Yértékben X = X 0 . Ez a matematikai elvárás egyenlő a+bx 0 és annak pontszáma

Mert akkor.

A matematikai elvárás eredményül kapott becslése nem korrelált normális eloszlású értékek lineáris kombinációja, ezért normális eloszlása ​​is van, amelynek középpontja a feltételes matematikai elvárás és variancia valódi értékének pontja.

Ezért az egyes értékeknél a regressziós egyenes konfidenciaintervallumát x A 0-t mint


Amint látható, a minimális konfidenciaintervallumot akkor kapjuk meg, amikor x 0 egyenlő az átlagos értékkel, és így nő x A 0 bármely irányban „eltávolodik” az átlagtól.

A teljes regressziós függvényre annak teljes hosszában megfelelő együttes konfidenciaintervallumok készletét kapni a fenti kifejezésben. tn −2,α /2-t kell helyettesíteni

A rangsorolás során a szakértőnek az értékelt elemeket preferencia szerint növekvő (csökkenő) sorrendbe kell rendeznie, és mindegyikhez természetes számok formájában rangsorolnia kell. A közvetlen rangsorolásban a legelőnyösebb elem 1-es (néha 0), a legkevésbé preferált elem pedig m-es.

Ha a szakértő nem tud szigorú rangsorolást végezni, mert véleménye szerint egyes elemek preferenciájukban megegyeznek, akkor ezekhez az elemekhez azonos rangsorolás megengedett. Annak biztosítására, hogy a rangok összege egyenlő legyen a rangsorolt ​​elemek helyezéseinek összegével, úgynevezett standardizált rangokat használnak. A standardizált rang egy rangsorolt ​​sorozat elemeinek számtani átlaga, amelyek preferenciájukban megegyeznek.

2.6. példa. A szakértő a hat tételt preferencia szerint az alábbiak szerint rangsorolta:

Ekkor ezeknek az elemeknek a szabványosított rangja lesz

Így az elemekhez rendelt rangok összege egyenlő lesz a természetes sorozat számainak összegével.

A preferencia tételek rangsorolásával történő kifejezésének pontossága jelentősen függ az előadások halmazának erejétől. A rangsorolási eljárás akkor adja a legmegbízhatóbb eredményt (a feltárt preferencia és az „igaz” közötti közelség mértékét tekintve), ha az értékelt elemek száma nem haladja meg a 10-et. A bemutatókészlet maximális teljesítménye nem haladhatja meg a 20-at.

A rangsorok feldolgozása és elemzése az egyéni preferenciákon alapuló csoportpreferencia kapcsolat felépítése céljából történik. Ebben az esetben a következő feladatokat lehet kitűzni: a) egy előadássorozat elemein két szakértő rangsora közötti kapcsolat szorosságának meghatározása; b) két elem kapcsolatának meghatározása a csoporttagok egyéni véleménye alapján ezen elemek különböző jellemzőiről; c) kettőnél több szakértőből álló csoportban a szakértői vélemények összhangjának felmérése.

Az első két esetben a rangkorrelációs együtthatót használjuk a kapcsolat szorosságának mérőszámaként. Attól függően, hogy csak szigorú vagy nem szigorú rangsor engedélyezett, Kendall vagy Spearman rangkorrelációs együtthatóját használjuk.

Kendall rangkorrelációs együtthatója az (a) feladathoz

Ahol m− elemek száma; r 1 i – az első szakértő által kiosztott rangot én−th elem; r 2 i – ugyanaz, a második szakértő.

A (b) probléma esetében a (2.5) komponensek jelentése a következő: m - a két értékelendő elem jellemzőinek száma; r 1 i(r 2 i) - az i-edik jellemző rangsorolása az első (második) elem rangsorában, amelyet szakértői csoport állapít meg.

A szigorú rangsoroláshoz a rangkorrelációs együtthatót használjuk r Dárdás:


amelynek összetevői a (2.5)-ben leírtakkal azonos jelentésűek.

A korrelációs együtthatók (2,5), (2,6) -1 és +1 között változnak. Ha a korrelációs együttható +1, akkor ez azt jelenti, hogy a rangsorok megegyeznek; ha egyenlő -1-gyel, akkor a − ellentétesek (a rangsorok fordítottak egymással). Ha a korrelációs együttható nulla, az azt jelenti, hogy a rangsorok lineárisan függetlenek (korrelálatlanok).

Mivel ezzel a megközelítéssel (a szakértő véletlenszerű hibával „mérő”) az egyes rangsorok véletlenszerűnek minősülnek, a kapott korrelációs együttható szignifikanciájára vonatkozó hipotézis statisztikai vizsgálata a feladat. Ebben az esetben a Neyman-Pearson kritériumot használjuk: beállítjuk az α kritérium szignifikancia szintjét, és a korrelációs együttható eloszlási törvényeinek ismeretében meghatározzuk a küszöbértéket. c α, amellyel a korrelációs együttható eredő értékét hasonlítjuk össze. A kritikus terület jobbkezes (a gyakorlatban általában először a kritérium értékét számítják ki, és abból határozzák meg a szignifikancia szintet, amelyet összehasonlítanak a küszöbszinttel α ).

M > 10 esetén a Kendall-féle rangkorrelációs együttható τ normálishoz közeli eloszlású a következő paraméterekkel:

ahol M [τ] – matematikai elvárás; D [τ] – diszperzió.

Ebben az esetben a normál normál eloszlási függvény táblázatait használjuk:

a kritikus tartomány τ α határa pedig az egyenlet gyöke

Ha az együttható számított értéke τ ≥ τ α, akkor a rangsorok valóban jó egyezést mutatnak. Az α értékét jellemzően 0,01-0,05 tartományban választják meg. t ≤ 10 esetén t eloszlását a táblázat tartalmazza. 2.1.

Két rangsor konzisztenciájának jelentőségének ellenőrzése a ρ Spearman-együttható segítségével ugyanabban a sorrendben történik Student-eloszlási táblázatok segítségével m > 10 esetén.

Ebben az esetben az érték

eloszlása ​​jól közelíti a Student eloszlást -val m– 2 szabadságfok. at m> 30 ρ eloszlása ​​jól egyezik a normál eloszlással, ahol M [ρ] = 0 és D [ρ] = .

m ≤ 10 esetén a ρ szignifikanciáját a táblázat segítségével ellenőrizzük. 2.2.

Ha a rangsor nem szigorú, akkor a Spearman-együttható

ahol ρ – a (2.6) szerint van kiszámítva;

ahol k 1 , k 2 a nem szigorú rangsorok különböző csoportjainak száma az első és a második rangsorban; l i az azonos rangok száma én th csoport. A ρ Spearman és τ Kendall rangkorrelációs együtthatók gyakorlati alkalmazásakor szem előtt kell tartani, hogy a ρ együttható pontosabb eredményt ad a minimális variancia értelmében.

2.1. táblázat.Kendall rangkorrelációs együttható eloszlása



Kapcsolódó kiadványok