欧美成人高清,97精品国产福利一区二区三区,аⅴ资源天堂资源库在线,色999日韩自偷自拍美女

相關(guān)性分析與卡方檢驗(卡方檢驗的線性關(guān)聯(lián))

相關(guān)性分析與卡方檢驗(卡方檢驗的線性關(guān)聯(lián))

從事質(zhì)量行業(yè)的朋友一定經(jīng)常需要對數(shù)據(jù)進行分析,這也是一項最基礎的技能。那么你知道幾種數(shù)據(jù)相關(guān)性分析的方法呢?

初高中學習是孩子處于青春期的階段,也是孩子學習當中最關(guān)鍵的六年,因為它涉及到了中考與高考,左養(yǎng)中學教育賴頌強再講孩子的學習方法和考試心里調(diào)節(jié)的直播課里,系統(tǒng)的講解到如何幫孩子提升學習效率,提升考試時候的心理素質(zhì),從而提升學習成績。

做數(shù)據(jù)分析時,為了提煉觀點,相關(guān)性分析是必不可少,而且尤為重要的一個環(huán)節(jié)。但是,對于不同類型的數(shù)據(jù),相關(guān)性分析的方法都各不相同。本文,主要按照不同的數(shù)據(jù)類型,來對各種相關(guān)性分析方法進行梳理總結(jié)。

相關(guān)性分析是指對兩個或多個具備相關(guān)性的變量元素進行分析,相關(guān)性不等于因果性。

一、離散與離散變量之間的相關(guān)性

1、卡方檢驗

卡方檢驗是一種用途很廣的計數(shù)資料的假設檢驗方法。它屬于非參數(shù)檢驗的范疇,主要是比較兩個及兩個以上樣本率( 構(gòu)成比)以及兩個分類變量的關(guān)聯(lián)性分析。其根本思想就是在于比較理論頻數(shù)和實際頻數(shù)的吻合程度或擬合優(yōu)度問題。

它在分類資料統(tǒng)計推斷中的應用,包括:兩個率或兩個構(gòu)成比比較的卡方檢驗;多個率或多個構(gòu)成比比較的卡方檢驗以及分類資料的相關(guān)分析等。

相關(guān)性分析與卡方檢驗(卡方檢驗的線性關(guān)聯(lián))

(1)假設,多個變量之間不相關(guān)

(2)根據(jù)假設計算得出每種情況的理論值,根據(jù)理論值與實際值的差別,計算得到卡方值 及 自由度

df=(C-1)(R-1)

(3)查卡方表,求p值

卡方值越大,P值越小,變量相關(guān)的可能性越大,當P<=0.05,否定原假設,認為變量相關(guān)。

2、信息增益和信息增益率

在介紹信息增益之前,先來介紹兩個基礎概念,信息熵和條件熵。

信息熵,就是一個隨機變量的不確定性程度。

條件熵,就是在一個條件下,隨機變量的不確定性。

(1)信息增益:熵 – 條件熵

在一個條件下,信息不確定性減少的程度。

Gain(Y,X)=H(Y)-H(Y|X)

信息增益越大,表示引入條件X之后,不純度減少得越多。信息增益越大,則兩個變量之間的相關(guān)性越大。

(2)信息增益率

假設,某個變量存在大量的不同值,例如ID,引入ID后,每個子節(jié)點的不純度都為0,則信息增益減少程度達到最大。所以,當不同變量的取值數(shù)量差別很大時,引入取值多的變量,信息增益更大。因此,使用信息增益率,考慮到分支個數(shù)的影響。

Gain_ratio=(H(Y)-H(Y|X))/H(Y|X)

二、連續(xù)與連續(xù)變量之間的相關(guān)性

1、協(xié)方差

協(xié)方差,表達了兩個隨機變量的協(xié)同變化關(guān)系。如果兩個變量不相關(guān),則協(xié)方差為0。

Cov(X,Y)=E{[X-E(X)],[Y-E(Y)]}

當 cov(X, Y)>0時,表明 X與Y 正相關(guān);

當 cov(X, Y)<0時,表明X與Y負相關(guān);

當 cov(X, Y)=0時,表明X與Y不相關(guān)。

協(xié)方差只能對兩組數(shù)據(jù)進行相關(guān)性分析,當有兩組以上數(shù)據(jù)時就需要使用協(xié)方差矩陣。

協(xié)方差通過數(shù)字衡量變量間的相關(guān)性,正值表示正相關(guān),負值表示負相關(guān)。但無法對相關(guān)的密切程度進行度量。當我們面對多個變量時,無法通過協(xié)方差來說明那兩組數(shù)據(jù)的相關(guān)性最高。要衡量和對比相關(guān)性的密切程度,就需要使用下一個方法:相關(guān)系數(shù)。

2、線性相關(guān)系數(shù)

也叫Pearson相關(guān)系數(shù), 主要衡量兩個變量線性相關(guān)的程度。

r=cov(X,Y)/(D(X)D(Y))

相關(guān)系數(shù)是用協(xié)方差除以兩個隨機變量的標準差。相關(guān)系數(shù)的大小在-1和1之間變化。再也不會出現(xiàn)因為計量單位變化,而數(shù)值暴漲的情況了。

線性相關(guān)系數(shù)必須建立在因變量與自變量是線性的關(guān)系基礎上,否則線性相關(guān)系數(shù)是無意義的。

三、連續(xù)與離散變量之間的相關(guān)性

1、連續(xù)變量離散化

將連續(xù)變量離散化,然后,使用離散與離散變量相關(guān)性分析的方法來分析相關(guān)性。

2、箱形圖

使用畫箱形圖的方法,看離散變量取不同值,連續(xù)變量的均值與方差及取值分布情況。

如果,離散變量取不同值,對應的連續(xù)變量的箱形圖差別不大,則說明,離散變量取不同值對連續(xù)變量的影響不大,相關(guān)性不高;反之,相關(guān)性高。

版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻,該文觀點僅代表作者本人。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關(guān)法律責任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請發(fā)送郵件至89291810@qq.com舉報,一經(jīng)查實,本站將立刻刪除。
(1)
上一篇 2022年7月14日 上午8:26
下一篇 2022年7月14日 上午8:56

相關(guān)推薦

主站蜘蛛池模板: 包头市| 中阳县| 玛沁县| 恩平市| 衡水市| 施秉县| 四子王旗| 庄河市| 泸州市| 民和| 湟中县| 阿坝县| 昌吉市| 剑阁县| 上栗县| 思茅市| 沈丘县| 榕江县| 台东县| 沭阳县| 盖州市| 海伦市| 利津县| 曲麻莱县| 博湖县| 电白县| 胶南市| 黄山市| 麻栗坡县| 浦江县| 修武县| 荥阳市| 南召县| 宜兴市| 平远县| 壤塘县| 东乌珠穆沁旗| 新宁县| 梁河县| 永兴县| 东莞市|