分享

迴歸分析不能不說的二三事 (上篇)


分析方法 資料科學 統計 迴歸分析 數據分析
迴歸分析是統計學中很常被使用,也是很重要的分析方法。迴歸分析可以找出數據的直線趨勢,在最小誤差下確認趨勢方向。
這真的是很棒的分析工具,也是想要學習分析技術的朋友們不能錯過的分析方法。既然如此重要且有用,應能廣泛被使用,還能解決問題,但真是如此嗎?
其實迴歸分析方法只是基礎的分析模板,既然是理論出來,就會帶有假設。如果不符合假設就會降低分析方法的適用性和結果的真實性。所以,我將說明迴歸分析的模型設計前提與假設,再說明如果無法符合假設會造成什麼事情,最後說明解決方法。這個解決方法將適用於大數據的分析上,讓學習大數據分析的朋友們不需要侷限在寫程式或目前常見「大數據分析」所指的平台技術。

1. 迴歸分析是什麼

迴歸分析是統計學中若有兩個或兩個以上隨機變數,當中存在前後關係時所使用的分析方法。目的在於可控制誤差的情況下,尋找隨機變數之間的前後關係,並能以數學方程式表示。
這當中有幾個關鍵點:1️⃣ 至少有兩個隨機變數 2️⃣ 隨機變數之間有前後關係 3️⃣ 要能找方程式。

2. 迴歸分析的前提

2.1 適用的數字特性
第一點】這兩個或以上的隨機變數值會被記錄成數對形式,如同資料欄位的一列,(B1, B2, B3)。多筆資料會一列列被記錄下來。這些數字具有累加性,也就是我們從小學習過來自實數系的數字。這類數字可以做加減乘除運算,還能做函數的轉換,例如,三角函數、指數函數、log函數等。
2.2 期望值有線性關係
第二點】通常提到迴歸分析的隨機變數是來自二維常態分配。至少有兩個隨機變數的關係,是來自條件機率分配,其中一個隨機變數為應變數,其他隨機變數為條件。這個條件機率分配是常態分配,條件可以反映在期望值或變異數。例如,兩個隨機變數為Y和X,迴歸分析認為Y和X有線性關係,所以其分配為 Y|X ~ Normal( b0+b1X, σ^2) 或 Y|X ~ Normal( b0+b1X, G(X))。
第三點】那麼迴歸分析在找哪個方程式呢?在第二點裡,可以看到常態分配的期望值是 E(Y|X) = b0 + b1 X,我們就是要找這個直線方程式。
請注意從實際數據關係中,沒人知道這個期望值是否真的是直線方程式。這是個理論假設!一個理論都會有其假設,根據假設,推導出最後到結果,形成完整的論證和理論。
那我還是先從理論上的假設說下去。這個期望值是理想,我們希望從實際數字找出直線關係,而實際數字不會完美地落在直線上,所以產生誤差。這個期望值的方程式就變成
Y = b0 + b1 X + ε
2.3 最小平方法
那上式要找什麼呢?第一,誤差(ε)要最小,如此一來,這個直線方程式就是所有可能直線方程式中最準確的。第二,這直線方程式要找出截距(b0)和斜率(b1)。如同高中所學的直線方程式計算概念,X和Y值已知下,不知道的是截距和斜率,所以可以用「點斜式」幫助我們解出截距和斜率。
可現在迴歸分析也要找截距和斜率,而這截距和斜率可以讓誤差最小。誤差是Y - (b0 + b1 X),可能正值,可能負值,所以有n個數對樣本代入誤差的計算,就會有n個誤差。
那哪個誤差可以代表這個方程式的誤差最小?選擇最大的誤差?選擇誤差取絕對值後挑最大?你任選哪個誤差都不好。
於是,數學家想到一個方法,叫做最小平方法。既然要代表這條直線和實際數字之間的誤差最小,那就把n個誤差都考慮進來。不過他們有正值,有負值,如果相加起來,這個總和會因為正負值抵銷而沒有代表性。因此,就讓我們把誤差值取平方,然後相加起來。如果這個平方和數值愈小,表示這組截距和斜率讓直線方程式更加符合實際數字。

#統計 #統計學 #迴歸分析 #迴歸 #大數據 #大數據分析 #人工智慧 #人工智能 #資料分析 #資料科學 #statistics #regression #bigdata #bigdataanalysis #artificialintelligence #AI #統計學不能做為大數據分析的工具
#分析方法  #資料科學  #統計  #迴歸分析  #數據分析 
分類:學習

🟠掃除觀念的雷點🟠算學的運用🟠建模技術🟠大數據分析方法🟠人工智慧分析方法

評論
上一篇
  • 機率不是預測的工具
  • 下一篇
  • 大數據分析從基礎學起
  • 更多文章
    載入中... 沒有更多了