分享

你的資料真的是來自常態分配嗎?測測就知道😏

不知道你是否曾經懷疑,為什麼時間序列資料的檢測總會很接近常態分配,滿足迴歸分析的假設,進而係數可以用假設檢定呢?在我學習這些知識的時候總會感覺有一絲絲帶怪異,卻又苦無證據。直到後來轉為研究大數據分析的精準建模過程中,為了瞭解數字特性,才發現了
雖然時間序列數據檢定後是常態分配,但未必為真!
從實際的情況也能得知此事!明明數據的次數分配圖顯示跟常態分配非常不同,但檢測數據是否為常態的圖示法或檢定都很讓人疑惑。這裡頭如果不是深入研究數字特性和模型特性,就會當做沒事,繼續使用迴歸分析。
那就讓我來說說幾個原因造成非常態數據會變成常態的原因。

1. 照著順序輸入產生序列關係

對我們所取得帶數據上,可能是同時間發生,但在輸入時依次輸入,造成數據產生序列關係。而序列關係是讓數據本身具有常態特性的可能。
這也是為什麼學者專家積極研究如何檢測出是否存在序列相關,並嘗試剔除序列相關的原因。
然而,被人詬病的是,在檢定是否存在序列相關時,專家學者只在意是否有序列相關,以及是否有隨機漫步的問題。所謂隨機漫步是指完全序列相關,以術語形容就是自我相關係數為1。
他們只在意這兩個問題。如果沒有序列相關,非常好!就依循既有的分析方法展開。如果有序列相關,就檢定是否有隨機漫步。有隨機漫步就用差分解決。所謂的差分最簡單的方式就是前後期數據相減,形成新的數據展開分析。
大數據 人工智慧 統計學 迴歸分析 統計學不能做為大數據分析的工具

圖片來自維基百科

那如果其數值為-1呢?以及序列相關的絕對值是介於0~1之間呢?單就數據來說,不進入迴歸分析,數據很可能在一開始就有序列相關,但迴歸的模型或是ARIMA系列的模型,經過估計出來的自我相關係數能不能被檢定出任一介於-1~1的數值呢?目前沒有看到相關的內容,如果這領域的專家學者知道的話再麻煩留言告知,萬分感謝。

1.1 檢查方式

很多人沒見過非常態分配的數據,特別是一些極值分配,所以影片就是以Arcsine分配為例,利用模擬器模擬分配,並且抽樣。我將讓你看到數據中夾雜序列相關會讓數據被扭曲成常態分配。造成誤解為常態分配而使用符合常態分配假設的分析方法進行分析。
看完影片後,當你用統計套裝軟體檢定資料為常態分配時,別肯定真的就是來自常態分配,因為序列相關就讓U型資料扭曲成鐘形😆😆😆。想來如果你想做大數據分析或精準建模時,很可能因此建立錯誤的模型。

2. 迴歸分析特性與限制式

當我們在發展大數據分析方法時,根據機率分配模擬器生成出來自不同分配的數據進行迴歸分析。總能檢測出滿足常態分配特性。原本以為是中央極限定理,後來檢測出是來自迴歸分析要求的殘差限制,加速殘差靠攏常態分配。
其實有限制式就代表有Lagrange 方程式,但我們在使用最小平方法求解係數的估計式時,並沒有感受到限制式的威力。因為多數人將之當做檢測殘差的滿足條件。後來,都被視為理所當然,連檢查都不檢查了。至於你恐怕也不清楚所使用的統計套裝軟體有沒有做這些檢查吧?
其實Lagrange方程式求解總是比教科書的最小平方法還要複雜。通常默認一定會被滿足的條件總是被忽略。但在做數字的精準建模時這些小地方都會影響你的分析方法是否真的適用精準建模上。沒有檢測過,我們也不敢出書專門討論大數據分析方法。所以殘差的分配檢定,很容易被迴歸分析的限制式給扭曲。

結論

無論是大數據或小數據,我們都不知道數據特性是如何,只能藉由各種的檢測方式去拆解數據的規則,從中發現特性為何。例如,數據本身帶有序列相關性質,所以你用這樣的數據跑分析,怎樣都是符合假設,但真實的數據情況你並不清楚,只是統計分析給了你自信說話,這未必符合數據真實情況。這就是為什麼在大數據分析方法上需要先行研究,調整公式和串聯過去的方法,形成跨越數學、統計、電腦的大數據分析方法。
正所謂根不正苗不紅,不打地基的房子別入住。大數據分析方法需要對數據解構,尋找數據規則。精準建模在大數據和人工智慧都是得先完成的任務,才能根據模型發展應用。而有些人可能從事的是分析性工作,他們同樣需要解構數據,了解數據規則,進而做決策。跨入大數據或人工智慧,學習大數據分析就得重視分析法。學習正確的分析方法,成本最低。就像走對路,就省下時間和體力。
---------------------------
參考來源:
  • 網上皆可查到序列相關概念。這是指前後數字具有關聯
  • 維基百科
  • 序列相關的國外課程講義https://eml.berkeley.edu/~powell/e240b_sp06/sernotes.pdf
  • 統計學不能做為大數據分析的工具-原因與補正
#大數據  #人工智慧  #統計學  #迴歸分析  #統計學不能做為大數據分析的工具 
分類:科技

🟠掃除觀念的雷點🟠算學的運用🟠建模技術🟠大數據分析方法🟠人工智慧分析方法

評論
上一篇
  • 馬斯克的野望 - 觀察他與clubhouse
  • 下一篇
  • 想學大數據分析,從資料中找出有用的資訊為你的工作業務找到決策方向?
  • 更多文章
    載入中... 沒有更多了