分享

數據分析你該用統計分析模型嗎?

2018年Giudici發表金融資料科學的期刊論文,文章中提到關聯模型是資料科學的重要模型之一,但是仍不能解決統計模型問題。Golden等人在2019年雖然是提及模型設定錯誤的問題;分配錯誤問題,但他們仍認為缺失數據才是主要根源,會導致模型錯誤或分配錯誤等。
這是正確的!如果數據本身承載的資訊量有瑕疵,就會影響數據本身的建模,或尋找數據之間的關聯模型。而數據本身的問題就牽扯很多事情了,從設計、搜集、填寫過程等都有機會造成數據產生瑕疵。因此,資料科學家就需要小心翼翼處理數據。
此外,Golden等人雖然很想解決只有部份數據如何估計,但其論文的數學推論還是基於封閉集合的數據集,能否適用開放式數據?他們的想法或許是將封閉數據集是為開放式數據集的部份數據,以此來解釋分析方法可以用於現在大數據的分析中。
理論模型的推論需要假設,假設的機率密度函數,而詳細看完假設與定義後發現他們定義的模型形式錯誤是發生在機率模型,而非迴歸模型。這點可以想像得到的理由在於他們要使用MLE需要先知道機率密度函數,如果機率密度函數錯誤,那MLE就會發生一開始的錯誤。
而MLE的函數當中會將直線模式或非直線模式,因為迴歸分析認為參數中具備直線或非直線關係。所以這樣的直線模式或非直線模式就會至於參數其中,然後MLE對迴歸的係數開始展開微分。至於直線模式和非直線模式使用通用函數表示後,並不能顯示出模式的影響性,特別是迴歸模式的錯誤問題。
上述內容顯示了整個迴歸分析方法的環環相扣,從數據特性、數據的機率分配問題、解釋變數問題、迴歸模型形式問題等。而統計模型又是大數據和人工智慧寫入核心使用的機率模型和關聯模型,分析方法所產生的問題,加上電腦運算只能運算間斷型數據,那麼這些種種對大數據分析和人工智慧的影響以及發展都是可想而知會發生怎樣的後果。這也是為什麼大數據分析和人工智慧會降至以計算次數到機率的累加方式代表整體模型狀態,或者創造出更多新的分析方法試圖去解決大數據分析和人工智慧。
那麼迴歸分析方法倒底能不能解決問題呢?若單純迴歸分析方法當然是不行的。大數據分析和人工智慧從開始的方法論就要重新開始討論,畢竟統計分析是用少量數據去分析的,當大量數據時,數據量的改變對統計方法和統計公式到底發生什麼樣的影響?這對專家學者們好似不以為意,也認為不值得一提。但想運用到大數據或以數據驅動的人工智慧,少量數據會讓一個不存在於資料庫內的數據讓人工智慧的判定發生不知所云的情況。這也就是為什麼從大數據發展才能到人工智慧,因為你的資料庫內容一定要能夠涵蓋最廣泛的數據,不然一些從沒在資料庫的內數據忽然發生時,人工智慧判定例如金融交易就容易發生難以想像的狀況。
例如,你應該只能核貸100萬元,但人工智慧卻判定你可以核貸300萬元,下一次判定你只能核貸5萬元。沒有人知道人工智慧發生什麼事情,也不足以讓人信任。這也就是為什麼金融科技或科技金融看似很棒,很有未來性,但除了受限法令外,實際上很難發展的原因,銀行端敢相信人工智慧幫你核貸?
又或者,你要開刀,開刀的是人工智慧的機器,沒有人操作,都已經將你要開到的部位,深度多深、寬度多寬,血量流失多少要做什麼動作都寫入機器內,你敢讓人工智慧的機器幫你開刀嗎?
#金融  #資料科學  #期刊論文  #文章 
分類:學習

🟠掃除觀念的雷點🟠算學的運用🟠建模技術🟠大數據分析方法🟠人工智慧分析方法

評論
上一篇
  • 尋找美國PCE通貨膨脹率的機率模型
  • 下一篇
  • 更多文章
    載入中... 沒有更多了