分享

你需要的大數據分析是什麼?

不是每個人都能夠成為大數據分析的程式設計人員。大數據分析在你眼裡是什麼呢?這點如果沒有定位清楚,你將隨波逐流,人云亦云。而所謂高科技也將流於口號。

🔴 為什麼我們得定位「大數據分析」?

大數據分析的英文很有趣,也很多人將其拉上神壇,高不可攀。如果正視統計分析的使用過程和大數據分析的使用過程,你有發現什麼不同之處嗎?
在中文來看,都是分析。但英文單詞卻不一樣。但我想這樣說,大數據分析不是一般學科中的分析,它指的是分析用的工具技術,它不在意方法。

🔴 你想要的大數據分析是平台技術還是分析方法?

如果你去看英文或中文版的文章說明「大數據分析」,都是在講平台,不是講分析方法。即使提到資料探勘(data mining)也只是一小部分,都在處理/清洗資料的階段,而不是分析資料的階段。分析資料還是用統計分析那套手法,從中抽出幾個觀念和方法,重新組合,放大,分析的排序改變,形成機器學習或深度學習的部份步驟內容。會搞成這樣也很簡單,因為沒有分析方法,因為要快速解決問題,因為統計分析方法的問題也沒人想解決,造就了大家現在看到的局面:換湯不換藥,並且還要用行銷的差異化手法,用程式不同複雜度不同創造差異與難以跨越的進入障礙。
可事實上,還是被評論為黑箱是可以被理解的。終究那些評估標準都是人為設定,那些篩選原則都是人為設定。試問哪個不是人為主觀設定?那樣設計出來的篩選條件和評估條件也都只是適用於那一次研究的數據集。一旦數據集被改變,又得重新篩選,設定新的條件,只為了提高評估精確的指標!篩選的條件設定最終可以沒有標準,只求評估指標精確就是好的。這樣你還不如告訴我你的數據可以建構關聯的估計模型!可惜的是pick-drop之間與結果不會有數學模型,自然也做不到大數據的建模,以及人工智慧前期的建模。

🔴 機率放入大數據分析也要遵守機率定義

至於機率,看似重要,但沒有跟隨機率空間和機率公設的機率計算都是虛假的。預測值沒有在機率空間,機率值不帶預測含義。這裡的預測值是真指「預測」,例如今天預測明天的股價指數,這稱為預測值。今天的股價指數用估計模型算出來的稱為估計值。這是怎麼區分的呢?很簡單。跟機率空間概念是一樣的!從時間序來看,解釋變數值在歷史數據的範圍內都是估計值。從既有的解釋變數值,代入估計模型得到的數值,都是估計出來的。但如果解釋變數值不在歷史數據範圍內,就像今天的時間變數值是9878,明天的時間變數值是9879。在估計模型時,只用到1~9878,解釋變數的數值區域就在1~9878。9879就是落在數值區域之外,代入已經得到的估計模型,計算出的數字就是預測值。

🔴 預測?估計?你真的知道自己在預測,還是在估計?

你或許會認為為什麼要分的那麼清楚?不都是代入估計模型得到的數值嗎?為何不能都稱為預測值。在中文,預測是有未來性的,未知的特性。歷史數據即使你用機器訓練1~9878,找出對應的數值,還是歷史數據!而且還是已經發生的。已經發生的數據,放入機器訓練變成預測?這不是很怪嗎?就因為這變成潮流?新科技的變動很快速的。這些方法在時代的驗證下是否如同數學的定律適用所有?至少目前看來並非如此。

🔴 大數據分析還是要由你決定需要什麼

任何事情在基礎有錯後,後面都是錯誤。再回首已是百年身!數學定理也是如此,偽前題得到的就是偽結論。不會因為偽前提得到真結論。科學的真偽是十足十的真。人類世界的真偽是虛幻的。兩者不能混為一談。你是大數據分析的使用者,你需要的是什麼?過去數學和統計的分析訓練,明確地指出數據進來開始根據數學模型分析。數學模型假設要先滿足,才能下一步。照著推論走,直到結果。現在當你分析數據時,有沒有驗證數據滿足假設?數據特性為何?然後再去檢測數據之間的關聯?還是一開始就抓變數,找關聯在建模了?

🔴 大數據分析還是有方法的

大數據分析其實是既有方法複雜化。這怎麼說呢?原本我們對感興趣的變數數值略分析討論就好,但大數據得對每個變數,各自的數值進行定模。如果你的資料庫記錄100個欄位的變數,也就是有100個變數,那麼你就得定出100個模型。每個變數都會有一個數據模代表這個變數的資料來源,也代表變數的特性。
如果你沒有做這些,你的大數據就是大數據,不是大數據分析。分析也不是處理資料,而是要分析資料。你若把資料庫的數據清洗當作分析,那與真正在做的數據分析就會混淆!因為數據分析是要從數據當中幫助我們解決問題。當然,人工智慧的機器要用這大數據的資料庫當資料庫,更要將資料庫轉為數學模型才能加快運算和反應的速度。一旦資料庫的數據大到一定程度,光比對、搜尋、辨識、確認都是需要花時間的!如果這是發生在自駕車,那就是萬佛庇佑,千萬別有意外事件!因為肯定在高速行駛下會反應不及的。
當每個變數特性都確定後,這才能進行變數之間的建模!到這邊,如果你的數據根本不是常態分配,也不是對稱分配,那就精彩了!因為你沒有分析方法和工具可用,唯一的就是畫圖跟計數的粗糙方法。而這種方式想看出精確的變數關聯是很有難度的。這時候沒有正確的工具是無法幫你做到估計建模。
很多人都認為有過去的文獻幫他們背書,跟隨使用那些方法是沒問題的。如果你是在做數學模型,用符號推導模型,那這篇文章會遭遇的問題,你大多不會遇到。可是你若是在做數據分析,或是你想從公司龐大的資料內找出些端倪或是想將公司的資料庫數據進行分析。套用統計分析方法或由統計分析方法延伸改裝後的那些大數據分析工具,你可能需要抱持存疑態度,特別是當你沒有驗證工具(模擬器就是自我驗證數據狀況的工具)時更該如此。

#大數據分析 #大數據分析 #資料科學 #統計分析 #統計學 #人工智慧 #大數據分析法
#高科技  #大數據  #大數據分析  #統計學不能做為大數據分析的工具 
分類:科技

🟠掃除觀念的雷點🟠算學的運用🟠建模技術🟠大數據分析方法🟠人工智慧分析方法

評論
上一篇
  • 想學大數據分析,從資料中找出有用的資訊為你的工作業務找到決策方向?
  • 下一篇
  • 什麼叫做定模技術
  • 更多文章
    載入中... 沒有更多了