分享

如何區分條件機率和貝氏定理

在機率的計算中有邊際機率、聯合機率和條件機率。所謂邊際機率是指從單一個角度來看集合空間的樣本情況,所以它只有一個特性。邊際機率就是計算這個特性發生的頻率。有邊際機率就會有聯合機率。「聯合」代表有超過一個以上的特性同時發生的頻率。你可以自主選擇任兩個、任三個的特性,然後討論同時發生的可能。因為「聯合」機率比邊際機率多了很多特性(也就是角度),想要同時一起看就會很困難,容易顧此失彼。因此聯合機率需要較長時間的訓練才知道其意義與解讀資訊的方法。最好是有老手帶你熟練這些過程,不然自己摸索,要耗費的時間真的很長。

條件機率

那麼,條件機率是指兩個或超過兩個以上的角度,其中有一個是最後發生的,其他依序先發生的角度就會變成「條件」。所以條件機率也就代表這些角度與看法是有先後次序的。例如,我們可以先看性別、在看對方住哪、看他家的組成人員,最後看他的消費力。這樣的例子中就會有四個角度在看事情。我們是先從性別去將整體切割成兩部份,也就是男女。選定特定的角度(例如男性),再去切割居住地,這個就可以切割很多了。當然也可以切割為北中南三個部份。然後在已知男性且居住在北部後,【男性且居住在北部】被家庭成員人數切割。切割完後,【男性+居住在北部+家庭成員人數有2人】是剩下的整體,我們再做最後的切割 - 看消費力。這時候,你的整體其實變得很小了,是【男性+居住在北部+家庭成員人數有2人】,而你在這個整體上想討論的是消費力。
所以條件機率的應用性非常廣泛,同時也會因為你個人主觀的問題產生不同的角度排序。上述只是一個很小的例子而已。它可以產生2*3*7*5的可能組合,其中的7代表我將家庭成員人數分為1, 2, 3, 4, 5, 6, 7(含以上)同住的家庭人數;而5代表五等分的消費力區分。你會因為你遭遇到的問題,而需要某一個特性或角度去看待事情,所以你會發現整體會變小。甚至你可以是這四種角度中去挑選出2個或3個角度個別去探索。誰說你有四個角度就要四個都用上呢?這是沒有強制性的,而是根據你的需要而去選擇。而這點卻是很多人無法理解的,認為只有眼前所見的角度就要全部用上。但實際的情況是你的問題根本不需要那麼多角度,或是你本來不需要那麼多的角度去處理問題。
那你會想說為什麼還要有那麼多角度?是的,這些角度其實對應的就是資料庫中的欄位。如果資料庫有22萬個欄位,請問你全部都要使用嗎?這是不可能的。我們會根據自己的問題或想解決的事情,去挑選對應問題關鍵詞的欄位,然後討論那些欄位而已。甚至在討論過程中還可能發現其實不需要那麼多欄位,有些欄位的數據資料驗證後,與問題是無關的或沒有解釋能力。

貝氏定理

貝氏定理一般又可被認為是「事後機率」的計算。所謂貝氏定理是指我們要由後面往前推。
那首先你得先定義哪個是前,哪個是後。這點很多人都不知道,也不清楚。這同樣也是人為認定的。我認為性別就要排第一個,你可能認為居住地要先排第一個,另一個人可能覺得要先從消費力上排第一個作為開始。這些排列出來的樹狀圖分支就會有所不同,這也代表著不同人有不同看法,產生不同的樹狀圖排序,自然也造成了貝氏定理使用不同的欄位變數與次序。有了這個觀念後,你就會輕鬆很多。你也無須人云亦云,或是搞不清楚。因為決定貝氏定理產生的變數討論是由你一開始的問題或想解決的事情而決定的。
那接下來就簡單了。貝氏定理的計算方法跟條件機率是一樣的。若你已經做完條件機率,那就能夠順著你有興趣的那個「路徑」或「分支」反著走回來。例如前述的例子中,我設定的是性別→居住地→家庭成員人數→消費力。那麼倒過來會長怎樣呢?消費力→家庭成員人數→居住地→性別。於是我將我有興趣的前後角度重新順一次:男性→北部→2人→第4等。那貝是定理就能夠很輕鬆地被定出來:第4等→2人→北部→男性。

一致性的可能

下一個問題是我能不能很輕鬆愉快地倒著角度走回去呢?並且真的對應到男性?這個問題答案是未必!可能在中間的北部就不會出現,反而出現南部。這時候就產生返回時的岔路上。
那我該如何解決這個問題呢?如果我們想要讓從前往後走與從後往前走的路徑是一致的,那麼你需要非常複雜的運算過程,那就是先從一個角度開始出來,例如男性→北部。然後由北部為條件下看能不能得到男性(這就是貝氏定理)。如果可以,那表示這個路徑可以成功。然後再加上第三個家庭成員人數。第三個家庭成員人數加入後,如果你的路徑還是成功了,恭喜你,沒有問題。但如果中間過程發生問題,那有可能是因為設定的分類過於細,導致一點點的變化就會跳到另一個分類裡頭,這時候你就無法走回原來的地方。這很像是迷宮一樣。你走的迷宮只有幾條路,那很容易走出來;可如果迷宮的道路設計得非常複雜,非常多分支路線,然後抬頭也看不到盡頭,你就得花很多時間去嘗試找出哪條路才能通往出口。至於你走過不能通往出口的道路,就會被標示起來,提醒自己下次不要走那邊。但分類不分細一點就不能展現出分類的特性,也不能愈加精準去分析這些數據。這變成是一個取捨(tradeoff)的問題。
#大數據 #機率 #人工智慧 #分析方法 #大數據分析 
#條件機率  #角度  #空間  #樣本 
分類:學習

🟠掃除觀念的雷點🟠算學的運用🟠建模技術🟠大數據分析方法🟠人工智慧分析方法

評論
上一篇
  • 更多文章
    載入中... 沒有更多了