分享

芬蘭國民AI-3.3Naive Bayes classification

 
Naive Bayes classification是貝氏理論中最有用的應用。The Bayes classifier是機器學習的工具(技術),用來分類,例如把文字內容分類成兩個以上的類別。當類別可以被正確分類,這個分類工具會被拿來分析一組投入訓練的資料。
給定一些不同的觀察點,The Bayes classifier用來確定各組的機率。在模型中的這個假設,是為了使特徵變數(feature variables)有條件地獨立於某組(conditionally independent given the class)。(這裡還不會討論conditionally independence的意義,這裡只要知道利用conditionally independence是可以用來建立the classifier)
應用:垃圾郵件過濾器(垃圾郵件vs.肉罐頭,不是垃圾郵件)
在這些郵件裡的字會對應特徵變數,所以模型內的這些特徵變數會被訊息的長度決定。先用垃圾郵件過濾器來說明為何Naive Bayes classification是naive?最初的想法是選一個字剛好出現在另外一組字的後面,就可以找出垃圾郵件,簡單地說整個過程,就是相鄰兩個字之間沒有關聯、或是字的順序排不出意義,這個過程(想法)頗naive。這個過程(想法)雖然天真,但是實際上還真的可用,主要算法是由統計學家貢獻。
https://kknews.cc/zh-tw/news/29ragqz.html
(比我解釋得好多了)
在網頁的表中,以實際數字為例,先用幾個字裡面的million做Likehood ratio的計算,在spam中, 95,791個字中出現156個million,比例為1/614,但是在非垃圾郵件裡,306,439個字中出現98個million,比例為1/3217,Likehood ratio為(1/614)/(1/3217)=5.1,平均51封垃圾郵件裡,會有10封是正常郵件,這表示用million當過濾標準,當先驗機率是1:1時,對郵件過濾的後驗機率是83.6%。
如果用million/dollars/adclick/conferences整組字丟下去過濾,參考以上算法,後驗機率將升至98.5 %。
分類:學習

評論
上一篇
  • 下一篇
  • 更多文章
    載入中... 沒有更多了