分享

艾瑪人肉學習週記(Week11):超酷的、會騙模型的Mikolov

 
我從小對文字的感受與掌握程度,勝過圖片與聲音,這堂原是應該安排在聊天機器人之前的「自然語言處理」,我上起來頗有趣味,語言中的模糊與無邊,讓語言成為人類的特徵,更幸運的是,陳宜欣老師講得生動,不然這種題材讓人睡過去,只是分分鐘的事,這堂課讓我想起,中文系的必修課「語言學概論」與最近幾年在師大上華語師資班的內容,解構語言已是件難事,在自然語言處理中還得教會機器這件事。
我們活在一個內容量巨大生產的時代,文字是主要的形式之一,也是過去無法作為分析資料的形式,但現在,文字訊息裡面的資料也能萃取出來,像是材料科學中的不斷進步,使得過去不知如何用的成為新的材料。
陳老師笑稱自己開場的投影片其實沒什麼技術含量,但卻是她認為極為重要的觀念,當大家都在講「人工智慧」、卻莫衷一是時,我們先看「智慧程度」該如何區分?智慧程度是一個三角形,最底層(第一層)是「反射」,像是膝反射,第二層是「智慧反應」,根據環境輸出,訓練學生時,至少要培養學生不只有反射的能力,能因應變化做出調整,第三層是「尋找目標」,對管理者來說,如果團隊成員有尋找目標的能力(與動力),他們就會做管理者沒有交代的事,管理者也不用說一動,下面的人才做一動,畢竟管理者的時間、知識與能力也是有限的,不能善用眾人的智慧,管理者個人再怎麼厲害都還是比協作良好的團隊低能,第四層是「學習」。
陳老師感慨上週六那堂課,是陳昇瑋執行長過世後她第一次上課,心中千頭萬緒,回憶中提起陳執行長很怕台灣沒有趕上這波全球的AI浪潮,他常常蠟燭兩頭燒,我始終相信台灣有許多人都期望能夠越來越好,但不知放眼望去,鬧劇竟也這樣喧嘩。課程中分享了一個學習地圖,給了像我這樣的初學者,一個循序漸進的解答。
AI領域是許多學科的綜合,又根據不同的方向,有不同的學習路徑,在IeadAI中,無論如何都是以「程式語言」為起點。
https://idea.cs.nthu.edu.tw/~AIcoursemap/home/roadmap-course-series-chinese.html
How language shapes the way we think | Lera Boroditsky
https://youtu.be/RKK7wGAYP6k
課堂中分享了以上這則TED TALK影片,我多少有點驚訝我們所說的語言竟然這樣形塑我們的思維方式,其程度可能比我以為的要多許多。以片中提的某個部落為例,那裏的人慣用「你要去哪?」作為問候語,而且他們的語言中並沒有左/右的的概念,也就是說,如果有一個人問「你要去哪?」,回答可能是「北北東的遠方」,或問「水井在哪裡?」回答可能是「小明家的西南」,像這樣的組群,方向感顯著優於沒有這類語言特徵的其他人,這也暗示了我若出生在這樣的部落中,有著不是路痴的可能性;又或者是,陳老師的外國學生曾向她反應,每次向台灣同學介紹自己的母國,到末了會問是否還想知道「穿什麼」、「吃什麼」、「閒聊話題」、「渡假勝地」,台灣同學總是問「吃什麼」,因為我們就是以「吃飽沒」為問候語的台灣人啊!
「自然語言處理」在1960年代,從辭彙分析走到句法分析,卻在語意分析時遇到難關,原先以為可以用一個夠大的Symbol Table來解,像是來個巨大考古題題庫總行了吧,不過,語言是不斷被創造出來的,新的說與辭彙無法在大考古題的掌握之下,一直到了1990年代才用機器試著去推理,而充滿濃厚的機器學習風味的Word2Vec,用了一個超酷的方法把字變成向量(想要的答案),原是利用類神經網路來學習字的權重,卻把輸入的向量那塊挖走當答案,正是一個AI領域中的「草船借箭」。
回到1960年代的卡關處-語意分析,學者們無法解決的問題是,不知該如何賦予每個字「向量」,讓向量進入模型中的分析是有意義的。於是,Mikolov在2013年發表的論文,改寫了自然語言處理,發展出給每個字一組向量的方法,讓這個向量包含該字的特徵,例如,讓king/man/woman/queen這幾個字的向量,可以運算出king-man+woman=queen這樣的結果,使用的方法是,找來很多句子,挖空其中的一個字,用上下文來預測被挖空的字,這相當於監督式學習的概念,因為我們是有答案的,經過訓練後,看似是要追求訓練模型後的權重,其實是想要前面的hidden layer,得到能夠描述文字特徵的向量-能夠想到這個招數真是太酷了!
以上是那天上課時,我認為最酷的論文,然而,解決問題的旅程還沒完。在Google出Bert前,沒人能用這麼大量的資料,還能得到這麼好的結果,但在此之後,現存的語言模型像是軍備競賽,要比機器、比電力(誰燒得起錢),而且,台灣使用中文,許多在英文上得到好結果的模型,用中文不一定可以得到好結果,台灣顯然要另闢蹊徑,基於已經很多人用「自然語言處理」、(那時)在Twitter上可以取得免費資料,陳老師帶著學生用「文字探勘」的方法做情緒分析,以下是兩者的不同:
(老師:「沒錢有沒錢的作法...」)
接下來用髒話當例子,大家比較容易有印象。在社群軟體上收集大量文字訊息,用「文字探勘」的方法,分析字詞出現的頻率、字詞互相伴隨出現的頻率、比較字詞間的重要關係程度,留下重要字詞,重組情緒特徵,其中有趣的結果是,在快樂、悲傷、生氣三種情緒分類中,「老師」和「媽媽」是出現在生氣類中的高頻詞,再想一下髒話裡總是要問候媽媽和老師,而講髒話又常出於憤怒,統計起來竟然吻合。
專題中有彭其捷老師在「AI與資料視覺化」,我是「視覺化」的粉絲,會買《Google必修的圖表簡報數》和《用資訊圖表讀懂第二次世界大戰》這類的書,借一下老師上課簡報中的一頁(如下),其實貼完即講完:首先是提升數據特性的掌握能力,簡單說就是在第一堂統計課提到的資料探索,第二是提升模型優化的溝通品質,需要特定領域的人挹注產業知識,如果能夠讓他們更了解模型建構的進度與瓶頸,他們也能夠比較好的給更有品質的反饋,像是在 https://playground.tensorflow.org/ 這個網頁中,AI模型變成圖像化,最後提到成果展示,就是要看了好像有懂,感情上才有被接受的可能,很多人一看到是海量資料、數學算式、無限多程式碼,無法發揮響力--然後,就沒有然後了。
天下雜誌的視覺化團隊做的蠻好的,除了COVID-19也還有政治獻金的,看來做了不少題目。
https://web.cw.com.tw/covid19-taipei-lockdown/index.html
加送彭老師在「AI與資料視覺化」這堂課中推薦的網頁:Youtube上的「Two minutes paper」。(AI這洞真的很大,給我什麼我都會先收下來)
本週六小組的專題簡報初報完成後,我要給自己的專題一個開始,也要面對會佔專題80%時間的資料整理,除此之外,也在Google和Kagge上找相似題材的資料,我會陸續紀錄沿這個過程,同時也會更加注意,讓別人更容易理解的方法去說明這個專題。
分類:學習

評論
上一篇
  • 下一篇
  • 更多文章
    載入中... 沒有更多了