分享

艾瑪人肉學習週記(Week10):你的公司還在史前時代嗎?

 
我非常喜歡7/18上的「推薦系統與聊天機器人」,特別是推薦系統,我想是因為我們是有歷史的! (也會一直有未來)
在「聊天機器人」的課程內容中,發現身邊早已滲透了許多純聊天和任務型的聊天機器人,但多數還是屬於任務型,有許多已能完成任務,有部分也可以做到將任務分類再轉給人處理。在最近這兩週查資料時,我發現台灣有成大的吳宗憲團隊在做情緒辨識協助治療躁鬱症等心理疾病,最近這週的課程內容中,陳緼儂老師也有介紹目前Cognitive Behavior Thereapy(CBT),雖然這只有一頁帶過,提及要找醫生的門檻較高,但先用聊天機器人聊聊解悶、發現徵兆的門檻較低,的確也是一個助人覺察的工具。
成大吳宗憲團隊在做情緒辨識
http://news.secr.ncku.edu.tw/p/404-1037-132268.php
另外,雖然我個人對陪伴機器人沒什麼興趣,Gatebox產品和廣告並不會引發我的情感共鳴,但做得感覺不錯,推薦給宅宅好朋友。
早上的課程結束前,陳老師說:
「有人問說這種產品會不會讓宅宅不出門認識人、不交女朋友了?」
陳老師答:
「他們本來就沒有打算要交女朋友,不如有個可愛的陪伴機器人,心情會變好。」
如果不用出門跑步,我也頗自豪自己能宅在家裡不出門的累積小時數,家裡有書有電腦有網路,隨便哪件事都能做得不知日夜,還有人投食,生存無虞。
宅宅好朋友2016年版
https://youtu.be/_hxzyRiJcYs
宅宅好朋友2018年版
https://youtu.be/bBOXQz7OHqQ
我非常喜歡蔡銘峰老師的開場觀點(如圖,這是老師講義裡的一張圖,是他念書時的圖書館照片)。我小時候圖書館是有檢索卡片的,圖書館裡的書這麼多,如果無法檢索,不知道如何找到自己要的資訊,再多資訊也是枉然,而老師說資料量爆炸性成長,量已經大到人往往不知該如何檢索,甚至是用關鍵字時,你所找的東西也被你所知道的關鍵字限制住,當資料量大到不知道該找什麼,以搜尋為基礎的推薦系統一定要出現,而高度黏著我們生活的Amazon、Facebook、LinkedIn、Netflix、Spotfy也都有自己的推薦系統,使用者渴望被了解。
在推薦系統中,動不動就出現維度極高的的資料,蔡老師指出,學習時可用Python和R,但進入商業用途,仍然要用C++,才能對付一天光是壓縮使用者記錄的文字檔以G為單位的KKBox,在他參訪Deepmind時,聽到數年前Google的這種文字檔一天的大小是以T為單位的,但Deepmind的人同時也說:
「資料清理得好、pipline設計得好、資料量大,用線性模型就可以達到好的結果。」
(這句話我並沒有全懂)
我其實不知道,日夜與我相伴的推薦系統,其實並不是收集好資料後(到底是在Amazon和FB上要買多少東西),放到模型裡跑出不錯的結果就可以收工了,從蔡老師介紹業界評估的3步過程,許多我們現在看來理所當然掏空我們錢包的推薦,並不理所當然。(一番努力後就理所當然了...)
3種業界的評估過程--
1.Alpha版/線下評估:學術界最擅長,但業界不一定能用,通常只要有5個%的進步就值得大書特書地投稿,後半部就靠論文寫作技巧了。
2.Beta版/質性報告:KKBox的作法是讓真人小編測試,將推薦出的曲子一首一首聽、寫報告,第三年推薦系統一直過不了那關,即使已經做到正確率98%的推薦系統,仍然在小編之間負評一片,例如聽獨立樂團的人,看到推薦系統給他/她周杰倫,感情上很難接受,而以統計、模型、演算法為基礎的推薦系統會傾向選較少出錯的選擇,也就是出現機率較高的曲子。
3.RC版/著重使用者體驗:通常會用卡歌率、長歌單是否聽完作為指標。
以蔡老師與KKBox合作的經驗來說,迄今合作了8年,但到了第六年才上線,當時還大張旗鼓地廣告自己的推薦系統,之前不太敢說,因為說自己會推薦又沒中,使用者不爽指數飆高,將時間往前推,說自己加入KKBox第三年,還是過不了小編那關,後來加入深度學習後,學會推薦音樂不能只推受歡迎的,能用草東的「大風吹」去找推薦清單時,出現不認識的歌手(那就對了,不認識就很獨立),現在正在試用「愛你一萬年」+「周杰倫」,能不能找出感覺類似的新歌,或是編一份在捷運上聽的爵士樂清單。
有趣的是,蔡老師是以Jim Gary的第四範疇(The Fourth Paradigm)作結束。
先介紹四個範疇的分界和主要想法。
1.Experimental Science(史前-牛頓之前)
2.Theorectical Science(1800AD-電腦發明之前):透過數學推動其他領域的進展。
3.Computional Science(電腦發明後):用電腦算,可模擬核爆。
4.Data-Driven Science(已經在這裡):以資料為主,例如台積電可以用資料改進製程,行之有年。
補充 https://buzzorange.com/techorange/2013/12/12/jim-gray-and-the-fourth-paradigm/
蔡老師感概,很多公司或公部門,資料或在散落紙本或在人腦裡,退休了知識就不見,或許不要想著要建多大多厲害的AI,好好建Data Warehouse或Data Infrastrue,要找到可用的演算法不難。資料科學中,把raw data化成informaition,在把information化成intelligence,intelligence才是可以賣錢的東西。 
也就是說,沒有Data,就沒有intelligence的累積,也不會有常續性地做出較佳決策。
(這種感慨原來不是因為我菜才有)
分類:科技

評論
上一篇
  • 下一篇
  • 更多文章
    載入中... 沒有更多了