分享

艾瑪人肉學習週記(Week13):讓心變大

08/08上課的主題是展示AI用在各行各業中的成果與問題,上午是謝宗震老師,當我看到資料驅動了社會的關注,催生了輔導農地上違章工廠的法案,心裡是有感動的;下午是(我們已在MOOC上有感情基礎的)楊立偉老師,老師還是這麼深入淺出、風趣幽默。
謝宗震老師講的案例有政府也有企業,從台電的預警模型開始,預警模型可以用在改變決策、資源分配,有預警模型後,全台7,700個里可以事先做好資源配置,也可以在災後盡快修復。另外,我前面說讓人感動的是農地上違章工廠的案例,縱使國家機器是這樣的龐大、緩慢移動,但現在,因為工具變化、資料驅動,我們有機會加速變好,而不是忍耐。
環保署在台灣近5,000塊農地上,插了「受重金屬汙染,請立即停止耕作」的牌子,在2002-15年統計、取樣,列管這些受汙染的農地;而農委會在1992-2008年這段期間,做了13萬筆土地採樣,其中有993筆重金屬超標。謝老師問我們一個有趣的問題:「請問農委會和環保署做調查的目的是一樣的嗎?」儘管檢測方式並不相同,但在我們看來都是檢測重金屬,然而,這兩個單位的目標,明明是不一樣的--農委會的目的是振興農業,環保署的目的是環境保護。
2016年年中,兩個單位的新聞稿中,畫風迥異,點出了部門之間的壁壘、以及分工尷尬。農委會想拿來振興農業的資料,譬如說了解哪種土壤成分種植特定作物最有利,輔導農民有計畫的栽種,卻被環保團體拿來找更多應該列管的土地。老師被環保團體委託研究,用農委會的資料,幫環保署的專案做一次資料快篩,環保團體藉由兩個不同來源的公開資料中的差異,找出建議環保署要再去檢查的點、還有需要列管的土地,而環保署插「有汙染請停種」的牌,卻是需要農委會去協助農民去除汙染、回復耕種,拔掉「有汙染請停種」的牌。
2016年年底,天下雜誌開始調查,為什麼農地會有污染,除了政府單位已經放在網路上的公開資料外,天下雜誌從資料出發,啟動了田野調查,也做了互動地圖,讓大眾可以更了解這個議題,以下連結是這篇得到卓越新聞獎的報導。從我開始接觸人工智慧,我其實對於台灣人的優秀,非常有感,而且越來越有感,不僅僅是學術界裡,在國外留學工作的一小群人,還有在各行各業,在不同的利基市場中、隱身在農地裡的世界冠軍。https://topic.cw.com.tw/2016landfactory/
2019年7月,蔡政府修訂工廠管理輔導法,從2016年到2019年,這是一段難得的高速,台灣真的、明明有機會越來越好。國土政策是一個很大的議題,在這段時間中,看到了「其實可以」的效率,也確認了政府素來「若是不做能奈我何」的霸道。這樣的案例,讓我的心變大,原來現在的學習,可能可以指出這樣的問題,可能可以戳醒裝睡的人,如果有更多人被容易留下印象的視覺化資料、報導、影片提醒,不輕易遺忘那些難以計數的政見跳票,那麼,選票就會變成一把鋒利的匕首,插在裝睡的人的心臟上,到那時,不是我們台灣人不給說白話的政府第二次機會,而是當重要的時機錯過後,世界也不會給台灣第二次機會。
我曾在台北市議會報告的錄影中,聽過社會局長說人力是如何吃緊的段落,當時留下印象,但對於具體的狀況非常不清楚,而謝老師講起的一個與社會安全有關的案例,其實相當程度地,落實我對人工智慧的想像。
「全國每年有超過2萬件兒少家暴案件,平均一位社工每年要處理60件,其中有30%的案件屬於家暴回頭客。」以上是老師簡報中提供的背景資料,若是老師不說,我對於社工工作的沉重是無感的,一年60件,算起來就是一週約一件,也還好吧。其實不是這樣算,一個案件的期間至少是3-6個月,有的甚至長達好幾年,但社工平均年資18個月(對是18個月不是18年),遇到棘手案件(高危個案)時,社工陣亡得更快,只有9個月,在這個人力吃緊的情況下,貿然加人,並不能解決人力吃緊的問題。
這個「雙北兒少再受虐預警」的案例,得到總統盃黑客松卓越團隊的榮譽,老師揭露了這個「沒有獎金、只有榮譽」的案例,在過程中如何抽絲剝繭:剛講到人力吃緊,但是新進人員的流動性與案件特性,人力不足的問題,無法用增加人力來解決,因此,光是討論出要以「回頭客」(再度虐待)為預警模型的指標,就討論了一個月,而預警模型的使用,會使問題變成新的樣態,模型需要更新,而社會安全的領域中,很多問題要求根本解決,更需要的是處方分析,這類型的工作,現在多用人為處理。
老師特別強調實作時,資料盤點很重要。先將重要面向列出,但不是每個面向下都有資料,當資料只涵蓋六成面向時,模型只能得到六成的準確率是合理的,模型會受資料限制。這個提醒可以連結到之前芬蘭國民AI的系列文,芬蘭由政府出面,希望國民能有智慧化的素養,也要能了解對人工智慧的合理期待與使用限制,畢竟各位老闆們如果對人工智慧的認識來自電影或小說,或自己的想像,那也實在是與人工智慧這項工具互相耽誤而已。
上週開始整理資料,我發現不能靠直覺選模型,還是回到資料探索(EDA),再把第一堂課有提到的那部份看一遍,然後在網路上找更多說明和程式碼套件,而上週六再有老師這個「資料盤點」的提醒,又把我從「資料探索(EDA)」的位置,回頭推了一步。但這也無妨,畢竟未來人工智慧這項工具的介面和使用方法可能越來越簡單,比拚的不會是演算法有多花俏,而是釐清問題有多細緻。
謝老師在放飯前做的結語,我非常喜歡:「不是每個AI Project都會成功,決策者不一定會支持未必成功的案子,但我們要知道,核心是這個Project的過程對決策過程有幫助,而不是模型有多準,畢竟又要多準才叫準呢?」「我們所能做的是『規劃目標』,才能設計環境,取得較完整、較有品質的資料,然後就是好好收集重要資料。」
我認為AI的做法,固然是「資料驅動的變革管理」,不過,有時候光用敘述統計就能讓問題浮現,而解決方法也不在超級酷炫的艱深模型裡,只是「人」要做不做而已,不做的話,總是藉口無限的。
我在整理資料時,想起去年夏天來實習的大學小男生,午餐時聊天還會給我介紹漫威電影,推薦我看分析文。我在line上問起他:「那時是否有考慮過ARIMA來預測?我看你用的是隨機森林。」ARIMA是時間序列的模型,通常講到預測匯率、股價、商品價格,很常從這個模型入手。「我記得最一開始我是用ARIMA預測的,但效果不太好所以後來才用隨機森林。」「自從你沒有在辦公室坐鎮後,model就沒那麼聽話了。」這個尷尬的結果我和同事分享過了,但沒人作聲。其實更尷尬的是他不在,我們組的所有人,也不知道拿這樣工具怎麼辦,雖然還是每月更新看著它越走越遠,但也只能不會用就不用。「我最近也逐漸發現了以前技術的不成熟,哈哈!」能有這樣的想法,很讚,滿出來的杯子裝不了更多水,空著的才能裝,等他從澎湖玩回來我再找他。
之前交流的技術班同學,又介紹我一新偶像--林軒田老師,李宏毅老師和蔡炎龍老師都很讓我驚喜了,接下來要追劇--Machine Learning Foundations(機器學習基石)。到目前為止,我接觸到的是不同人上的、相似的入門課,我真的很感激這個領域的人,形成這樣一個開放、分享的社群,相較於老工廠裡連些只有加減乘除的excel都不願分享的封閉心態,真的是除了感激還是感激。(比較是殘酷的)
未來一定會到了不用寫程式碼也能做到建立、訓練模型,遲早門檻會越來越低,讓人人可享受這項工具,如連結https://www.jishuwen.com/d/pKqt所說。雖然這個未來不是明天就來,但在此之前,我們更需要內化「資料驅動」,讓資料成為起點或基礎,或者是說,在憑直覺的經驗(或本能)、以及以資料為基礎的決策之間,取得一種並不衝突的共容,講得更簡單就是誠實,誠實地面對自己,不要做那種射了箭再畫靶的事。  
分類:親子

評論
上一篇
  • 下一篇
  • 更多文章
    載入中... 沒有更多了