分享

艾瑪學習週記2021W04:了解失敗機率才能提高成功機率

講座:

上週日的講座,是陳彥呈博士的「為什麼VC不投資我的AI新創?」,我聽這場是因為剛好與我最近讀到 《浪潮之巔》第十五章講到風險投資,而我雖然很常聽到「風險投資」這個字眼,卻對裡面的運作方式非常陌生。講者近10年內親身經歷各階段AI新創的計畫撰寫與融資過程,從學術研究計畫、業界研究計畫,一直到AI新創的天使、種子、A、B、pre-IPO輪,都參與過一回,同時,講者也幫助過多間VC與PE做過投資前的盡職調查,在不同時期,VC對不同階段AI新創的商業模式、估值計算都在快速演變,希望藉著這次分享,能幫助AI創業後進少走些彎路。
即使我以前在投資市場裡當過研究個股的分析師,以為要估值來算啊誰怕誰,一旦看到新創估值的方法,還是不免覺得,那得是一種更有創造力和想像力的計算,對產業和技術的了解也很難用模糊的正確就取得投資績效。就我自己最近在找價格預估模型的廠商來看,他們都已經是頗有規模的軟體服務/顧問公司,已經不是新創,但我仍然很不容易分辨他們在技AI方面的技術能力。
整場聽下來,我發現大眾(我)聽過的獨角獸公司,幾乎是萬中選一,而目前社會中瀰漫著一股鼓勵創業的氛圍,或許一輪輪下來能磨練出更多能力與經驗,但是投入前還是要了解機率,並非因為成功機率渺茫就放棄,而是有想法的人,更應該在每個環節中,做出提高成功機率的努力。

AI Reading:Batch20210121

Dear friends:用模型解決一個問題,未必可以把這個經驗轉移到另一個問題,是否可以有這樣轉移,要看(1) 訓練資料的量(2)資料是結構化或非結構化。舉例,有種以偏蓋概全的一般說法是「你至少要有1,000個樣本」,如果現在要研究的是行人(路上走的那種),這沒有問題,但若是醫學問題,這個說法就是個不好的建議。
分結構化的資料包含文字、圖片、聲音,需要有人來解讀;結構化的資料通常是交易紀錄或點擊流量日誌,人不太容易直接處理。用資料集大小與是否結構化作出四個分類,會導致訓練、部屬模型時,有不同的策略。
以非結構和結構花資料來分,非結構化的資料人較易讀(例如文字或圖片),但需要人標記,結構化的資料,是人較不易解釋,也比較難標記,演算法從結構化資料學習到的,比較容易超越人,但演算法也比較不像人一樣可以舉一反三,無法得出資料集之外的訊息。
以資料大小來分,小於1,000筆的資料,還能手動去調整,看標記是否正確,甚至是自己加上標記;大於1,000筆的資料,無法用一個工程師去手動標記,假使雇用很多人幫忙標記,需要清楚的標準,最好是能有自動標記的機制,以免還會有標錯的部分。當你的資料量偏小,建議你找處理過相似產業的小資料的專家詢問,如果沒有辦法找到,至少得是個處理過小資料的人。
AI Versus Lead Poisoning:演算法對於城市中的管線是否會釋放鉛到飲用水中,是有幫助的。BlueConduit公司可以繪製出鉛水管地圖,協助地方政府去排出優先順序,讓中毒疑慮較高的地區先換水管,也可以讓還很安全的水管不用急著換。不過這個工具在2018年被停用,部分因為有些人也會抗議因為AI模型,他們沒有被涵蓋到水管替換的範圍,這顯示這些人不僅不信任他們的當地政府,也不信任這項科技,給後續專案的啟示是,信任也是需要訓練的參數。
Adversarial Helper:學習文字與圖片關係的模型又晉一級。通常測試方法是放入容易誤導模型的輸入,Zhe Gan與他同事在微軟的團隊,改善了Vision-and-Language Large-scale Adversarial (VILLA)的訓練。VILLA通常會先用字幕預訓練,然後再加入被問關於某圖片的問題的任務,過程中顯示先用容易誤導的輸入訓練過,可以有效提升準確率,這個團隊將這個誤導訓練放在預訓練也放微調中。裡面用了幾種模型,一個模型會內嵌在一個裡,的確是提升了正確率。
我們人使用不同方法去理解、描述這個世界,這是使我們變聰明的方法。單單指示描述一棵樹,都是多種系統協同的結果,目前的模型們都想要能夠捕捉圖與語言的意義,人工智慧已學會在只有圖或只有語言下發揮作用,中間還少了兩者連結是如何形成的過程。
Draw a Gun, Trigger an Algorithm:畫支槍就能觸發演算法,有幾家公司提供了深度學習的系統,使得監視鏡頭可以偵測出槍枝並很快地通知警衛或警察。想要偵測槍枝,Omnilert是使用持槍人動作的影片,Arcarithm的訓練方式,是在綠屏前拍攝槍的圖片,以及讓槍成為畫面中的一部分。除此之外,警察單位也廣泛使用聲音的系統,如ShotSpotter會安裝收集聲音的感應器,透過機器學習去比對聲音資料庫,辨別出槍聲以及發生位置時,盡快通知警察。
槍枝暴力是遍布全美各個地方的問題,AI模型更想做到的是在開槍前就能通知警察,可以救下更多生命,但是應用在真實世界時,誤認掃帚為槍也是會發生的事,這樣的錯誤是危險的,可能會導致警察太快進入「可能」會發生的犯罪中,激起更多衝突。
Emma's Murmur:Omnilert想用持槍人的動作,去判別是否持有真槍實彈(而不是玩具槍),還真不是唬爛,《解密陌生人》中也提到,有經驗的警探會看到一些小動作來判斷,第十一章中提到警察發現隱藏武器的細膩技巧,從警十八年的紐約警官根據多年經驗,歸納出帶有槍枝時走路會有輕微的窒礙,左右腳的步伐不對稱,帶槍人也會在跨下人行道或跨出汽車時,看一眼他們的武器或是不自覺地調整它們。
Annual Report, Robot Edition:研究顯示,自動化系統已經在財報歸檔這方面,做的比人還多,另外,National Bureau of Economic Research顯示,美國上市公司50年來季報與年報的上傳,電腦也是做的越來越多。
電腦系統驅動股市裡的變化,例如去年德意志銀行估計,自動化系統做出買賣決策,已完成80%的股票交易與90%的股票期權交易,電腦可以快速消化財報公布後的訊息然後作出股票的買賣決策,這也顯示市場上的訊息快速被消化、反映到價格上,同時這也意味著假消息或詐騙等著發酵的時間也縮短,表示大家都必須更注意股市中是否有操弄的行為。

其他:

1月中開始看kobo閱讀器裡的《大查帳》,我真的是感恩,忍不住稱讚強者我同學很會挑書,彷彿讀到我的心、彷彿追蹤我的足跡(在書店裡翻過),我一不小心又開始看《大查帳》,這本書的副標題,是「Financial Accountability and the Rise and Fall of Nations」 (財務當責與國家興衰),複式記帳是資本主義的基石,也是追求精確和取得力量的主要工具,能夠有紀律地紀錄、並即時地掌握財務狀況,一個國家或企業就有比較高的機率走向興盛。
當人們發現某樣工具可以帶來某一方面的進步時,是否能直面它揭露的一切?誠實地面對?我很訝異在這本書裡,複式記帳並不是持續地發展,中間相隔了600年,原因很多,例如書寫、整理成文件的材料成本高昂,有些商人不認為有其必要,但最大的原因還是人的疏漏和輕忽,人以為用腦袋可以記著他們的交易,又或者是,有些國王不想面對財政已破產,想假裝沒看到,而官員們也能在低品質的帳目中徇私舞弊。
很多時候,人或許因為惰性和私利、或許因為拒絕面對失敗,不願意紀錄、不願一切弄得清楚,殊不知井然有序能使得許多問題迎刃而解,揭露問題就是解決問題的開始。不過,解決問題又對誰有好處呢?終究是會回到有好處的人就會這麼做。
北義大利是十二世紀歐洲最富裕、人口最多的地方,由商人管理的城邦組成,治理階層是透過貿易累積財富的貴族商人,這些活動也逐漸發展出資本主義的利潤,以及複式記帳等概念,但是大約又過了六百年,複式分錄才再次被用來管理中央國家分類、查核國家合併財政的工具。在這段歷史中,少數堅持完整、正確記錄的商人,例如富可敵國、權傾一時的梅迪奇家族,取得巨大的成功。會計帳的品質,就是管理行為的結果之一,即便是影響力如此之大的梅迪奇家族,也在子孫漸失管理帳冊的能力中消亡。
我很喜歡從歷史去認識一樣我本來以為我知道的東西,通常我會發現,我並不知道。 
分類:科技

評論
下一篇
  • 艾瑪學習週記2021W03:並沒有暴動好嗎
  • 更多文章
    載入中... 沒有更多了