分享

艾瑪人肉學習週記(Week09):mp3是難以磨滅的青春樂音

 
上週主題是語音與音樂AI目前的發展,我真的少見多怪,很訝異已進展如斯。
上午是曹昱老師介紹語音訊號處理,它原本的講義裡面有大量的理論,但我想他上課前改變主意,與其讓大家在上課一小時內失去意識,他更多地介紹了語音辨識發展的歷程,以及自己在日本的五年博士成果,用一頁投影片就講完(語音辨識度正確率從59%上升到71%),雖然他自己說這樣就講完了有點淡淡的哀傷,但到底還有結果並不枉然。上課時他放了段影片,講中文的人用翻譯機向講日語的人問路,在對話中機器運作極好,這樣的應用也在大家已買得到的語音助理大量使用。不過語音辨識並不只是造福懶得學外語的人,有部份也幫助了聽力有不同程度障礙的人。
下午是長得像呱吉(誤)的蘇黎老師上音樂與人工智慧,有幾個研究主軸竟是近五年才出現的領域,像是多媒體創作的自動風格轉換、與人類互動的虛擬音樂家,我想兩年前或兩年後的同學上到這堂課,蘇黎老師可能都會說出之前沒聽過的發展中領域。課程開始時,有張1999-2016年的全球音樂市場產值概況,這個變化就是我的世代讀大學前後發生變化,1999年出現MP3,檔案可輕易複製,重大衝擊音樂產業,產值一路下滑至2014年,2014年因為自動分類的工具出現,加上2010年起社群網站的流行,使得之前就有的線上音樂串流,成為主要的消費模式,科技重度影響音樂市場。
值得一提的是,發展中的人工智慧自動生成音樂,目前在公開播放的背景音樂發展最好,因為這類的音樂只要有聲音(設定好分類符合環境氛圍),不用說故事、不用讓人感動。反過來想,能說出故事、能讓人感動,是現在人類可以做的,也是人工智慧長遠的目標,電影裡總有那個琴棋書畫全會、人類不知道要幹嘛的未來。
很有趣的是,音樂訊號又比語音更複雜,一個中央C在頻譜上是有不只一條線的,一般的音樂在同一個時點會有多重聲音,而音樂和數學竟也有關係,古希臘還沒有指數和對數的概念(十二平均律是用指數關係做出的音階,可以做鍵盤樂器),數學家畢達格拉斯用2:3的比例建出音階,畢達格拉斯真的很會,另外有遇到問題無法解決時,他就解決問題的人,請看以下李永樂老師的影片。(我離題了...)
https://youtu.be/nAOVQEcqjSM
本週再次翻開學員手冊裡屬於課外補充教材的書,之前看著卡到的地方放了一陣子,上課講義和作業就夠我忙的,下週二就要交出簡報提案,我也想做自己那時有提的價格預測主題,想起很多堂課裡面都說到資料預處理、資料清理等,但我不清楚那要做什麼,替自己訂下未來兩週要讀的部分。
不過,有個部分我還沒想好:到底是處理分類問題還是回歸問題?我一直是以回歸問題來理解,但我細想公司裡計算正確率的定義,似乎是分類問題(是否正確預估漲或跌),接著我就去把暑期專案裡估出的數字化成月平均價,比較是否月與月比,能夠正確預估是漲是跌,在2019年7月到2020年6月這12個月中,人工智慧預估正確8個月份,工人智慧預估正確9個月份,好玩的是,沒有任何一個月份同時錯,也就是說,如果有工人智慧plus版,能夠感知到工人把握度低、錯誤機率偏高時採用人工智慧,最夢幻的狀態下是可達成12個月全對,最窘的就是每次對答案時不一致的就留下錯的答案,12個月可以對5個月,丟銅板丟認真一點說不定還可以得到比這個好的結果。(其實銅板根本沒打算要照顧我的心情)
分類:學習

評論
上一篇
  • 下一篇
  • 更多文章
    載入中... 沒有更多了