當前位置：首頁> 新聞資訊> 機器人開發> 音樂人工智能、計算機聽覺及音樂科技

音樂人工智能、計算機聽覺及音樂科技

來源： CAAI認知係統與信息處理專委會編輯：創澤時間：2020/5/28 主題：其他[ 加盟]

本文麵向音樂科技、音樂人工智能與計算機聽覺這一文理交融的新興交叉學科，介紹其學科範疇、發展曆史、研究領域、產業應用等。闡明音樂科技、聲音與音樂計算、音樂人工智能、音樂信息檢索MIR、計算機聽覺、音樂聲學等各個學科名詞之間的相互關係。最後，總結學科發展麵臨的困難，展望其未來發展趨勢。

1. 語音信息處理和聲音與音樂計算

聲音是人類獲取信息的重要來源，可劃分為語音（Speech）、音樂（Music）和一般音頻/環境聲（General Audio/Environmental Sound）三大類。人類的語言具有特定的詞彙及語法結構，用於在人類中傳遞信息。語音是語言的聲音載體，語音信號屬於複合音，其基本要素是音高、強度、音長、音色等。音樂是人類創造的複雜的藝術形式，組成成分是各種樂音，包括歌聲、各種管弦和彈撥類樂器發出的複合音、少量來自環境聲的複合音以及一些來自打擊樂器的噪樂音。其基本要素包括節奏（Rhythm）、旋律（Melody）、和聲（Harmonic）、力度（Dynamic）、速度（Tempo）、調性（Tonality）、曲式（Form）、織體（Texture）、音色（Timbre）等。除了人類創造的語音和音樂，在自然界和日常生活中，還存在著其他數量巨大、種類繁多的聲音，統稱為一般音頻或環境聲。例如，自然界的風聲、雷聲、海浪聲，機械設備的噪聲，動物的叫聲，人體的心跳、咳嗽、脈搏聲，軍事的槍聲、炮聲、爆炸聲等等，不可盡數。

根據以上聲音的三大種類，可以粗略地將聽覺信息處理分成兩塊，如圖1所示。專門處理語音的學科是語音信息處理，以語言聲學為基礎，曆史悠久，發展相對成熟，已獨立成為一門學科。包括計算語言學、語音識別、說話人/聲紋識別、語種識別、語音增強/去噪/分離、語音合成、語音編碼、語音情感計算、自然語言處理與口語對話等經典研究領域。麵向音樂和一般音頻信息處理的學科叫做聲音與音樂計算SMC（Sound and Music Computing）[1]。該領域橫跨文理，在國外已有50多年的曆史，但是在國內僅有20幾年曆史。包含的研究領域隨著時代變化也在不斷擴展，而且由於涉及藝術創作，還具有一定的未知性。

2. 音樂科技概覽

2.1 音樂科技

音樂與科技的融合具有悠久的曆史。早在20世紀50年代，一些不同國家的作曲家、工程師和科學家已經開始探索利用新的數字技術來處理音樂，並逐漸形成了音樂科技/計算機音樂（Music Technology/Computer Music）這一交叉學科。20世紀70年代之後，歐美各國相繼建立了多個大型計算機音樂研究機構，如1975年建立的美國斯坦福大學CCRMA（Center for Computer Research in Music and Acoustics）、1977年建立的法國巴黎IRCAM（Institute for Research and Coordination Acoustic/Music）、1994年成立的西班牙巴塞羅那UPF（Universitat Pompeu Fabra）大學MTG（Music Technology Group）、以及2001年成立的英國倫敦女王大學C4DM（Center for Digital Music）等。幾十年的曆史中，音樂科技在世界各地都逐漸發展起來，如美國的Carnegie Mellon University、Columbia University、New YorkUniversity、George Tech等大學，加拿大麥吉爾大學的CIRMMT（Centre for Interdisciplinary Research in Music Media and Technology），德國、日本、新加坡、台灣等等。歐洲由於其濃厚的人文和藝術氣息，歐盟及各國政府的大力支持成為該領域的世界中心。

音樂科技在中國大陸發展較晚，大約20世紀80年代有人開始零星的研究，90年代一些音樂學院開始建立音樂科技或音樂工程專業，2000年左右在一些綜合性和理工科大學開始出現一批來自計算機等信息學科的科研工作者。在中國文理分割的教育體製下，這兩類人群之間橫亙著巨大的學科鴻溝。藝術領域的相關人員隻能運用國外的各種音樂科技軟硬件產品進行音樂創作、表演、教育、理論研究，對其內在的科學技術原理知之甚少，更無法進行科技創新和產品研發。理工科領域的相關人員一般具有初級的音樂知識，但專業程度差距較大，研究集中於麵向消費者的音樂科技，研發麵向專業應用的音樂科技產品力不從心。

2013年12月，第一屆中國聲音與音樂計算研討會CSMCW（China Sound and Music Computing Workshop）創建於複旦大學，為國內同行搭建了一個產學研交流的平台，該會議2016年更名為中國聲音與音樂技術會議CSMT（Conference on Sound and Music Technology）。該會議至今已召開七屆（複旦大學、清華大學、上海音樂學院、南京郵電大學、蘇州大學與UCLA蘇州研究院、廈門理工學院、哈爾濱工業大學），逐漸成為國內音樂科技全產業鏈的交流平台，為加強科技與藝術的融合，消除學科鴻溝做出了重要貢獻。隨著中國社會的整體發展，以及人工智能（AI）技術的持續火熱，到2017年左右，音樂科技在國內開始呈現加速發展的趨勢。2017年，音樂科技領域國內外的三大重要會議ISMIR（International Society for Music Information Retrieval Conference）、CSMT、ICMC（International Computer Music Conference）在上海和蘇州連續舉行。2018年，於中國音樂學院舉辦CSMT第一屆音樂人工智能（Music AI）研討會；深圳平安科技有限公司與中央民族大學建立AI作曲聯合實驗室；騰訊音樂娛樂集團（TME）在美國上市；大型中文綜述“理解數字音樂-音樂信息檢索技術綜述”（CSMT 2017會議論文集，43頁, 335篇文獻）[3]正式發表。2019年，中央音樂學院建立音樂人工智能與音樂信息科技係，開始招收博士、碩士研究生，實行音樂與科技雙導師培養製；AI科學前沿大會、北京國際電子音樂節等多個重要會議開設音樂人工智能特約報告專場；上海音樂學院開設音樂人工智能課程；本文作者在百度百科定義音樂科技、音樂人工智能、音樂信息檢索MIR、計算機聽覺、中國聲音與音樂技術會議等五個學科詞條；大型中文綜述“理解數字聲音-基於普通音頻的計算機聽覺綜述”（CSMT 2018會議論文集，45頁，399篇文獻）[4]正式發表；第七屆CSMT會議參會人數超過200人，來自70餘個單位，投稿等各項指標均創曆史紀錄。2020年，四川音樂學院以音樂科技為突破口建立實驗藝術學院；由本文作者主編55位作者聯合編著的中文教材“音頻音樂與計算機的交融-音頻音樂技術” [5]由複旦大學出版社正式出版，全書468頁，895千字。大陸的音樂科技曆經坎坷，雖然進步巨大，但是在教育體製、科技評價、社會觀念等各方麵的製約下，至今仍然處於起步階段。

音樂科技是音樂與科學技術的交叉學科，包含眾多的研究和應用領域。在音樂方麵，包括計算音樂學（Computational Musicology）、電子音樂創作與製作（Electronic Music Creation and Production）、計算機輔助的音樂教育（Computer-aided Music Education）、計算機輔助的音樂表演（Computer-aidedMusic Performance）、錄音混音（Recording and Remixing）、音效及聲音設計（Sound Effect and Sound Design）等。該方麵的研究課題比較零散，不成理論體係，依賴於在音樂方麵的具體應用，有些還涉及藝術創造。在科技方麵，音樂科技指上述的聲音與音樂計算，下邊詳細闡述，如圖2右半部分所示。

2.2 聲音與音樂計算

聲音與音樂計算是一個龐大的研究領域，可細化為多個學科分支。其主要內容及分類在1995年的文獻[1]中已有描述，本文所述內容是作者根據近年來的最新進展以及自己的理解對[1]進行補充完善而成。

（1）音樂生成（Music Generation）：包含歌聲合成（Singing Synthesis）、自動作曲（AutomaticComposition）、自動編曲（Automatic Arrangement）等主要方向，需要較多的音樂知識，技術實現比較複雜。因近年來大量使用機器學習/深度學習技術，也可以通俗的稱為人工智能音樂（AI Music）。歌聲合成以語音合成為基礎，但需考慮音樂旋律、節奏、強弱、音色、結構、情感、藝術技巧等多種音樂要素。自動作曲早期稱為算法作曲，近年來進化為基於深度學習的AI作曲。自動編曲在已知主旋律的基礎上編配和弦及各個聲部，使其成為一首完整的作品。上述研究課題目前隻能模仿音樂專業人員，尚無人類源自靈感的創作能力，且主觀性較強，評價標準難以統一。

（2）聲音與音樂的內容理解與分析：使用計算方法對數字化聲音與音樂的內容進行理解和分析，例如音樂識譜（Music Transcription）、旋律提取（Melody Extraction）、節奏分析（Rhythm Analysis）、和弦識別（Chord Estimation）、音頻檢索（Audio Retrieval）、流派識別（Genre Identification）、音樂情感計算（Music Emotion Calculation）、歌手識別（Singer Identification）、歌唱評價（SingingEvaluation）、歌聲分離（Vocal Separation）等。該分支在20世紀90年代末隨著互聯網上數字音頻和音樂的急劇增加而發展起來，研究難度大，多項研究內容至今仍在持續進行中。與計算機視覺CV（Computer Vision）對應，該分支也可稱為計算機聽覺CA（Computer Audition）或機器聽覺（Machine Listening）[2]。注意計算機聽覺是用來理解分析而不是處理音頻和音樂，狹義上講不包括語音，廣義上亦包括。CA若剔除一般聲音而局限於音樂，則可稱為音樂信息檢索MIR（Music Information Retrieval）。

（3）聲音與音樂信號處理：用於聲音和音樂的信號分析、變換及合成，包括頻譜分析（Spectral Analysis）、調幅（Magnitude Modulation）、調頻（FrequencyModulation）、低通/高通/帶通/帶阻濾波（Low-pass/High-pass/Band-pass/Band-stop Filtering）、轉碼（Transcoding）、無損/有損壓縮（Lossless/Lossy Compression）、重采樣（Resampling）、回聲（Echo）、混音（Remixing）、去噪（Denoising）、變調PS（Pitch Shifting）、保持音高不變的時間伸縮TSM（Time-scale Modification/Time Stretching）、時間縮放（TimeScaling）等。該分支相對比較成熟，已有多款商業軟件如Gold Wave、Adobe Audition/Cool Edit、Cubase、Sonar/Cakewalk、EarMaster等。

（4）其它與音頻音樂相關的科技領域：如聲音與音樂的感知認知（Sound and Music Perception and Cognition）：研究音樂的大腦機製，對心理、情緒的影響等。一般音頻/環境聲的合成（Sound Synthesis）。聲音與音樂的計算機接口：包括樂譜打印（MusicPrinting）、光學樂譜識別（Optical Music Recognition）、音響及多聲道聲音係統（Sound and Multi-channelSound System）、聲音裝置及多媒體技術（Sound Device and Multimedia Technology）等。音頻信息安全：包括音頻信息隱藏（Audio Information Hiding）、魯棒音頻水印（Robust Audio Watermarking）、音頻認證（Audio Authentication）、音頻取證（Audio Forensics）、聲紋識別（VoiceprintRecognition）、聲音偽造（Sound Forge）、音樂抄襲（Music Plagiarism）、AI音樂判別（AI Music Discrimination）等。音樂治療（Music Therapy）：將音樂與醫學、心理學、計算機相結合的典型範例。音樂機器人（Music Robot）：包括東西方各種風格的表演機器人、指揮機器人等。聽覺與視覺/文本相結合的跨媒體應用（Cross-media Applications Combing Audition andVision/Text）等。

音樂科技具有眾多應用，例如電聲樂器、數字音源、音頻工作站、計算機輔助的音樂教育、計算音樂學、音樂表演的量化分析、電子音樂創作與製作、音樂信息檢索MIR、數字音樂圖書館、交互式多媒體、音頻接口、輔助醫學治療、音樂機器人、音頻數字水印等。

與音樂有關但是與SMC不同的另一個曆史更悠久的學科是音樂聲學（Music Acoustics）。音樂聲學是研究在音樂這種聲音振動中存在的物理問題的科學，是音樂學與物理學的交叉學科。音樂聲學主要研究樂音與噪聲的區別、音高音強和音色的物理本質、基於電磁振蕩的電聲學、聽覺器官的聲波感受機製、樂器聲學、人類發聲機製、音律學、與音樂有關的室內聲學等。從學科的角度看，一部分音樂聲學知識也是SMC的基礎，但SMC研究更依賴於音頻信號處理和人工智能-機器學習/深度學習這兩門學科。同時，研究內容麵向音頻與音樂的信號處理、內容分析和理解，與更偏重於解決振動相關物理問題的音樂聲學也有較大區別。

2.3 音樂人工智能

近年來，隨著人工智能概念的火熱並上升為國家戰略，在音樂領域出現了音樂人工智能（Music AI）這一名詞。音樂人工智能是一個通俗的略顯模糊的概念，主要指以數字音樂為研究對象以AI為主要技術手段的計算機軟硬件係統研發，可以看成是人工智能在音樂領域的垂直應用。音樂人工智能屬於音樂科技的一部分，包括音樂生成、音樂信息檢索MIR（含數十項應用）、以及所有其它涉及AI的音樂相關的技術，如圖2中虛線框所示。

2.4 音樂信息檢索MIR

音樂信息檢索MIR是一個使用計算方法對數字音樂的內容進行理解和分析的交叉學科。它是音樂人工智能中體量最大的一個研究領域。

早期的MIR技術以符號音樂（Symbolic Music）如MIDI（Musical Instrument Digital Interface）為研究對象。由於其具有準確的音高、時間等信息，很快就發展的比較成熟。後續研究很快轉為以音頻信號為研究對象，研究難度急劇上升。隨著該領域研究的不斷深入，如今MIR技術已經不僅僅指早期狹義的音樂搜索，而從更廣泛的角度上包含了音樂信息處理的所有子領域。我們根據自己的理解，將MIR領域的幾十個研究課題歸納為核心層和應用層共9個部分（圖3）。核心層包含與各大音樂要素（如音高與旋律、音樂節奏、音樂和聲等）及歌聲信息處理相關的子領域，應用層則包含在核心層基礎上更偏向應用的子領域（如音樂搜索、音樂情感計算、音樂推薦等）。核心層屬於高層音樂信號特性分析或低層音樂語義分析，對應於音樂心理學中的感知層次；應用層則屬於高層音樂語義分析，對應於音樂心理學中的認知層次。

圖3. 音樂信息檢索（MIR）的研究領域

基於內容的音樂信息檢索MIR有很多應用。在娛樂相關領域，典型應用包括聽歌識曲、哼唱/歌唱檢索、翻唱檢索、曲風分類、音樂情感計算、音樂推薦、彩鈴製作、卡拉OK應用、伴奏生成、自動配樂、音樂內容標注、歌手識別、模仿秀評價、歌唱評價、歌聲合成及轉換、智能作曲、數字樂器、音頻/音樂編輯製作等。在音樂教育及科研領域，典型應用包括計算音樂學、視唱練耳及樂理輔助教學、聲樂及各種樂器輔助教學、數字音頻/音樂圖書館等。在日常生活、心理及醫療、知識產權等其他領域，還包括樂器音質評價及輔助購買、音樂理療及輔助醫療、音樂版權保護及盜版追蹤等應用。此外，在電影及很多視頻中，音頻及音樂都可以用來輔助視覺內容進行分析。以上應用均可以在電腦、智能手機、音樂機器人等各種平台上進行實現。

2.5 一般音頻計算機聽覺

計算機聽覺是使用計算方法對數字化聲音與音樂的內容進行理解和分析的交叉學科。麵向音樂時稱為音樂信息檢索MIR，麵向環境聲時則稱為基於一般音頻的計算機聽覺或AI聲學。主要基礎學科是各種聲學、音頻信號處理和人工智能-機器學習/深度學習。

（1）計算機聽覺通用技術框架

從實際應用的角度出發，一個完整的CA算法係統應該包括如下幾個步驟。

首先采用麥克風（Microphone）/聲音傳感器（Acoustic Sensor）采集聲音數據；

之後進行預處理（例如將多聲道音頻轉換為單聲道、重采樣、解壓縮等）；

音頻是長時間的流媒體，需要將有用的部分分割出來，即進行音頻事件檢測AED（Audio Event Detection）或端點檢測ED（Endpoint Detection）；

采集的數據經常是多個聲源混雜在一起，還需進行聲源分離，將有用的信號分離提取出來。或至少消除部分噪聲，進行有用信號增強；

然後根據具體聲音的特性提取各種時域、頻域、時頻域音頻特征，進行特征選擇（Feature Selection）或特征抽取（Feature Extraction），或采用深度學習DL（Deep Learning）進行自動特征學習（Feature Learning）；

最後送入淺層統計分類器或深度學習模型進行聲景（Sound Scape）分類，聲音目標識別，或聲音目標定位。

機器學習模型通常采用有監督學習（Supervised Learning），需要事先用標注好的已知數據進行訓練。基於一般音頻/環境聲的CA算法設計與語音信息處理及音樂信息檢索MIR技術高度類似，區別在於聲音的本質不同，需要更有針對性的設計各個步驟的算法，另外需要某種特定聲音的領域知識。

（2）音頻事件檢測與音頻場景識別

音頻事件（AudioEvent）指一段具有特定意義的連續聲音，時間可長可短。例如笑聲、鼓掌聲、槍聲、犬吠、警笛聲等。也可稱為音頻鏡頭（Audio Shot）。音頻事件檢測AED，亦稱聲音事件檢測SED（Sound Event Detection），環境聲音識別ESR（Environmental Sound Recognition），旨在識別音頻流中事件的起止時間（Event Onsets and Offsets）和類型，有時還包括其重要性（Saliency）。麵向實際係統的AED需要在各種背景聲音的幹擾下在連續音頻流中找到聲音事件的邊界再進行分類，比單純的分類問題要更困難。

音頻場景（AudioScenes）是一個保持語義相關或一致性（Semantic Consistency）的聲音片段，通常由多個音頻事件組成。例如，一段包含槍聲、炮聲、呐喊聲、爆炸聲等聲音事件的音頻很可能對應一個戰爭場景。對於實際應用中的連續音頻流，音頻場景識別ASR（Audio Scene Recognition）首先進行時間軸語義分割，得到音頻場景的起止時間即邊界（AudioScene Cut），再進行音頻場景分類ASC（Audio Scene Classification）。ASR是提取音頻結構和內容語義的重要手段，是基於內容的音頻、視頻檢索和分析的基礎。目前場景檢測（Scene Detection）的研究，主要是基於圖像和視頻。音頻同樣具有豐富的場景信息，基於音頻既可獨立進行場景分析，也可以輔助視頻場景分析，以獲得更為準確的場景檢測和分割。音頻場景的類別並沒有固定的定義，依賴於具體應用場景。例如在電影等視頻中，可粗略分為語音、音樂、歌曲、環境音、帶音樂伴奏的語音等幾類。環境音還可以進行更細粒度的劃分。基於音頻分析的方法用戶容易接受，計算量也比較少。

（3）基於一般音頻/環境聲的計算機聽覺應用

基於一般音頻的計算機聽覺直接麵向國民經濟的各個領域，具有眾多應用。例如：在醫療衛生領域，涉及呼吸係統疾病（咳嗽、打鼾、言語、喘息、呼吸等），心髒係統疾病，其它相關醫療（嗓音疾病、胎音和胎動、藥劑吞服、血液流動、肌音）。在安防領域，涉及公共場所監控和私密場所監控。在交通運輸、倉儲領域，涉及鐵路運輸業，道路運輸業（車型及車距識別、交通事故識別、交通流量檢測、道路質量檢測），水上運輸業，航空運輸業（航空飛行器識別、航空飛行數據分析），管道運輸業，倉儲業。在製造業領域，涉及鐵路、船舶、航空航天和其他運輸設備製造業，通用設備製造業（發動機、金屬加工機械製造、軸承齒輪和傳動部件製造、包裝專用設備製造），電氣機械和器材製造業，紡織業，黑色及有色金屬冶煉和壓延加工業，非金屬礦物製品業，汽車製造業，農副食品加工業，機器人製造。在農、林、牧、漁業領域，涉及農業，林業，畜牧業。在水利、環境和公共設施管理業，涉及水利管理業，生態保護和環境治理業。在建築業，涉及土木工程建築業，房屋建築業。在其它領域，涉及采礦業，日常生活，身份識別，軍事目標識別等。

3. 總結與展望

音樂科技、音樂人工智能與計算機聽覺以數字音樂和聲音為研究對象，是聲學、心理學、信號處理、人工智能、多媒體、音樂學及各行業領域知識相結合的重要交叉學科，具有重要的學術研究和產業開發價值。目前仍有大量幾乎空白或沒有得到充分研究的子領域。

與自然語言處理、計算機視覺、語音信息處理等相關領域相比，上述學科在國內外發展都比較緩慢。幾個可能的原因包括：（1）數字音樂涉及版權問題無法公開，各種音頻數據都源自特定場合和物體，難以全麵搜集和標注。數據的獲取及公開困難嚴重影響了基於機器學習/深度學習框架算法的研究及比較。（2）音樂和音頻信號幾乎都是多種聲音混合在一起，很少有單獨存在的情況。音樂中的各種樂器和歌聲在音高上形成和聲織體，在時間上形成節奏至曲式結構，耦合成多層次的複雜音頻流，難以甚至無法分離處理。環境聲音具有非平穩、強噪聲、弱信號、多聲源混合等特點，一個實際係統必須經過音頻分割、聲源分離或增強/去噪後，才能進行後續的內容分析理解。（3）該領域幾乎都是交叉學科，進行音樂科技的研究需要了解最基本的音樂理論知識，進行基於一般音頻的計算機聽覺研究則經常需要了解相關各領域的專業知識和經驗。（4）此外，作為新興學科，還存在社會發展水平、科研環境、科技評價、人員儲備等各種非技術類原因阻礙計算機聽覺技術的發展。

隨著中國社會經濟的快速發展，年青一代受音樂教育的普及，國家對人工智能等前沿技術的重視，上述領域在近幾年也出現了良好的發展勢頭。本文作為科普性文章，希望能使全社會更多的人有所了解，加速推動國內音頻音樂技術領域在學術研究和產業應用的發展，走出一條具有中國特色的文理結合的道路，早日達到甚至超過世界先進水平。

參考文獻

[1] A. Camurri, G. Depoli and D. Rocchesso, “Ataxonomy for sound and music computing”. Computer Music Journal (CMJ), 1995, 19(2):4-5.

[2] S. Dubnov, “Computer audition: An introductionand research survey”. ACM International Conference on Multimedia (ACM MM),2006, pp. 9-9.

[3] 李偉，李子晉，高永偉，“理解數字音樂-音樂信息檢索技術綜述”，第五屆中國聲音與音樂技術會議（CSMT 2017）特約報告，複旦學報（自然科學版），2018，57(3)：271-313.

[4] 李偉, 李碩, “理解數字聲音-基於普通音頻的計算機聽覺綜述”, 第六屆全國聲音與音樂技術會議（CSMT 2018）, 複旦學報（自然科學版）, 2019, 58(3)：269-313.

[5] 李偉，李子晉，邵曦主編，“音頻音樂與計算機的交融-聲音與音樂技術”，2020年1月，複旦大學出版社，89.5萬字，468頁。

查看更多相似文章

音樂人工智能、計算機聽覺及音樂科技

讓大規模深度學習訓練線性加速、性能無損，基於BMUF的Adam優化器並行化實踐

基於深度學習和傳統算法的人體姿態估計，技術細節都講清楚了

傳統目標檢測算法對比

基於深度學習目標檢測模型優缺點對比

如何更高效地壓縮時序數據？基於深度強化學習的探索

滴滴機器學習平台調度係統的演進與K8s二次開發

人工智能和機器學習之間的差異及其重要性

麵向動態記憶和學習功能的神經電晶體可塑性研究

CVPOS自助收銀的挑戰以及商品識別算法工程落地方法和經驗

內容流量管理的關鍵技術：多任務保量優化算法實踐

百變應用場景下，優酷基於圖執行引擎的算法服務框架築造之路

餓了麼推薦算法的演進及在線學習實踐

服務機器人(迎賓、講解、導診...)

智能消毒機器人

機器人開發平台