11月28日,百度大腦語音能力引擎論壇在京召開?,F場百度CTO王海峰公布百度語音技術日調用量破100億,國內第一。

百度CTO王海峰
隨后,百度語音首席架構師賈磊發布智能語音交互新技術——“基于復數卷積神經網絡(Convolutional Neural Network,CNN)的語音增強和聲學建模一體化端到端建模技術”,顛覆了傳統基于數字信號處理的麥克陣列算法,這無疑為語音領域注入一股新動能。
早在2012年,百度將深度學習技術應用到中文語音搜索中?,F在,百度APP、國內出貨量第一的智能音箱…都搭載了百度語音技術,百度語音技術還廣泛應用在各行各業。

百度語音首席架構師賈磊
賈磊現場披露了大量語音領域的技術細節。他分享到,百度提出的基于復數卷積神經網絡(Convolutional Neural Network,CNN)的語音增強和聲學建模一體化端到端建模技術,拋棄了數字信號處理學科和語音識別學科的各種先驗假設,消除學科間壁壘,直接端到端進行一體化建模。相較于傳統基于數字信號處理的麥克陣列算法,錯誤率降低超過30%。據公開資料顯示,國際上采用類似思路方法的相對錯誤率降低僅為16%。目前該方法已經被集成到百度最新發布的百度鴻鵠芯片中。端到端、跨學科、大數據驅動,百度在語音前沿領域無疑做了大量工作,而這次在語音算法上的創新突破無疑是給行業注入了一劑興奮劑。
眾所周知,遠場語音識別是目前語音領域極為關注和致力解決的問題。用戶站在3米甚至5米遠處與智能音箱對話就是一個典型的遠場語音識別應用場景。在遠場環境下,目標聲源距離拾音器較遠致使目標信號衰減嚴重,加之環境嘈雜,干擾信號眾多,最終導致信噪比較低,語音識別性能較差。為了提升遠場語音識別準確率,一般會使用麥克風陣列作為拾音器。利用多通道語音信號處理技術,增強目標信號,提升語音識別精度。
傳統數字信號處理技術已經無法滿足技術發展的需求,用深度學習技術來替代麥克陣列系統中的傳統數字信號處理已經開始成為行業主流。但此前行業提出的解決方案需要和數字信號處理過程看齊的深度學習模型結構設計,嚴重影響了深度學習技術在該方向上的發揮和延伸,限制了深度學習模型的模型結構的演變,制約了技術的創新和發展。

此次,百度提出的基于復數卷積神經網絡(Convolutional Neural Network,CNN)的語音增強和聲學建模一體化端到端建模技術。該模型底部以復數CNN為核心,利用復數CNN網絡挖掘生理信號本質特征的特點,采用復數CNN, 復數全連接層以及CNN等多層網絡,直接對原始的多通道語音信號進行多尺度多層次的信息抽取,期間充分挖掘頻帶之間的關聯耦合信息。在保留原始特征相位信息的前提下,同時實現了前端聲源定位、波束形成和增強特征提取。該模型底部CNN抽象出來的特征,直接送入百度獨有的端到端的流式多級的截斷注意力模型中,從而實現了從原始多路麥克信號到識別目標文字的端到端一體化建模。整個網絡的優化準則完全依賴于語音識別網絡的優化準則來做,完全以識別率提升為目標來做模型參數調優。
該方法的成功,進一步揭示了深度學習技術在人工智能工業應用中的巨大潛力。同時揭示了端到端建模,跨學科的端到端建模,以及大數據驅動等技術方向,是深度學習下一步產業應用和效果提升的重要發展方向。

論壇上,搭載了該項語音技術的三款基于鴻鵠語音芯片的硬件產品全新發布:芯片模組 DSP芯片+Flash、Android 開發板DSP芯片+ RK3399、RTOS開發板DSP芯片+ESP32。此外,賈磊還描述了基于鴻鵠語音芯片的端到端軟硬一體遠場語音交互方案以及全新發布的針對智能家居、智能車載、智能IoT設備的三大場景解決方案。
縱觀全球AI發展,百度語音在技術創新上一路領航。今年年初,百度提出截斷注意力模型SMLTA,使得句子的整句識別率、方言的識別以及中英文混合的識別率顯著提升,也是在全球范圍內第一個實現了語音識別領域注意力模型的大規模工業在線產品落地。在語音合成領域,百度大腦同樣令行業側目。首創Tacotron+wavRNN聯合訓練,成為全球首個上線waveRNN技術的語音平臺,大幅提升云端合成速度,語音合成的自然度幾乎達到真人的效果。百度地圖20句話即可錄制語音導航的技術基于百度獨創的風格遷移技術Meitron模型,特點主要體現在音色轉換、多情感朗讀和韻律遷移三個方面,從而讓語音合成的門檻大大降低。
語音技術作為人工智能重要的感知層技術,是人機溝通的重要橋梁,也是未來AI發展的重要支柱。百度大腦作為百度AI的集大成者,在語音技術上不斷發力,讓人工智能在各行各業“張嘴、聽話”,出行、搜索、家居、輸入法……百度大腦的語音技術正加速落地。
目前,百度大腦通過AI開放平臺已開放228項技術能力,接入開發者超過150萬。這次公布語音技術日均調用量超100億次,國內第一。百度大腦為業界打造了一個“能聽會說”的語音交互時代。更令人欣喜的是,越來越多的產業伙伴加入到百度大腦的語音生態中來,與百度一起迎接全球人工智能語音化的“風暴時刻”。
評論 {{userinfo.comments}}
{{child.content}}



{{question.question}}
提交