(資料圖片僅供參考)
蘋果(Apple)的HomePod并沒(méi)有因?yàn)槠浼蓴?shù)字助理Siri的功能而贏得太多贊譽(yù),但它確實(shí)有一個(gè)不可否認(rèn)的令人印象深刻的功能:盡管受到吵鬧的音樂(lè)、對(duì)話或電視音頻的干擾,它仍然能夠準(zhǔn)確地聽(tīng)到房間另一頭用戶的命令。正如該公司的《機(jī)器學(xué)習(xí)雜志》(Machine Learning Journal)今天所解釋的,HomePod正在利用人工智能來(lái)持續(xù)監(jiān)控一組6個(gè)麥克風(fēng),利用從深度學(xué)習(xí)模型獲得的知識(shí)來(lái)處理它們的不同輸入。
要識(shí)別用戶對(duì)周圍環(huán)境噪音的指令,最大的挑戰(zhàn)之一是要克服HomePod本身:蘋果的揚(yáng)聲器可以在非常高的音量下工作,而且它的麥克風(fēng)緊鄰噪音源。因此,該公司解釋說(shuō),沒(méi)有辦法完全從麥克風(fēng)上移除HomePod自己的音頻——只是一部分。
相反,蘋果公司使用真實(shí)的回聲錄音來(lái)訓(xùn)練一個(gè)深度神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別HomePod特定的揚(yáng)聲器和振動(dòng)回聲,創(chuàng)造了一個(gè)能夠消除HomePod自身聲音的殘留回聲抑制系統(tǒng)。它還適用于特定于房間特性的混響消除模型,由揚(yáng)聲器連續(xù)測(cè)量。
另一個(gè)有趣的技巧是使用波束形成來(lái)確定說(shuō)話的用戶的位置,將麥克風(fēng)對(duì)準(zhǔn)那個(gè)人,并使用聲音掩蔽來(lái)過(guò)濾來(lái)自其他來(lái)源的噪音。蘋果公司建立了一個(gè)系統(tǒng),該系統(tǒng)僅根據(jù)麥克風(fēng)當(dāng)前和過(guò)去的信號(hào)來(lái)判斷當(dāng)?shù)氐恼Z(yǔ)音和噪音統(tǒng)計(jì)數(shù)據(jù),在試圖消除干擾的同時(shí)專注于語(yǔ)音。然后利用從擴(kuò)散到定向、從語(yǔ)音到噪聲的各種常見(jiàn)噪聲訓(xùn)練神經(jīng)網(wǎng)絡(luò),使濾波可以應(yīng)用于大量的干擾源。
上圖:蘋果的HomePod可以回答關(guān)于音樂(lè)的問(wèn)題,但它不能回答或打電話,直到發(fā)布后的更新。
HomePod的另一項(xiàng)令人印象深刻的功能是,它可以確定說(shuō)多種語(yǔ)言的人中的哪一個(gè)是命令的正確目標(biāo),從而控制波束形成麥克風(fēng)和隔離噪音。其中一種方法是使用所需的“嘿Siri”觸發(fā)詞決定誰(shuí)和命令來(lái)自哪里,但蘋果也發(fā)達(dá)技術(shù)獨(dú)立的語(yǔ)言競(jìng)爭(zhēng)為單獨(dú)的音頻流,然后使用深度學(xué)習(xí)想說(shuō)話發(fā)出指令,發(fā)送的流關(guān)注說(shuō)話進(jìn)行處理。
機(jī)器學(xué)習(xí)雜志的條目做了一個(gè)偉大的工作,突出了人工智能輔助語(yǔ)音處理技術(shù)是必要的,但并不足以保證一個(gè)偉大的經(jīng)驗(yàn)與遠(yuǎn)場(chǎng)數(shù)字助理。雖然上述所有技術(shù)確實(shí)能快速、可靠、準(zhǔn)確地觸發(fā)Siri,但HomePod實(shí)際上完全響應(yīng)請(qǐng)求的能力有限,這是用戶在評(píng)論中經(jīng)常抱怨的一個(gè)問(wèn)題。如果說(shuō)有什么好消息的話,那就是問(wèn)題似乎出在Siri基于云的大腦上,而不是HomePod的硬件或本地運(yùn)行的服務(wù)上,因此服務(wù)器端補(bǔ)丁可以顯著改善Siri的功能,而無(wú)需用戶購(gòu)買新的硬件。
關(guān)鍵詞: