AI 語(yǔ)音爆發(fā)的這半年,一位「局中人」看到的賽道爆發(fā)邏輯
?
過(guò)去半年,「AI 語(yǔ)音」賽道正密集地獲得融資。尤其引人注目的是,這些融資多為大額,并且投向早期團(tuán)隊(duì)。
比如,前不久 AI 語(yǔ)音應(yīng)用 Wispr Flow 靠「默念輸入」,完成了 3000 萬(wàn)美元的 A 輪融資,累計(jì)融資額已達(dá) 5600 萬(wàn)美元;語(yǔ)音模型公司 Cartesia 在 3 月份完成了 6400 萬(wàn)美元的 A 輪融資,累計(jì)融資 9100 萬(wàn)美元;AI 語(yǔ)音合成公司? ElevenLabs 更是在 1 月份宣布完成 1.8 億美元的 C 輪融資,估值超過(guò) 30 億美元 。
與此同時(shí),無(wú)論是 Meta、OpenAI、Google 等科技巨頭,還是 MiniMax 等創(chuàng)業(yè)公司,都在密集發(fā)布自己的語(yǔ)音模型或語(yǔ)音產(chǎn)品。Siri 也被曝出或?qū)⒈?ChatGPT 或 Claude 等模型接管,來(lái)跟上語(yǔ)音交互的進(jìn)展。
這些消息無(wú)一例外都指向了 AI 語(yǔ)音的火爆。
為什么過(guò)去半年多以來(lái),AI 語(yǔ)音領(lǐng)域會(huì)如此集中地爆發(fā)?
聲智副總裁黃赟賀認(rèn)為,語(yǔ)音對(duì)話從一個(gè) App 中的功能模塊,迅速進(jìn)化為 AI 時(shí)代入口級(jí)別的存在,與大模型的加持有極大關(guān)系。
在智能音箱紅極一時(shí)的年代,大部分我們熟知的智能音箱品牌都搭載了聲智的遠(yuǎn)場(chǎng)聲學(xué)交互技術(shù),比如小愛(ài)同學(xué)、天貓精靈、小度音箱等等 。而「小愛(ài)小愛(ài)」的喚醒詞,實(shí)際上也是來(lái)自于 聲智 。
這家公司創(chuàng)辦于 2016 年,一直在聲學(xué)+ AI 交叉領(lǐng)域探索。然而,作為一家在幕后提供 AI 聲學(xué)技術(shù)的公司,在大模型浪潮來(lái)臨之后,果斷選擇下場(chǎng)投身開(kāi)發(fā)自己的 C 端產(chǎn)品。毫無(wú)疑問(wèn),他們看到了這波「大模型+語(yǔ)音」浪潮里新的商業(yè)機(jī)會(huì), 其旗下的 AI 耳機(jī)目前出貨量已接近 100 萬(wàn)套 。
前不久, 極客公園 與聲智 副總裁 黃赟賀聊了聊 AI 語(yǔ)音市場(chǎng)的爆發(fā)邏輯、語(yǔ)音交互的「卡點(diǎn)」,以及它將如何影響我們的未來(lái)。
?
以下內(nèi)容根據(jù)黃赟賀的講述和聲智的論文整理而成:
AI 語(yǔ)音的想象力,已經(jīng)遠(yuǎn)在 Siri 之上|圖片來(lái)源:網(wǎng)絡(luò)
?
AI ?語(yǔ)音 為何現(xiàn)在爆發(fā)了?
最近兩年,越來(lái)越多的 AI 語(yǔ)音初創(chuàng)團(tuán)隊(duì)獲得大額融資,集中爆發(fā)。
其中,一個(gè)很重要的推動(dòng)因素是, 大模型讓聲音這項(xiàng)基礎(chǔ)能力首次實(shí)現(xiàn)了「可編程化」 。
「可編程化」這個(gè)詞,意味著將一種能力或者一個(gè)對(duì)象,通過(guò)清晰的接口和邏輯,變得可以被代碼自由地調(diào)用、組合、修改和控制。過(guò)去,文字是可編程的,圖像是可編程的,甚至視頻也是可編程的(比如視頻編輯軟件)。
但聲音更多的是一種「輸入」或「輸出」的介質(zhì),其內(nèi)部的復(fù)雜結(jié)構(gòu)和信息,很難被軟件直接「編程」和「理解」。
傳統(tǒng)的語(yǔ)音識(shí)別,更多是把聲音轉(zhuǎn)換成文字,然后對(duì)文字進(jìn)行處理。
比如,之前在深圳、成都有很多做聲音標(biāo)注的團(tuán)隊(duì),拿到語(yǔ)音之后,再人工轉(zhuǎn)換成文字,打上不同的標(biāo)簽,比如各種特征、意向的標(biāo)簽。
大模型來(lái)了之后,打標(biāo)簽的這項(xiàng)工作可以交給大模型,它比大量的人工團(tuán)隊(duì)標(biāo)得快和準(zhǔn)。
以前做 NLP 的背后都是一堆苦逼的運(yùn)營(yíng)在那里打標(biāo)簽,讓 AI 系統(tǒng)能夠識(shí)別每個(gè)句子的意向。過(guò)去,語(yǔ)音的開(kāi)發(fā),每增加一個(gè)功能,都需要從頭寫(xiě)代碼,費(fèi)時(shí)費(fèi)力。比如,想讓智能音箱支持「點(diǎn)外賣(mài)」,得單獨(dú)開(kāi)發(fā)一套語(yǔ)音識(shí)別和語(yǔ)義邏輯,成本高、周期長(zhǎng)。
而現(xiàn)在 AI 大模型可以解決了。
更重要的,依靠大模型對(duì)多模態(tài)數(shù)據(jù)的深度理解能力,對(duì)聲學(xué)信號(hào)的更細(xì)致解析,使得 聲音本身攜帶的除了文字信息之外的更多信息,開(kāi)始被 AI 系統(tǒng)直接捕捉、理解和「編程」。
這種可編程化,意味著 AI 可以像處理數(shù)據(jù)一樣處理聲音。它可以分析聲音的頻率、振幅、波形,提取出情緒特征、識(shí)別不同的聲源、聲源距離、甚至預(yù)測(cè)你的意圖。
這時(shí),聲音包含的不再僅僅是「你說(shuō)了什么」,更是「你如何說(shuō)」、「你在哪里說(shuō)」、「誰(shuí)在說(shuō)」以及「你說(shuō)了之后希望發(fā)生什么」。
由此,聲音也成為了真正的交互引擎。
?
真正的語(yǔ)音交互,不是「Voice」而是「Sound」
其實(shí),很多人以為,語(yǔ)音交互就是「Voice」(語(yǔ)音)。但其實(shí) Voice 這個(gè)詞是一個(gè)狹窄概念。真正的語(yǔ)音交互,核心不是「Voice」,而是「Sound」(聲音)。Sound 里面包含了 Voice。
具體來(lái)說(shuō),「Sound」包含了更豐富的元素:語(yǔ)調(diào)、音色、節(jié)奏、情緒,更重要的是環(huán)境音。環(huán)境音里面可能包含了環(huán)境中的各種非語(yǔ)音信息, 比如背景音樂(lè)、環(huán)境噪音(風(fēng)聲、雨聲、車聲)、物體發(fā)出的聲音(開(kāi)門(mén)聲、打字聲)、以及人類語(yǔ)音中包含的非語(yǔ)義信息(語(yǔ)調(diào)、語(yǔ)速、音色、語(yǔ)氣詞、嘆息聲、笑聲、哭聲等)。
比如說(shuō),你咳嗽的時(shí)候,跟 AI 說(shuō)話,它可能會(huì)識(shí)別出咳嗽,然后跟你說(shuō)多喝水;比如,你在咖啡館說(shuō),「幫我找個(gè)安靜的地方」,AI 不僅要理解你的指令,還要從背景音中判斷出你當(dāng)前的環(huán)境嘈雜,從而推薦附近的圖書(shū)館。
當(dāng)我說(shuō)「下一代對(duì)話交互的入口并非『Voice』,而是『Sound』」時(shí), 我指的是 AI 系統(tǒng)將不再僅僅依賴于識(shí)別你說(shuō)的「詞」,而是能夠全面感知和理解你所處環(huán)境的「聲學(xué)場(chǎng)景」中的所有關(guān)鍵元素。
只有當(dāng) AI 能夠全面感知并解析「Sound」中包含的這些多維度信息時(shí),它才能真正理解用戶的深層需求,提供更精準(zhǔn)、更個(gè)性化、更富有情感的交互。這才是真正的「語(yǔ)音交互」,它不僅僅是「聽(tīng)懂」字面意思,更是「聽(tīng)懂」你的「言外之意」和「心聲」。
?
語(yǔ)音交互的「卡點(diǎn)」,大廠燒錢(qián)也沒(méi)用
盡管大模型帶來(lái)了語(yǔ)音交互的巨大飛躍,但語(yǔ)音交互當(dāng)下依然存在一個(gè)核心的「卡點(diǎn)」,而這個(gè)卡點(diǎn)根植于物理學(xué),具體來(lái)說(shuō),就是聲學(xué)。
我們常說(shuō)「聽(tīng)清、聽(tīng)懂、會(huì)說(shuō)」。「聽(tīng)懂」和「會(huì)說(shuō)」的能力,正在被大模型以前所未有的速度提升。 但「聽(tīng)清」這個(gè)最基礎(chǔ)的環(huán)節(jié),卻受到物理層面的制約。 如果 AI 聽(tīng)不清你的指令,即便它能「聽(tīng)懂」再?gòu)?fù)雜的語(yǔ)義,能「會(huì)說(shuō)」再動(dòng)聽(tīng)的話語(yǔ),那也都是空中樓閣。
比如說(shuō)當(dāng)下最熱門(mén)的具身智能,現(xiàn)在很多機(jī)器人都是電驅(qū)動(dòng)的,那么它帶來(lái)幾個(gè)大問(wèn)題,一方面是電路的噪聲本身就很大,另一方面是關(guān)節(jié)噪聲,還有就是很多機(jī)器人是金屬材質(zhì),厚厚的,聲音在穿透時(shí)會(huì)大幅衰減。
所以,機(jī)器人動(dòng)起來(lái)的時(shí)候,噪聲很大,尤其在室外,更難聽(tīng)清楚人的指令。要么大聲喊,或者拿麥克風(fēng)喊。因此,現(xiàn)在很多機(jī)器人都要靠遙控器來(lái)控制。
當(dāng)下最先進(jìn)的具身智能機(jī)器人仍然依賴于遙控器來(lái)操控|圖片來(lái)源:網(wǎng)絡(luò)
這方面,其實(shí)就需要對(duì)聲學(xué)層面的突破,比如說(shuō)環(huán)境噪聲的抑制,比如電路底噪的抑制, 還有嘯叫的抑制、混響回響的抑制等等。
而這些就是物理學(xué)科的邏輯,它需要數(shù)據(jù)樣本,需要 know how 的壁壘,不僅是技術(shù)問(wèn)題,而是時(shí)間的問(wèn)題,需要時(shí)間去采集聲音、做訓(xùn)練。
這不是燒錢(qián)能解決的。
讓 AI 準(zhǔn)確地「聽(tīng)清」用戶的指令,依然是一個(gè)世界級(jí)的難題。而聲學(xué)相關(guān)的人才很少,所以像谷歌、微軟、蘋(píng)果經(jīng)常會(huì)收購(gòu)聲學(xué)技術(shù)的初創(chuàng)公司,幾乎只要出來(lái)一家就會(huì)收購(gòu)他們。
大家都明白,要構(gòu)建真正的下一代人機(jī)交互系統(tǒng),擁有核心的聲學(xué)能力是基石。
?
語(yǔ)音交互的下一站,是實(shí)現(xiàn)「共情」
現(xiàn)在很多 AI 應(yīng)用的日活、留存不高, 有個(gè)很大的原因就是普通人本身是不會(huì)提問(wèn)的,讓人向大模型提問(wèn),這本身就是一個(gè)非常高的交互門(mén)檻。
好的提問(wèn)還需要學(xué)識(shí)、表達(dá)等基礎(chǔ),所以停留在文字層面的問(wèn)答,本身就是一種門(mén)檻限制。
而語(yǔ)音帶來(lái)的一種可能性是,它正在開(kāi)啟一個(gè)全新的階段——人機(jī)交互的「共情模式」。
如果把語(yǔ)音交互比作一個(gè)「UI 界面」,那這個(gè)界面會(huì)長(zhǎng)什么樣?我們可以做個(gè)推演,它的構(gòu)成要素可能會(huì)有:
情緒識(shí)別:AI 通過(guò)分析語(yǔ)調(diào)、音量、語(yǔ)速,判斷用戶的情感狀態(tài)。比如,你的聲音顫抖,AI 可能推測(cè)你在緊張或傷心。
意圖理解:不僅聽(tīng)懂你說(shuō)了什么,還要明白你想做什么。比如,你說(shuō)「播放音樂(lè)」,AI 會(huì)根據(jù)你的情緒,決定是放搖滾還是古典。
聲紋識(shí)別:通過(guò)獨(dú)一無(wú)二的音聲波特征,區(qū)分不同用戶。比如,家里的智能音箱能自動(dòng)切換到「孩子模式」模式,只為孩子的聲音提供安全的回應(yīng)。
情緒生成:AI 的回應(yīng)需要帶有情感化的表達(dá)。比如,用溫暖的語(yǔ)氣說(shuō)「別擔(dān)心,我來(lái)幫你解決」,而不是機(jī)械的「好的,正在處理」。
這些要素的背后,是 AI 從「功能導(dǎo)向」到「情感導(dǎo)向」的轉(zhuǎn)變,AI 會(huì)與人實(shí)現(xiàn)共情。 這種交互,能顯著提升長(zhǎng)時(shí)間交互的質(zhì)量和親密感。
不僅如此,從狹義的「Voice」拓展到廣義的「Sound」,當(dāng) AI 能接收到的不僅僅是用戶的指令,而是整個(gè)物理世界的實(shí)時(shí)反饋時(shí),我們可以去構(gòu)建一個(gè)「聲學(xué)世界模型」。
這個(gè)「聲學(xué)世界模型」可以理解聲音在物理世界中產(chǎn)生、傳播和交互的根本規(guī)律,它不僅要「聽(tīng)清」和「聽(tīng)懂」,更要具備「聲學(xué)常識(shí)」和「聲學(xué)推理」的能力: 它能從一聲悶響中分辨出是書(shū)本落地還是箱子倒塌;能通過(guò)回聲判斷出房間的大小與空曠程度;更能理解「腳步聲由遠(yuǎn)及近」背后所蘊(yùn)含的物理運(yùn)動(dòng)邏輯。
未來(lái),當(dāng)這樣一個(gè)聲學(xué)世界模型與視覺(jué)、語(yǔ)言大模型深度融合時(shí),具身智能機(jī)器人將不再「失聰」和冰冷。這也是我們正在做的。
?
?