国产精品国产a_久久久久久久久综合_免费午夜视频_黄色大片网站_欧美一级免费_av成人在线观看

阿里通義開源音頻生成模型,能模仿音效師為視頻配音 | 速途網

我是創始人李巖:很抱歉!給自己產品做個廣告,點擊進來看看。  

速途網7月1日消息(報道:李楠)今日,阿里通義實驗室開源了旗下首個音頻生成模型ThinkSound,該模型首次將CoT(Chain-of-Thought,思維鏈)應用到音頻生成領域,讓AI可以像專業音效師一樣逐步思考,捕捉視覺細節,生成與畫面同步的高保真音頻。目前,ThinkSound的代碼和模型已在Github、HuggingFace、魔搭社區開源,開發者可免費下載和體驗。

阿里通義開源音頻生成模型,能模仿音效師為視頻配音 | 速途網

阿里開源音頻生成模型ThinkSound

視頻生成音頻(V2A)技術是多媒體編輯和視頻內容創作領域最重要的技術之一,但該技術的發展速度仍存在諸多技術挑戰,例如業界現有的V2A技術仍缺乏對視覺對應聲學細節的深入理解,導致生成的音頻較為通用,甚至與關鍵視覺事件錯位,難以滿足專業創意場景中對時序和語義連貫性的嚴格要求。

為了解決現有視頻轉音頻技術難以捕捉畫面中動態細節和時序的難題,通義團隊首次將思維鏈推理引入多模態大模型,可以模仿人類音效師的多階段創作流程,實現對視覺事件與相應聲音之間深度關聯的精準建模,例如先分析視覺動態、再推斷聲學屬性,最后按照時間順序合成與環境相符的音效。不僅如此,該團隊還構建了首個帶思維鏈標注的音頻數據集AudioCoT,該數據集融合了2531.8小時的多源異構數據,讓模型在音頻生成與編輯任務時做到“知其然、知其所以然”。

在開源的VGGSound測試集上,ThinkSound的核心指標相比MMAudio、V2A-Mappe、V-AURA等現有主流方法均實現了15%以上的提升。例如,在openl3空間中Fréchet 距離(FD)上,ThinkSound 相比 MMAudio的43.26 降至34.56(越低越好),接近真實音頻分布的相似度提高了20%以上;在代表模型對聲音事件類別和特征判別精準度的KLPaSST 和 KLPaNNs兩項指標上分別取得了1.52和1.32的成績,均為同類模型最佳。

阿里通義開源音頻生成模型,能模仿音效師為視頻配音 | 速途網

在開源的VGGSound測試集上,ThinkSound多項核心指標位居第一

在MovieGen Audio Bench測試集上,ThinkSound的表現大幅領先Meta推出的音頻生成模型Movie?Gen?Audio,展現了模型在影視音效、音頻后期、游戲與虛擬現實音效生成等領域的應用潛力。

阿里通義開源音頻生成模型,能模仿音效師為視頻配音 | 速途網

ThinkSound大幅領先Meta旗下Movie Gen Audio

目前,通義實驗室已推出語音生成大模型 Cosyvoice、端到端音頻多模態大模型MinMo等模型,全面覆蓋語音合成、音頻生成、音頻理解等場景。

隨意打賞

提交建議
微信掃一掃,分享給好友吧。
主站蜘蛛池模板: 欧美18—19sex性hd按摩 | 国产高潮国产高潮久久久91 | 国产高清自拍一区 | 欧美性受xxxx人人本视频 | 日韩精品久久久久久久九岛 | 一级免费特黄视频 | 国产自在线 | 超碰人人做人人爱 | chinesexxx少妇露脸 | 亚洲精品xxx | 欧美成a人片在线观看久 | 国产九九在线视频 | 免费1级做55爰片l在线观看 | 国产一区免费 | 亚洲一区二区在线视频 | 黄色av.com| 视频一区二区精品 | 午夜视频在线免费观看 | 蜜桃传媒视频麻豆第一区免费观看 | 成年性羞羞视频免费观看 | 姑娘第5集高清在线观看 | 亚洲一区在线视频 | 久久骚 | 精品国产一区二区三区蜜殿 | 免费一级欧美在线观看视频 | 国产免费福利视频 | 精品一区二区三区网站 | 亚洲片在线观看 | 欧美一级片 在线播放 | av免费入口 | 国产成人综合在线观看 | 精精国产xxxx视频在线播放7 | 精品一区二区久久久久 | 一级黄色免费观看 | 欧美一级美国一级 | 国产成人精品免高潮在线观看 | 国产91一区二区三区 | 亚洲精品在线观看网站 | 国内毛片视频 | 日韩精品中文字幕在线播放 | 免费黄色短视频网站 |