當(dāng)AI學(xué)會(huì)吉卜力美學(xué)：動(dòng)漫產(chǎn)業(yè)的下個(gè)十年

虎嗅網(wǎng) ? 6天前掃碼分享

我是創(chuàng)始人李巖：很抱歉！給自己產(chǎn)品做個(gè)廣告，點(diǎn)擊進(jìn)來(lái)看看。

面對(duì)洶涌的AI浪潮，動(dòng)漫產(chǎn)業(yè)正處于技術(shù)的十字路口。

一方面，產(chǎn)能瓶頸與市場(chǎng)需求的矛盾已成為動(dòng)漫業(yè)痛點(diǎn)——頂級(jí)工作室檔期排到兩年后，大量制作仍依賴“工匠精神”主導(dǎo)的傳統(tǒng)手繪，產(chǎn)能緊缺。另一方面，AI技術(shù)正迅速融入傳統(tǒng)動(dòng)漫制作流程。

Google的Veo 3、OpenAI的Sora以及可靈AI、海螺等等視頻大模型每周迭代，從關(guān)鍵幀生成到風(fēng)格轉(zhuǎn)換的技術(shù)探索層出不窮。然而，AI在動(dòng)漫領(lǐng)域的技術(shù)落地仍存在多重壁壘。

在產(chǎn)業(yè)如此供需失衡的背景下，AI正如何滲透進(jìn)動(dòng)漫制作？AI生成視頻的穩(wěn)定性、邏輯連貫性難題，能否被攻克？談及創(chuàng)意生產(chǎn)與行業(yè)倫理，AI又給動(dòng)漫產(chǎn)業(yè)帶來(lái)何種沖擊？

帶著這些問(wèn)題，Azuki內(nèi)容負(fù)責(zé)人、前Google Brain工程師天宇（二月茶）在今年五月親赴日本深度考察。本期《硅谷101》，主播泓君對(duì)談天宇，從他的親身感受出發(fā)，聊聊AI技術(shù)在動(dòng)漫制作中的應(yīng)用情況、技術(shù)瓶頸和潛在影響。當(dāng)AI學(xué)會(huì)吉卜力的分鏡美學(xué)，動(dòng)漫產(chǎn)業(yè)的下一個(gè)十年將在何處落筆？

以下是這次對(duì)話內(nèi)容的精選：

一、動(dòng)漫產(chǎn)業(yè)現(xiàn)狀：供需的歷史性撕裂

泓君： 能否簡(jiǎn)單介紹一下Azuki？為什么你每天的工作會(huì)把大模型生成和日本動(dòng)漫產(chǎn)業(yè)結(jié)合在一起？

天宇： Azuki是我們?cè)?022-2023年的Web3敘事熱潮下創(chuàng)立的。它是NFT與動(dòng)漫結(jié)合的品牌，整體采用二次元風(fēng)格，所以從那時(shí)起就與動(dòng)漫結(jié)下了不解之緣。我一直對(duì)動(dòng)漫有很強(qiáng)的興趣，當(dāng)時(shí)通過(guò)各種機(jī)緣巧合參與到Azuki中，現(xiàn)在在Azuki負(fù)責(zé)整個(gè)內(nèi)容開發(fā)，尤其是動(dòng)漫方向的制作。?

泓君： 你們打算做成類似動(dòng)漫連續(xù)劇還是動(dòng)漫電影？這兩種敘事邏輯差異挺大的。

天宇： 我們目前認(rèn)為最佳方案是從動(dòng)漫劇集入手。作為動(dòng)漫迷，漫畫和劇集仍是接觸IP最直接的方式。我們對(duì)動(dòng)漫電影感興趣的原因在于其生產(chǎn)周期相對(duì)更短。如今動(dòng)漫劇集在全球大火，尤其是日本、美國(guó)乃至中國(guó)，產(chǎn)能都嚴(yán)重供不應(yīng)求，僅等待頂尖工作室的排期就可能需要兩三年，加上制作本身高度手工化，如果從零開始制作一部動(dòng)漫劇集，時(shí)間線很容易拉長(zhǎng)至四五年。而動(dòng)漫短片和電影的制作周期相對(duì)更短。

泓君： 所以做動(dòng)漫電影比劇集還要簡(jiǎn)單些。

天宇： 在動(dòng)漫領(lǐng)域確實(shí)如此。

泓君： 動(dòng)漫劇集通常是具有較長(zhǎng)連續(xù)故事線的作品，可能有多季。假設(shè)制作一季，大概需要多長(zhǎng)時(shí)間？

天宇： 一季12-24集的內(nèi)容，目前純制作周期約三年。但問(wèn)題在于，頂尖工作室?guī)缀鯖]有空閑檔期，全球優(yōu)質(zhì)生產(chǎn)線的排期基本都要等到兩年后，這導(dǎo)致新動(dòng)漫項(xiàng)目的投資很可能要五年后才能見成效。

泓君： 為什么會(huì)出現(xiàn)全球排期爆滿的情況？是因?yàn)閯?dòng)漫又火起來(lái)了，受年輕人喜歡嗎？

天宇： 這個(gè)問(wèn)題很好。我認(rèn)為一方面在于供給，一方面在于需求。需求層面其實(shí)很簡(jiǎn)單，動(dòng)漫屬于相對(duì)年輕的媒介，八零后、九零后這代人是看著動(dòng)漫長(zhǎng)大的，如今他們已成為消費(fèi)主力。同時(shí)，新一代消費(fèi)者如Gen Z （約1997-2012年出生者）、Gen Alpha （約2013-2025年出生者）也是在動(dòng)漫陪伴下成長(zhǎng)的。

雖然在內(nèi)容娛樂領(lǐng)域，動(dòng)漫起初可能處于邊緣地位，但因?yàn)樗歇?dú)特的審美體系，所以許多在它陪伴下長(zhǎng)大的人會(huì)持續(xù)關(guān)注動(dòng)漫，美國(guó)、中國(guó)、日本都存在這種現(xiàn)象。包括周邊、播放、流媒體等各類形態(tài)在內(nèi)的全球動(dòng)漫市場(chǎng)，基本保持每年10%以上的增長(zhǎng)率。無(wú)論從哪個(gè)角度看，這都屬于相當(dāng)快速的增長(zhǎng)，尤其在偏向手游或潮玩的游戲領(lǐng)域，市場(chǎng)成長(zhǎng)速度可能比我們想象的還要快。?

天宇： 供給層面也是一大難題，因?yàn)閯?dòng)漫制作是高度手工化的過(guò)程，比很多人想象的更具勞動(dòng)密集型特征。大家下次看動(dòng)漫時(shí)可以留意一下片尾的職員表，每一集的職員表都很長(zhǎng)，其中還有許多專門負(fù)責(zé)具體環(huán)節(jié)的外包公司，而這些外包公司展開來(lái)看，很多都是幾百人的規(guī)模。即便在這種情況下，目前可能有30%-40%的動(dòng)漫制作仍在紙張上進(jìn)行。

泓君： 所以你剛才說(shuō)的手繪是30%-40%？電腦繪制可能也占60%-70%？

天宇： 不，手繪指的是人用手繪制，其中的30%-40%可能仍在紙張上進(jìn)行，電腦繪制也屬于手繪。但動(dòng)漫行業(yè)的工業(yè)化、集約化和數(shù)字化程度比我們想象的低很多，更像是日本匠人精神主導(dǎo)的小作坊，類似幾人的小團(tuán)隊(duì)經(jīng)營(yíng)一家精品拉面店的模式。正因如此，日本很多動(dòng)畫公司在營(yíng)收和團(tuán)隊(duì)規(guī)模上存在各種問(wèn)題，所以動(dòng)漫行業(yè)的絕對(duì)供給實(shí)際上受到人才、管理體制甚至技術(shù)的制約。由于供需之間存在巨大錯(cuò)位，導(dǎo)致現(xiàn)在很多資本方，包括我們作為IP方，雖然看到全球動(dòng)漫興起的趨勢(shì)，但產(chǎn)能集中在少數(shù)國(guó)家，且擴(kuò)張速度緩慢，這就造成了強(qiáng)烈的排期現(xiàn)象。

二、 AI融合三范式：傳統(tǒng)派、顛覆派與折中實(shí)驗(yàn)

傳統(tǒng)派：不穩(wěn)定、不可控，AI補(bǔ)幀的效率悖論

泓君： 能否簡(jiǎn)單介紹你聊過(guò)的幾類AI+動(dòng)漫公司，再?gòu)闹破私嵌确治隹尚行裕?

天宇： 這次接觸的公司大致分為三種類型：第一種是傳統(tǒng)動(dòng)漫工作室，先做動(dòng)漫再考慮融入AI，比如飛碟社、MAPPA、MADHOUSE等。這些工作室當(dāng)下最希望通過(guò)AI提升生產(chǎn)線效率，因?yàn)榕牌陲柡蜖顟B(tài)導(dǎo)致它們心有余而力不足。實(shí)際上，主流頂級(jí)動(dòng)畫工作室都在關(guān)注AI技術(shù)。盡管由于AI對(duì)于藝術(shù)家來(lái)說(shuō)是個(gè)特別敏感的話題，它們對(duì)外宣發(fā)較少，但它們看到了潛在的技術(shù)應(yīng)用場(chǎng)景，也是很激動(dòng)的。

泓君： 它們真的有行動(dòng)嗎？

天宇： 有。動(dòng)漫生產(chǎn)流程相對(duì)標(biāo)準(zhǔn)化：從故事腳本、角色設(shè)計(jì)到故事版，再到原畫（包含一元、二元），然后中間幀動(dòng)畫和背景同時(shí)制作，再搭配音樂、配音及后期調(diào)整。工作室最希望能用AI優(yōu)化流程中的某些環(huán)節(jié)去提升效率。

以中間幀制作為例：比如一個(gè)人喝咖啡的動(dòng)作，關(guān)鍵幀可能只有“拿起杯子”“送到嘴邊”“喝完咖啡后的狀態(tài)”三張?jiān)嫛Ｈ绻苯硬シ胚@三張，會(huì)顯得動(dòng)作很撕裂，讓觀眾覺得“跳幀”，所以我們需要補(bǔ)中間幀讓動(dòng)作更流暢。如果有細(xì)節(jié)特寫的鏡頭，補(bǔ)幀量會(huì)更大。

在動(dòng)漫行業(yè)，中間幀與關(guān)鍵幀的繪制通常屬于兩個(gè)不同步驟。關(guān)鍵幀繪制被普遍視為極富創(chuàng)造性的工作，而中間幀繪制相對(duì)枯燥，是動(dòng)漫行業(yè)新人最先接觸的工作內(nèi)容。因此，當(dāng)人們思考AI能否助力提升產(chǎn)能時(shí)，中間幀繪制往往成為首個(gè)設(shè)想的應(yīng)用場(chǎng)景。

泓君： 這一需求相當(dāng)于給定兩張?jiān)嫞葾I根據(jù)原畫生成中間的一系列動(dòng)作。這其實(shí)是“圖生圖”。

天宇： 對(duì)。從技術(shù)角度上說(shuō)，這個(gè)過(guò)程好像不是特別困難。無(wú)論在美國(guó)還是國(guó)內(nèi)，高校和企業(yè)都時(shí)不時(shí)針對(duì)關(guān)鍵幀生成發(fā)布突破性論文，幾乎每一兩個(gè)月就能看到相關(guān)技術(shù)進(jìn)展。

泓君： 哪些公司在關(guān)鍵幀技術(shù)上表現(xiàn)突出？

天宇： 實(shí)例很多，比如 B 站研發(fā)團(tuán)隊(duì)幾周前就發(fā)表了很不錯(cuò)的論文，美國(guó)一些獨(dú)立科研團(tuán)隊(duì)也取得了不錯(cuò)的成果。但“理想很豐滿，現(xiàn)實(shí)很骨感”。我們這次參觀的工作室都試過(guò)用AI輔助中間幀生成，問(wèn)題就出在效果不夠穩(wěn)定——最關(guān)鍵的就是“夠”字。到底多穩(wěn)定才算能用？標(biāo)準(zhǔn)特別玄妙。

泓君： 能不能用剛剛“喝咖啡”的例子來(lái)解釋什么叫“夠”？

天宇： 假設(shè)一個(gè)人穿夾克，動(dòng)作里夾克會(huì)有褶皺，手可能有光影變化，戴著手套的話，手套有紋理，咖啡杯上還有圖案。這時(shí)候AI生成的關(guān)鍵幀可能90%看著沒問(wèn)題，但5%到10%的差錯(cuò)就會(huì)嚴(yán)重影響流程。這不僅是物理邏輯的問(wèn)題，更是創(chuàng)意層面的問(wèn)題，因?yàn)閯?dòng)漫本來(lái)就沒追求每幀都符合物理規(guī)律，而是要在創(chuàng)意范圍內(nèi)可信又好看。比如夾克褶皺突然出現(xiàn)又消失，播放時(shí)觀感就很奇怪——袖子上到底有沒有東西？

泓君： 觀眾可能還會(huì)聯(lián)想到是不是跟劇情有關(guān)系。

天宇： 對(duì)對(duì)對(duì)，尤其是像動(dòng)漫這種媒介，因?yàn)槊恳还P都是人畫的，尤其大師作品每個(gè)細(xì)節(jié)都有深層思考。

泓君： AI生成的不完美細(xì)節(jié)，很容易被觀眾當(dāng)成劇情鋪墊去過(guò)度解讀。

天宇： 這絕對(duì)是一個(gè)很大的原因。更核心的是，動(dòng)漫里的夸張動(dòng)作本身就是導(dǎo)演和動(dòng)畫師的美學(xué)表達(dá)，不是真實(shí)物理世界的復(fù)刻。AI要是在5%-10%的細(xì)節(jié)上處理不好，改起來(lái)不一定容易，比如在衣服上加幾筆褶皺就挺難的，比我們想象的麻煩。這也是為什么大家覺得AI生成關(guān)鍵幀看著不錯(cuò)，但實(shí)際上“足夠可用”的標(biāo)準(zhǔn)特別高。比如用AI生成喝咖啡的10張關(guān)鍵幀，每張看著都還行，但每張不同地方都有5%的誤差，這10張都得交給作畫監(jiān)督和原畫師審查，真的節(jié)省時(shí)間嗎？有時(shí)候可能還不如自己畫來(lái)得快。

泓君： 95%的10次方，這個(gè)正確率最后可以算出來(lái)的。

天宇： 對(duì)，算下來(lái)發(fā)現(xiàn)AI好像也沒有那么大的幫助。這還牽扯到生成模型的問(wèn)題：如果找10個(gè)實(shí)習(xí)生畫中間幀，至少能詳細(xì)地告訴他們錯(cuò)在哪兒，還能一起開會(huì)討論修改方向。

泓君： 但是AI很難做到可控生成，比如想讓它去掉衣服褶皺，它可能改的不是指定位置，或者依然重復(fù)出錯(cuò)。

天宇： 這就是細(xì)節(jié)里的“魔鬼”。如果是10個(gè)實(shí)習(xí)生，至少能保證每次交稿都在進(jìn)步，但AI不一定。即便用Mask技術(shù) （掩碼，一種深度學(xué)習(xí)技術(shù)，讓模型專注于重要數(shù)據(jù)，而忽略無(wú)效或不相關(guān)的部分），讓AI準(zhǔn)確率從90%優(yōu)化到95%再到100%，這個(gè)過(guò)程未必比人工快。

它和好萊塢特效制作是一個(gè)道理。比如拍車爆炸，這個(gè)爆炸有多大？是否產(chǎn)生煙霧？是什么顏色的？產(chǎn)生的碎片該往哪些方向飛？這些在很多導(dǎo)演心中都是相當(dāng)重要的細(xì)節(jié)。現(xiàn)在AI很難做到這種精細(xì)控制。這其實(shí)還是回到“夠不夠好”的標(biāo)準(zhǔn)問(wèn)題：當(dāng)技術(shù)對(duì)細(xì)節(jié)的把控達(dá)不到創(chuàng)作需求時(shí)，就很難真正替代人工。

顛覆派：以AI為中心，“缺了夸張美學(xué)”

天宇： 剛好借此聊聊第二類公司——完全拋棄傳統(tǒng)動(dòng)漫工業(yè)流程，以AI為核心重構(gòu)制作體系的創(chuàng)業(yè)公司。這類團(tuán)隊(duì)可能缺乏動(dòng)畫制作經(jīng)驗(yàn)，但他們不是用AI優(yōu)化現(xiàn)有流程，而是從零開始圍繞AI設(shè)計(jì)全新生產(chǎn)邏輯。

比如中間幀用AI制作難度大，那就干脆不做中間幀，或者采用全新的中間幀制作方式。我們之前聊到一家叫KAKA Creation的公司，他們今年推出了一部約30分鐘的動(dòng)畫，聲稱95%內(nèi)容由AI生成。當(dāng)時(shí)這個(gè)項(xiàng)目在網(wǎng)上引起了軒然大波，剛好又是在OpenAI把照片吉卜力化的風(fēng)口浪尖上。

這家公司規(guī)模很小，團(tuán)隊(duì)大概只有10人左右，還處于初創(chuàng)階段。他們覺得視頻生成模型很有潛力，就想從零開始嘗試。KAKA Creation的關(guān)鍵幀和中間幀中，有很多是通過(guò)動(dòng)作捕捉完成的——讓真人表演，再用AI把真人動(dòng)作轉(zhuǎn)換成動(dòng)漫風(fēng)格。?

泓君： 它是把人演的視頻捕捉下來(lái)，還是說(shuō)圖像捕捉下來(lái)，再把它導(dǎo)入到大模型里，做成動(dòng)漫吉卜力風(fēng)格？

天宇： 還是用剛才的例子吧。他們的思路是：既然AI直接生成畫面存在明顯缺陷，那就先錄制真人拿起咖啡并喝一口的視頻素材，再把素材導(dǎo)入AI模型，轉(zhuǎn)換成動(dòng)漫風(fēng)格。

泓君： 你覺得做得怎么樣？打多少分？

天宇： 10分制的話，給6-7分。從純動(dòng)漫制作角度看，這個(gè)分?jǐn)?shù)確實(shí)達(dá)到了及格線，但不算高，能明顯看出是AI制作的。它和傳統(tǒng)動(dòng)畫相比，在表現(xiàn)力和美學(xué)設(shè)計(jì)上還有差距。

泓君： 舉一個(gè)例子，美學(xué)上的設(shè)計(jì)差在哪？

天宇： 比如說(shuō)，傳統(tǒng)動(dòng)畫制作中，無(wú)論是3D還是2D模型，都需要一幀一幀繪制動(dòng)作，甚至要手動(dòng)調(diào)整3D角色的姿勢(shì)；而動(dòng)作捕捉直接讓真人表演，效率確實(shí)更高。但問(wèn)題在于，動(dòng)漫往往追求更夸張的表現(xiàn)力，這是一種美學(xué)追求。用動(dòng)作捕捉生成動(dòng)漫時(shí)，經(jīng)常出現(xiàn)動(dòng)作僵硬的問(wèn)題——因?yàn)椴蹲降氖钦嫒俗匀粍?dòng)作，不夠夸張，缺乏藝術(shù)性。

泓君： 我懂了，就是它不夠夸張、不夠有藝術(shù)性。

天宇： 對(duì)，它不夠夸張、不夠有趣。因?yàn)槲覀儗?shí)際上一天到晚看的周圍世界就是很真實(shí)的世界。如果我真的喜歡這種風(fēng)格，為什么不去看真人電影？

泓君： 就像真人笑的時(shí)候嘴巴弧度有限，但動(dòng)漫里可以把眼睛畫得很大，嘴巴一直延伸到耳根，這種夸張感很有趣。

天宇： 比如哆啦A夢(mèng)的經(jīng)典表情，嘴笑得那么大，眼睛都瞇成一條線了。但用動(dòng)作捕捉來(lái)實(shí)現(xiàn)這種效果會(huì)遇到技術(shù)難點(diǎn)。所以動(dòng)捕也好也壞，本質(zhì)上是一種美學(xué)層面的取舍。KAKA Creation的案例就體現(xiàn)了這一點(diǎn)。

泓君： 但我覺得這也是一種挺好的思路。

天宇： 比如背景通常也是手繪的，現(xiàn)在可以不用畫，直接拍張照片讓AI轉(zhuǎn)風(fēng)格。尤其是靜態(tài)背景，不那么容易穿幫。

泓君： 那這是不是已經(jīng)構(gòu)成了傳統(tǒng)動(dòng)畫產(chǎn)業(yè)鏈的一個(gè)環(huán)節(jié)——至少背景空鏡頭可以用AI做？

天宇： 很對(duì)。比如Netflix改編手冢治蟲的《PLUTO》時(shí)，就公開說(shuō)過(guò)在背景制作中引入了AI生成技術(shù)，這確實(shí)是一個(gè)很實(shí)在的落地場(chǎng)景。不過(guò)它對(duì)實(shí)際效率的提升效果不好說(shuō)，因?yàn)楸尘爸谱髟趧?dòng)畫流程里相對(duì)獨(dú)立，畫人物動(dòng)作比畫背景復(fù)雜得多。

泓君： 成本占比也不一定高。

天宇： 當(dāng)然也有例外，比如新海城這種“背景狂人”對(duì)背景的精細(xì)度要求極高，AI目前達(dá)不到那種水準(zhǔn)。但絕大多數(shù)動(dòng)畫的背景制作確實(shí)能用AI輔助，這也是未來(lái)很多工作室可能探索的方向，只是它解決不了動(dòng)畫制作的核心瓶頸。

折中派：ChatGPT當(dāng)助理，AI分擔(dān)導(dǎo)演負(fù)荷

泓君： 剛才聊了兩類公司：一類傳統(tǒng)工作室對(duì)AI探索還一頭霧水，另一類完全用新邏輯做動(dòng)漫。有沒有中間派？

天宇： 有個(gè)特別有意思的案例：一家傳統(tǒng)動(dòng)畫工作室嘗試給導(dǎo)演做“ChatGPT助手”。他們把導(dǎo)演過(guò)往的故事板、修改建議、腳本等素材輸入ChatGPT，讓它模擬導(dǎo)演對(duì)新項(xiàng)目做評(píng)估，沒想到這真的有用。尤其是對(duì)于大項(xiàng)目導(dǎo)演，他們的工作量遠(yuǎn)超個(gè)人處理能力：所有環(huán)節(jié)的審美把控、故事板、腳本、風(fēng)格、色彩、動(dòng)作時(shí)序都要過(guò)目，根本不可能逐幀修正。所以導(dǎo)演會(huì)組建信任的團(tuán)隊(duì)，比如依賴原畫師和修正的專職人員，但團(tuán)隊(duì)成員一旦掉鏈子，就容易“作畫崩壞”。而導(dǎo)演作為總籌劃，精力有限，需要處理的反饋太多，而這個(gè)AI助理就幫他們分擔(dān)了部分評(píng)估工作。

泓君： 這個(gè)想法非常棒。

天宇： 所以他們的思路是給導(dǎo)演做一個(gè)ChatGPT虛擬助理，當(dāng)某個(gè)環(huán)節(jié)需要導(dǎo)演反饋時(shí)，先讓ChatGPT過(guò)一遍，比如ChatGPT指出問(wèn)題，導(dǎo)演再判斷建議是否合理。他們?cè)囼?yàn)后，導(dǎo)演覺得效果不錯(cuò)。其實(shí)動(dòng)漫行業(yè)的導(dǎo)演和制片人對(duì)AI普遍持開放態(tài)度，因?yàn)樗麄兇_實(shí)常面臨“心有余而力不足”的情況。

泓君： AI能幫導(dǎo)演摳每一幀嗎？給的建議靠譜嗎？

天宇： AI未必能逐幀優(yōu)化，但在關(guān)鍵節(jié)點(diǎn)上，哪怕只能幫40%-50%也很有用。比如導(dǎo)演每天工作8-12小時(shí)，真正能聚精會(huì)神修改的關(guān)鍵點(diǎn)可能不超過(guò)10個(gè)，如果AI能讓每天處理的關(guān)鍵點(diǎn)增加到15個(gè)，就是巨大的成功。

泓君： 那么從日本回來(lái)后，你對(duì)如何做動(dòng)漫，以及是否使用AI工具的觀點(diǎn)有改變嗎？

天宇： 改變挺大的。大家對(duì)AI更歡迎，也更相信它的潛力，但AI作為工具嵌入生產(chǎn)流程時(shí)，仍存在細(xì)節(jié)上的“魔鬼”。

泓君： 聽起來(lái)，你反而對(duì)AI的態(tài)度更謹(jǐn)慎了？

天宇： 是的，但另一方面，我看到了很多以AI為核心的小團(tuán)隊(duì)實(shí)驗(yàn)，也覺得很興奮。人類對(duì)藝術(shù)創(chuàng)作的追求是永恒的，從上萬(wàn)年前在洞窟中繪制壁畫就開始了。這次從日本回來(lái)后，我更思考：如果把AI作為創(chuàng)作工具，是否會(huì)產(chǎn)生新的可能？比如動(dòng)漫中因制作難度大而很少出現(xiàn)的復(fù)雜華麗服飾——這類服飾的動(dòng)態(tài)繪制需要大量人力，但如果用AI輔助，能否實(shí)現(xiàn)以前做不出的效果？

泓君： 我能想象一些場(chǎng)景，比如激烈的打斗場(chǎng)面還是需要復(fù)雜的服飾來(lái)增強(qiáng)視覺張力，或是塑造王者形象時(shí)，華麗的服飾是體現(xiàn)角色氣場(chǎng)的關(guān)鍵元素。

天宇： 是的，比如中世紀(jì)騎士的盔甲，結(jié)構(gòu)極為復(fù)雜，如果完全依靠手繪呈現(xiàn)每一處精密細(xì)節(jié)，不僅耗時(shí)漫長(zhǎng)，制作成本也會(huì)大幅增加，可能得不償失。類似地，身上佩戴大量掛飾或鈴鐺的角色在現(xiàn)代動(dòng)畫中也較為少見。但如果有AI技術(shù)輔助，這些曾經(jīng)因制作難度大而被舍棄的設(shè)計(jì)，會(huì)不會(huì)產(chǎn)生新的創(chuàng)意可能？我對(duì)這一領(lǐng)域非常期待。

與此相應(yīng)的還有動(dòng)漫的上色方式。如今多數(shù)上色流程仍類似大家小時(shí)候玩過(guò)的 Windows涂鴉工具中的油漆桶功能——畫個(gè)圈，點(diǎn)擊一下就能突然改變顏色。

泓君： 你不覺得這就是人類重復(fù)密集勞動(dòng)的部分嗎？

天宇： 這是技術(shù)與創(chuàng)意產(chǎn)品之間的一種微妙關(guān)系吧。

泓君： 這就是我們最想交給AI去做的。

天宇： 對(duì)。技術(shù)的限制往往會(huì)催生特定的創(chuàng)意形態(tài)。以希臘雕塑為例，大理石材質(zhì)本身構(gòu)成創(chuàng)作限制，加上當(dāng)時(shí)顏料技術(shù)極不成熟，多數(shù)顏料難以在歷史化學(xué)反應(yīng)中保存，導(dǎo)致我們現(xiàn)在所見的希臘大理石雕塑多呈白色。而這種技術(shù)限制在后來(lái)的新古典主義時(shí)期反而被賦予審美價(jià)值，白色成為一種藝術(shù)特色。當(dāng)人類對(duì)材料的控制技術(shù)取得突破，比如塑料化工技術(shù)發(fā)展成熟后，變形金剛玩具、哆啦 A 夢(mèng)手辦等動(dòng)漫周邊又誕生出全新的美學(xué)可能與生產(chǎn)體系。

我希望AI的價(jià)值不應(yīng)局限于將現(xiàn)有創(chuàng)意流程自動(dòng)化，它最美妙、最有趣的意義在于：能否借助這一工具，實(shí)現(xiàn)過(guò)去因技術(shù)瓶頸而無(wú)法企及的創(chuàng)作可能？如果以這樣的愿景看待AI與文化藝術(shù)的融合，未來(lái)人類與AI在創(chuàng)意領(lǐng)域或?qū)⒂瓉?lái)非常令人期待的、百家爭(zhēng)鳴、百花齊放的理想狀態(tài)。當(dāng)然，在此過(guò)程中，每一位具體藝術(shù)家在創(chuàng)作中的核心作用仍需被重視。

三、動(dòng)漫AI變革之困：有突破，但還“不夠好”

泓君： 現(xiàn)在視頻模型能生成的最長(zhǎng)視頻是多少秒？

天宇： 目前很多模型的生成時(shí)長(zhǎng)都在10、15、20秒的區(qū)間。如果繼續(xù)延長(zhǎng)，確實(shí)會(huì)面臨兩方面問(wèn)題：一是剛才提到的穩(wěn)定性問(wèn)題，二是產(chǎn)品與市場(chǎng)需求的匹配度問(wèn)題。因?yàn)槿绻筛L(zhǎng)的視頻，觀眾可能不愿意觀看。想想我們平時(shí)看的影視作品，很難接受一個(gè)人持續(xù)做一件事長(zhǎng)達(dá)一分鐘，尤其在沒有上下文故事的情況下。

泓君： 我上次在Google發(fā)布會(huì)上試用了它的Veo 3，當(dāng)時(shí)輸入的prompt是生成一個(gè)復(fù)雜場(chǎng)景：一只小松鼠和一只貓?jiān)谏狡律媳寂埽┻^(guò)樹林，越過(guò)一座橋，最后到達(dá)山頂，橋的兩側(cè)有彩虹，還有風(fēng)吹動(dòng)。但生成的連續(xù)奔跑過(guò)程中的場(chǎng)景變化效果并不理想，畫面跳轉(zhuǎn)嚴(yán)重，邏輯銜接也很奇怪。

天宇： 感覺像在做夢(mèng)一樣，對(duì)吧？

泓君： 這個(gè)描述太準(zhǔn)確了。比如從橋到山頂?shù)闹虚g沒有任何過(guò)渡，是畫面切換過(guò)去的。

天宇： 然后畫面中的各種元素開始出現(xiàn)不可思議的形變。這確實(shí)與我們剛才談到的穩(wěn)定性密切相關(guān)。如果真的要將它應(yīng)用于創(chuàng)意產(chǎn)品，內(nèi)容至少要具備合理性，除非刻意追求夢(mèng)境般的效果。目前來(lái)看，20-30秒的生成時(shí)長(zhǎng)算是比較長(zhǎng)并且相對(duì)穩(wěn)定的。如果要生成一分鐘以上的內(nèi)容，一方面需要為模型提供更詳細(xì)的情節(jié)，另一方面，模型難以在邏輯層面準(zhǔn)確復(fù)現(xiàn)腦海中的情節(jié)，這仍是待解決的難題。

泓君： 當(dāng)前AI視頻生成的最大問(wèn)題是什么？

天宇： 最大的問(wèn)題就是“不夠好”這三個(gè)字，所有的關(guān)鍵都體現(xiàn)在“夠”這個(gè)標(biāo)準(zhǔn)上。我之前在網(wǎng)上看到一些很感人的個(gè)人應(yīng)用案例：有人將已故家人的照片交給AI，生成10秒左右的動(dòng)態(tài)影像。

泓君： 這種場(chǎng)景在聲音模型中特別多。作為播客從業(yè)者，我注意到現(xiàn)在各廠商的聲音模型競(jìng)爭(zhēng)激烈，我就常看到評(píng)論說(shuō)“我把媽媽生前的語(yǔ)音喂給模型，就能聽到她的聲音了”。

天宇： 對(duì)，很感人。這類應(yīng)用的意義不在于生成多精美的視覺產(chǎn)品，而在于通過(guò)技術(shù)重現(xiàn)與親人的記憶，實(shí)現(xiàn)“有勝于無(wú)”的情感價(jià)值。但如果目標(biāo)是讓AI在日本動(dòng)漫、劇集、好萊塢電影等工業(yè)化場(chǎng)景中發(fā)揮關(guān)鍵作用，“夠不夠好”的標(biāo)準(zhǔn)就會(huì)衍生出諸多細(xì)節(jié)“魔鬼”。目前來(lái)看，穩(wěn)定性和可控性是兩大核心挑戰(zhàn)。

泓君： 現(xiàn)在它們生成人物的時(shí)候，眼睛還會(huì)恐怖嗎？我們?cè)谶@些視頻模型剛發(fā)布時(shí)用過(guò)它們，那時(shí)生成的人物狀態(tài)很恐怖，像迪士尼最開始的動(dòng)漫一樣，眼神空洞。

天宇： 現(xiàn)在這個(gè)問(wèn)題基本解決了，手的穩(wěn)定性也有巨大突破，過(guò)去常出現(xiàn)多根或少根手指的情況，現(xiàn)在幾乎不會(huì)穿幫，這是技術(shù)上的重要進(jìn)步。

四、AI動(dòng)漫的未來(lái)博弈：潛力釋放與倫理紅線的拉鋸

泓君： 你如何看待AI配音？我發(fā)現(xiàn)語(yǔ)音模型的發(fā)展速度最快，效果最好，可控程度也比較高。比如在動(dòng)漫領(lǐng)域，剛才我們討論的都是畫面環(huán)節(jié)，其實(shí)配音和配樂環(huán)節(jié)同樣值得關(guān)注。

天宇： 這涉及到一個(gè)讓我非常忐忑的話題。語(yǔ)音生成確實(shí)比視頻容易太多，從生成質(zhì)量來(lái)看，目前多數(shù)尖端模型的表現(xiàn)已與真人無(wú)異。但語(yǔ)音生成也牽扯出一個(gè)復(fù)雜的問(wèn)題：AI與人類創(chuàng)作者之間究竟是怎樣的經(jīng)濟(jì)關(guān)系？

泓君： 讓你感到忐忑的是什么？

天宇： 這次在日本與一些導(dǎo)演、配音演員和聲優(yōu)交流時(shí)發(fā)現(xiàn)，日本聲優(yōu)有自己的協(xié)會(huì)，近幾個(gè)月來(lái)，多位知名聲優(yōu)公開反對(duì)AI，拒絕將自己的聲音用于模型訓(xùn)練，也不允許AI模仿他們的聲音。我很認(rèn)同他們的觀點(diǎn)：對(duì)聲音的訓(xùn)練和表演是聲優(yōu)賴以生存的職業(yè)，一旦聲優(yōu)被替代，他們的職業(yè)價(jià)值、創(chuàng)意表達(dá)和生計(jì)都會(huì)受到直接沖擊。

泓君： 日本還有聲優(yōu)工會(huì)，但很多國(guó)家沒有，情況更為復(fù)雜。

天宇： 如果討論經(jīng)濟(jì)層面，這確實(shí)是深刻且棘手的問(wèn)題。對(duì)畫師而言，AI還能被視為工具，但同樣的邏輯放在聲優(yōu)身上就顯得困難。因?yàn)锳I生成的聲音與聲優(yōu)的表演過(guò)于相似。

泓君： 在聲音領(lǐng)域，技術(shù)上已具備替代人的能力，我們只需要探索如何解決相關(guān)從業(yè)者的生計(jì)問(wèn)題——這本質(zhì)是經(jīng)濟(jì)關(guān)系與工作倫理的議題，而不再是技術(shù)問(wèn)題。我認(rèn)為播客行業(yè)已出現(xiàn)類似問(wèn)題。

天宇： 技術(shù)上完全可行了，比如AI能模仿泓君的聲音，你只需寫稿無(wú)需錄音，就可以轉(zhuǎn)換成播客。但另一個(gè)觀點(diǎn)也值得認(rèn)可：聲優(yōu)不僅是提供聲音，更是“配音演員”在演繹角色，他們本身也是流量焦點(diǎn)，對(duì)作品創(chuàng)意和商業(yè)的貢獻(xiàn)遠(yuǎn)超物理聲音的范疇，理應(yīng)得到正視與尊重。

泓君： 但從技術(shù)角度說(shuō)，語(yǔ)音生成技術(shù)已經(jīng)比較成熟了，但音樂還不行。

天宇： 我覺得音樂也可以了。

泓君： AI生成音樂的表現(xiàn)力，與人類創(chuàng)作相比怎么樣？

天宇： 這個(gè)問(wèn)題很有意思，甚至可以上升到哲學(xué)層面。學(xué)習(xí)音樂史時(shí)會(huì)發(fā)現(xiàn)，西方音樂史中主流風(fēng)格的變化并不頻繁，這反映出人類認(rèn)為“好聽”的音樂范式其實(shí)有限，而難聽的音樂則層出不窮。現(xiàn)有的大調(diào)、小調(diào)及節(jié)奏體系已被樂理總結(jié)得相當(dāng)完備，AI理解“好聽”的標(biāo)準(zhǔn)并不困難，因此生成的音樂表現(xiàn)力如何，部分取決于聽眾的主觀感受。?

泓君： 以Suno這樣的音樂生成平臺(tái)為例，我們?cè)缙谟X得它生成的作品也太“口水歌”了。與相關(guān)開發(fā)者交流后了解到，這類平臺(tái)不敢直接復(fù)制頂級(jí)流行歌曲，因?yàn)槿绻?xùn)練出風(fēng)格高度相似的作品，會(huì)引發(fā)嚴(yán)重的版權(quán)糾紛。但理論上，只要輸入高質(zhì)量的訓(xùn)練數(shù)據(jù)，AI完全可以模仿特定風(fēng)格。建議嘗試用AI生成古典樂，因?yàn)樵S多古典樂已經(jīng)過(guò)了版權(quán)期限，數(shù)據(jù)更易獲取，目前生成效果相當(dāng)不錯(cuò)。

天宇： 這個(gè)觀點(diǎn)其實(shí)非常正確。這里涉及的商業(yè)倫理問(wèn)題不容忽視：如果技術(shù)上能復(fù)制周杰倫的聲音，可以拿他的聲音去寫歌嗎？

泓君： 細(xì)想之下很可怕，這對(duì)新興藝人尤其不利。所有藝人都需通過(guò)持續(xù)重復(fù)地創(chuàng)作來(lái)打磨作品，如果都用AI替代，那以后可能就沒有好的新歌，或者說(shuō)沒有人類創(chuàng)作出來(lái)的好的新歌了。

天宇： 這就是商業(yè)結(jié)構(gòu)和商業(yè)倫理的問(wèn)題，也印證了中間幀生成等技術(shù)背后的深層矛盾：表面上，中間幀生成模型能保留人類創(chuàng)作，而關(guān)鍵幀仍需手繪，看似兩全其美，但從長(zhǎng)遠(yuǎn)看，會(huì)導(dǎo)致行業(yè)新人失去成長(zhǎng)的階梯。小白需要通過(guò)大量重復(fù)練習(xí)進(jìn)階才可能成為大師，如果技術(shù)取代了這些基礎(chǔ)工作，就像梯子抽掉了底部的橫檔，新一代動(dòng)畫師將失去向上攀爬的落腳點(diǎn)，這才是最令人擔(dān)憂的后果。如果這種現(xiàn)象持續(xù)發(fā)展，動(dòng)漫行業(yè)或許會(huì)在幾十年后面臨倒退風(fēng)險(xiǎn)，當(dāng)前已顯現(xiàn)的大規(guī)模人才短缺問(wèn)題也可能變本加厲。

泓君： 想一想也挺可怕的。

天宇： 我們所處的時(shí)代也挺特殊的，技術(shù)與創(chuàng)意正以驚人的速度相互奔赴。對(duì)于視頻生成、關(guān)鍵幀生成或聲音生成領(lǐng)域的技術(shù)創(chuàng)業(yè)者而言，當(dāng)下時(shí)代對(duì)他們提出了更高的美學(xué)要求。例如生成的音樂如何界定“好聽”？評(píng)判標(biāo)準(zhǔn)是什么？這可能成為技術(shù)指標(biāo)之外，模型訓(xùn)練與迭代優(yōu)化的重要依據(jù)。

泓君： 你的品位可能決定了模型的品位。我最近看到一些文章挺有意思，DeepSeek推出后，它回答問(wèn)題的方式備受認(rèn)可，后來(lái)在一篇采訪中發(fā)現(xiàn)，梁文鋒對(duì)文字美感有明確追求；Anthropic代碼質(zhì)量出眾，可能與創(chuàng)始人的關(guān)注有關(guān)；再看ChatGPT的文本風(fēng)格，明顯滲透著Sam Altman對(duì)表達(dá)、營(yíng)銷及內(nèi)容包裝的重視。這些都與創(chuàng)始人的品位緊密相關(guān)。

天宇： 甚至可以說(shuō)，在大模型和視頻生成模型領(lǐng)域，審美品位能直接轉(zhuǎn)化為商業(yè)價(jià)值與產(chǎn)品優(yōu)勢(shì)。用文字生成20秒的小視頻、特效或中間幀時(shí)，中間幀是否可用？5%的錯(cuò)誤出現(xiàn)在哪？這些瑕疵能否被接受？如果一個(gè)技術(shù)團(tuán)隊(duì)能理解并優(yōu)化這些細(xì)節(jié)，就能在產(chǎn)品競(jìng)爭(zhēng)中形成獨(dú)特優(yōu)勢(shì)。這或許是一個(gè)需要混合型人才的時(shí)代。

泓君： 是的，每個(gè)行業(yè)都在追求混合型人才。

本文來(lái)自微信公眾號(hào)：硅谷101 ，采訪：泓君，圖文：思揚(yáng)、梓沁

国产精品国产a_久久久久久久久综合_免费午夜视频_黄色大片网站_欧美一级免费_av成人在线观看

當(dāng)AI學(xué)會(huì)吉卜力美學(xué)：動(dòng)漫產(chǎn)業(yè)的下個(gè)十年

隨意打賞