Sony 內部展示《地平線》AI Aloy 聊天機器人的影片雖已遭官方下架,但經過小編的努力不懈終於在推特上找到備份,讓玩家得以一窺完整技術示範內容。
Sony 近日一段「AI Aloy」技術展示影片在網路短暫流傳,雖已迅速遭官方下架,卻已經在玩家圈與開發者社群間引爆激烈爭論。影片中出現《地平線》女主角 Aloy 由 AI 控制的對話示範,讓人直呼「這是遊戲未來最可怕的樣貌」。
據《The Verge》報導,影片由 Sony 軟體工程總監 Sharwin Raghoebardajal 主持,他在影片中展示如何透過 OpenAI 的 Whisper 聲音辨識模型、GPT-4、Meta 的 Llama 3,以及 Sony 自家「Emotional Voice Synthesis(EVS)」語音合成系統與「Mockingbird」嘴型對嘴技術,與 Aloy 進行一問一答互動。
這項技術雖然運行於 PC,但據說未來也能在 PS5 實裝。然而展示效果卻頗為「詭異」:Aloy 的聲音毫無情感,嘴型對嘴更像是一場廉價的動畫災難——有人甚至形容那像Youtube那個AI做的「Will Smith吃義大利麵」的恐怖畫面。
這段「Will Smith 吃義大利麵」原本來自網路迷因影片(”Will Smith eating spaghetti”),是一個由 AI 生成人物影像的早期範例,畫面裡 Will Smith 嘴巴扭曲地吃著義大利麵,動作極度不自然,堪稱 AI 擬真技術「失敗示範」的代表作,常被拿來形容嘴型動畫對嘴失調的尷尬感。
「AI Aloy」引發業界強烈反彈
許多遊戲創作者對此實驗技術表達強烈不滿。《Cyberpunk 2077》續作編劇 Anna Megill 批評道:「我寧願對著宮崎英高設計的那堆扭曲四肢講話,也不想跟這個 Aloy 聊天。」前 Sony Santa Monica 敘事設計師 Alanah Pearce 也坦言對此技術「徹底失望」。
事實上,遊戲產業早已逐步嘗試導入 AI 與大型語言模型(LLM)進入角色對話,但目前多數成果仍停留在「尷尬、空洞、重複」的初步階段。許多開發者甚至諷刺,AI 玩家互動不過是為了延長玩家在線時間、提升日活指標而非真正的敘事革新。

表演者權益危機浮上檯面
更嚴峻的問題,是演員與創作者的權益。為 Aloy 配音的 Ashly Burch 以及其他遊戲表演者,過去一年持續為 AI 合約保障展開抗爭。他們擔憂企業將演出素材餵給 AI,免費生成更多語音與演出,既無需支付報酬,也剝奪原創控制權。
這類擔憂在 Sony 的這支「AI Aloy」影片中被放大:若將來 AI 可完美模仿 Burch 的語音語調、臉部表情,那 Aloy 是否還是 Aloy?還是只是另一個用來收割玩家注意力的商業殼子?
諷刺的是,《Horizon》系列正是描寫人類如何在 AI 毀滅世界後求生的故事。而如今 Sony 卻親自演出了一場「未來再度失控」的序章。若未來的 Aloy 不再是精心雕琢的角色,而是無止境回應玩家的聊天工具──那麼,她與《Horizon》故事中那些失控系統又有何不同?

影片解析:工程師對話開啟互動
影片由 Sony 軟體工程總監 Sharwin Raghoebardajal 出鏡示範。他站在電腦螢幕前,開口對 AI Aloy 發出語音指令:
“Hi Aloy, what are you doing?”
Aloy 停頓一秒後以合成語音回應:
“Just exploring the area, making sure everything is safe.”
觀察可見,Sony 使用了 OpenAI Whisper 辨識語音輸入,再由 GPT-4 輸出語意,最後以自家 Emotional Voice Synthesis 技術合成 Aloy 的語音回應。嘴部動畫則由 Mockingbird 技術驅動,但動作明顯僵硬、對嘴失準。
Sharwin 繼續提問:
“Where can I find salmon bones to upgrade my pouch?”
Aloy 回應:
“You can find salmon bones in the river near the cliffs. Try looking near the rocks.”
這段對話呈現了 GPT-4 處理遊戲內物品查詢的能力,雖然資訊準確,但語氣平板,缺乏情緒與自然語調。
Sharwin 隨後測試角色理解情境問題:
“What do you think of this place?”
Aloy 回答:
“It’s peaceful. But I always stay alert. Danger can be anywhere.”
這裡展現了 AI 模擬角色語氣與個性,但仍明顯缺乏真正角色演繹的靈魂。

Sony自曝技術架構
影片中段插入畫面切換,Sharwin 介紹整體系統:
- Whisper:負責即時語音辨識
- GPT-4 / Llama 3:處理語言理解與回應生成
- EVS:Sony Emotional Voice Synthesis 合成語音
- Mockingbird:嘴型動畫處理
Sharwin 表示:「這只是未來可能性的其中一瞥。」
「臨場互動體驗」構想
影片尾段模擬玩家在遊戲中呼叫 Aloy 提問路線:
“How do I get to the Tallneck nearby?”
Aloy 回答:
“Follow the path to the north. You’ll see it standing above the trees. I can mark it on your map.”
Sharwin強調,這種 AI 輔助對話未來可提供「更自然的角色互動體驗」,甚至支援任意語音查詢、不受劇情限制。