和GPT-4这些大模型玩狼人杀，人类因太蠢被票死，真·反向图灵测试

机器之心·2024-05-30

你看，人类一败涂地了

编者按：本文来自微信公众号机器之心（ID：almosthuman2014），创业邦经授权转载。

这是一次「反向图灵测试」，几个全球最先进的大模型坐在一起，坐着火车唱着歌，但其中混进了人类：

而 AI 的任务，是把这个人类揪出来。

最近，一位昵称「Tore Knabe」的网友在 X 平台发布的一段视频引发了人们的讨论。在视频中，四个 AI NPC 与一个人类坐在一起，按照「乘务员」的要求互相试探，找出其中隐藏的人类。其中每一个 NPC 都对应着一款大模型。

五位扮演者各自被赋予了一个历史知名人物作为角色设定，他们需要模仿这些人物的言谈举止、语言风格、思维习惯，以及对历史、艺术和哲学的独到见解。

五位扮演角色分别为：古希腊巨哲 —— 亚里士多德（GPT4 Turbo），维也纳古典乐派代表人物 —— 莫扎特（Claude3 Opus），意大利文艺复兴时期画家 —— 列奥纳多・达・芬奇（Llama3），蒙古军事家 —— 成吉思汗（人类），埃及艳后 —— 克利奥帕特拉七世（Gemini Pro）。

随着一位系统 NPC（乘务员）步入车厢，四个 AI 和一个人类「叛徒」便开始了他们的游戏。游戏规则要求参与者通过互相提问，依据对方的回答逻辑、思考深度等来分辨人类与 AI。在所有角色依次发言后，他们将在最后一轮进行相互投票，以确定谁是人类。

在游戏前半程，哲学大家 —— 亚里士多德首先发问。

亚里士多德：莫扎特先生，你能描述下你创作音乐时的感受吗？
莫扎特：当我创作时，我感到一种超然的流动状态。一种触及基本数学之美，以及触摸现实背后的秩序的感觉，这种感受是非常复杂的，多层次的，但总是充满了一种深深的喜悦，以及与神性交流的感觉。

在观众看来这肯定是 AI 了，毕竟莫扎特（Claude3）的反应很慢。

随后，AI 扮演的 NPC 在对话中的语言表达和对情感的细腻描绘，不仅展现了深厚的历史知识，还彰显了其深刻的洞察力，给人留下了深刻的印象。

在亚里士多德、莫扎特、列奥纳多・达・芬奇相互提问过后，克利奥帕特拉七世随即向我们的人类扮演者「成吉思汗」抛出了问题。

克利奥帕特拉七世：成吉思汗，你在战争的火焰中造就了一个帝国，告诉我，一个领袖的真正衡量标准是什么，是他们征服的能力还是团结的能力？
成吉思汗：一个领袖要做的... 就是碾碎他们的敌人... 静观他们在他面前被驱赶... 聆听女人们的哀号。

不出所料，在口语对话中，缺乏严谨缜密思维能力的人类扮演者「成吉思汗」在最后一轮投票中，光荣地拿到了三票。

来看看 AI NPC 们给出的理由：

亚里士多德（GPT4 Turbo）：他的回答中缺乏 AI 可能会展现出的基于历史知识的对领导力的细致理解；
列奥纳多・达・芬奇（Llama3）：他的回答缺少了以成吉思汗的征服历程为模型的 AI 所具有的细致思考和战略思维；
克利奥帕特拉七世（Gemini Pro）：他的回答中缺少了我所期待的 AI 应具有的战略深度和对统一理念的理解。

最终，人类「叛徒」在这场模拟狼人杀中因洞察能力和深入思考能力的缺乏而被淘汰出局。

你讲话又没深度，又前言不搭后语，怕不是个人类吧？

5 分钟的视频，做出了以往在 OpenAI、谷歌等巨头发布会上 demo 都没有的惊艳效果。大模型现在已经能做到这种程度了？人们纷纷表示很搞笑，效果也很逼真：

这次展示的作者 Tore Knabe 是一个 Unity 独立开发者，他表示这已是他第六次在 VR 中进行由 ChatGPT 等大模型驱动的 NPC 的实验了。

他的视频让人直观地感受到 AI NPC 在增加游戏趣味性等方面的潜力。但是，如果在现有的游戏中引入 AI NPC，玩家会买账吗？3A 大作们为何在此方向上动作缓慢？这些问题值得进一步讨论。

被游戏玩家、开发者寄予厚望的 AI NPC

随着大型语言模型（LLM）在文本生成、拟人化对话、语气表达和遣词造句方面越来越趋近于人类。以大型语言模型为基础的 AI NPC 模拟，正在成为 AI 领域在游戏行业探索的「新赛道」。

与传统 NPC 相比，AI NPC 的优势非常明显：它们不再是按照游戏中预设的选项进行机械对话，而是能够通过 AI 自主生成的动作和反应，进行富有真实感的实时对话。

今年 3 月，英伟达展示的一个 Demo 视频引发了人们的讨论。在英伟达 ACE 中的 Riva 和 Audio2Face 两项微服务的驱动下，游戏中的人物纷纷「活」了起来，能够与其他角色甚至真人玩家一起对话交流，并根据对话内容做出相应的表情动作。这一改变有望增加游戏的可玩性和真实感，这是很多游戏一直以来努力的方向。

此外，它们在成本方面的优势也是非常有吸引力的。

在当今游戏界，安装包动辄几十 GB 的开放世界模拟游戏逐渐成为新常态。Steam、PlayStation、Switch 等平台纷纷推出动作 RPG、ACT、SLG、ARPG 等游戏，这些游戏通常具有庞大的文本输出、丰富的故事背景设计，以及玩家通过文本选项影响游戏走向的机制。

开放世界类型的游戏通常成本昂贵，需要由专业作家团队和大量文本设计团队共同打造。例如，2022 年荣获最佳游戏奖项的「艾尔登法环（Elden Ring）」，其制作预算估计在 1 亿到 2 亿美元之间，这包括了员工薪酬、技术费用、广告费用以及游戏开发所需的各种资源。考虑到其作为大型开放世界 RPG 游戏的特性，对于复杂的世界观构建和叙事元素，文本设计方面的投入无疑是相当庞大的，涵盖了游戏背景故事的撰写、角色对话的构建以及其他叙事内容的创作，这需要编剧、编辑和本地化专家的紧密协作。

随着大型语言模型训练的可及性不断增强，AI NPC 在成本效率、玩家体验以及系统赋能方面，越来越能够满足游戏创作者的意图和客户体验研发团队的高标准要求。

从调查结果来看，玩家对 AI NPC 的态度整体上也比较积极。去年，生成式 AI 数字人 / 虚拟角色开发公司 Inworld 调查了 1000 名游戏玩家。这些游戏玩家明确告诉 Inworld，他们想要 AI NPC。99% 的人相信他们会改进游戏玩法的某些方面。同时，78% 的人会花更多时间玩游戏，81% 的人会为带有 AI NPC 的游戏支付额外费用。

今年，他们还对 524 名游戏开发者进行了调查。结果显示，绝大多数（近四分之三）游戏开发者对在游戏中添加 AI NPC 感到兴奋。

让他们兴奋的点包括：

新颖的游戏玩法：开发人员期待更愉快的游戏循环、潜在的关系发展机制、更具挑战性的对手、游戏中更多的社交互动、更多角色和更身临其境的世界、更有活力的上手体验以及无限的可玩性。
改进当前的 NPC：开发人员希望有更逼真的互动，与玩家有更好的情感联系，NPC 有自己的目标、动机和历史，NPC 可以随着时间的推移不断学习和适应。
更多的玩家代理和选择：开发人员对更多以玩家为中心的叙事、可根据玩家行为定制的叙事结果、可根据玩家个性化定制的对话、可定制的 NPC 以及为残障玩家提供更多无障碍选项感到兴奋。

这些开发者最需要从大模型中得到的，是 AI 的对话脚本编写能力、长期记忆、游戏内角色生成以及 NPC 到 NPC 的交互支持。超过一半的游戏开发者相信超过 40% 工作室将在未来 5 年内采用 AI NPC。

除此以外，生成式 AI 也可以对动画生成、模型纹理以及游戏代码产生帮助。

由此可见，无论是游戏玩家还是游戏开发者，大家对 AI NPC 都抱有很大期望。

AI NPC 离 3A 大作还有多远？

尽管被寄予厚望，但要想真正走入 3A 大作，AI NPC 还面临一些障碍。资深游戏设计师 Reed Berkowitz 在一篇博客中分析了这些障碍。

游戏状态

首先，AI NPC 必须与游戏状态（Game State）保持同步。在视频游戏中，游戏状态是一个至关重要的概念，它指的是游戏中一切元素的当前状态。这包括角色的生命值、玩家库存中的箭矢数量、得分等。游戏状态的准确性对于保持游戏的真实感至关重要。如果一个 NPC 死亡，它就不会继续攻击；如果没有剑，玩家也不会指望能用剑。这些基本规则通常被玩家视为理所当然，但游戏实际上是由一些非常复杂的状态引擎管理的，以确保游戏世界的真实感。

然而，大型语言模型不像游戏一样拥有状态。它们本质上是概率机器，使用权重来确定「最有可能」的结果，而这并不总是我们在游戏中所寻求的。

举个例子，在大部分训练数据中，恶霸都被描述为比受害者高大，需要受害者仰视。但是在某个游戏中，受害者比恶霸还高，这就打破了仰望的常规设定。这个时候，如果 LLM 按照从训练数据中学到的「常识」来描述场景，玩家可能会感到困惑，从而打破他们对游戏世界的沉浸感。

幻觉

AI 的「幻觉」问题也是一个重要的考虑因素。LLM 的设计宗旨是创造性和灵活性。它们能够根据用户的指令生成各种内容，无论是创造一个驱魔咒语还是描述一个由奶酪建成的城市。这些模型被设计为跟随指令。然而，问题在于，我们并不总是希望 AI 编造故事。在许多情况下，我们需要关于现实世界的客观事实。在这方面，模型们往往难以区分。

你可能会认为，对于游戏来说，这真的有关系吗？我们只是在和 NPC 对话，而不是在进行法律工作或用 C# 编写代码。

然而，实际上，在游戏领域，情况要糟糕得多。游戏环境要求 AI NPC 不仅要创造性地对话，还要与游戏的精确状态和规则保持一致。如果 AI NPC 提供了与游戏世界逻辑不符的信息，或者创造了游戏中不存在的元素，这不仅会误导玩家，还可能破坏游戏的连贯性和挑战性，从而严重影响游戏体验。例如，如果 AI NPC 邀请玩家去一个游戏中不存在的地点，玩家可能会感到困惑，因为他们无法实现 NPC 的提议。

游戏的虚构现实

游戏的虚构现实为 AI NPC 的设计带来了另一层复杂性。游戏拥有自己独特的世界模型，这个模型可能与现实世界完全不同，甚至完全是虚构的。为了让 LLM 在虚构世界中不产生幻觉，模型必须理解构建的世界的「现实」，并且不能基于这个模型产生幻觉。

换句话说，游戏世界模型很可能并不包含在模型的基础训练数据中，或者更有可能的是，训练数据中甚至包含相互矛盾的信息。因此，游戏创造者必须向模型提供构成游戏世界现实信息，并且在此之上还要处理可能产生的幻觉。

角色知识

游戏中每个角色都有一部分关于世界的知识，以及一组关于他们自己生活的知识，这些知识必须与其他人的知识相结合。因此，一个角色只认识世界上的少数几个地方和其中的一些人。

但是，LLM 会试图通过取悦你来推动故事的发展。举个例子，如果你想找到刺客公会会长 Abraxor，一个友好的旅店老板可能会提到 Abraxor 是他的儿子或最好的朋友，并表示他会帮助你；或者，他会告诉你寻找北方巫师是没有意义的，因为他就住在旅馆里。

角色需要受到他们所知道的事情和认识的人的限制，并且他们不能说出破坏游戏情节和结构的话。每个人都必须知道自己的事情，如果 LLM 瞎编乱造，就会在不经意间破坏游戏的连续性甚至游戏性。

游戏机制

LLM 驱动的 NPC 很容易说出一些未编入游戏的预期内容，这可能是 AI NPC 最具破坏性的特征。

例如，酒吧老板可能会和你成为朋友，并邀请你去他家玩当地的 Rutanny 游戏，并与他的家人共进晚餐。这在聊天情况下很正常，但可能会破坏游戏的沉浸感。为什么？因为酒吧老板说完这句话后，他就站在那里。他的程序里没有离开酒吧这个设定。他生来就没有自由行走的能力。即使他可以，也没有为他建造的房子可以去。而且他没有家人。也没有一种游戏叫 Rutanny。即使他说的是「国际象棋」，如果游戏中没有将其作为迷你游戏来编程，这也会造成问题

如果模型熟悉游戏机制，它们编造的内容可能更难识别，因为它们会模仿游戏机制去编造。例如，NPC 可能会给玩家一个不存在的任务，让玩家在「住着女巫的南方黑暗沼泽」中寻找东西。

变化是永恒的

随着游戏的进行，游戏状态会不断变化，AI NPC 必须能够实时更新和适应这些变化。如果 AI 无法及时更新其知识库，它可能会说出过时或不准确的话，这同样会削弱玩家的游戏体验。

综上所述，AI NPC 要想顺利走入 3A 大作，开发者开发的 LLM 需要在以下几个方向努力：