20万周活，50%次月留存，做年轻人的AI产品，用户真的留下来了｜对话创始人

极客公园·2024-09-14

关注

人人都想做出下一个抖音/TikTok，想做出一个有引擎、有生命力的内容平台。

编者按：本文来自微信公众号极客公园（ID：geekpark），作者：ounder Park，创业邦经授权转载。

捏 Ta 并不藏着掖着，创始人胡修涵在起名时，从公司到产品，对应着「字节跳动」和「抖音」。

这款产品目前有超过 20 万周活用户，数十万月活，规模不算亮眼（虽然在 AI 产品里已经很好了），但用户真的留了下来（在 AI 原生产品里只能说罕见）。用户开始使用后，次月留存率达到了 40%-50%。

他的切入点很细，角色故事创作，数十万用户在这里创作角色，然后让这些虚拟角色去体验一些有趣的故事，「代表自己」。

我们在尝试玩明白这款产品的时候，看到一个在捏 Ta 上连载 AI 漫画的用户发帖说，「因为八月份手机停用，我要把身心调整过来，提前准备适应初中生活。」他决定停更漫画，「但请相信，我还会回来的！」

一百多个点赞，70 条活人的评论，「加油，初中很累但不会累死的」。

这让人想起很多社区早期的样子。我们的确还没玩明白，但只好因为看见所以相信。

也因此，我们邀请了捏 Ta 创始人胡修涵，来到 Founder Park 的直播间，与 Founder Park COO 艾之一起，聊了聊 AI 内容创作平台和他对于 AI 社区的想法。

年轻人更容易用抽象表达个性

艾之：简单介绍下自己，以及捏 Ta 这款产品？

胡修涵：我最开始在 Meta（原 Facebook），负责 Facebook、Instagram 和 WhatsApp 的视频相关技术。期间经历了移动互联网短视频发展的整个海外战役。回国后，加入了一家内容科技公司特赞，做技术负责。

前年，我看到了 AI 发展的新机会，于是和以前在 Facebook 的老搭档一起创立了现在这家名为「看见概念」的公司，我们推出的第一款产品是「捏 Ta」。

捏 Ta 是以一个角色创作为主题的社区，核心点是怎么去捏一个角色，让这个角色做出有意思的作品，表达你自己的个性。

艾之：捏 Ta 的目标用户是一群怎样的人？

胡修涵：我们的目标用户主要是 00 后，他们是一群相对年轻的泛人群。

当年 90 后可能会在 QQ 空间里写文章来表达自己的想法，但这些内容往往得不到朋友的关注或认可。这些年轻人的创作欲望和灵感是非常宝贵的，但由于表达技巧或工具的限制，他们无法很好地展现这些创意。

我们的产品就是为这些用户提供帮助的。在新一代 AI 工具的支持下，他们可以更容易地实现自己的创作愿望。AI 能够帮助他们提升表达的技巧和效果，让他们的灵感得以更好地展现和分享。这款产品不仅是一个工具，更是一个让年轻人轻松表达创意、实现自我表达的全新途径。

艾之：它的核心交互点是什么？

胡修涵：核心点在于用户能够在其中找到一个代表自己的角色，无论是直接代表自己，还是代表周围伙伴的角色。这些角色可以在奇遇或者剧场中冒险和表演。通过 AI 生成这些表演的画面和场景，相当于我们用 AI 作为虚拟世界的摄像机，记录下这些冒险和表演的瞬间。

这个过程的妙处在于，AI 会在不同的场景中自动为用户「拍照」，捕捉那些有趣，富有表现力的瞬间。用户可以从中挑选出最能代表自己的几张照片分享在朋友圈。这个过程让用户能够在虚拟世界中进行创造和表达，同时通过 AI 的帮助，使得最终的产出更加精致和个性化。

用户带着自己的崽「怪盗基德」在奇遇

艾之：刚刚在描述你的用户的时候，没提到「二次元」这个词。我觉得好多第一次接触捏 Ta 的人，肯定会感受到扑面而来的二次元风。

胡修涵：其实现在的「二次元人群」定义已经变得非常宽泛。如果你问一个 00 后的兴趣特征，90% 的人可能会告诉你他们接触过一些二次元内容，有 70% 的人会购买一些周边产品。这些行为在传统意义上被认为是核心的二次元，但你直接问他们是不是二次元粉丝，他们会回答说自己不够格。

实际上这些或多或少接触过二次元的人群更容易接受用纸片人或更抽象的方式来表达自己的幻想和个性，而不那么看重内容的真实性或画风的逼真度。对于他们来说，表达方式的抽象性或虚拟化是更重要的诉求，而不一定要求现实主义的呈现。

艾之：那你们的圈子会和二次元画师这部分人群有重叠吗？

胡修涵：基本上没有。这些圈子一般都是通过手工创作、绘画、雕塑来表达自己的个性和爱好。这些活动不仅仅是创作的手段，更是他们身份和圈子地位的象征。所以当新的 AI 工具出现，让更多普通用户轻松创造出过去只有专业人士或资深爱好者才能实现的效果时，这些小众圈子中的成员往往会非常抵触。他们认为这种工具削弱了创作的独特性和手工艺的价值。

但是对于更广泛的用户群体来说，AI 工具的出现确实是一个巨大的进步。它们不再局限于简单的装扮或静态的表达，而是能够通过 AI 的帮助，创造出更复杂、更有内涵的内容。这种内容的「升维」使得普通用户也可以参与到创作中，从而满足他们用 Avatar 来表达自我的需求。这种需求从早期的 QQ 秀时代就存在，只是现在得到了更为强大的技术支持，用户能够通过更丰富的手段来塑造自己的虚拟形象和故事。

艾之：就像现在有人会用 iPhone 去拍电影，但是专业的导演一定不会只用 iPhone，只用 iPhone 的更像是爱好者。使用工具面对的人群不同，背后目标的设定和设计理念其实也会完全不同。AI 带来了内容创作要素的变化。

AI 带来了内容创作要素的变化

艾之：捏 Ta 创立的时间是在 22 年年底，也就是 AIGC 开始萌芽的时候，所以你的创业是因为这样一个势头吗？

胡修涵：萌芽其实要早很多。我本科是学习人工智能的，在北大参与了中国最早的自动驾驶研究室的研究，自此之后就一直关注 AI 的发展。

在美国时，我见证了很多技术的爆发，包括一些风格化和创意化玩法的内容技术。直到 2022 年，Stable Diffusion 以及 ChatGPT 的发布，我真正看到 AI 可能会影响普通用户，特别是在 visual storytelling 方面——AI 能够通过讲故事的能力，改变了人们创作内容的思路。

这次技术的变化让我非常兴奋。因为这已经不再是像以前那样只能做一些小工具的变化，而是一个需要我跳出原有框架，重新思考的重大转变。

艾之：选择做内容（方向）是基于一个什么样的思考？

胡修涵：最开始的 AI 更偏向于单场景应用，在特定场景下解决单一问题。

当时（上一波 AI）我们做的很多探索都是比较固定化和模式化的。比如使用一个特定模型来解决某些信号的识别，然后再基于决策树式的或条件判断的逻辑（if-else），来决定智能体或者小车的行动路径。这种形式我觉得难以泛化，或者说在跨越到多种场景中应用时，成本往往无法战胜其他替代方案。所以当时我感觉与其他技术驱动者之间有些格格不入。

内容行业对我来说非常有吸引力，因为它的变化和发展速度非常快，对人类的影响也很大。在历次技术变革中，内容行业总是充满了巨大的机会。而且我个人也比较喜欢人文主义的东西，所以觉得在这个赛道上整体感觉更有意思。

艾之：你刚才提到内容赛道是一个很大的赛道，我完全同意，但与此同时，这也是一个马太效应非常明显的赛道。能够在这个赛道中脱颖而出其实非常困难。过去十年里，真正能够成功的可能也就是那些我们每天在手机上使用的几个 App 而已。

我相信在做出这个决定之前，你肯定经历了一些深思熟虑的决策推演。除了你提到的初心和人文主义情怀，还有哪些背后的思考？

胡修涵：回顾以往的工作经历，基本上我都在做两件事。

一个是把内容拆解。我在 Facebook 参与的一系列产品开发中，包括早期的短视频、阅后即焚、直播等，我们通常会讨论内容垂类（content verticals），这意味着需要考虑如何拆解内容。

拆解之后，还需要思考如何重新组合这些内容。无论是通过流量分发、推荐算法、内容生成，还是当前的内容组合，这些都是解构和重构内容的方法。

在这个过程中，我深刻理解到，要推动一个大事情（趋势）的发生，关键在于找到新的用户群体、新的创作者和新的创作模式。自从电视机发明以来，这种内容创作和创作者扩散的趋势就一直在加速，从相机、电视机到现在的手机，内容创作的扩散化，自主化趋势非常明显。

基于这一原则，我认为，首先我们需要找到一个特定的创作场景，专注于创作「有趣」的内容，而不仅仅是「漂亮」的内容。有趣的内容更容易留存老用户，而漂亮的内容只能拉取新用户。其次，我们要关注那些原本难以用传统方法创造出合理内容的用户群体，这就是找到新机会的核心切入点。

在内容创作中，跨模态生成已经成为这一代技术的本质特征。虽然从技术层面上仍可以继续考虑内容的拆解模式，但从应用层面来看，我们更应该关注生成的内容类型和场景。比如一篇采访报道和一篇日记，虽然都是文字内容，但它们的目的和整体形式完全不同，不能简单地归为一类来看待。这是我们在应用层面需要深思的问题。

艾之：为什么叫「看见概念」？

胡修涵：看见概念，其实是在玩梗，跟字节跳动对应了下。（笑）是真的。

上一个时代，创作的基础或者核心要素是基于字节层面的数据驱动。也就是说，内容在向量化的推荐算法中被筛选和传播，这是上一代创作的基本特征。

而在下一个时代，创作的基本要素将会发生变化。如果我们考虑到文字与概念的区别，同一个概念在不同语言中的表达方式可能会有所不同。人是通过抽象概念来认知世界的。

在艺术创作中，有一类艺术叫做概念艺术，艺术家通过某种具象的艺术形式来表达抽象的概念。这意味着如果我们将创作层面升级到以概念或资产为核心的内容创作，那么同样的概念在不同场景中被多次使用时，就变成了一种可复用的资产。这种情况下，创作本身就被升维了。这种升维会带来创作过程中的协作性和创作者心态的变化。

举个例子，在这种升维的创作中，创作者可能只需要一点灵感的火花（Spark），就可以快速地将这些想法转化为具象的表达。这一过程跳过了许多传统内容生产的环节，并且能够更好地与其他用户产生共鸣。所以说，这种升维带来的创作变化是非常大的。

艾之：刚刚修涵提到的内容创作过程，尤其对于职业的内容创作者来说，是一个非常工程化的流程。你看一部电影电视剧的制作，就包括导演、摄影、剪辑、演员等等。即使是现在的独立 UP 主，制作视频的生产周期也非常长，中间涉及到很多人的协作和衔接。

但正如修涵刚才所说的，从人脑中提取概念，并将其转化为视觉化、带有情感表达的表现形式，这个过程通过 AI 得到了极大的简化。这种技术在一定程度上缩短了从概念到成品的转化和翻译过程，使得更多普通人能够通过自然语言与 AI 进行互动，轻松地表达自己的创意和想法。

胡修涵：你把我说的东西展开了一次，我的 spark 成为了你更好的输出，哈哈。

让用户更容易表达自我而不是去比拼技能

艾之：捏 Ta 让我比较惊喜的一个功能是「奇遇」。

当我点击进去，发现这个功能有点像是一条条故事线。我选择一个角色，Ta 进入了一个小世界或房间进行体验。虽然这个过程让我感到有趣，但还是有一些疑问。现在的操作主要是通过点击，感觉有点过于简单了，AI 的泛化能力似乎有限。

这是否是你们有意的选择？作为一个看起来较为 AI Native 的产品，我感觉你们对 AI 的应用还是有些克制。能否分享一下你们在 AI 应用方面的考量和策略？

胡修涵：确实，很多人会觉得我们的产品更像是一个「社区+AI」，而不是一个纯粹的 AI 产品。这种看法是有一定道理的。本质上，我并不认为在 C 端产品中急于引入最新的、尚未成熟的论文技术具有很大的普及意义。虽然我们团队确实在视频生成等技术领域做了很多前沿的贡献，并且有一些开源的成果，但在实际应用中，这些技术的成功率、性能，以及用户愿意为之试错的成本，都是需要考虑的问题。

因此，我们更倾向于给用户提供一种更容易表达自我的工具，而不是让他们去与专业创作者比拼技能。一个趁手的表达工具显然对普通用户更有价值。这个考量是我们在设计上保持克制的重要原因之一。

另外，虽然看上去我们的产品比较简单，但实际上已经具有一定的复杂度了。我们在设计时参考了《西部世界》的概念，想要构建一种沉浸式剧场体验的最小闭环单元，这意味着至少需要有一个角色和一个场景，才能让用户沉浸在这个内容体验中。如果缺少这些基本要素，它甚至可能不能称作是生成式的内容体验。

在这个过程中，我们不断简化设计，裁剪到概念层面，去找出最核心的要素，确保这些要素齐备。只有这样，用户才能真正体验到其中的乐趣。为了让普通人能够快速上手，降低进入游戏的心理成本，我们也在产品中引入了一些大家熟悉的名字，这样可以帮助他们更快地进入状态，开始探索和创造。

艾之：在你这个平台上面，现在比较典型的深度用户，他们的行为大概是什么样子？比如说在这上面一天可能会花多长时间？会在平台上做一些什么样的事情？用户的这些行为有给你带来什么样的产品灵感吗？

胡修涵：我想起了大学社团招新的「百团大战」，每个社团都在摆摊展示自己最吸引人的部分，吸引新成员加入。我们产品中的用户也有类似的体验，仿佛进入了一个充满活力的社区，每个人都在展示自己独特的创造力和个性。

用户在这里的体验很丰富，很有互动性。虽然大多数人可能最初是为了核心功能而来，但在使用过程中，他们的心态会发生变化——他们不仅仅是想要创造角色，还想通过这些角色在社区中取得认可和地位。

有些用户会将自己视为剧团的团长或领队，致力于培养一群角色，把他们带火，让这些角色成为社区中的知名演员。这些用户不仅会为角色排练，设计场景，甚至还会用这些角色吸引其他用户的注意力。

还有些用户会在平台上搭建擂台，让自己的角色成为主角，每天都更新新的挑战，让其他新加入的角色前来挑战。这不仅让他们感到自豪，也激发了社区的互动性，挑战者也会把自己的胜利分享到群里，进一步扩大影响力。

还有些用户会组织创作小团队，为自己的角色找演员，去完成一些漫画或小说的插图。他们可能会制定一些条件，比如角色的类型、国籍或种族，然后在社区中招募合适的演员，最终完成一个完整的作品。

在这个社区中，每个人都有机会通过自己的创造力和角色在群体中获得认可和尊重，这种社交互动和竞争本身就极具吸引力。正是这种社区性的互动，让我们的平台不仅仅是一个工具，更是一个充满活力和创造力的社交空间。

艾之：你刚刚提到了非常多用户留在这里，是因为情绪层面上面的正反馈和价值，我相信你们的产品团队应该是做过一些这方面研究的，就是说这个产品到底想带给用户什么样的体验？

胡修涵：有两个关键的方向：短期的创造性快乐和长期的认可感。

短期快乐：这部分来自于用户的创造行为本身。就像搭乐高、拼模型一样，用户在平台上通过自己的创意构建出一个独特的角色或场景。他们从这些创造性的活动中获得即时的满足感，特别是当他们看到自己的作品在虚拟世界中生动地展现出来时，这种满足感会更加强烈。

长期认可：随着时间的推移，用户不仅希望自己的创造得到展示，还希望获得社区的认可。长期留在平台上的动力，往往来自于其他用户的反馈和认同。当他们的作品被其他人点赞、评论、分享，或者在社区中获得一定的知名度时，这种认可会成为他们持续创作的动力。

艾之：在开发捏 Ta 的过程中，你们团队比较深入地研究了哪些产品，以及这些产品带来了怎样的启发？

胡修涵：我们最近在研究 Roblox 和 ZEPETO，这俩有意思的点不太一样。

Roblox 是作为一家公司来研究，和它相似的还有 Notion，我把他们叫做布局构造型的公司——布局做 system，再构造一套体系，这套体系一定程度上是领先于时代的。很多时候做这事的风险很大，成为先烈的概率也不低，所以我们研究的问题是，在早期技术严重不成熟、产品完成度严重不足的时候，怎么争取到一部分核心用户的认可。Roblox 初期就那么几款能玩的东西，Notion 最开始也没有跟 Excel 和 Word 叫板的实力，他们当时就在一个单点场景上做得最好，靠这一点吸引用户。

对于 ZEPETO 和模拟人生，我更多是研究产品形态，核心就是说这个需求的尖锐程度怎么体现对于这种模拟类游戏，大家都能想到有无数种玩这些角色的方式，但可能难点在于搞懂让大家觉得最好玩、最爽的那个点。

注：Roblox，一个在线游戏平台和游戏创建系统，用户可以自行编程并玩自己创建的游戏。

ZEPETO：一款允许用户创建自己的 3D 头像并与其他人互动的社交应用，用户可以在聊天室中使用这些头像。

10 万 DAU 之前不要考虑推荐系统

艾之：评论区问了一个问题，你关注的产品的北极星指标是什么？

胡修涵：从产品视角切入，现在 AI 产品的北极星指标应该是生成频次和次数。当前的产品生态中，生成行为本身就是用户互动的核心，代表着用户在平台上的参与度和产品价值的认可。用户在生成内容的过程中，同时也在消费自己生成的内容，这种双重属性是 AI 产品的重要特征。

类似于用户在旅行时拍摄几百张照片，虽然最终只会选择几张发朋友圈，但整个拍摄过程和所有的照片都构成了体验的整体。同样，在 AI 生成类产品中，用户可能会生成大量内容，最后只选择一部分分享或使用。其他的生成内容并不是无用的，它们也为用户提供乐趣和满足感。

艾之：对，内容产品的形态一开始很难把握。我们前几天刚推送了一篇讲抖音早期的文章。抖音在最初的时候，无论从哪个角度看，都不会让人觉得它能够撑起今天这么大的商业版图。所以在内容产品领域，它确实是一个非常 top-down 的事情，关键在于最关心它的那个人是否有足够的定力去做这件事。

而且后来抖音进行了非常多产品方向上的尝试。虽然不是最早进入短视频领域的，但它确实把短视频和直播带到了一个新的高度，并且把整个渗透率和商业想象力完全撑了起来。不过今天的抖音可能也面临同样的问题——它的内容生态似乎已经没有更多的想象空间了。所以我觉得，这可能是创业者的一个机会。虽然这条路可能很窄，但确实需要一些有胆量、有定力，并且愿意相信这件事的人去尝试。

就像刚才修涵提到的，AI 通过创作进入了我们的视野，我感觉修涵看到了这一趋势的必然性。创作工具需要在未来改变，而在这个过程中，必然会出现新的内容范式和内容消费方式的变化。

胡修涵：根据我过往的经验，做内容其实是一个技能培训比大家想的都要难的事。任何一个新的形式，尤其是 AI，用起来中间的问题特别多。我之前做过 To B，也有做 To C 的经验，深刻感受到中国很多 SaaS 软件的推广局限在于没有技能人口。技能人口不足，你想再多都没用，所以这是一个教育问题，正好我的其他两个合伙人原来都做过教育。

从这一点来看，我们的产品在设计自适应学习体系，因为你本质都是在设计学习这个技能带来正反馈的一系列模式，并且，我们是一个以创作角色获得乐趣的产品，如果你不设计好用户每一步会获得什么，这个事情就很难做成。艾之：就像抖音也教育了很多用户如何面对镜头，如何做这种适合手机屏幕的表达，包括很多运营体系的搭建。其实给用户的反馈就是，原来我这样讲的时候，流量就可以涨上去，工具和人是相互塑造的。

胡修涵：对，实际上你会发现，内容本质就是一个供应链的问题，最开始的时候，我们就要分析清楚，供需市场上哪些是供给最缺乏的部分，需求和分发侧能否尽可能多地覆盖用户消费的潜在需求。但很多人习惯性地忽略这一点，从体验侧反推，可能会导致一个比较明显的内容产品错误，因为体验侧很典型的就是比较容易抄袭，当你出现小咖秀，总会有 20 个抖音在后面抄，这是不可避免的。大家都能看到你的体验看上去有优势，事实上，最后的胜负手是在供应和中间分发组织上去做变化的。

当我们回到这个视角来看问题，你会发现抖音解决了很多这方面的系统性问题，就像你们在讲抖音那篇提到的，它一开始 30 日留存只有 8%，从体验侧来看无论如何也不算很好的结果，但它很清楚地搞定了音乐是核心供应，必须通过 PGC 解决，抖音这边负责提供具体的工具，用户必须学习用抖音的方式来去做 UGC 创作。抖音最早可能也就做音乐、跳舞、一些技术流转场之类的场景，在这方面虽然有一定优势，也谈不上说比其他视频工具有系统性优势。由于他把供应的几个要素在这套工具体系里很好地撮合在一起，加上很强的推荐算法，最后才系统性地打赢了这场仗。

艾之：有网友问了产品的留存，现在捏 Ta 大概到一个什么样的成长阶段了？

胡修涵：大约有 20 万左右的周活跃用户，月活跃用户在几十万左右。用户一旦用起来，留存率比较高，可能达到 40%-50% 左右（次月留存）。

但大家需要注意的是，在当前的产品竞争环境下，留存竞争是需要大量投入的。比如大家应该都知道推送通知对于用户留存的意义。我之前在 Facebook 负责推送通知的整体工作，一个好的推送通知体系可能会使用户留存率提高 5-10 个百分点，甚至更多。一个好的推荐算法或个性化分流逻辑也可能带来 5-10 个百分点的提升。这些方面都能带来确定性的提升。

但这是否意味着一开始就要把这些工作全部完成呢？显然不行，投资人不会给这么多钱的，是吧。我们始终要注意的是，你的核心用户体验是否建立了一个新的模式，这种模式是传统推荐系统无法完全替代的。

生成式内容需要一个特殊的理由才能存在，否则我们可以无限制地消费别人已经做好的、最适合你的内容。我们发现的最核心理由是，用户需要一种临场感或自我表达的需求，这种个性化的需求使得内容能够更好地代表用户自己。这样的内容消费体验是难以被任何推荐系统还原的。在这种不可替代的体验上，用户对其的喜爱度、留存度，以及是否愿意向他人推荐可能比纯粹关注整体留存更为重要，尤其是在产品的早期阶段。否则，我们连最基础的门槛都没跨过去。

还有一个基本原则，做过内容平台应用的人都知道，在 10 万 DAU（日活用户）之前去做推荐系统没有意义的，大家不要在这个问题上挣扎了。尽管我们都知道个性推荐非常重要，没有人会否认这一点，但请注意在做这些事情时的先后顺序和节奏，否则就会变成什么都要的产品经理。

艾之：你刚刚提到了好几次西部世界，很有意思。我尝试展开一下，因为我觉得捏 Ta 这个产品一开始有一个非常核心的体验流程，就是你需要去捏仔，也就是设定一个人物，并赋予 Ta 很多人格和性格。

其实现在大多数的 C.AI 产品基本都是这样，包括很多一线的模型厂商在尝试做的一些产品都是这种方式。你觉得你和他们的核心区别是什么？你认为你和他们是一类产品吗？核心的区别是什么？

胡修涵：不是一类东西。这个问题解释起来有点困难，大家喜欢用一个词叫「AI companion」，我个人不太喜欢这个词，因为「陪伴」这个概念非常虚。你家的小狗和小孩提供的陪伴感是完全不同的，尽管它们都提供了陪伴的价值。这就像我们今天讨论的情绪价值一样。

之前也有投资人反问我，说我们常提到的「自我表达」这个词过于泛泛，所以我后来尽量少用这个词，因为在谈论这些大需求时，最终回到几个共性的需求没有太大意义。

具体拆解来看，和角色聊天更像是一对一的面谈，信息密度不需要很高。大部分情况下，和 Chatbot 聊天时，它的信息密度也不会很高，它不会有强烈的意愿去分享。而我们讨论的内容创作场景则有所不同。用户在我们的平台上用角色演戏，创造内容，这与 Chatbot 的聊天体验差别很大。

在抖音中，我们可以把内容大致分为口播类和剧情类。创作的心智不一致，用户获得的乐趣也不同。在聊天时，用户更多的是在与对方建立亲密感，而在我们这里，用户则是去塑造和捏造角色。捏人和创造内容时，用户会有自己的想法，并且在成功之后会有成就感。这种正向反馈和乐趣和朋友聊天获得的乐趣截然不同。

艾之：我们刚刚讨论了内容型产品需要创始人或背后的 Creator 具备 top-down 的定力。所以如何度过早期阶段是创业公司必须面对的问题？除了依赖投资人的资金，你在商业化层面上是如何规划和思考的？现在是否已经有一些商业化收入？

胡修涵：我们现在的收费模式是按生成次数收费的。

用户使用得越多，消耗的计算资源越多，从而产生相应的费用。这与我之前提到的 AI 生成式模型的北极星指标有关，因为这是我们这一代产品中最能 drive 的指标之一，并且它能很好地与使用深度相关联。如果我们把它看成一个大的飞轮，包括用户增加使用深度、增加使用单位的愿意支付等三个方面的成熟效应，这样的设计能够实现快速增长。当然，这只是一个理想化的设计。

在这个过程中，用户实际上是用一部分计算资源来换取个性化的内容消费。具体来说，我们将用户熟悉的某个 IP 角色或他们感兴趣的剧场转化为实时生成的个性化体验。这个过程中需要计算资源的参与。生成内容的质量和资产的丰富程度会决定我们可以收取的费用。生成效果越好，资产种类越多，我们可以收取的费用就越高。如果有特别精彩的 IP 价值或优质的玩法体验，我们可以收取额外的溢价。这就像环球影城/迪士尼乐园的排队项目，只有获得特别的入门券才能体验到，这种稀有体验会带来额外价值。

总的来说，核心在于让每一次个性化内容的生成体验尽可能接近出卡的感觉，为用户提供更高的价值，并相应地收取费用。

艾之：有点像盲盒的逻辑。

胡修涵：一定程度上，我觉得整个生成式 AI 的逻辑现在都在个性化的盲盒体验上越走越远。

艾之：我感觉你在描述这一段的时候，其实是在尝试想要用商业化的逻辑，去跟用户需求和你希望的产品方向统一起来，而不是互相相斥。

胡修涵：所有的组织、商业模式和产品要素之间都存在一个协调关系。如果这种协调关系不对齐，长期来看很难做好一件事情。

在这个过程中，你自然希望用户需求、优化反馈、产品设计中的北极星目标，以及最终的商业化驱动能够在一定程度上对齐。但我觉得我们现在还没有完全明确，如何在第一天就确定最合理的商业化策略，尤其是如何最大化收费空间。

要社区而不是社交，产品的发展是从繁到简

艾之：评论区有一个问题，移动互联网时代的产品和这个时代的产品区别在哪里，我尝试补充一下这个问题，你觉得 AI native 的内容互动与消费到底是什么？

胡修涵：我们在开发产品的过程中发现，用户并不会主动提到和角色对话的需求。相反，用户更倾向于提出一些关于角色之间互动的需求，比如我能不能让这些角色组合成一个团队，或者我能不能让角色在赛场上竞争等等，他们希望在角色之间创建更多的互动关系，而不是单纯地与某个角色对话。

我们每天收到的反馈中，要求添加私信功能的有十多条，要求与角色聊天的只有两三条。这种反馈状态可以真实地反映出用户对产品的实际需求。

艾之：为什么要做社区？

胡修涵：坦率的说，在 AI 技术存在瓶颈的情况下，社区是最好的保护。也许一出去你就被别的大平台给干死了，但在社区里，有支持你的这帮用户先玩起来，他们能带来很多正反馈。

艾之：所以你们之后会往社交这个方向上面去走吗？

胡修涵：社交和社区的话中间还是有一些区别，我们自己感受上它不是一个那么纯粹地去把角色当成 Avatar 的应用，更像是一个社区，角色是你可以调配的演员。

艾之：这么说社交你在你的产品规划里面是一个弱项。

胡修涵：在这个产品上是。

艾之：评论区说这个产品听着就有点复杂，修涵你觉得呢？

胡修涵：我们目前的产品确实有些复杂。

我非常同意好的产品应该清晰简单。但实际上，所有早期的商业模式和产品实验通常都是复杂的。只有在经过不断的优化和调整后，我们才能发现其中最核心的要素，简化产品。

我不太相信两种逻辑。一种是认为早期实验应该非常精准地切入一个小场景，而不做任何长期构建的思考，期望在这种切面下，自然形成一个成功的系统。就像头条在早期就非常清楚推荐引擎和内容之间的关系，尽管当时他们的商业计划书很难理解，但他们已经在尝试解决核心问题了。

产品的发展一定是从繁到简。我不相信一个特别复杂的产品能够在跨规模上取得成功。我们不需要说服所有人，只需要让目标用户群体能够接受和使用这个产品。没必要期望所有比这个用户群体年轻 10 岁或年长 20 岁的人都能立刻理解和使用这款产品，这种期望是不现实的。

艾之：是的，我个人比较相信产品本身具有生命力这一点。产品和用户之间的关系是相互影响和塑造的。创始人对产品的构想再清晰，也不如用户的直接反馈和行为中隐藏的答案来得直接。用户的反馈和行为往往揭示了产品最有生命力的部分。

应用型公司需要懂 Post-training

艾之：我们刚刚聊了很多关于产品及其背后的思考。我知道你们团队在技术方面也很敢于投入，尤其是做了很多 post-training 的工作。能否稍微分享一下你们在 post-training 这条路上是什么时候开始的？为什么一个应用型的公司还要自己去推动模型的再训练？

胡修涵：我们刚才提到的 C.AI 团队大部分从事预训练的人员都离开了，但从事 post-training 的人员却留了下来。所以我认为应用层对 post-training 重要性的共识已经接近形成。

在一个优秀的捏 Ta 剧场内容产品中，它明确了视觉表达和讲故事的能力。这些产品的核心在于如何定义并使用视觉化的方式讲故事。比如，我们提到的角色和剧情等元素的调用生成次数，都在产品中被定义为北极星指标。用户愿意使用这些功能并生成越来越多的内容，这本身就是一个清晰的用户数据反馈。在这个过程中，我们会进行人工分析，研究这些生成内容的对齐情况，做 supervised fine-tuning（SFT，监督微调）。

用户也会提出需求，比如他们希望更丰富的表现力。最近有用户告诉我，你们觉得武器画得不够好，刀和剑的区别不明显。这种关注的原因在于，他们希望角色在场景中能够更真实地表演。因为角色表现力的核心类似于演员的自我修养，包括服装、化妆和道具等。这些因素对最终的表现至关重要，在模型中，我们需要更清晰地定义这些元素。

这不是一个可以通过设立标准或测试集来完全解决的问题。回到我们的能力建设上，仍然需要持续对齐这些元素。我们不能单纯依赖外包给某个大模型或通用场景来解决所有对齐问题。长期来看，这种能力自然会成为公司的壁垒。你最了解用户在特定场景中需要哪些东西，如何清晰地表达他们的故事。这就是为什么我们需要定向收集这些数据集，并将其纳入 post-training 流程中。我觉得未来每个 AI 应用公司都可能需要具备这样的基础能力。

艾之：它不是接 API 就能解决的事。

你刚刚提到的关键指标，能不能更详细地展开一下？你跟你的技术团队会怎么样来去具体实现这个指标，第一它到底是什么？第二有没有形成真正的数据闭环，它能不能真正反馈和加强到你的 post-training 里面去？

胡修涵：在数据输入和清洗方面，有很多方面需要关注。这不仅仅是将用户生成的优秀结果用于新的训练模式，还包括处理用户提出的无法满足的需求，这种反馈是非常重要的信息处理。

另一个关键方面是用户的保存、发布和分享行为，这些行为可以对生成的内容结构进行投票。在一个优质的产品中，很多人认为直接的点赞或点踩是数据收集的直观方式，但实际收集率很低。在我们之前的产品中，这种数据的频次通常不足。

一种有效的训练模式是直接偏好优化（Direct Preference Optimization，DPO）。通过比较在相同生成条件下的两个答案，来确定用户更喜欢哪个。这种方法形成了一组偏好队列，与用户选择保存、分享或发布的行为密切相关。在这个过程中，自然生成的数据输入可以被用于后续的优化和训练。

艾之：年初的时候很多人在期待今年是一个应用爆发年，但是我感觉并没有如愿。这里面其实有很多东西是因为模型能力的限制，所以从一个真正在做应用创业者的角度上面来看，你觉得现在有哪些技术问题这个阶段有点无解？或者说你最期待的技术模型的能力提升是在哪些方面？

胡修涵：我们自己在视频相关技术方面也做了一些贡献，但是对视频技术的效率和成功率的进展非常不满意。

去年七八月，我们尝试将视频功能引入产品并生成一些内容，但是留存情况并不理想。即便视频是一种强有力的表达模态，对一个理性用户来说，投入和产出比依然是决策的关键。如果生成 20 个视频中只有一个能用，而每个视频的生成时间又需要 1 分钟，即使最终的视频质量可能比图片高 10 倍，用户也很难接受这样低效的结果。

相比之下，图片生成的情况则要好得多。通常在 10 秒钟内就能生成一张大概率可用的图片，并且从几张生成的图片中选择一张满意的结果，这种可用性的差别很大。所以视频技术的成熟度还有提升空间。未来视频技术成熟时，以角色展开故事的场景中使用视频将是一种非常自然的想法，符合我们的交互需求。

内容型产品要先打磨好「引擎」

艾之：我想稍微岔开一个话题，讨论一下内容工具与内容消费之间的关系。在当前的资本市场中，内容工具的团队经常面临一个问题，投资人经常会问：你们的工具能赚多少钱？尤其是对于 SaaS 软件即服务这样的业务模式，story telling 可能会比较困难。许多创业者会考虑将产品延伸到内容消费平台。

你之前做过很多产品，涉及内容工具以及内容消费领域。你认为内容工具和内容消费之间的主要区别是什么？如果一个内容工具产品想要转变为一个内容消费产品，它应该经历什么样的路径？

胡修涵：我觉得内容工具和内容消费之间找 balance 不一定是好事儿。哈哈，这是我比较真实的想法。在产品设计中，balance 往往是对一些问题的长期想象的回答。我们可能会觉得，早期阶段的心智更多是围绕社区创作心态的，消费心态并不是特别重要。

艾之：你对海外的内容平台很熟悉，捏 Ta 会出海吗？

胡修涵：会出海。但我的一贯观点是，产品的打磨成熟度优先于直接把产品抛在一个相对陌生一点的市场。

艾之：但是内容产品是一个跟人群、跟用户非常紧密结合的事儿，如果你的这款产品它是非常 for 中国用户的，捏 Ta 接下来的出海路径可能会是什么？

胡修涵：捏 Ta 的名字本身也先有英文版本。NETA 是玩梗的意思。它原来的英文名字更接近内涵段子。所以从我们构思这个名字的时候，海外版就已经在那了，它可能是一个更跳跃，年龄跨度更大，更海外的一些内容形式。这些在最开始做产品讨论和设计的时候都讨论过。

在设计整个产品框架时，我们讨论了如何适应全球文化，拆解要素。不过内容运营策略肯定需要调整。这也是我们最初在市场中节省精力的核心原因之一。不同市场的需求和文化差异使得本地化运营变得至关重要。

在不同市场中，我们可能需要让产品的风格更接近当地的文化。同时，我们希望产品中的话题与当地的热点、事实和时事相关联。没有本地化的运营和团队配置，是不可想象的。

艾之：你是不是在这里有一个预设，就是用户对内容消费的习惯，和他们为什么会留在平台上的体验是全球通用的。也就是说，用户对于内容的基本需求和期望是一致的，比如他们希望内容能够有趣、相关并且高质量。

但是具体的内容呈现形式和内容的类型，需要根据不同地区的文化背景和市场需求进行调整。这意味着内容的「壳」需要因地制宜，以适应当地用户的偏好和文化特点。

胡修涵：TikTok 就是一个很好的证明。TikTok 通过将歌曲和视频拍摄分开，利用推荐算法作为分发核心，能够有效地将内容推送给全球用户。这种内容流转的核心动力是全球一致的。

但是在每个具体的市场中，尽管推荐系统和短视频增长的基本机制是相同的，每个市场中的运营策略和内容的具体形式也要因地制宜。就像一个瓶子里装的酒虽然是同一种类型，在不同地区会根据当地的口味和文化也要进行调整。换句话说，虽然整体机制是一致的，但每个市场中的内容风味和运营方式是本地化的。

艾之：先建引擎，再装壳子。

胡修涵：对，先把产品引擎的体验打磨到足够好，这个是比较重要的核心。

艾之：确实在国内冷启动的成本还是要比在直接在 global 市场的成本要更低一点。

胡修涵：也看具体做什么事。其实我很认同单点工具型的产品直接出海，它们作为「瑞士军刀」型的单点工具，功能集成度高、使用场景明确，在国际市场上更容易理解和接受。用户的需求和付费意愿都比较直接，短链路的用户体验使得付费转化更为简单。

对于涉及到系统性建设的产品，往往涉及到更复杂的系统和生态构建，单靠直接出海可能难以达到预期效果。

重点是，发现新问题，努力解决新问题

艾之：聊了这么久，感觉你整个人一直处于非常冷静，非常平静的状态。你从大厂打工到创业，一直都是这么冷静的吗？

胡修涵：我已经经历过了最不冷静的时候了。

艾之：最不冷静是在什么时候？

胡修涵：是在去年四五月份，我想不明白为什么大家能那么着急冲。当时有一些人已经获得了一些市场上的正向回报。我担心自己是否错过了一些机会。但是慢慢我感受到市场逐渐趋向成熟，越来越多的共识开始形成。这让我意识到，在领先的时间点构思和规划一些逐渐被大家理解的事物是有价值的，虽然中间可能会经历一些强判断带来的争议。

市场正在朝着合理的预期发展，这一代产品已经开始显现出变化的潜力。当 ChatGPT 推出时，许多人对它感到兴奋，即便如此，我们也需要保持冷静。记住每隔一段时间，新的技术突破和机遇总会出现。相信技术的发展，专注于找到发展的延续线和不变的基本要素，就像我们在创作中寻找不变的基本要素一样，随着时间的推移，这会把我们推向更高的位置。

艾之：我觉得你好像接近于找到了创业的心流状态。创业的心流状态其实是一种非常珍贵的体验，它让你能够专注于自己的目标，感受到市场的脉动。

有的时候，创业者在这种状态中能更清晰地感知到市场上的竞争者动态。我相信，很多水下的项目也在积极思考如何通过创新的方式获得融资，内容领域始终充满了无限的想象力。在这样一个领域中，创业者们总是不断地探索和前行，寻求突破和机会。

但是有时候竞比争重要的多，争是横向的，比如去年四五月份，当时市场上可能形成了一个广泛的共识，你可能会担心自己是不是在这个趋势中显得特别突出，或者是不是判断错了。然而，当我们把更多的注意力和焦点放在「竞」上，而不是仅仅跟随表面上的趋势时，我们就进入了创业的心流状态。在这种状态下，我们不断地寻求解答，专注于解决最值得解决的问题。

胡修涵：如果你每天面临的都是比别人更早一步看到新问题，你就不再担心是否领先，而是专注于如何解决这些新问题。有时候我甚至欢迎竞争，更多的人参与进来解决核心问题，对于我们来说也是一种积极的推动。我们可能拥有市场认知上的一些优势，或者用户基础，这反而有助于我们更好地解决问题。

更多的竞争者，大家一起努力把事情做得更好。这种状态其实是最理想的，因为它能够推动整个行业的进步，同时也促使我们不断优化和提升。

本文为专栏作者授权创业邦发表，版权归原作者所有。文章系作者个人观点，不代表创业邦立场，转载请联系原作者。如有任何疑问，请联系editor@cyzone.cn。