当AI懂创作、会画画，AIGC爆发的底层逻辑是什么？

豹变·2023-03-18

关注

阿里巴巴

浙江电子商务

综合互联网公司

最近融资：二次上市|880.00亿港元|1999-09-09

我要联系

未来的艺术展，会不会变成机器人之间的PK？

编者按：本文来自微信公众号豹变（ID：baobiannews），作者李鑫，编辑刘杨，创业邦经授权转载。

未来的艺术展，会不会变成机器人之间的PK？

这个问题如果问在几十年前，人们可能会说这是遥远的科幻，而在人工智能（AI）一日千里的今天，回答它恐怕需要思考再三。

2018年，一幅由AI创作，名为《埃德蒙·贝拉米画像》曾在纽约佳士得拍卖行以43.25万美元的价格被拍下——这是估价的40多倍，成为第一幅被拍卖的人工智能作品。

去年9月，另一幅名为《太空歌剧院》的作品获得了美国科罗拉多州博览会艺术比赛的金奖。令人意外的是，这幅作品并非作者杰森·艾伦亲自手绘，而是用AI作画工具Midjourney完成。

赛后，两位评委都称此前并不知道Midjourney是AI工具，但二人随后也都表示，即使他们知道，同样也会授予作者最高奖项。这一度引发AI创作的作品该不该拿来参加比赛的大讨论。

不过，如果和最近火遍全球的ChatGPT做对比，AI作画似乎只是开胃菜。这个能作诗、编悬疑小说、甚至写代码的人工智能聊天机器人，上线两个月便收获1亿用户，以至于特斯拉CEO马斯克直言：“ChatGPT非常好，我们离强大到危险的AI不远了。”比尔·盖茨甚至定性ChatGPT的出现“不亚于互联网和个人电脑的诞生”。

AI作画、ChatGPT有什么共性？本质上，它们都属于AIGC的范畴，即人工智能生成内容。

AIGC潜力不容小视，根据Precedence Research预测，AIGC将在2022年后迎来应用的爆发。预计市场空间将由2022年的108亿美元上涨至2032年的1181亿美元，10年的复合增速高达27%。

可见，AIGC将会在未来的商业世界中扮演越来越重要的角色，此时了解其演进历程和底层逻辑将成为关键。

技术、需求双轮驱动

AIGC看似一夜爆发，实则是多年技术沉淀的结果。

1957年，历史上第一支由计算机创作的音乐作品《依利亚克组曲》诞生，这被看作AIGC故事的起点。

不过，在人工智能发展初期，受限于种种因素，相关算法大多基于预先定义的规则或者模板，远算不上智能。而相关高昂的系统成本无法带来可观的商业变现，也让各国政府纷纷减少在人工智能领域的投入，AIGC 没有取得显著进展。

AIGC真正引发市场关注，来自近年生成式对抗网络（GAN）、Transformer、扩散模型（Diffusion Model）等深度学习生成算法相继涌现。这些生成算法为AI高品质输出内容打下基础。

比如画出获奖作品《太空歌剧院》的Midjourney，就参考了CLIP和Diffusion，构建了自己的闭源模型。而ChatGPT的底层——AI大模型GPT3.5，底层技术则是来自2017年谷歌重磅发布的Transformer。

如果说技术推动只是AIGC发展的左脚，那么创新需求的牵引，则是AIGC加速落地的右脚。

随着用户对内容数量和质量的需求爆增，但传统的内容生产模式在产能和质量上，正逐步暴露短板。

内容的生产方式可分为三类：偏传统的专业生成内容（PGC）、用户生成内容（UGC）、更新颖的人工智能生成内容（AIGC）。

PGC内容往往制作标准高、工作周期长，但由于供给端人力资源有限，PGC难以满足大规模内容生产的需求；UGC模式则相反，它满足了个性化需求且提高了容量上限，但由于其对制作者、生成工具、内容话题没有限制，质量无法保证。

AIGC虽然暂时无法替代这两种内容生产模式，但能对两种生产方式起到优化作用。借助AIGC，创作者一方面能够通过持续深度学习提升内容的专业性；另一方面AI也能辅助专业创作者，提升创作效率。

在文本领域，腾讯打造的“梦幻写手”的新闻写作系统能够在规定的22种场景中进行写作，具有0.46秒的平均发稿速度；在音频领域，风险投资机构a16z曾透露，Siri联合创始人Tom Gruber目前已经打造了能够实时动态编曲的自适应音乐平台LifeScore。用户只需向LifeScore输入一系列的音乐“原材料“，AI就会改编并实时混音，带来音乐表演。

随着AIGC时代来临，商业世界的变化远不止于此。

如何打出新型“闪电战”?

众所周知，英国人发明了坦克，但德国人发明了基于坦克的闪电战。

一项新技术、工具诞生后，谁能将其用到极致，谁越能占据主动。

本轮生产力革命的受益者，或许不只是AIGC技术的发明人，更是把AIGC技术用到极致，进行模式创新的先行者。正如当年的互联网，以浏览器为起点，后续衍生出了社交网络、电商、视频、游戏等一系列更具想象空间的新模式。

在电商行业，AIGC正试图降低商家和用户间的交易成本。

2021年4月，阿里巴巴上线了3D版天猫家装城。对于商家，天猫帮助其快速构建3D购物空间；对于消费者，3D版天猫家装城支持消费者自己动手做家装搭配，消费者可以沉浸式体验“云逛街”。

数据显示，3D购物的转化率平均值为70%，较行业平均水平提升了9倍，同比正常引导成交客单价提升超200%，同时商品退换货率明显降低。

再比如在金融行业，AIGC正帮助企业不断增强品牌粘性。

2022年年初，商汤科技为宁波银行上海分行专属打造了001号数字人员工“小宁”，这位数字人化身大堂经理为日常客户提供各类业务咨询和服务办理。

去年12月16日，“小宁”主持了一场虚实结合、打破次元壁的线上直播活动。活动中，“小宁”可以幽默介绍自己的工作内容，并向网友推荐宁波银行的多种金融产品和优惠福利。从粉丝互动到直播带货，商汤数字人“虚拟IP”可以自主直播运营，用更低的业务运营成本为企业前端带来全天候的“用户触达”。

数字人商业潜力巨大。根据《虚拟数字人深度产业报告》的预测，到2030年，中国虚拟人整体市场规模将达到2700亿元人民币。从商业模式上看，虚拟数字人的客单价相对更高。

小冰CEO李笛在接受采访时曾表示，之前他们尝试销售终端内容时，只能按剂量去销售，形成的是类似菜市场一样的内容市场，单价非常低。“后来，我们把生成的能力捆绑在数字人身上，平均客单价迅速从20万提高到了300万。”

目前，随着以ChatGPT为代表的自然语言技术（NLP）再一次在单点取得突破，进一步降低AI的使用和触达门槛，AIGC的商业化表现不俗。

2021年成立的Jasper，通过其文字生成功能，用户可以生成社交媒体标题，编写短视频脚本、广告营销文本、电子邮件内容等工作。成立当年，Jasper就拥有7万多名客户，其中不乏Airbnb、IBM等知名企业。2021年一年便创造了4000万美元的收入，2022年预估收入为7500万美元。

这些数字充分展示了AIGC产业不俗的商业化落地速度和效果。随着自然语言技术、计算机视觉技术和AIGC生成算法的不断发展和优化，AIGC产业的商业化应用将会更加广泛和深入。这些应用不仅可以帮助企业提高效率、降低成本、提升竞争力，也可以为用户提供更加个性化、智能化的服务和体验。

AIGC掀起“三大军备竞赛”

AIGC的爆发，正吸引知名投资机构围观。

去年9月，红杉美国发表《生成式Al：一个创造性的新世界》，核心观点认为AIGC将成为众多产业新一轮范式转移的开始。

在文章结尾，作者憧憬，如果技术继续沿着当下的变化速度发展，那么AI自己写备忘录、将文字轻松转变为皮克斯电影的科幻未来，将不再遥远。

红杉的预测是不是空想？事实上，目前AIGC领域逐步掀起的三重“军备竞赛”，正加速让理想照进现实。

第一重军备赛，来自更大的模型，它让AIGC更会表达。

大模型之所以重要，是因为AIGC生成的文本、图像、音频等多模态内容，结构和语义相对复杂，要想生成高质量内容，需要模型具备强大的学习和表达能力。此时，大模型具有更多参数、更深网络结构、更丰富学习数据的特点，可以更好地拟合和表达生成任务的模式和特征，在AIGC中发挥其独特优势，实现高质量的内容生成。

比如在自然语义处理（NLP）领域，龙头公司OpenAI在2022年开发的ChatGPT的底层大模型GPT-3.5，就包含1750亿的参数，且调用了8000亿个单词（相当于1351万本牛津词典）的训练数据。这千亿参数，海量学习数据，也让ChatGPT应对不少问题能对答如流，正常得不像个机器。

在计算机视觉领域，国内人工智能龙头企业商汤科技的视觉大模型同样布局深厚。2021年商汤推出一套名为SenseCore AI大装置的人工智能基础设施，这套装置同时布局模型层、平台层、算力层，能够低成本、大规模生产人工智能模型。

基于这套大装置，商汤开发的视觉大模型，参数已达到320亿，是基于公开信息可查的计算机视觉中，具有最大参数量的模型。

之所以视觉大模型的参数量少于语言大模型，主要是由于相比语言文字，可用于训练的视觉数据信息维度相对偏少，而且受到此前计算机硬件的限制，计算机视觉技术的发展和自然语言处理技术存在数十年差距。但随着数据量和计算能力的增加，视觉大模型在未来几年内将有显著发展。

打造突出的大模型，除了取决于先进的算法，还取决于丰富的产业实践经验。因为只有基于大量应用实践，企业才能构建泛化性能更好、通用性更强的大模型。

自2016年起，商汤科技开始全面布局AIGC包括文字、语音、图像、视频、代码、三维人物动作等多模态的数据分析和内容生产。这些丰富的应用实践，不但促进了商汤AIGC大模型的研发，也反过来促进多模态内容的生产，彼此形成正循环。

大模型之外，第二重军备赛点，来自更高的算力。

大算力，一方面可以支持更复杂的模型和更大规模的数据训练，提高AIGC生成内容的质量和多样性；另一方面可以提高AIGC生成内容的生产效率和速度，支持实时生成和个性化定制。

不过，获得大算力，需要支付高昂的成本，一般的小企业无法负担。

《财经十一人》曾测算，如果某企业想以1万枚英伟达A800 GPU为基准构建智能算力集群，每枚GPU价格10万元，那么仅GPU的采购成本就高达10亿元。再考虑到服务器采购成本通常占据数据中心建设成本的30%，构建一个智能算力集群的建设成本将超过30亿元。

高昂的成本，也使得全国算力网络的建设，只有政府和产业资深行业玩家才能参与。2022年5月，西南地区最大的人工智能计算中心——成都智算中心正式上线。

这座智算中心由成都高新区、郫都区与华为公司共同建设运营，总投资高达109亿元。其中，人工智能算力平台采用基于华为昇腾AI基础软硬件的AI集群，算力达到300 PFLOPS（每秒30亿亿次浮点运算），相当于15万台高性能PC的计算能力。

在上海，作为商汤科技SenseCore AI大装置的底座，全新启用的商汤临港人工智能智算中心（AIDC）目前上线了1.745 EFLOPS（每秒174.5亿亿次浮点运算）的算力规模，并获得强劲的市场需求。

截至2022年8月，上海临港AIDC对外服务算力已突破1 EFLOPS。为算法模型的分析、低成本训练、大规模数据管理提供支撑。

不过，虽然AIGC可以辅助提高内容的创作效率，甚至改变内容的创作模式，但这项技术仍会让设计、文案等非行业人士感觉高高在上。此时，只有更细化地打造出面向各个行业的垂直型AIGC工具，才能真正实现行业的革新。

这也使得产业玩家要想脱颖而出，需要打赢第三军备竞赛点——让应用门槛更低，让AIGC应用更普惠。

目前Open AI近期已宣布开放ChatGPT和语音转文本模型Whisper模型API（应用接口），开发人员可以通过API将ChatGPT和Whisper模型集成到自己的应用程序和服务中，并由此访问到最前沿的语言以及语音到文本功能。

通过一系列全面优化，自去年12月以来，OpenAI也已成功将ChatGPT的使用成本降低了90%；谷歌的AutoDraw应用程序，可以帮助用户自动将简笔画转换为专业的矢量图形，省去了用户自己做图的麻烦；

商汤科技则在近日发布了拥有30亿参数的多模态多任务通用大模型“书生（INTERN）2.5”，并在GitHub上的商汤通用视觉开源平台OpenGVLab中开源。“书生（INTERN）2.5”在多模态多任务处理能力方面有多项突破，将视觉、语音及多任务建模三个模型能力有效融合，其图文跨模态开放任务处理能力可为自动驾驶、机器人等通用场景任务提供高效精准的感知和理解能力支持。