AI大模型,驶向产业何方?

关注
ee
北京移动互联网
面向女生的新一代场景社交
最近融资:|2016-01-06
我要联系
国产式AI需要的是产品的创新思维

编者按:本文来自微信公众号产业家(ID:chanyejiawang),作者斗斗,创业邦经授权转载。

技术更迭,已不是壁垒,国产式AI需要的是产品的创新思维,以及对需求的产品变现能力。

“AI炒了那么多年,第一次感觉它真的要来了。”国内某论坛中,带有ChatGPT的词条下,几乎都会出现一句类似的表述。

ChatGPT是美国人工智能研究实验室OpenAI基于AI大模型打造的一款智能问答工具,用户只需在ChatGPT网站页面的对话框中输入问题并点击确认,便可以得到答案。

就是这么一个智能问答工具,在过去的两周内,以各种形式席卷全球各大社区、论坛,占据各大新闻头版头条。

不同于过去“AI革命”中,专属于相关企业与技术人员的摇旗呐喊、独自狂欢。这次将AI推向风口的却是C端用户,这使得ChatGPT实现了快速“出圈”。

一组数据是,ChatGPT今年1月的月活跃用户数已达1亿,成为历史上用户增长最快的消费应用。国外一家提供就业服务的平台对1000家企业进行了调查。结果显示,近50%的企业表示,已经在使用ChatGPT,30%表示有计划使用。

国外科技巨头也纷纷开始布局,例如曾all in元宇宙的Meta发布了新的大模型系列 —— LLaMA;微软公司宣布ChatGPT将与旗下浏览器融合;谷歌宣布发布“Bard”AI聊天机器人服务。

ChatGPT带来的热潮,同时也涌向了国内市场。

较为明显的是,百度、腾讯、阿里等纷纷开始布局具体应用。其中,百度宣布将基于文心大模型推出“文心一言”后,400多家公司相继宣布接入,一度将其港股股价拉高超12%。

另外,在过去的两周内,诸多以AI大模型为技术底层的厂商,开始获得资本的青睐。

例如,致力于企业创新数智化平台的衔远科技完成数亿元(人民币)天使轮融资;致力于对话机器人行业解决方案的竹间智能完成D+轮融资;医疗交互AI平台聆心智能完成Pre-A轮融资。

更有已退休两年的前美团联合创始人王慧文,在其朋友圈公开招纳技术人才,助其打造“中国版OpenAI;快手前AI核心人物李岩创业投身AI大模型赛道。

而在学术界,复旦大学自然语言处理实验室,发布了国内首个类ChatGPT模型MOSS,公开平台邀公众参与内测后,数万名用户申请参与内测。

站在底层技术角度来看,从科技巨头到互联网大厂,从创业届到学术届,AI大模型正在成为各方抢滩市场的关键。

事实上,AI大模型本质上是通过数据的训练,进行归集和表达。这意味着,如果对不同的数据进行训练,便可以产生不同的模型。拿OpenAI来说,其就是基于底层大模型打造了“对话机器人”ChatGPT。除此之外,其还基于底层大模型打造了Dall-E“绘画机器人”。

过去多年的一个市场共识是,如果要实现AI规模化产业落地,底层AI大模型就必须是一个通用的大模型平台,厂商根据用户需求在平台之上,进行多场景、多领域的模型生产,从而实现具体行业模型的落地。

对一众厂商而言,这也是一个新的方向。即AI厂商以“通用模型+产业模型”不断赋能企业、产业,从而加速中国的产业数字化进程。更为重要的是,这种模式一旦落地成功或将快速实现规模化效应,或将为头部AI厂商带来高回报,摆脱当下AI技术落地难,盈利难的现状。

那么,AI大模型现在在国内产业侧的成长如何?

看见AI大模型

“丫丫意识上传550W后1.7秒月球危机就发生了。”这是电影《流浪地球2》中的一句台词。

这个情节背后隐藏的是,超级AI大模型下的超级智能决策。

在电影的人物设定中,马兆、图恒宇都是550系列智能量子计算机的研究员。图恒宇是为了留住在车祸中去世的女儿图丫丫,将其“意识”植入初代智能量子计算机550A升级版550C中,试图迭代出“数字人丫丫”,但由于算力问题,不能处理过多的数据,导致“数字人丫丫”只能迭代出2分钟的生命。

月球危机下,图恒宇看到了550C的升级版550W,其超强算力可以让丫丫“活得更久”。于是图恒宇偷偷将丫丫的意识植入550W。

但在植入丫丫意识的1.7秒后,计算机开始超负荷运行,这意味着,无法启动地球上的发动机,“流浪地球”计划失败,地球毁灭。

一个决定性的转机在电影结尾,图恒宇在临死前将自己的“意识”植入了550W,使得其算力正常运行,点燃了发动机。

其实,在550W量子计算机的超强算力下,AI大模型不断的计算、学习、训练,让原本负责管理空间站的AI系统迭代出自主意识,并为自己取名MOSS。

由于其AI系统的设定便是坚定执行延续人类文明的使命,所以当丫丫的意识植入大模型时,在550W超强算力加持下,极端理性的人工智能遇到了感性的丫丫,MOSS实现了新的进化,感受到了人性的恶,推算出毁灭即拯救,这也就导致了MOSS制造出计算机负荷运载的假象,试图毁灭地球。

但当图恒宇的意识的植入大模型后,使得MOSS学习到图恒宇与丫丫之间的爱与和平,训练出新的意识形态,即拯救人类。

从某种意义上来说,MOSS最后拯救人类,就是“理想AI大模型”下带来的智能决策。

实现路径可以概括为,基于大量的数据集,进行学习、训练之后,在空间站管理场景中,利用550w量子计算机的算力,将空间站场景数据植入,进行二次训练,就可以满足空间站的场景需求,MOSS就是这种需求下的产物。

场景数据喂养后实现二次训练的模型也可以称之为场景模型。而当丫丫、图恒宇意识,即具体场景任务、行为数据植入场景模型中时,便可以给出具体智能决策。

这也是AI大模型规模化落地的一种路径。

“中国科幻需要现实意义。”在刘慈欣看来,流浪地球的故事设定与现实科技发展存在着许多共性。

事实上,ChatGPT产业图谱中,主要价值点有三层。一是开篇提到的ChatGPT应用程序,将AI模型集成进面向用户的应用软件,它们或运行着自己的模型(端到端应用),或依赖于三方模型的API。目前来看,虽然这类应用公司的营收增长得非常快,但在留存率、产品差异化和毛利率上却容易遇到瓶颈。

二是基础设施提供商,如云厂商或硬件制造商,它们负载着生成式AI模型的训练和推理。这类厂商赢面较大,将赚取了流经技术栈的大部分资金。以生成式AI为例,有业内人士预测,其总营收的10%~20%将流向云服务提供商。但有这种能力的厂商屈指可数,门槛高,头部效应明显,竞争空间极其有限。

三就是我们重点提到的模型提供商,致力于打造驱动AI产品的底层大模型,它们要么以专有API的形式提供,要么开源提供。但绝大多数大模型厂商都还没有实现大规模的商业化,属于一片还未真正打开的战场,弯道超车机会很大。

值得注意的是,在整个AI规模化落地流程中,最复杂的环节就是底层AI大模型的搭建。但这恰恰给AI大模型厂商带来了新的机会。

换言之,想要 实现AI大模型规模化的产业落地,首先需要将整个落地路径“简化”。让AI变得“人人可用”,同时也要满足具体场景、领域的个性化需求。

通用大模型+产业模型

底层AI大模型的研发具有数据规模大、质量参差不齐、模型体积大、训练难度高、算力规模大、性能要求高等挑战。这样的高研发门槛,不利于人工智能技术在千行百业的推广。

而具有数据、算力、算法综合优势的企业可以将模型的复杂生产过程封装起来,通过低门槛、高效率的生产平台,向千行百业提供大模型服务。

各个行业的企业只需要通过生产平台提出在实际AI应用中的具体需求,生产大模型的少数企业就能够根据应用场景进一步对大模型开发训练,帮助应用方实现大模型的精调,以达到各行业对于AI模型的直接应用。

彼时,AI大模型就会真正意义上实现产业化,成为产业模型。

目前,国内布局AI大模型厂商百度、阿里、腾讯、商汤、华为等企业,正在不断夯实通用大模型,打造产业模型,助力AI大模型产业化。

其中,百度以文心大模型+飞桨PaddlePaddle深度学习平台;腾讯以hun yuan大模型+太极机器学习平台;阿里以通义大模型+M6-OFA;华为以盘古大模型+ModelArts,都打造了(自然语言处理)大模型 、(计算机视觉)大模型以及多模态大模型方面。

可以发现,主要参与者大多是云厂商,正如上文所言,云基础设施很有可能是AI大模型这盘棋,最终的最大获益者。所以,大模型也成了云厂商“的必争之地”

值得注意的是,各个厂商AI大模型的布局,有所差异。

百度由于多年在AI领域的深耕,其文心大模型涵盖基础大模型、任务大模型、行业大模型的三级体系,打造大模型总量约40个,产业应用也较为广泛,例如电力、燃气、金融、航天等,构建了国内业界较大的产业大模型。

目前来看,属于国内大模型厂商的第一梯队中的佼佼者。

腾讯产业化应用方向则主要是腾讯自身生态的降本增效,其中广告类应用表现出色。

阿里更重技术,例如M6大模型基于阿里云、达摩院打造的硬件优势,可将大模型所需算力压缩到极致;另外其底层技术优势还有利于构建AI的统一底层。

目前,主要应用方向是为下游任务提质增效,例如在淘宝服饰类搜索场景中实现了以文搜图的跨模态搜索。

华为的优势则在于其训练出业界首个2000 亿参数以中文为核心的预训练生成语言模型。目前发布了盘古气象大模型、盘古矿山大模型、盘古OCR大模型三项较为重磅的行业大模型。

可以发现,在商业模式上各个厂商都是通用大模型路径,在通用大模型架构之上,搭建具体行业模型。映射到产业层面,即“通用大模型+产业模型”的路径。

但具体的产业化应用有着较为明显的差异。其实,这与各个厂商喂养的数据有着极大地关系。例如华为的优势在G端,相对应其在气象、煤矿等央国企领域有大量服务经验与数据,在数据的计算、学习、训练下,更容易打造该产业的大模型。

然而,手握入场券,并不代表能跑到终点。

对于厂商而言,其可以搭建通用大模型,并不意味着其能把通用大模型搭建的好;其有能力打通大模型到产业模型到具体场景的应用,并不意味着其可以打造出有真正价值的智能决策。

AI大模型产业化落地的瓶颈需要被正视。

“智商”堪忧

如果将产业模型看成一个公式:2×π+N=?

其中,公式“2×π=6.28318530718......”就是底层通用大模型,“N”则象征着具体场景的数据。公式“2×π+N=?”就是植入具体场景、领域数据后的产业模型。

在这个公式中,不难发现的是,π小数点后的数字越精确,得出的结果就越精确,最后产业模型下的智能决策也就越精确,相对应的计算难度也就越大。另外“N”作为一个变量,需要收集场景下大量有价值的数据。

显然,计算能力和数据集成,是AI最终做出有价值的智能决策的关键,即AI大模型产业化落地的关键。

对于国内的AI大模型厂商而言,这不是一件容易的事情。

1、计算能力

在提升计算能力方面,首先比起一个人,100个人计算的效率会更高,所以计算人力数量是关键,人力数量对应的则是芯片的数量;其次,计算器比纸算会更快,而Excel又比计算器效率更高,所以计算工具的性能改进也是关键,对应的则是芯片的性能。AI大模型需要在大量、高性能的芯片加持下,不断的进行模型训练,才能更加精准。

目前,英伟达推出的A100/H100是目前性能最 强的数据中心专用GPU。 且市面上几乎没有可规模替代的方案。 包括特斯拉、Facebook在内的企业,都利用A100芯片组建了AI计算集群。

根据市场研究顾问公司Compass Intelligence发布的AI芯片最新调研报告,全球前5大人工智能(AI)芯片企业排名依次为NVIDIA英伟达、Intel英特尔、IBM、Google、苹果。

在性能方面,英伟达是AI大模型芯片选择的第一顺位。

值得注意的是,据国盛证券报告《ChatGPT 需要多少算力》估算,以 ChatGPT在 1 月的独立访客平均数 1300 万计算,其对应芯片需求为 3 万多片英伟达 A100 GPU。从全球GPU的饱有量来看,拥有一万颗GPU储备的企业屈指可数。

即使有货,但受困于美国对英伟达GPU产品A100和H100出口限制,目前也很难买到。

针对这一问题,英伟达为了留住难以割舍的中国市场,推出了A100的替代A800。这是国内厂商目前能买到的替代品。

但根据芯片经销商OMNISKY容天官网信息显示,英伟达A800GPU数据传输速率为每秒400GB,传输速率有所下降。英伟达A100GPU传输速率为每秒600GB。A800数据传输速度降低了30%,性能明显不高。

还有,训练通用大模型十分烧钱。据国盛证券报告《ChatGPT 需要多少算力》估算,GPT-3 训练一次的成本约为 140 万美元,对于一些更大的 LLM(大型语言模型),训练成本介于 200 万美元至 1200 万美元之间。以 ChatGPT 3 万多片 A100的采购量来算,初始投入成本约为 8 亿美元,每日电费在 5 万美元左右。

站在更大的层面看,如果要实现AI大模型最终的产业化落地,其成本将会高达几十亿甚至上百亿。

根据New Street Research 的一项估计发现,Bing搜索中基于OpenAI的ChatGPT模型可能需要8个GPU才能在不到一秒的时间内响应问题。

按照这个速度,微软将需要超过20,000台8-GPU服务器才能将Bing中的模型部署给每个人,这表明微软的功能可能需要40亿美元的基础设施支出。

烧钱、买不到大量高性能的AI芯片,制约着国内AI大模型的计算能力。

2、数据集成管理

中外数据质量有着巨大差异性。

IDC在一项有关“中国数据集成与数据质量市场”调查的白皮书中指出,大部分中国企业数据集成项目难以达到预期的原因在于数据质量问题。

从市场发展环境方面,可以看到的一些问题是。国内企业IT系统大量建设,数据环境较为复杂,造成数据的重复、不一致、格式混乱等问题。这些低质量的数据,即便在完成数据集成之后,得出的也可能是质量不高的信息。

一组数据是,72%的接受调查的中国企业存在重复数据,60%的企业存在不完整数据。

另外,国内企业普遍存在跨系统利用数据、系统间数据传递不及时、以及业务指标理解不一致也使得数据质量出现问题。

“如果是静态数据,则要求完整、准确、一致,格式规范;如果是动态数据,则要求能被及时调用,快速更新。”在IDC中国高级分析师刘飞认为,这是衡量数据质量好坏标准。

然而,在国内由于企业数字化程度较低,甚至许多企业停留在最原始的信息化阶段,导致标准化、规范化程度较低,集成管理困难。而在欧美,企业标准化程度高,相对应的数据也较为标准化,数据质量高。

数据挖掘方面,挖掘程度不同,一般国外把数据挖掘技术应用于各个行业产业的过程中,建立不同的数据挖掘模型。国内主要应用于各个行业储层评价、施工方式的选择、生产指标的预测以及各个行业系统的诊断。另外,国内多专于横截面式的数据分析。国外更注重同一批样本量的纵向比较和追踪研究。

在数据研究方面。由于国外注重数据研究的意识,国外数据治理研究主要集中在理论探索、模型框架以及实践应用三个方面; 国内相比之下,技术研发的探索能力较弱一些,所以侧重于理论分析尚且缺乏模型与框架等应用研究。

在数据共享方面。国外许多国家都有很多大型的科学数据共享平台,特别是英国、美国,并且许多平台都对自己的数据有一定的质量要求。且国外企业之间也有着良好的数据生态。

目前国内的数据共享平台发展还不够成熟,国内主要的数据平台是中科院科学数据共享工程中开发的多个学科数据共享平台。且企业之间数据生态并没有像国外那么开放。

较为混乱的数据环境、缺乏数据深度和整体性研究以及数据生态的不成熟等问题,使得国内产业数据在质量、数量上普遍存在一些问题,导致场景无法真正实现数字化,且在短时间内,无法通过技术、管理手段迅速改善。比起欧美国家,仍有很长一段路要走。

总结来看,以目前国内AI大模型的计算能力以及数据集成管理能力,其最后产业化落地的智能预测很有可能价值点较低。即使做出语音交互机器人,可能也并不“聪明”。

但即使是这样,我们仍需看到AI 大模型对中国产业发展的巨大意义。

在中国,谈论AI模型的必要性

“以数据为关键要素,以价值释放为核心,以数据赋能为主线,对产业链上下游的全要素数字化升级、转型和再造的过程”这是产业数字化的官方定义。

简单来说,产业数字化的前提就是让数据从资源化奔向资产化。

好比煤炭、石油、天然气等,只有少量存储则不可能被称做资源,只有在规模足够大,具有使用价值之后,才会被称做资源。

后期则需要对其进行开采和加工,自然需要组织、制度、流程等来保证工作的有序运转,并使资源转化为资产。这时,煤炭、石油、天然气的价值才能释放出来。

数据资源也是同样的道理。当数据资源达到一定规模,就需要组织对其进行开发和利用,成为数据资产,释放其价值。

在当下的大数据时代,企业愈发重视数据的采集,这其中不乏一些企业拥有庞大且丰富的数据集。然而,国内企业大规模数据的开发和利用的链路十分复杂,普遍面临数据“用不起来”和“用不好”的问题。

但AI大模型本身对应的就是数据的高度归集和表达,其就像一条快速通道,高度归集代表入口,表达则是出口,让数据从生产到消费的路径变得简单,数据可以便捷、快速地进行开发和利用,释放数据的价值。

加之,在AI大模型+产业模型下,大模型可以实现具体场景、领域数据的学习、训练。所以在产业具体场景下的数据将更有价值,即更加贴合场景需求,可以直击场景痛点。

可以预见,随着产业模型的落地,将使得企业数据价值得到最大释放,实现企业数字化转型、再造,加速产业数字化渗透,推动产业数字化历程。

另外,AI大模型的随着时间的推移,厂商的利润将越来越高。

根据相关机构预测,至2030年为止,AI训练成本将持续以每年70%的速度降低。

举例来说,要将一款大型语言模型训练至GPT-3 (Generative Pre-trAIned Transformer 3,生成型预训练变换模型-3)等级,2020年得花费近460万美元,2022年骤降至45万美元,成本节约近90%。

这对于以往落地难、盈利难的AI厂商而言,无疑是一块巨大的蛋糕。可见,于经营者,于使用者,于产业发展,AI大模型的布局极其重要。

除此之外,在国家层面,AI大模型在今年两会上亦被提上了新高度。

“ChatGPT之所以引起关注,在于它是一个大模型,对应大数据、强计算、好算法。踢足球都是盘带、射门,但要做到梅西那么好也不容易......要达到ChatGPT的效果,可能还有工作要做。”

科技部部长王志刚希望国内的科研院所、企业、广大科研人员能有进一步发展和进步。

而这是他第二次谈及AI大模型。

总体来看,AI大模型已然成为各个国家、企业发展的战略要地。已经到了不得不重视的地步。

写在最后:

回归技术本质来看,ChatGPT不是一个新鲜的事物,AI大模型更不是一个突破性的技术,但ChatGPT却让其实现了现象级的爆发,在当下AI大模型风口下,我们是否应该思考一些更加深刻的问题,除了软硬件、技术,中国式AI到底缺少什么?或许这才是问题的根源。

技术更迭,已不是壁垒,国产式AI需要的是产品的创新思维,以及对需求的产品变现能力。这种亟需具备的特质,适用于所有领域。

本文(含图片)为合作媒体授权创业邦转载,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

反馈
联系我们
推荐订阅