大模型“暴力计算”时代,中国如何突围算力之困?

中国互联网的崛起

编者按:本文来自微信公众号 星海情报局(ID:junwu2333),创业邦经授权转载。

北京时间2024年3月19日,英伟达2024年GPU技术大会(GTC)上,黄仁勋带着搭载B200芯片的GB200 Grace Blackwell超级芯片系统,掀起了又一场关于AI算力系统的全球化讨论。芯片发布后,英伟达股价盘中一度涨幅超过5%,盘中回落后,在3月22日周末收盘时,定格在了一个收盘价的新高。

过去两周,英伟达的股价像是坐上了过山车,一度暴跌又一度暴涨,暴跌的时候能一夜跌掉9000亿人民币,暴涨的时候又能把所有跌幅全都涨回来。这无疑反映着外界对这家公司前景与估值略显矛盾的意见。

2023年8月,独立投资研究公司CFRA的股票分析师安杰洛·齐诺说,未来的5-10年时间里,英伟达可能会成为对于人类文明而言最为重要的公司。

几个月后的2023年12月,我和某云计算厂商的朋友出去吃饭,他在这句话后面又加了半句。

——如果美国商务部没有针对中国大陆发布GPU禁令让全中国都用不上英伟达的话。

彼时中国绝大部分公司已经买不到英伟达11月刚刚发布的AI芯片H200,就连上一代H100的阉割版H800,都已经被美国商务部2023年10月出台的新一轮禁令断了来源。

图片

美国商务部长雷蒙多在2023年12月2日出席美国军工复合体主导的里根国防论坛时,将禁令的目的说得极为直白:禁令就是要对中国进行算力封锁,限制中国发展和训练AI大模型。

根据第三方数据分析机构IDC的《2021-2022全球计算力指数评估报告》,从美国、中国等15个重点国家数字经济发展情况来看,算力指数(根据计算能力、计算效率、应用水平、基础设施等指标测算)平均每提高1个点,国家数字经济和GDP将分别增长3.5‰和1.8‰。

简而言之:在数字经济逐渐开始占据国民经济增长主导位置的历史阶段,算力资源水平是可以直接与国民经济挂钩的。

雷蒙多说要卡住中国的算力,其实就是在说要卡住中国的科技与经济发展。

那么中国的算力行业,真的像她所想象的那样停滞了吗?

答案是:当然没有。

今天京东云还在深圳发布了“春风计划”,设立“10亿比价金”,要在保证产品竞争力和开放性的前提下,对标特定云厂商价格,在其最低实际成交单价基础上再低10%。

算力在未来是一个极为关注成本的行业,它不像消费品一样通常以溢价体现品牌竞争力。算力更像基础能源,像水电煤,越便宜越能支撑整个社会的高速运转。在今天这个竞争环境下,还能有厂商宣布进行长期的降价比价,对于中国算力行业来说,肯定不是一个坏消息。

图片

AI大模型需求重整算力产业格局

过去一年中,我曾经和很多业内人士做过交流,在国产GPU的使用上,大家并不避讳“还不那么好用”的现实,就连国产芯片的某家提供商也很坦诚地表示过:“性能和开发生态的搭建确实有差距,我们也不能骗人,但进步已经非常快了,生态也要大家一起来建设。”

罗马不是一天建成的。关于在硬指标上全面追上世界最先进的芯片产业水平有多难,局长已经讲了几年。GPU也是芯片,在短时间内全面追上英伟达的GPU水平,显然是不够现实的。

但好在,实际输出的算力水平,绝不是一个只和GPU挂钩的东西。

在ChatGPT将AI在大众层面彻底引爆后的一年,全世界都达成了一个共识:人类的未来将取决于你如何使用AI,而AI发展到什么水平,则取决于算力。

算力取决于什么呢?

在过去一年,很多人觉得是芯片。所以英伟达在2023年成了“全世界最重要的公司”。所有搞大模型的企业,到了一定规模就会开始发通稿说自己又买了多少张英伟达的GPU。

但这只是一种资本市场有目的的助推之下的误区。

AI大模型是一个必须落向应用的东西,支撑大模型的算力也是同理:这意味着从硬件到软件、到调度、到接入产业应用,整个算力产业是一个非常复杂和系统化的综合性工程。每一个环节的能耗、效率、成本,都会直接影响最终算力的实际输出。

而算力最终是要拿来用的。

过去大家比较熟知的算力资源来源,大多是市场化的云计算厂商,以及各个科技大厂。但随着中国算力产业建设作为数字基础设施建设的一环被上升到国家战略的高度,中国的算力行业已经出现了新的格局。

首先是地方政府。目前,我国超过30个城市正在建设或提出建设智算中心,和算力有关的规划与政策相继出台。

图片

与此同时,移动、联通、电信三大运营商的资本支出重点,从2021年就已经开始逐渐从5G转向算力。根据公开招投标信息显示,中国移动2021年-2022年服务器集中采购规模约21万台。中国电信2022年-2023年服务器集中采购项目总规模超20万台。这几乎已经和几家科技大厂的服务器年采购量持平了。

各个科技大厂则主要以云计算切入产业链,华为、阿里、腾讯、京东都是其中翘楚,而且在对接产业方面各有绝活,发展也都十分迅速。

这其中,地方政府最大的作用是推动建设,进行环境支持;运营商则承接了全国算力网一体化建设的规划任务,而各个科技大厂则在运营和降本增效方面起到了非常重要的作用。

算力中心建成后到底怎么用好、运营好,是最终是否能够达成算力建设目的的关键。对于运营商和地方政府来说,是一个绕不过的难题:它们在系统层面的研发是明显比不过科技大厂的。

换言之,要想真正发挥中国智能算力中心的实力,最好的办法就是合作:既发挥国资背景的运营商和地方政府的资源调度能力,又通过华为、阿里、京东这些市场化公司们丰富的产业对接经验及研发运营能力,将算力赋能给产业的效率发挥到最大化,才能真正地获取新质生产力。

算力军备竞赛的最大目的是降低成本

2024年2月29日,阿里云宣布进行“史上最大降价”,对100余款核心产品平均降价20%。涉及云服务器、大数据型实例、对象存储等多种产品。京东云随即跟进,相当干脆地打出了“随便降,比到底!”的口号,甚至在海报Banner写上了所有中国人都会非常熟悉的电商式口号:“全网比价 买贵就赔”。

图片

一个行业爆发之后能不能长久持续地存在下去,核心不是利润,而是成本。

今天AI之所以没能迅速地实现对各个行业的颠覆,尤其是没能实现对各大搜索引擎的颠覆,核心原因就是今天智能算力的成本实在是过高了。

互联网行业能够以超高速发展并和千行百业进行深度结合的一个重要原因,就是在规模效应之下增长的边际成本是不断趋近于0的。比如社交网络上,Facebook用户从10万增长到100万的过程中,成本的上涨非常少。

但AI不是,大模型每一次计算都要消耗一次算力,这个成本是省不了的。根据相关研报,谷歌每次搜索的成本大约是2美分,如果将搜索改为大语言模型的问答,单次反馈的成本将至少是普通搜索的7倍。以一次搜索只转换为一次问答计算,这个成本也要给谷歌带来每年几百亿美元的额外支出。

谷歌和微软尚且无法支撑如此之高的算力成本支出,更不要提其他行业的小公司。没有算力成本的充分下降,AI大规模赋能产业就是一个伪命题。

如今全世界掀起的关于算力的军备竞赛,本质上都只有一个目的:把算力成本降下来,才能在产业应用中实现量变达成质变的生产力变革。

这就是为什么我看到中国云厂商再次因为降价“卷”起来,是略显欣慰的。因为大厂的降价对于业界来说是一个信号:它们找到了进一步让算力成本下降的手段。这也就意味着AI给行业从量变带来质变的那个拐点又近了一步。

用京东集团技术委员会主席、京东云事业部总裁曹鹏的话说,价格不是全部,只有产品、价格、服务全方位的提升,才能让云计算真正成为“水电煤”,让用户不再操心,可以全心全意去发展业务。

经常看星海的朋友对阿里云已经有一定的了解了,我们此前的文章曾有过介绍,这里就不做赘述。京东云则是龙年春晚的技术服务商,这两年崛起得很快,据我所知已经有知名的银行和券商在用这家的算力解决方案,在超大项目的智能化保障能力上已经得到了一定验证。

京东云前些年的声音不大,但是这几年发展很快, 看家的本领是自主研发的混合多云操作系统“云舰”,和统一存储平台“云海”。在国内软硬件格局还比较混乱的时期,给出了兼容性很高的系统和算力模块,以及离在线混部技术和存算分离技术。

这些特点和相应的技术,都和京东本身的业务是相通的。它旗下有上万个SKU的自营商品,和超过1500个物流仓库。不做高兼容性的算力模块,连自身的需求都满足不了。同时出于自身业务需求,京东自研的存储产品比云计算业务的起步还要早,所以后续做“云海”时顺理成章地更愿意研发存算分离的架构。

在AI时代,因为要同时对海量数据进行并行计算,存力也是一个综合算力水平中非常重要的指标,恰恰成为了京东云的机遇。根据其官方资料,京东云基于存算分离架构,算力资源利用率可以提升30%以上。

云舰的vGPU功能,则能够提供一站式 GPU 算力池化能力,在不增加GPU服务器的基础上,支持更多的智能化使用场景并发处理,GPU 利用率最高提升 70%,大幅降低大模型推理成本。

而所有效率的提升,都意味着成本的下降。自营让京东对供应链的理解可能要比其他常规的互联网大厂要深刻很多,对于产业中等待着AI与算力赋能的从业者来说,有这类更加了解行业的玩家入局,帮助推动产业升级,当然是喜闻乐见的。

美国智能算力的建设是硬件驱动的,但不意味着中国一定要照着美国的路走。

对于中国来说,软件层面的开发,和落入产业之后对应用的推进,是更有优势的一条路径。

以京东云在某地为某科技公司建设的智算中心举例,该公司基于自身GPU卡供应链资源优势,计划自建或对外提供智算中心整体建设方案,在建设智算中心过程中希望借助云厂商的能力进行全栈技术支持,保证多个智算中心项目落地及稳定运行。京东云提供从投资测算、定价模型、IDC选型、硬件配置选型、组网规划、平台能力规划、运营策略等陪跑服务,并将“阿尔法”智能算力模块高功率密度解决方案应用于智算中心建设,不仅满足从20kW到100kW/柜的高密度算力部署需求,且制冷因子CLF达到惊人的0.07。

在摩尔定律受限于边际成本递增而逐渐失效的时代,硬件层面的算力进化很可能正在面临一个瓶颈。越来越重要的将是应用与软件层面的效率竞争。

而中国在这方面和美国的差距比芯片方面要小得多。目前包括京东云在内的各家厂商,都在通过提高兼容性,给算力产业里国产软硬件的开发提供尽量充足和宽松的环境。据我所知京东已经可以兼容全系列的国产软硬件,跟国内所有主流的国产化平台都做了兼容互认且全局无锁架构。

这种兼容性能够帮助国产硬件进行业务场景下的实际应用和真实检验,给国产硬件创造好的应用生态环境,以及经验获取的渠道。在硬件处境艰难,仍需要时间和空间发展的阶段,通过软件能力补充短板,是中国算力系统建设过程中非常重要的一块拼图。

京东云一位内部人士表示,通过对底层平台和业务的全面优化,京东集团已经有多个生产业务实现了用1:1的资源对非国产化芯片的替换,例如本来用8核的非国产化芯片,我们现在用8核的国产化芯片也能支撑同样的流量。

实践是检验进步的唯一标准

去年六月,王小川去硅谷转过一圈,发现美国那帮子不差钱的工程师已经在研究怎么把1000万块GPU联在一块做模型架构了,但英伟达一年才生产100万块GPU……

然而美国工程师们普遍没有什么应用落地到产业的经验,一旦从做技术延展到做应用,王小川的评价是:“能力实在不咋样。”

而通过应用来实现高速的技术扩散,则刚好是中国人最擅长的领域。从电商到物流,从手机到移动支付,都是非常典型的案例。

即使中国人已经买不到英伟达最先进的GPU芯片了,但中国推进AI赋能产业,将算力赋能行业实践的动作,并不比别人慢,甚至比世界上任何一个地方都要如火如荼。

我们曾经在《大逃杀中的AI大模型》一文里提到过,大模型的商业化终点是产业,而落入产业的条件通常有两个:

1、本身自己有产业资源,通过自身业务向外辐射和赋能产业;

2、掌握着可以触达产业资源的平台接口或渠道,通过自身软硬件技术实力帮助产业升级。

放到算力行业,也是适用的。前面提到的京东就比较倾向于第一种,比如京东云的言犀AI开发计算平台,侧重的就是零售、金融和供应链物流,这些都是典型的京东自有业务。基于多年积累,京东打造了丰富的行业知识库,并将其作为连接底层算力和上层大模型开发的“桥梁”,无缝衔接起了数据准备至模型部署的全流程环节,预置了100多种优化工具,一键部署即可释放90%的推理成本。

这里有一个已经初具成果的应用,就是京东健康基于言犀打造的自研大模型“京医千询”。京东健康将自身服务患者过程中沉淀的超亿级高质量健康档案和大规模健康知识图谱,加上大量临床实践指南和最新的医学文献、专家知识,整合起来训练出“京医千询”作为底座支持行业应用。在京东云的支持下只需要不到一周时间,即可完成从数据准备、模型训练、到模型部署的全流程。不仅减少了患者的问诊等待时间,也提升了医生的工作效率,明显降低了远程医疗的成本,让京东健康互联网医院的问诊量日均已经超过了45万。

京东云,赞10

而第二种,比较典型的是阿里做了通用大模型通义千问,目前推得比较多的实践之一就是嵌入钉钉,依托钉钉本身的平台属性,从底层调动原始数据,以问答机器人和数字员工的方式切入企业服务领域。

当然还有一种分类叫做华为,堪称软硬件两手抓两手都要硬的典范,通过自身优秀的通信硬件技术,配合软件算力基础设施的配套,逐步接入了矿山、制造等各类工业系统,并且有盘古系列衍生出的各类行业大模型进行配合,比如盘古气象大模型的研究成果已经发过国际顶级学术期刊《Nature》的正刊。

当然还有一个比较特殊的百度,这家公司没有京东那么深入产业链供应链,也缺乏钉钉、飞书这类杀手级别的企业应用。目前推出了通用大模型文心一言,还基于营销需求推行了AI数字人;除此之外,百度的重中之重就是自动驾驶了。

汽车行业可能是除了大模型产业本身以外,对算力需求最迫切的行业了。自动驾驶的视觉解决方案,要处理惊人的视频数据量,加上如今自动驾驶已经进入了无图化的时代,就对智能驾驶产生了迫切的需求。

这也是为什么特斯拉一早就在自己做芯片,做超算,小鹏如今也已经下场自己做了智能算力中心。

京东虽然没有自己造车,但在无人仓储、物流方面积淀深厚,在这方面也有不少进展,比如我知道国内某个做车联网与重卡干线自动驾驶模型研发的自动驾驶技术公司,用的就是京东云打包提供的AI训练平台、存储、计算、网络的公有云整体解决方案。

人类与科技命运的交叉点

第一次工业革命的核心是马力,它帮助人类在交通、纺织等行业解放了生产力;第二次工业革命的核心是电力,它的出现让冶金、钢铁、重工业等高耗能行业出现了爆发式的增长,再一次释放了生产力;第三次工业革命的核心是信息传输能力,从3G到5G,成为了我们这一代人见证的传奇,以互联网的形式将生产力提升到了一个新的高度。

而第四次工业革命的核心,就将是算力。它将通过AI和大数据给全社会、全产业的生产力与生产关系带来颠覆式的进步,即使目前碍于成本这种量变引发质变的时刻还没有到来,但也只是时间问题而已。

对于今天的中国来说,我们的短板是明确的:发展时间太短;硬件水平相对落后。

但我们也有着自己的解决方案:硬件不够,软件来凑,中国这批软件层面颇具功力的大厂,可以通过软件的调度和配套能力,帮助缩小差距。

而算力赋能产业升级应用的实践,则会进一步带来产品的迭代和技术的扩散,这是中国破局的利器。

我曾经在《大国锁钥》一书中将中国互联网的崛起称为“十四亿人的胜利”。庞大的用户群体,带来高频的应用,产生海量的数据反馈,带来庞大的资金量和极为广阔的应用场景与商业前景。

这种通用层和应用层的相互哺育,一旦滚起雪球,将会爆发出巨大的能量。这是中国在AI时代独有的优势。也是关于未来的入场券,是中国国运与民族命运的关键节点。

而所有中国正在建设数字基础设施的厂商、地方、部门、甚至是普通人们,都是在进行一场从西方世界夺回中国发展权柄的战争。

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。

反馈
联系我们
推荐订阅