以“创业团队”的身份在深度学习框架赛道上杀出一条血路,并成功实现弯道超车,这在OneFlow面世之前,是AI行业中难以想象的事。
深度学习框架素有人工智能操作系统之称,决定了人工智能算法和应用的技术高度,是人工智能芯片等底层硬件的软件入口,近年来被越来越多的业内人士看到,已成为人工智能领域的“必争之地”。
目前,国际上研发开源深度学习框架的公司不在少数,其中谷歌的TensorFlow和脸书的PyTorch更是在众多竞争对手中杀出重围,实现了一定程度的突出;在国内,百度、华为等公司也在积极布局深度学习框架赛道——上述企业无一例外都拥有雄厚的实力。
而以初创企业的身份做到这件事,目前全球已知仅北京一流科技有限公司(以下简称“一流科技”)一家。
这支由清华大学博士袁进辉带领,核心成员是清华大学、北京大学、中科院等多所高校研究员的创业团队创立于2017年1月,是一家AI基础设施供应商,专注于人工智能基础设施软件的研发工作,立足于通用性深度学习框架的研发和推广使用,力争打造人工智能深度学习框架产品的事实工业标准。
创始人兼CEO袁进辉博士毕业于清华大学计算机系,师从中国科学院院士、人工智能泰斗、清华人工智能研究院院长张钹院士(兼任公司首席科学家)。
公司自成立以来,已经递交人工智能操作系统及云计算相关核心专利申请34项,获得发明专利授权19项,获得注册商标15项、软件著作权17项,且连续完成了由九合创投、天目创投、快手战投、高瓴创投等国内知名投资机构及公司的近亿元风险投资。
“多年的学习经历,以及在微软亚洲研究院的工作经验,使我在早期就敏锐地察觉到了实现弯道超车的突破点;再加上团队的高执行力,和善于总结、实事求是的团队合作思维,种种因素的作用下,我们才能得以‘创业团队’的身份立足深度学习框架赛道。”创始人袁进辉告诉创业邦。
一流科技创始人袁进辉
首创四大核心技术,解决异构集群分布式扩展挑战
作为创业团队,一流科技拥有的完全自主知识产权的分布式深度学习框架OneFlow到底有何过人之处?
资料显示,在深度学习诞生之初,训练模型的数据量尚小,更多是“单机单卡”模式。随着深度学习在各行业的广泛应用,训练模型的数据量呈指数级增长,“单机单卡”已不能提供足够的算力,需要将计算分布在更多的机器和芯片上,即“分布式训练”。
而传统的深度学习框架在设计之初,并未考虑到“分布式”的场景,所以在“多机多卡”的场景下,只能简单的把机器和芯片串联起来,在数据传输的过程中算力浪费情况严重,随着芯片数量的增加,算力的边际效益不断下降,甚至出现增加机器和芯片也不能增加算力的情况。
而一流科技在最初就以“分布式”为基因研发了新一代深度学习框架OneFlow,着重解决传统深度学习框架在“多机多卡”的场景下算力浪费的问题。
作为世界首个面向大模型大数据打造的人工智能计算框架,也是世界首个专为深度学习打造的异构分布式流式系统,OneFlow针对超大规模训练、分布式、异构等对深度学习框架带来的挑战提出了解决方案。
OneFlow围绕提升框架性能的目标,采用静态编译和流式系统架构,首创自动数据模型混合并行、静态调度、去中心化和全链路异步流式执行四大关键核心技术,解决了动态网络下的静态存储分配机制、多流并行处理控制技术、大数据大模型的自动分割并行技术、操作符异步消息机制、流控背压与内存共享机制、数据搬运为一等公民等一系列创新性难题。
例如在基于Transformer的超大规模预训练模型研究中,如使用传统深度学习框架则需要数月的时间去调试才能使其适配自身需求,且可能出现性能不满足需求的情况。在选用 OneFlow的大规模预训练模型库LiBai后,该研究的模型上手、算法迭代开发的周期被大幅缩减,仅需1-2周就能利用LiBai在超大规模集群上完成一个超过 130亿规模参数的模型的开发和调试。
事实上,OneFlow不仅能够大幅提升单机硬件资源利用率,而且能够简单方便地实现基于异构集群训练任务的大规模分布式扩展,将系统整体性能提升到极致。2020年信通院的测试证明显示,OneFlow性能超越国外主流框架,高效性优势明显。
“与谷歌的TensorFlow和脸书的PyTorch相比,后来者从完备性、易用性等角度切入市场已经不具备任何优势。因此团队瞄准技术顶点,从高效性的角度切入赛道,直接从根源上解决技术难题,这也是OneFlow得以与国外垄断企业相抗衡的关键。”袁进辉坦言。
坚持开源的运营模式,打造更多的商业化产品
作为人工智能领域的“操作系统”,OneFlow本身并没有应用的局限性。在运营上,OneFlow深度学习框架在研发之初就确认了开源的运营模式。
目前,已经有开发者及企业采用OneFlow开发的应用包括但不限于图像识别检测、语音识别、自然语言处理、广告分发与推荐等。
同时,基于OneFlow框架和核心技术、集成大数据、云计算等组件,一流科技除了深度学习框架OneFlow,还对外提供了商业化产品OF智能云,其中包括MLOps人工智能开发平台OneBrain、强化学习解决方案OneAgent及AI实训及编程平台OneLab。
由于OneFlow新一代深度学习框架旨在支持超大数据量、超大计算和超大模型的特点突出,所以其市场定位是面向整个AI行业的深度学习框架市场,尤其是具有大模型、大计算和大数据需求的AI开发者和使用者,以及对于完全自主可控AI产业链关注的企事业单位部门。
目前,已有科研、政务、军工、金融等诸多行业客户与一流科技建立合作关系。这些机构和用户均已经建设了大数据平台,经历了信息化向大数据化的转化,同时已步入数据化向人工智能化的进程:一方面他们积累了数以PB级别的数据,另一方面他们对于性能、易用性、安全可靠性等也有诸多考量。
“后续我们将开发更多的商业化产品,进一步占领市场。另一方面,作为人工智能应用开发的架构层基础核心软件,OneFlow将持续使用开源的方式来运营——这意味着越多人用OneFlow,越能完善OneFlow;而产品的完善又可以帮助OneFlow吸引更多的用户,从而形成良性循环,最终发展壮大。”袁进辉表示。
从商业模式上看,OneFlow开源后,在开发者社区、头部互联网公司、头部AI公司产生了较大影响,随着使用OneFlow的开发者群体逐渐扩大,公司由提供围绕大规模深度学习训练的私有化解决方案,以及提供模型训练支持、运维支持与硬件适配等项目制收费商业模式逐步拓展至订阅制、公有云服务模式,并考虑在合适的时机向软硬一体化产品延伸并进入国际市场。
附
查看更多项目信息,请前往「睿兽分析」。