创办近4年的百图生科正试图凭借所拥有的两个平台,千亿参数的跨模态大模型体系xTrimo与AI生成式蛋白设计平台AIGP继续着创新药物研发的征程。若想要通过AI技术研发新药,AI建模编程能力与生物制药背景常常不可兼得。
在通过生物计算引擎驱动突破新药研发的大前提下,xTrimo更像是带有预训练模型的核心基础平台,AIGP则更像是一个更具实操性、易用性的前端平台,让即使不了解编程的生物学家也能够上手,用自己的数据训练模型,参与蛋白设计,比以往更快、更准确地获得新药机会。
平台布局观:开发一个体系而非一个模型
xTrimo问世后,曾在杂志上刊登研发成果,一时技惊四座:此前从未有任何一家公司在预训练模型中拥有如此多的数据模态,达到如此大的参数量级。
如果将生命科学制药行业所积累的数据比作自然语言里面的文本和图像,那么xTrimo的原理就更容易理解。这些尚未经过精细处理的数据极为庞杂,不仅包括大家所熟悉的蛋白质序列数据,也包括单细胞测序数据等。当多达100 Billion参数的预训练模型在各种模态的生物数据在平台上被持续训练,所产生的预训练模型不仅可以正向推导和链接不同模态,还可以从序列预测结构结果反过来预测序列。
这些预训练模型作为基础模型或通用模型,可以构建很多下游应用。例如,当科学家试图设计抗体的时候,非常希望能够高效准确预测抗体的结构、表达量、稳定性等参数,然后获得抗体和抗原相结合的表位或复合物结构,而这些模型都可以基于xTrimo的预训练来深层设计或者优化。
此外,酶的活性预测也可以通过预训练模型去指导产生突变,将酶的活性提高多倍。再比如,病毒载体是一种常用的分子生物学工具,可以通过病毒载体将遗传物质带入细胞,腺相关病毒(AAV)是目前应用最广泛的体内基因治疗病毒载体。经过预训练模型,腺相关病毒(AAV)的存活率和组装率预测可以更准确。
目前xTrimo能够明确辅助抗体、酶、AAV等方面的研究,在此基础上,百图生科构建了自己的平台商业模式,它从诞生之初便倡导合作,希望与各类新药研发商、大学等研究机构甚至个人、CRO企业等以数据合作的形式长期结伴同行。
合作的直接效果是摒弃传统的实验方式,在数据的层面上更快地找到规律,获得更为准确的模型,而这些模型就可以指导于后续的产品生成、设计与筛选。由于xTrimo本身也是一个持续更新的平台,就像ChatGPT从最初的版本进化到如今的4.0一样,以每6个月到一年之间迭代更新的速度来看,它的预训练模型正在加速进化中,推理的速度会更快,构建的模型效果也将提升。
以百图生科与赛诺菲的商业合作为例,基于xTrimo的预训练模型开发的特定任务模型将被赛诺菲集成到自己的分子优化和设计的流程之中,用来更好地去进行前沿药物设计。在2024年1月的JP Morgan大会上,百图生科展示了分子优化案例:内部PoC抗体分子亲和力在经过两轮快速闭环迭代之后提升了10倍,每轮迭代时间只需要14天。
针对已经发现的靶点,企业也可以在xTrimo生成模型,通过大模型“跑”出更加准确的新药模型。
在AAV方面,百图生科与博腾生物,一家头部AAV CRO公司也达成了合作。百图生科基于博腾生物积累的腺相关病毒(AAV)研究数据开发针对性预测模型,双方将共同对外提供一站式的AAV文库设计和验证服务,共同加速基因疗法的发展。而xTrimo在此的价值在于提高文库设计的命中率,减少验证所需的成本和时间。
截至目前百图生科已有超过10家商业客户,超过200位平台用户。用户可以将模型算法集成到自己的工作流里面,也可以用xTrimo的模型算法直接去优化蛋白质。
在百图生科CTO宋乐看来,百图生科绝对能称得上行业的突出者。在各种模态的生物数据下训练出来的100 Billion参数的预训练模型是目前世界上最大的生命科学通用平台。通过在专业期刊上发布研发成果与参加国际性学术会议,百图生科的平台目前已经在全球拥有知名度,也为百图生科在2024年的BIO国际会议上吸引到了众多跨国药企的青睐。
此外,他认为xTrimo的单细胞预训模型也走在行业的最前沿。毕竟,布局伊始,百图生科就把扩展生命科学生物的模型与模态作为最重要的基准而规划了整个体系,并且希望覆盖的行业越多越好。
与xTrimo相辅相成的AIGP
在xTrimo基础上建立的AIGP平台则更像是一个“前端”产品。生成式人工智能AIGC(Artificial Intelligence Generated Content)出现后,一“字”之差的AIGP(Artificial Intelligence Generated Protein)意味着通过AI设计和生成各种各样的蛋白质。
作为平台,百图生科的AIGP其实聚集了一些优化好的、准确的下游模型,可供科学家或企业直接使用。在此之外,第二个重要的功能是fine tuning(微调),科学家可以在这里通过上传自己的数据,来构建模型并且优化蛋白。第三个功能是针对蛋白质的多参数、多目标优化设计。
AIGP的诞生直接指向产品的易用性,用宋乐的话来形容,它更像是“在xTrimo外面再包上‘应用层’,让用户能用起来”,它的产品思路涉及到如何降低用户使用门槛,如何与用户目前的工作流结合,以及如何维护用户等细节。
如果说用户在xTrimo做模型开发还需要具备一些写程序代码的能力,那么在AIGP平台就只需要点击鼠标、复制粘贴等基础工作。它的模型设计入口处会给出各种模型对应的图标来供选择,很多功能都可以通过对话框来提交。把原有数据的条目提交上去,选择自己想要的蛋白质,按下按钮,就会返回一个以图片形式展示的蛋白质三维结构。
AIGP的产品设计似乎侧面证明了ChatGPT对话框形式的人性化,“毕竟很多生物学家,甚至是生物信息学出身的专业人员的编程能力不强。”宋乐说。当然,一些有互联网行业经验的专业人士也可以通过命令行输入,命令行与对话框会指向同一个平台,为对方提供同样的数据服务。
革命性的蛋白质设计
基于xTrimo与AIGP两个平台的工作,很大比例都有关于蛋白质的设计、生成与优化。具体来说,AIGP集成了几十个不同的蛋白预测模型,包括蛋白结构预测、抗体抗原亲和力预测、酶功能预测、蛋白产量预测等,能够自主生成蛋白序列并基于序列预测蛋白功能。2023年上线的AIGP以邀请试用开始,今年的新版本则更加开放与市场化,期待用户的自助使用。
如果说人类的DNA像是一台汽车的操作手册,那么蛋白质便组成了让车子开动起来的各种零部件。反过来,一旦科研机构能够改造蛋白质,或者设计出新的蛋白质结构,它们就可以在医药和生物制造中发挥更多作用。
宋乐将蛋白质比喻为一条珠链,组成生命体中蛋白质的氨基酸有20种,正如珠链上有20种不同的珠子。然而20种的搭配组合还不够,形成一条链之后它会折叠,呈现出不同的三维形状,而这些都会影响到珠链的具体功能,使蛋白质有超越想象的搭配组合数量。
不过,如果将20种氨基酸与26个英文字母联系起来,就很容易联想到AIGP与AIGC的相通之处了:人们可以用26个字母组合出不同的语义,而百图生科的平台也可以用不同氨基酸通过预训练,让科学家学到新的规律,再利用大模型的生成能力组成新的蛋白质组合。
然而对于百图生科来说,想要打造这个理想化的AIGP平台,充满着各种挑战。
首先是数据本身,很多蛋白质相关的数据是并未规划过的,想要将它们作为AI能够利用的数据,本身就会耗费更多时间。这些数据需要被一群既理解AI又了解新药研发的专业人士所解读,也正因此,“数据标注”甚至成为了一些Biotech企业的主营业务。在百图生科平台上,仅仅是将数据“AI化”就花了2年时间。
另一个难点是数据量,目前百图生科的平台可以支撑每月合成2000条抗体的高通量,已经处于行业突出地位,“行业里头部CRO接到的蛋白生产订单可能一个月也就几万条”。企业与百图生科合作,跑出来的数据又可以用来为整个平台继续赋能,支持更多的数据运算,让一个大容量平台正向循环起来。
模型的构建也是难点。搭建模型的难度并不像穿一条简单珠链,而更像是对语义的理解。机器在深度学习之后需要理解复杂段落的不同语义,其中不只有熟悉的部分,也会出现完全陌生的蛋白质结构或单细胞结构。为此,百图生科募集了很多拥有计算生物学背景的人才,去更加贴切地指导机器处理数据和理解语言场景。
此外,为了完成100 Billion参数量的多模态预训练模型,需要的算力不容小觑,相当于用接近千卡的GPU连续训练3-4个月,还必须配备优秀的工程人员与高性能计算专业的人员将代码转化为预训练代码,并且维护好集群,保证训练后结果可以收敛到能够为用户所用的效果。
对百图生科来说,平台的构建需要大量财力,也需要大量人才。在公司内部,一边是拥有大厂或AI企业的大数据处理经验的人才,另一边又是生物科学出身的专业人士,这就带来了对百图生科管理上的更高要求。令宋乐最记忆犹新的,是大家在创业第一年的“冲突”,AI出身的同事习惯于相信数据,但由于生命科学学科之中很多实验结果都与实验手段、操作人员等一系列条件有关,因此他们很难接受两次实验得到不同的结果。为了顾及这方面的影响,就需要建立“批次效应”的概念,去反复修改,得到鲁棒性更强的模型。
而生物学背景的同事又常常会觉得,AI理应将一个模型一次性解决,对于AI模型需要日复一日反复训练的事实准备不足。“以往生命科学的实验就像是一次次高考,考完就采集到数据。但是AI的本质更像是日常学习或模拟测试,经过一次次训练,时时刻刻会有新的提升办法。”宋乐说。
生态圈的意义
百图生科一直在关注新的医疗手段。最新的科研实验中,患者的身体里可以被植入一段新的RNA,由自身细胞去合成与之相符的蛋白质并行使作用,从而来治愈某种复杂疾病。将人体的免疫细胞拿出来进行编码,去更好地识别癌细胞的“细胞疗法”也开始广为人知。还有通过控制干细胞的繁殖或分化,形成器官再生的疗法等。
无论是涉及到基因的编辑效率,还是单细胞的预训模型,百图生科的平台都有机会助力其中。每次看到相关新闻的发表,宋乐都会认为,百图生科在模型设计和高通量实验两方面的优势是足以帮助到大多数研发者的。
与更多专项研究的企业合作是百图生科最主要的策略,因为每家公司都拥有自己独特的产品、独特的切入方式与实验方式,而对于整个行业最有利的方式,就是与拥有不同的实验能力的企业与实验室去合作。
此外,这些实验所返回的数据也至关重要。百图生科可以从不同合作伙伴处得到不同程度的数据和数据的访问权,继续训练与完善预训练模型,以备进入新的场景。一旦模型更加成熟,百图生科自身需要花费的客户介入人力成本也会减少,让客户与自己的合作方式逐渐变得更加标准化。
目前百图生科的工作人员正在率先把自己平台用起来,同时也能更好地理解客户的需求,感受客户公司的AI专家与科学家的融合模式,将平台嵌入到对方的工作流之中。
在宋乐看来,生命科学行业的研究本身就具有实验性,再加上AI本身的实验性,双重加成,容易让很多业内人士保持观望状态。为此,百图生科只能脚踏实地,将一个个项目落地成功,让更多人去相信AI的力量。就像ChatGPT也在逐渐完善一样,医药领域与AI的结合从零开始,但也在尽力奔跑,自我完善。
*文章头图以及封面图来源于unsplash