编者按:本文来自微信公众号 新智元(ID:AI_era),编辑:定慧 好困,创业邦经授权转载。
一图看透全球大模型!新智元十周年钜献,2025 ASI前沿趋势报告37页首发
Thinking Machines Lab终于首发第一款产品,Tinker!
不是模型、也不是APP,而是一个专为语言模型微调而生的API。
翻译过来就是,Tinker可以让几乎所有人,都能轻松地微调出属于自己的模型!
对于广大研究者和开发者而言,Tinker的诞生就是为了解决一个核心痛点:
当我们想要在SOTA模型上进行实验和定制时,往往会被复杂的分布式训练基础设施搞得焦头烂额。
而Tinker的解决方案是,你只管专注于算法和数据,他们来处理所有棘手的后台工作。
不仅如此,从一个小模型切换到一个庞然大物,操作竟简单到只需在你的Python代码中更改一个字符串。
OpenAI前CTO搞的这款产品,确实还是有点东西的。
正如CEO Murati所说:「Tinker为研究人员带来了前沿工具,为编写实验和训练流水线提供了清晰的抽象接口,同时处理了分布式训练的复杂性。它为创新研究、定制模型和构建可靠的性能基准提供了可能。」
对此,大佬卡帕西也在第一时间发推盛赞,认为Tinker会改变过去模型微调的范式:
这意味着即使是像你我这样的普通用户,也能介入模型层面,而不仅仅停留在输入层面,修改few-shot!
上下滑动查看
与更常见的「上传你的数据,我们对你的LLM进行后训练」的现有范式相比,卡帕西认为Tinker是一个更巧妙地将后训练复杂性「切分」的方式。
卡帕西认为微调是更好的后训练范式。
few-shot提示(就是把很多示例都塞到prompt里)在上下文长度、提示设计、推理开销上有很多限制。
但微调一个较小模型,把它训练成做一类专门任务的模型,在很多场景下可以取得更好或者更稳定的表现,并且推理速度更快、资源消耗更低。
理论上来说,Thinking Machines Lab的首款产品,不仅是针对开源模型,而且更是给所有人下放了「权力」!
比如过去模型是开源了,但是大参数的模型,比如671B的DeepSeek,没有卡无法推理;
小模型比如2B、7B的模型,初始性能又不好用。
Tinker出现后,我们都有了能力按照自己的需求和想法,可以用自己的数据来微调一个专门模型啦!
人人都可「微调」模型
Tinker只需要用非常简单的Python代码即可完成「想法表达」。
作为一个运行在Thinking Machines Lab内部集群和训练基础设施上的托管服务,它为你包办了任务调度、资源分配和故障恢复等所有繁琐事务。
用户则无需担心基础设施的管理,可以立即启动或大或小的计算任务。
Tinker的核心功能包括:
提供如forward_backward和sample等Python原生操作,让用户能构建自定义的微调或强化学习(RL)算法。
支持从小到大的各类开放权重模型,包括像Qwen-235B-A22B这样的专家混合(Mixture-of-Experts)架构。
集成了基于LoRA的微调方法,允许多个训练任务共享计算资源池,从而优化成本效益。
提供一个名为Tinker Cookbook的开源配套库,其中包含了多种后训练方法的实现。
Thinking Machines Lab采用了LoRA技术,从而能够在多个训练任务间共享同一个计算资源池,以降低成本。
Tinker API提供了如forward_backward和sample这样的底层操作原语,可用于实现大多数常见的后训练方法。
通过Tinker,可以微调各种规模的开放权重模型,包括像Qwen-235B-A22B这样的大型专家混合模型。
从小模型切换到大模型,仅需修改Python代码中的一个字符串即可,操作非常简单。
Tinker目前支持Qwen系列和Llama系列的模型。
尽管能够直接微调模型,要取得理想成果,仍需将众多细节处理到位。
因此,他们发布了一个名为Tinker Cookbook的开源库,其中包含了基于Tinker API运行的、实现了各种先进后训练方法的代码。
目前,Tinker处于免费私测阶段,未来几周内将推出基于使用量的定价模型。
想要使用Tinker,需要申请加入用户白名单,申请地址:https://form.typeform.com/to/jH2xNWIg
以开发者为中心的训练API
Tinker并非又一个拖拽式界面或黑箱微调服务。
相反,它提供了一个底层但用户友好的API,让研究人员能够通过标准的Python代码,对损失函数、训练循环和数据工作流进行精细控制。
实际的训练工作负载运行在Thinking Machines的托管基础设施上,从而实现了快速的分布式执行,并免去了管理GPU集群带来的种种麻烦。
加州大学伯克利分校计算机科学博士生Tyler Griggs在测试该API后写道:许多强化学习微调服务都面向企业,不允许用户替换训练逻辑。
而有了Tinker,你可以完全不用操心计算资源,只需专注于「摆弄」环境、算法和数据。
上下滑动查看
普林斯顿、斯坦福已率先用上了
在公开发布前,Tinker已在多家研究实验室投入使用。
早期采用者包括来自伯克利、普林斯顿、斯坦福以及Redwood Research的团队,他们各自将该API应用于独特的模型训练问题:
普林斯顿的Goedel团队使用Tinker和LoRA微调用于形式化定理证明的大语言模型,仅用20%的数据便达到了与Goedel-Prover V2等全参数监督式微调(SFT)模型相当的性能。他们在Tinker上训练的模型,在MiniF2F基准测试中实现了88.1%的pass@32成功率,通过自我纠正后更是达到90.4%,超越了规模更大的闭源模型。
斯坦福大学的Rotskoff实验室使用Tinker训练化学推理模型。在LLaMA 70B模型基础上进行强化学习后,从IUPAC命名转换为化学式的准确率从15%跃升至50%。研究人员称,如果没有强大的基础设施支持,这种幅度的提升在过去是无法想象的。
伯克利的SkyRL团队运行了自定义的多智能体强化学习循环,其中涉及异步的离策略(off-policy)训练和多轮工具使用——而Tinker的灵活性让这一切成为可能。
Redwood Research使用Tinker在长上下文AI控制任务上对Qwen3-32B模型进行强化学习训练。研究员Eric Gan表示,如果没有Tinker,他很可能不会启动这个项目,并指出扩展多节点训练一直是一大障碍。
这些案例充分展示了Tinker的多功能性——无论是经典的监督式微调,还是覆盖截然不同领域的高度实验性强化学习流水线,它都能提供支持。
参考资料:
https://thinkingmachines.ai/blog/announcing-tinker/
本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。