英伟达联手Ineffable Intelligence 打造大规模强化学习基础设施推动AI自主发现能力突破

2026.05.13 21:58

英伟达近期与英国强化学习初创公司Ineffable Intelligence达成合作，联合设计适配大规模强化学习的基础设施，利用英伟达H100 GPU及软件平台提升AI自主试错效率。Ineffable刚完成11亿美元融资，DeepMind前核心研究员David Silver指出，此合作将助力AI从模仿转向自主发现知识，解决行业核心挑战。

当下人工智能领域的主流训练方式仍是监督学习，依赖海量人工标注数据支撑，但它在机器人自主操作、药物分子设计这类复杂动态任务中的短板正日益凸显——这类任务很难用静态标注覆盖所有可能的场景。强化学习作为通过自主试错与环境交互获取反馈的训练方法，被视为突破这一局限的关键技术，不过大规模部署还需解决高算力与算法优化的双重难题。

就在这样的背景下，全球AI芯片巨头英伟达近期与英国初创公司Ineffable Intelligence达成战略合作，双方计划联合设计面向大规模强化学习的基础设施。Ineffable专注于自主试错AI系统开发，核心团队集结了不少强化学习领域的资深研究者；英伟达则提供最新硬件与软件支持，包括H100 Tensor Core GPU、CUDA框架及TensorRT工具。H100 GPU配备80GB HBM3显存，FP16算力达1.97 PFLOPS，能支持强化学习中的大规模并行模拟与策略更新，显著提升训练效率。

这次合作的核心目标是搭建一套端到端的强化学习训练体系：通过硬件与算法的协同优化降低部署门槛，比如针对Ineffable算法定制CUDA内核以减少延迟，利用DGX集群提供分布式训练能力。DeepMind前资深研究员、AlphaGo核心成员David Silver评价道：“现在AI已能在特定任务上超越人类，但要自主发现新知识还得靠强化学习，这次合作是关键的一步。”

Ineffable近期完成11亿美元融资，领投方为红杉资本与软银愿景基金，资金将用于技术研发与基础设施建设。这样的融资规模反映出投资者的关注点正从传统AI应用转向前沿研发——初创实验室在强化学习领域更具灵活性，能快速推进技术突破。

从行业价值来看，这次合作将加速强化学习的工业化应用：自动驾驶领域可通过模拟百万次试错优化决策逻辑；药物研发中，模型能自主探索分子结构以缩短周期。同时，这也会推动硬件与软件的协同创新——英伟达硬件会根据强化学习需求优化，Ineffable算法则能在英伟达生态中找到更广泛的应用场景。

行业动态方面，谷歌DeepMind近期发布的AlphaCode 2采用强化学习技术，代码生成能力显著提升；AMD布局MI300系列GPU试图切入强化学习计算领域，但英伟达在硬件生态与软件优化上仍占据主导地位。这些动向都表明，强化学习已成为AI的核心赛道，技术与硬件的协同将决定未来的发展方向。

作品声明：内容由AI生成

英伟达联手Ineffable Intelligence 打造大规模强化学习基础设施 推动AI自主发现能力突破

英伟达联手Ineffable Intelligence 打造大规模强化学习基础设施推动AI自主发现能力突破