当下人工智能领域的主流训练方式仍是监督学习,依赖海量人工标注数据支撑,但它在机器人自主操作、药物分子设计这类复杂动态任务中的短板正日益凸显——这类任务很难用静态标注覆盖所有可能的场景。强化学习作为通过自主试错与环境交互获取反馈的训练方法,被视为突破这一局限的关键技术,不过大规模部署还需解决高算力与算法优化的双重难题。
就在这样的背景下,全球AI芯片巨头英伟达近期与英国初创公司Ineffable Intelligence达成战略合作,双方计划联合设计面向大规模强化学习的基础设施。Ineffable专注于自主试错AI系统开发,核心团队集结了不少强化学习领域的资深研究者;英伟达则提供最新硬件与软件支持,包括H100 Tensor Core GPU、CUDA框架及TensorRT工具。H100 GPU配备80GB HBM3显存,FP16算力达1.97 PFLOPS,能支持强化学习中的大规模并行模拟与策略更新,显著提升训练效率。
这次合作的核心目标是搭建一套端到端的强化学习训练体系:通过硬件与算法的协同优化降低部署门槛,比如针对Ineffable算法定制CUDA内核以减少延迟,利用DGX集群提供分布式训练能力。DeepMind前资深研究员、AlphaGo核心成员David Silver评价道:“现在AI已能在特定任务上超越人类,但要自主发现新知识还得靠强化学习,这次合作是关键的一步。”
Ineffable近期完成11亿美元融资,领投方为红杉资本与软银愿景基金,资金将用于技术研发与基础设施建设。这样的融资规模反映出投资者的关注点正从传统AI应用转向前沿研发——初创实验室在强化学习领域更具灵活性,能快速推进技术突破。
从行业价值来看,这次合作将加速强化学习的工业化应用:自动驾驶领域可通过模拟百万次试错优化决策逻辑;药物研发中,模型能自主探索分子结构以缩短周期。同时,这也会推动硬件与软件的协同创新——英伟达硬件会根据强化学习需求优化,Ineffable算法则能在英伟达生态中找到更广泛的应用场景。
行业动态方面,谷歌DeepMind近期发布的AlphaCode 2采用强化学习技术,代码生成能力显著提升;AMD布局MI300系列GPU试图切入强化学习计算领域,但英伟达在硬件生态与软件优化上仍占据主导地位。这些动向都表明,强化学习已成为AI的核心赛道,技术与硬件的协同将决定未来的发展方向。






快报