DeepSeek开年发布新论文:提出全新mHC架构,梁文锋现身作者名单
钛媒体App 1月1日消息,DeepSeek发布了一篇新论文,提出一种名为mHC(流形约束超连接)的新架构。该研究旨在解决传统超连接(HC)在大规模模型训练中的不稳定性问题,同时保持其显著的性能增益。据介绍,mHC能够将HC的残差连接空间投影到特定流形上,从而恢复恒等映射特性,并融合严格的基础设施优化以确保运行效率。实证实验表明,mHC能够有效支持大规模训练,在提供明显性能提升的同时具备更优的可扩展性。DeepSeek预计,mHC作为HC的一种灵活而实用的拓展,将有助于深化对拓扑架构设计的理解,并为基座模型的演进指明富有前景的方向。这篇论文的第一作者有三位:Zhenda Xie(解振达)、Yixuan Wei(韦毅轩)、Huanqi Cao。值得注意的是,DeepSeek创始人梁文锋也在作者名单中。(广角观察)
本文内容仅供参考,不构成投资建议,请谨慎对待。
根据《网络安全法》实名制要求,请绑定手机号后发表评论