对于AI大模型来说,训练数据的质量与合规性如今已是行业竞争的核心壁垒之一,数据来源是否合法,直接影响着模型的商业落地前景与企业自身的声誉。2026年6月5日,科技媒体The Decoder的报道让微软陷入了舆论漩涡:其新发布的MAI系列AI模型被指使用Common Crawl等开放网络资源作为训练数据,这与微软此前“仅采用企业级、干净且经过商业授权的数据”的宣传明显不符。
从微软官方技术论文披露的信息来看,MAI模型采用混合数据训练方案,由两部分组成:一部分是经过商业授权的人类生成数据,另一部分是公开可获取的网络数据。微软方面回应称,其数据爬虫严格遵守robots.txt协议,未抓取任何明确禁止的内容。但争议在于,这种做法相当于把内容保护的责任推给了网站所有者——也就是说,如果网站没有通过robots.txt屏蔽,就被默认为允许抓取,这与行业内部分企业主动向内容方获取授权的做法形成了鲜明对比。
对微软来说,MAI系列模型本就是面向企业级客户的解决方案,而“使用干净且经过授权的数据”这一宣传点,正是吸引金融、医疗等敏感行业客户的关键所在。这次争议很可能会让客户对模型的合规性产生疑虑,进而拖慢微软的商业拓展步伐。与此同时,这一事件也暴露了AI行业在数据授权领域的灰色地带:公开网络数据的使用边界至今仍未明确,多数企业都依赖robots.txt协议作为合规依据,但该协议本身并没有法律强制力,很容易引发数据所有者与使用者之间的纠纷。
行业近期动态显示,欧盟数据保护委员会正在起草AI训练数据的合规指南,计划要求企业明确披露各类数据来源的占比,并且对未授权数据的使用承担举证责任。竞争对手的动作也值得关注:谷歌在2026年5月宣布与全球12家内容平台达成数据授权合作,为其Gemini模型提供合法训练数据;OpenAI则在同一月发布了《AI数据合规白皮书》,详细阐述了自身的数据筛选流程与授权合作模式,以此增强客户对其模型合规性的信任。这些举措与微软此次的争议形成了鲜明对比,或许会推动整个行业更快地建立起更透明、更严格的数据合规标准。






快报