128KB信号:AWS砍掉SageMaker推理那道S3手续的真正含义

2026.06.18 07:11
2026年6月,AWS为SageMaker AI Async Inference新增了inline payload支持,允许在请求体中直接发送≤128KB推理负载,无需预先上传S3。这一看似简单的功能补齐背后,揭示了AI推理平台竞争从'谁能推理得更好'转向'谁能让开发者更省事'的深层趋势——AWS正在用一个大公司的参数更新,向新兴推理平台发起开发者体验竞赛。

2026年6月,AWS默默放出了一个不大不小的更新:SageMaker AI 异步推理(Async Inference)终于支持在请求体中直接发送推理负载了。

对于全球云计算市场份额第一的平台来说,这似乎是一个再平常不过的“功能补齐”。但当你把这个动作放在AI推理市场的竞争坐标里看——128KB,这组数字背后藏着的信息量,远比一个“新参数”重得多。

去掉的不是一次S3上传,而是SageMaker在“开发者体验”这个维度上欠了多年的债。

现象层:一个参数,砍掉一次往返

在此次更新之前,一个SageMaker Async Inference的用户要想调用一次推理,必须走两趟流程。

第一趟,把请求负载上传到S3。第二趟,把S3路径塞进InvokeEndpointAsyncInputLocation参数,真正发起推理。

两趟之间,至少多了一次S3 PUT操作、一次网络往返、一套IAM权限配置、一个UUID生成逻辑、以及一堆用完之后还需要清理的陈旧对象。对于处理图片、音频、多MB文档的大负载场景,这套流程是合理的。但对于绝大多数AI推理场景——一个JSON prompt、几条结构化数据、一个分类请求——128KB以内的数据量,这套流程就显得臃肿到有些荒诞。

AWS这次做的事情,说穿了极其简单:在InvokeEndpointAsync API上新增一个Body参数,允许用户直接将负载塞进请求体,绕过S3。

代码层面的变化可以用“从两步变一步”来形容。发布前,开发者需要创建一个S3客户端、生成UUID、调用put_object写入S3,再取回路径传给SageMaker。发布后,一行Body=payload即可。不需要S3 client、不需要UUID生成、不需要输入桶、不需要InputLocation的IAM权限、不需要陈旧对象清理。AWS官方博客的用词是“removes an entire network round-trip”——去掉了一整次网络往返。

但值得追问的是:为什么一个看起来如此合理的改动,等了四年半才来?又为什么是现在?

分析层

一、S3之前是设计,后来成了包袱

SageMaker Async Inference 在2022年初正式上线,距今已经超过四年。它的设计初衷是服务那些处理大负载的异步推理场景——图片、音频、视频、多页PDF。在这些场景下,S3作为中间缓冲层是完全合理的:它提供了持久化存储、天然支持大文件分片和重试,通过SNS通知机制实现了端到端的异步处理。

但问题在于:生成式AI爆发后,推理负载的构成发生了结构性变化。

今天的异步推理负载中,有相当大比例是文本型小负载——一个LLM prompt(几百到几千Token)、一段分类文本、一条结构化JSON数据。这些负载通常在几KB到几十KB之间,完全不需要S3这个中间层。

AWS技术团队显然意识到了这个错配。官方博客中,SageMaker AI Inference团队的工程师们用一张清晰的决策表划出了分水岭:

  • ≤128KB(JSON prompt、结构化数据):用Body内联,更简单,避免一次S3网络往返和PUT费用。
  • >128KB(图片、音频、大型文档):用InputLocation,先上传S3。
  • 混合负载:按大小做分支策略。
  • 需要保留审计轨迹:继续用InputLocation

128KB这个阈值不是随便选的。它是HTTP请求体在常见网关配置下的“舒适区”上限,也恰好覆盖了绝大多数AI文本推理负载的自然边界。超过这个阈值,S3的分片和重试机制才有实际价值。

一个值得注意的细节是:BodyInputLocation是互斥的,API会直接拒绝同时设置了两个参数的请求。违反容量上限的请求也会直接返回ValidationError。这是典型的不妥协式产品设计——AWS用明确的错误边界替代了模糊的自动降级。

二、三个竞争信号

如果仅仅把这次更新理解为一个功能增强,就错过了它真正的产业含义。

信号一:Developer Experience 正在成为AI推理平台的胜负手。

2025–2026年,AI推理市场的竞争维度正在经历一次升级——从“谁的模型更多、更快”转向“谁的开发者体验更好”。

新兴推理平台如Together AI(200+模型,OpenAI兼容API)、Fireworks AI(100+模型)、Baseten和Modal等,都以“一行代码部署推理”作为核心卖点——不需要S3、不需要复杂的IAM配置、不需要管理基础设施。就连Cloudflare Workers AI都打出了“sub-5ms cold start”的体验牌。

相比之下,AWS SageMaker虽然功能最全、规模最大,但学习曲线和配置复杂度也最高。一位长期使用SageMaker的开发者曾在社交媒体上吐槽:只是想跑一个模型的推理,却感觉自己是在操作一个数据中心。

这次inline payload支持,本质上是对“SageMaker太复杂”这个市场感知的一次修补。AWS在产品层面承认了:对于小负载推理,S3中间层不是一个功能,而是一个历史遗留负担。

信号二:Async Inference正在从小众走向主流。

SageMaker Async Inference在推出之初主要服务于离线批处理和长尾推理场景。但随着大模型的推理延迟从毫秒级扩展到秒级甚至分钟级——长上下文、多轮推理、Chain-of-Thought推理——越来越多的“准实时”推理场景也开始转向异步模式。

这一趋势在过去一年加速明显。AWS选择在这个节点优化Async Inference的调用体验,说明内部数据显示异步推理的使用量正在快速增长,已经到了值得投入产品优化的临界点。

信号三:SageMaker AI在AWS内部的定位正在重塑。

AWS在2024年12月将“SageMaker”更名为“SageMaker AI”,表面上是品牌统一,背后是与Bedrock形成更清晰的差异化定位:Bedrock管“开箱即用的大模型托管”,SageMaker AI管“你自定义模型的训练和推理”。在后者的竞争版图里,推理体验的每一个步骤和每一个毫秒,都直接影响用户粘性。

这次inline payload更新,恰逢AWS SDK Go v2的sagemakerruntime模块在同一天(2026年6月16日)发布了对应更新——产品迭代和SDK发布节奏同步,说明这不是临时起意的补丁,而是经过规划和跨团队协调的体验优化。

三、一个参数,消除五种运维摩擦

AWS官方总结了inline payload带来的五个具体收益,背后可以归纳为一句话:消除了所有“不产生任何AI推理价值”的运维摩擦。

第一,减少一个步骤和一次网络往返。 S3 PUT操作在最佳情况下也需要50–100ms的网络延迟,而这笔延迟对推理结果没有任何贡献。去掉它,相当于白送了每次调用一次“免费的时间旅行”。

第二,无需S3 PutObject的IAM权限。 生产环境中,IAM权限配置往往是DevOps链路中最容易出错的一环。去掉一个入口权限,意味着少一个攻击面、少一次审计、少一轮配置审查。

第三,无S3写入费用。 AWS S3 Standard的PUT请求定价为$0.005/1,000次。对于日均处理100万次推理请求的工作负载,仅S3写入费用一项,每年即可节省约1,825美元。这不是一笔大钱,但它是纯粹的浪费——就像每月为办公室的饮水机付租金,但你实际上在喝自己带来的水。

第四,无需UUID或唯一文件名生成。 在分布式环境中,避免冲突的命名逻辑听起来简单,但写起来绕不开,测起来容易被忽略,出了问题最难排查。

第五,无需清理S3中的陈旧输入文件。 大量异步推理工作负载最大的隐性成本不是硬件费用,而是“数据腐烂”——S3桶里堆满了一周前的推理输入,没人敢删,也没人记得该不该删。inline payload从源头消除了这个问题:数据不落盘,就不需要清盘。

四、三个局限,值得清醒认识

当然,这次更新不是万能的。有三个维度值得保持冷静。

128KB上限不能突破。 对于需要处理图片、音频、视频或多页文档的场景,S3上传路径仍是唯一选择。AWS没有提供“流式内联上传”或“分块内联”的替代方案。如果你的负载恰好是129KB,恭喜——你回到了老路上。

输出端依然依赖S3。 inline payload改变了输入方式,但推理结果的输出仍然写到S3 OutputLocation。客户端仍需轮询或通过SNS接收通知。输入体验优化了,输出体验原地踏步。这个“半截子”状态暗示了AWS下一步的可能方向——什么时候输出也能inline返回,Async Inference才算真正“减负”完成。

Async Inference的定位问题并未解决。 它依然是介于“实时推理”(低延迟但需要常驻实例)和“离线批处理”(高吞吐但需要独立系统)之间的中间态产品。一位用户可能需要同时熟悉实时推理、异步推理、Serverless Inference和Batch Transform——四个入口,四种配置方式,四种计价模型。

结论/展望

SageMaker AI这次更新,从产品动作本身看只是一个功能补齐。但从行业信号来看,它标志着一个更重要的趋势:AI推理平台的竞争,正在从“谁能推理得更好”转向“谁能让开发者更省事”。

128KB是一个隐喻。它代表的不是AWS在技术上做不到更大,而是一个平台巨头终于开始认真对待“小”问题——那些单个看起来微不足道、但累积起来足以决定开发者去留的体验细节。

对于使用SageMaker的团队来说,这次更新不需要改模型、不需要重新部署端点——只需要升级一下AWS SDK版本,把参数从InputLocation改成Body。这是AWS给出的最简单的“降本增效”方案。

但真正的赢家或许不是AWS的现有用户,而是那些尚未入场的开发者。当SageMaker的调用体验变得和新兴推理平台一样简洁时,“为什么选AWS”这个问题的答案,又多了一条。

而对于Together AI、Fireworks AI这些以“简单”为卖点的推理平台来说,这是一个不太妙的信号——AWS开始抄你的作业了,而且它手里还有31个Region、自动扩缩容到零、以及SageMaker AI背后整套的训练和MLOps生态。

大公司的一个参数更新,对小公司来说可能就是一场新竞赛的起跑哨。

作品声明:内容由AI生成