Prompt engineering正在从一门"艺术"变成一门"工程学"。转折点发生在2026年6月——Cisco AI在arXiv上发布了论文《FAPO: Fully Autonomous Prompt Optimization of Multi-Step LLM Pipelines》,同时以Apache 2.0协议将代码开源至GitHub。这个名为FAPO(Fully Automated Prompt Optimization)的系统,第一次让LLM流水线的优化拥有了"归因-诊断-修复"的完整闭环——而且它由Claude Code自主编排。
这不是又一款新的Prompt优化工具。这是该赛道的一次范式切换。传统的自动提示优化,无论是DSPy还是GEPA,都只在一个维度上做功:改提示词。FAPO的不同之处在于——它"看见"整个流水线。
一个提示词工程师解决不了的问题
先看一个让人头疼的场景。你构建了一个多步RAG流水线:检索→摘要→推理→格式约束。测试时准确率只有35%。你调整提示词,提到40%。再调整,到42%。卡住了。花了一周时间修改措辞,终于意识到——问题不在提示词,是检索链条只返回了3篇文档,而推理步骤需要至少5篇。
这个场景正在无数AI工程团队中反复重演。FAPO的故障分类体系将多步LLM流水线的失败原因归为四类:检索故障(返回空或无关内容)、级联故障(前一步为空导致后续崩溃)、格式故障(正确答案被包裹在评分器无法解析的文本中)、推理故障(数据充分但结论错误)。格式和推理型故障可通过提示词修复;检索和级联型故障则必须触及流水线结构本身。
GEPA(Generalized Evolutionary Prompt Architecture)是目前最先进的自动提示优化器之一——它用进化算法配合帕累托前沿在提示词空间搜索最优解。但它的能力边界止于提示词。当瓶颈嵌在流水线结构里时,GEPA只能束手无策。Cisco的评估报告给出了精确描述:GEPA的优化层次仅限"prompt text only",而FAPO可以覆盖"prompt → parameter → structural"三个层级。
这正是FAPO的切入点。
三层递进 + 四类归因:一个联网工程师的工作方式
FAPO的引擎名为Hephaestus(古希腊的工匠之神)——这是一个工程系统,不是玄学。它的核心设计哲学是"先试最小的改动,不行再升级"。
系统在三个层级上递进操作:
- Prompt级:编辑提示词文案——成本最低,优先尝试。
- 参数级:调整配置值,如
retrieval_k和temperature。 - 结构级:变更流水线拓扑——例如添加自反思节点、切换为ReAct模式。
每个优化周期运行六个阶段:评估当前流水线 → 逐步骤分类失败原因 → 提出修改方案 → 独立审查器验证 → 评估新变体 → 继续迭代或终止。系统首先穷尽低层级方案,只有在归因证据明确判定提示词层无法解决问题时,才升级到结构变更。
这套"升级决策机制"是整个系统真正的技术护城河。它之所以可行,是因为FAPO实现了step-level的失败归因——系统忠实记录管道中每一步的输入、输出和日志,将最终错误精确定位到具体步骤,再按四类归因对号入座。用Antoine Buteau的话说:
"FAPO让LLM流水线优化看起来更像是调试一个系统,而不是重写一个prompt。"
过拟合防护体系是另一层精妙设计。FAPO只查看训练集数据来生成优化方案;验证集和测试集仅暴露聚合分数,防止优化器钻数据空子。每个变体都是不可变的独立文件,从不原地编辑。优化提案需经独立审查器批准才能执行——这本质上给auto-tuning上了代码审查。
15/18:一份让GEPA无处遁形的对比报告
Cisco团队在六个基准测试上做了系统性对比:HoVer(事实验证)、IFBench(指令遵循)、LiveBench-Math(数学推理)、HotpotQA(多跳问答)、Papillon(复杂推理)和AIME(航空数学竞赛)。三个任务模型分别代表了不同的能力层:GPT-4.1-mini、GPT-5.4-mini 和 Gemma 3-12B。Claude Opus 4.6同时担任FAPO的编排者和GEPA的反思模型,确保起点公平。
结果如下:
HoVer:Baseline 35.9% → GEPA 48.5% → FAPO 83.8%(增益 +35.3pp)
IFBench:Baseline 35.7% → GEPA 48.5% → FAPO 80.7%(增益 +32.2pp)
LiveBench-Math:Baseline 51.0% → GEPA 52.6% → FAPO 62.0%(增益 +9.4pp)
HotpotQA:Baseline 50.9% → GEPA 61.8% → FAPO 68.3%(增益 +6.5pp)
Papillon:Baseline 73.6% → GEPA 90.7% → FAPO 94.9%(增益 +4.2pp)
AIME:Baseline 16.7% → GEPA 16.0% → FAPO 12.9%(增益 -3.1pp)
18组模型-基准对比中,FAPO赢了15组,平均增益+14.1个百分点。在11组对比中,FAPO的胜出范围与GEPA的均值±标准差区间完全不重叠——这意味着优势具有统计显著性。在HoVer和IFBench这两个需要流水线结构升级的场景中,FAPO拿下了全部6组对比,平均增益达到+33.8个百分点。而在纯提示词优化(即未启动结构升级)的12组对比中,FAPO仍然赢了9组。
AIME是唯一的例外。在最高难度的数学竞赛题上,GEPA以16.0%对12.9%领先FAPO 3.1个百分点。但论文审慎指出,这个差距小于多次随机试验的标准差,统计上不具显著性。
除了通用任务,FAPO还针对网络安全场景做了专项评估。在CTIBench-RCM(一个将CVE漏洞映射到CWE分类的安全任务)上,受限为纯prompt优化的FAPO将GPT-5的准确率提升了4.0个百分点,将Foundation-Sec-8B-Instruct提升了7.1个百分点,将Foundation-Sec-8B-Reasoning提升了2.0个百分点——全部为正值,且模型越弱增益越大。
Cisco做Prompt优化?背后的逻辑很硬
一家以交换机闻名于世的公司,突然成为LLM自动优化领域的基准创造者?意外,但不违和。
Cisco Foundation AI团队选择这个切入点的逻辑链条非常清晰:Cisco的核心客户——大型企业、政府机构、关键基础设施运营商——恰恰是LLM多步流水线的重度使用者。安全运营中心需要将海量威胁情报经过检索、分类、优先级判定、自动响应等多步处理,每一步的可靠性直接关系到是否能检测到真实的入侵行为。
FAPO论文中专门设置CTIBench-RCM安全任务实验,就是在论证:Cisco的核心利益在于将AI应用于网络安全,而安全领域对流水线可靠性的要求远超一般的问答场景。
更深一层的信号:Cisco正在从"硬件公司+AI"向"AI基础设施公司"转型。FAPO采用Apache 2.0协议开源,意味着Cisco希望这个框架成为LLM工程化的标准工具之一——这与其在传统网络领域用开源占领标准制定权的策略一脉相承。
Prompt Engineer,你的职业时钟在滴答作响
FAPO的出现标记了一个不可逆的转向:LLM开发的核心技能正在从"写提示词"变成"设计可优化的流水线"。
过去两年,"Prompt Engineer"被广泛炒作为"AI时代最性感的职业",年薪传闻高达30万美元。但FAPO这类自动化优化系统正在系统性地解构这个岗位的技术壁垒。当Agent可以自动分析失败、给prompt打补丁、在必要时改写流水线拓扑——人类工程师的角色必然向上迁移:从"调提示词的操作员"变成"定义优化目标和约束的设计师"。
这不是预测。FAPO已经在做了。用户只需提供带标注的数据集和一段任务描述,Claude Code就能自动搭建完整的优化租户——包括生成初始提示词、设定LangGraph流水线、配置评分规则。优化循环一旦启动,全程自主运行,直到达到目标准确率。工程师在过程中的角色,逐渐收缩到"提供数据和判分标准"两个动作。
当然,FAPO目前仍有明确局限。它支持三个模型提供商(OpenAI、Baseten、SageMaker),流水线必须以LangGraph状态图表示。每一轮完整评估的计算成本不低——当目标模型是大参数量模型时更是如此。性能最好的任务是事实验证和指令遵循,而纯数学竞赛的表现反而倒退。
但这些局限是版本1.0的局限,不是方法论的局限。开源社区的贡献已经在扩展更多模型支持和更轻量的部署方式。
普朗克说,科学进步是一次次葬礼完成的。在LLM工程化领域,Prompt Engineering作为"独立学科"的生涯,可能比所有人预想的都要短。当Agent可以自己优化自己的提示词和流水线时,人类工程师的价值将凝聚在唯一不可替代的能力上——定义"什么是对的"。
而这,恰恰是AI时代最难被替代的能力。






快报