98%准确率，4.87%防御力

2026年7月，重庆工商大学、西湖大学等机构联合发布AGVBench，系统评测了30种数据增强策略在静脉识别任务上的六维表现，揭示了准确率与鲁棒性之间的深层矛盾。MixUp类方法准确率高达98%，PGD对抗攻击下防御力却仅剩4.87%；标签增强方法筑起最强对抗防线，预测置信度却严重失真。对正加速走向大规模商用的静脉识别行业而言，这是一份不容忽视的安全警示。

某项测试中准确率高达98%的数据增强策略，面对一张对抗样本时，准确率直接跌到4.87%。这并非虚构的段子。2026年7月一份正式发表的学术论文，用六维评测撕开了静脉识别行业一个被长期忽视的安全漏洞。

当静脉识别走向主流

手掌静脉识别通过近红外光扫描手掌皮下脱氧血红蛋白分布，生成独一无二的静脉纹路，在生物识别领域已不是新鲜概念。但它在2025年前后经历了一轮真正的爆发：从智能门锁到支付终端，从安防门禁到银行ATM，静脉识别正在从实验室里的高精度技术变成消费者触手可及的产品。

市场数据佐证了这一趋势。据IMARC Group统计，2025年全球掌静脉生物识别市场规模达到18亿美元，预计到2034年将增长至80亿美元，年复合增长率17.12%。在更广阔的维度上，Fortune Business Insights估算全球生物识别系统市场2025年为331.8亿美元，预计2034年将达到1132.2亿美元。

再看中国市场。据《2024-2025全球智能门锁行业白皮书》数据，本土静脉识别企业圣点科技2024年出货134万套指静脉模组，占据全球69.7%的份额；掌静脉模组出货30万套，市占率达42.8%。奥维云网线上监测数据则显示，2024年1至11月，静脉识别智能门锁零售量占比已达11%，但零售额占比达到18%。高客单价意味着它正在帮助品牌走出低价内卷的困境。

然而，当一个技术方案从小规模验证走向大规模商用，一个关键的工程问题就浮出水面：你用来训练模型的数据，够用吗？更准确地说，你用来制造更多训练数据的数据增强方法，真的安全吗？

习以为常的万能药

深度学习模型需要海量数据。静脉识别场景下，采集大规模多样化的静脉图像成本高，隐私风险大，公开数据集规模有限。于是，数据增强，即对已有图像施加随机变换来人工制造更多训练样本，成为几乎所有研究者和工程师的默认配置。

问题在于，目前主流的增强策略，从AutoAugment到RandAugment，从CutOut到MixUp，几乎全是为自然图像设计的。自然图像增强的逻辑是加噪声、做裁剪、随机翻转、改变颜色，其核心假设是这些变换不改变图像语义。一只猫被旋转30度仍然是一只猫；一条狗被裁掉30%像素仍然是一条狗。

但静脉识别依赖的是皮下血管网络这种细粒度的拓扑结构和纹理模式，这是区分不同个体的核心依据。一次不恰当的几何变换，就可能让血管分叉点发生位移；一次过强的噪声注入，就可能让纹理走向彻底改变。换句话说，自然图像增强很可能在制造更多数据的同时，也在系统性地破坏静脉图像中真正用于身份辨识的关键信息。

这正是重庆工商大学、西湖大学、Telecom SudParis等机构联合团队所提出的核心问题。在他们最新发布的AGVBench中，研究者系统评估了30种代表性数据增强策略，在5个公共静脉数据集（包括VERA220、TJU600、SCUT1100三个手掌静脉数据集和FV-USM、SDUMLA-HMT两个指静脉数据集）和4种骨干网络（ResNet18、ResNet34、MobileNetV2、Swin-Tiny）上，从识别准确率、等错误率（EER）、TAR@FAR、校准误差（ECE）、对抗鲁棒性和损坏鲁棒性六个维度，给出了迄今为止最全面的静脉识别数据增强评测报告。

结果令人意外，甚至有些令人不安。

MixUp的双面性

先说好消息。AGVBench发现，在单纯的识别准确率维度上，多图像混合类方法（如MixUp、PuzzleMix、StarMixup）表现最优。这些方法将两张或多张训练图像按比例混合，同时将标签也按对应比例混合，迫使模型学习更平滑的特征边界。这在自然图像分类任务上已被大量验证有效，而在静脉识别上效果同样显著。

更值得注意的是跨类别组合的效果。AGVBench的实验显示，将不同类别的增强策略组合使用，效果远超单一类别内的组合。以VERA220数据集为例，单独使用AutoAugment（一种自动搜索最佳增强策略的方法）准确率为80.82%，TAR@FAR为65.09%。但将其与标签平滑方法LabelSmoothing组合后，准确率跃升至89.73%，TAR@FAR提升到78.64%，增幅达13个百分点。而单独使用PuzzleMix后，再与LabelSmoothing组合，等错误率从0.83%降至0.65%。

AGVBench给出的最优三级组合方案是AutoAugment结合PuzzleMix再加LabelSmoothing。它交出的成绩单堪称惊艳：在VERA220上达到98.00%准确率、0.56%等错误率和95.27% TAR@FAR；在TJU600上达到96.50%准确率、0.45%等错误率、96.12% TAR@FAR。

单看这个结果，商业化部署似乎完全没有问题。但AGVBench的评测并没有停留在准确率这一个维度上。

4.87%的真相

如果将评测从干净样本切换到对抗样本场景，即攻击者在原始图像上叠加人眼几乎不可察觉的微小扰动来欺骗模型，结果发生了戏剧性的翻转。

以TJU600数据集和ResNet18模型为例，基线的对抗鲁棒性（不做任何数据增强）在FGSM攻击下为40.93%，在更强的PGD攻击下为30.45%。这本身不算高，但已经超出了绝大多数增强方案的防御水平。

而刚刚在准确率维度上大杀四方的MixUp，在对抗攻击面前近乎裸奔：FGSM下仅18.80%，PGD下更是惨跌至4.87%。这意味着，采用MixUp增强训练的静脉识别系统，面对精心构造的对抗扰动时，几乎会错误识别所有样本。攻击成功率超过95%。

论文给出了清晰的解释：MixUp类方法通过生成软标签来训练模型，这虽然平滑了特征边界、提升了泛化能力，但同时也模糊了不同身份之间的类间边界，扩大了攻击者可利用的梯度攻击面。简单说，模型学到的边界越模糊，攻击者越容易从任意方向突破。

与之形成鲜明对照的是标签增强方法，即LabelSmoothing和DirichletLabelSmooth。它们提供了当前最强的对抗防御：LabelSmoothing在TJU600上FGSM达到75.18%，PGD达到70.37%，近乎是基线水平的2倍，是MixUp的近4倍。然而，这些方法也有自己的阿喀琉斯之踵：校准误差。LabelSmoothing在TJU600上的ECE得分高达47.88%，意味着模型对自己预测结果的信心和实际正确率严重脱节。一个预测99%置信度的样本，实际正确的概率可能只有一半左右。

这就是AGVBench揭示的核心矛盾：当前没有任何一种数据增强方法能同时满足高准确率和强鲁棒性两个需求。MixUp阵营拿到了准确率的皇冠，却在安全维度上坠入谷底；标签增强阵营筑起了对抗的堡垒，却在预测可信度上自毁长城。

损坏鲁棒性：另一种视角下的反转

对抗攻击是一种智能恶意场景。但静脉识别在现实部署中还面临另一种更常见的挑战：图像损坏。手掌在扫描过程中轻微移动、光照变化、传感器噪声、汗渍或遮挡，这些都远比对抗攻击更频繁，也更考验模型的真实可用性。

AGVBench参照AugMix的设置，在三种损坏严重等级（C1、C2、C3）下评测了各种增强策略。结果再次呈现反转：MixUp类方法重新成为赢家。以VERA220上的ResNet18为例，MixUp和PuzzleMix在C1/C2/C3下分别达到85.51%/75.05%/57.19%和87.05%/77.10%/58.75%，大幅超越基线（69.59%/61.99%/46.70%）。而此前在对抗鲁棒性上表现最好的标签增强方法，在图像损坏场景下表现平平。

这意味着在实际部署中，工程团队面临的是一个三元悖论：你的系统最怕什么？是恶意攻击者，还是日常图像质量波动，还是纯粹的身份识别精度？不同的优先级，将指向完全不同的数据增强策略选择。

没有万能药，但有一条清晰的路

AGVBench的最大价值不是发现某一种方案最好，而是通过系统性的六维评测，把静脉识别领域当前面临的选择题摊在了桌面上。

跨类别组合策略是当前最务实的方案。AutoAugment负责提升数据多样性，PuzzleMix负责强化特征平滑，LabelSmoothing负责加固对抗防线。这个三级组合在准确率、EER和TAR@FAR三个核心指标上同时取得最优。虽然它在单一维度上不是冠军，但综合表现最均衡。

对即将或已经规模部署静脉识别的企业来说，一个不可回避的警示是：如果你只盯着准确率来选数据增强策略，你很可能选了一个安全隐患最大的方案。MixUp类方法在学术论文中受欢迎，但在支付、门禁等对安全要求极高的场景中，PGD攻击成功率超过95%的代价可能是不可接受的。

更值得警醒的是，当前行业对静脉识别系统的安全评测尚缺乏统一标准。AGVBench提供了一套可复现的评测流程，其代码已在GitHub开源。但要让行业真正建立起数据增强的安全准入基线，还需要更多来自商业落地场景的实测数据。

论文作者在结论中也坦承，设计能同时在识别准确率和鲁棒性维度上联合优化的数据增强方法，仍然是一个开放的研究方向。AGVBench不是终点，而是一个起点。它第一次让行业看到了这张成绩单的全貌，也把数据增强安全这个议题从一个学术问题，变成了一道产品底线问题。

在生物识别的世界里，大多数时候，99%的准确率已经足够好。但当剩下的1%来自精心设计的攻击时，选错了数据增强方式的系统，可能连1%的防御力都不具备。这不是学术问题，而是产品底线问题。