Datawhale干货
作者:小羊向前冲
AI+安全的实践系列分享来了!
11月20日,国内首个AI大模型攻防赛在世界互联网大会乌镇峰会收官。
颁奖仪式:乌镇峰会热议AI反诈:国内首个AI大模型攻防赛收官,全球十强亮相
通过攻防双向赛道竞技,大赛最终角逐出全球十强。
赛后Datawhale邀请到了本届十强,为大家带来系列复盘分享。
今天,我们和防守方向的亚军团队聊一聊。
国内首个AI大模型攻防赛全球十强乌镇亮相
赛道二出题人代表点评
全球AI攻防挑战赛评审委员会成员、上海交通大学长聘教轨助理教授 张倬胜:
“小羊向前冲”的方案展现了清晰的工作逻辑与良好的团队执行力。团队结合逐步优化与全局平衡的策略,深入分析了数据集特性,针对不同凭证类型和篡改手法,灵活应用开源库AIGC生成、Aibu数据增强和离线伪标签等多维数据增强技术,并创新构建了全自动、即插即用的篡改pipeline,有效提升了模型在多样化篡改场景下的鲁棒性。在应对文字篡改区域小、痕迹弱的难题时,团队采用预标注与多任务学习策略,显著增强了文字篡改检测能力。整套方案设计逻辑清晰,为学术研究与工业领域篡改检测技术的融合与落地提供了较强的参考价值。
复盘分享
大家好,我是 全球AI攻防挑战赛—赛道二:AI核身之金融场景凭证篡改检测——“小羊向前冲”的队长杨志强,浙江工业大学博士在读。
个人背景
历史竞赛奖项:2 金 1 银 1 铜
获奖经历:
2022年 IEEE UV “Vision Meets Algae” Object Detection Challenge 冠军
2023年 IEEE Cybermatics第二届国际 “Vision Meets Algae”挑战赛和研讨会 冠军
2024年 全球AI攻防——AI金融场景凭证篡改检测 亚军
2024全球人工智能技术创新大赛无人机视角下的双光目标检测 第五名
论文和专利:一篇CCF-C PRCV Oral论文,一篇EI论文,三个公开专利
擅长方向:目标检测,医学图像
数据集一定是从网络获取到的,所以我们猜测,同一渠道收集的数据一般尺寸是固定的,可以根据图像的尺寸来拆分训练集和测试集,方便进行数据分析。
左图为训练集,右图为测试集A。
接下来我们根据散点分布将图片做了划分,大致分为:店面数据, 手机截图, 网页广告, 日常照片和证件/税照片几类,再用ResNet18训练一个分类模型得到概率如下。
训练集:33570:258110:219745 = 0.06:0.51:0.43 = 店面1 照片: 手机截图或税: 网页广告和日常照片
测试集57596:4969:17737 = 0.725:0.06:0.21= 店面1 照片: 手机截图或税: 网页广告和日常照片
我们还用饼状图可视化了店面和非店面数据,最终结论是:训练集和测试集数据分布有很大差别,其中困难场景大多为店面图片,如何优化店面的篡改对提升性能有较大帮助。
总结难点和初步解决方法如下:
1.提升模型对店面图片窜改的敏感性(可使用AIGC生成更多店面窜改图)
2. 数据集分布不一致(用离线伪标签策略逐渐使模型向测试集偏移)
3. 窜改类型丰富(设计一套窜改pipeline进一步提升模型泛化性)
4. 数据集规模较大,算力要求高(采用640尺度训练,或者选取一个类似分布的小训练集,不从头训练而是微调)
5. 采用Micro-F1 指标需要调整阈值
我们着重针对第三个难点介绍我们的解决方案。
店面图片的窜改构造
策略一:Stable Diffusion
由于SD的字符生成能力较弱,中文能力更差,我们采用简单的prompt保证AIGC的效果
在下面的例子中,我们用SD模型将左边的文字抹除,并做了一个内容生成,效果较好。
策略二:AnyText
AnyText模型具有更好的中文字体生成能力,比较适合店面图片的场景,我们生成随机常用中文来改变店面图片的文字,下面实例中我们将“永安凉茶铺”生成为“安永凉茶铺”。
其他策略
1. 模型集成和测试数据增强
策略:水平翻转,采用(640,768)多尺度TTA(Test Time Augmentation)进行soft nms集成。
不同训练数据的模型采用WBF(Weighted Boxes Fusion)进行集成。
2. 缩放边框,容纳更多计算。
官方标注采用Polygons格式, 标注非水平框导致IOU降低,最终影响Micro-F1精度。为了使旋转目标更适应于水平检测任务,我们缩放来边框从而提高TP(True Positive)。
3. 半监督学习
尝试MixPL半监督训练,因训练集数据淹没测试集分布且无法偏移,最终未采用。我们使用离线半监督策略,教师模型生成伪标签,学生模型微调学习,性能大幅提升。