360智脑张向征：共建可信可控AI生态应对大模型安全挑战

日期：2024-12-27 作者：yindufu1

核心提示：张向征提出，大模型安全面临四大核心挑战：大模型软件生态系统安全、内容安全、幻觉问题和Agent流程可控。针对这些挑战，360智脑

张向征提出，大模型安全面临四大核心挑战：大模型软件生态系统安全、内容安全、幻觉问题和Agent流程可控。针对这些挑战，360智脑团队基于多年安全研究积累，提出了一套完整的安全防护体系，包括全链路检测、防护、攻击与测评的闭环流程。

在大模型软件生态系统安全方面，360智脑通过自主研发的检测工具与多层次安全评估方法，可及时发现和修复潜在漏洞，为开发者和用户提供全面的技术支持。此外，针对提示注入攻击、持久性提示劫持、记忆投毒等新型安全威胁，团队研发了精准识别与多重防御机制，显著提升了模型对恶意行为的抗干扰能力。

内容安全方面，张向征分享了360智脑的实践经验。团队通过持续预训练、安全微调和安全强化对齐等手段，结合国标TC260的要求，构建了“大模型原生安全增强”“内容安全护栏”两大防护方案，有效减少模型输出中可能涉及的歧视偏见、违禁内容和其他不良信息。在实际应用中，这些措施帮助大模型在金融、医疗和教育等行业更安全、更高效地提供服务。

360智脑张向征：共建可信可控AI生态应对大模型安全挑战

针对备受关注的大模型幻觉问题，360智脑创新性地引入幻觉检测Agent技术，能够对模型的输出进行实时评估与修正。通过结合外部知识库和搜索增强功能，该技术有效降低了幻觉发生率，提升了模型的决策可信度。张向征透露，得益于这一技术，360智脑在AI搜索场景中的用户体验提升了32%。

此外，在Agent流程可控方面，360智脑构建了一套针对多Agent协作任务的流程监控与管理机制，通过实时监测和动态调整，确保模型任务执行的全程可控性与透明性。这一举措不仅有效降低了操作偏差的风险，还为复杂任务的安全性提供了有力保障。

演讲还介绍了新型攻击方式的风险评估与应对策略。随着大模型应用的加深，基于自然语言到代码的间接提示注入（NL2SHELL）等攻击正日益增多。对此，360智脑利用自主研发的安全评测大模型，结合红队攻击模型，通过对抗方式快速识别潜在威胁，并持续优化模型的安全策略。

本文地址：http://w.yusign.com/tjnews/2575.html 述古往 http://w.yusign.com/static/ , 查看更多

标签： 安全大模型模型通过针对

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0打赏 0

更多>同类生活信息

相关文章

最新文章

推荐文章

推荐图文

生活信息

点击排行

• 银川人工智能新引擎：燃气安全与智慧服务的双重	• 程序员是做什么的（非常详细），零基础入门到精
• 青岛市安全教育平台	• 用于优化 WordPress 网站安全性的简单 11 点清
• https改造不仅增强安全性还可改善SEO优化效果	• erp系统有回收站吗安全吗 erp系统回收站功能安
• 安徽省安全生产监督管理局新版网站满意度	• 2024中国国际社会公共安全产品博览会暨智能
• 【转载】拿来即用的企业级安全运维体系搭建指南	• 答题赢话费！广安市网络安全知识竞赛正式开启，

360智脑张向征：共建可信可控AI生态 应对大模型安全挑战

360智脑张向征：共建可信可控AI生态应对大模型安全挑战