“对话风控模型”以创新实践赋能大模型健康发展
伴随大模型技术的快速普及与应用,越来越多的企事业单位积极投身于大模型私有化部署,以期在智能化浪潮中抢占先机,提升核心竞争力。然而,技术跃迁的背后,由大模型技术引发的安全风险问题亦日益凸显。
近日,彩智科技创始人徐剑军表示,面对大模型及相关应用带来的新型安全挑战,相关风险问题已在业内引发广泛关注。多方公开信息显示,部分开源AI智能体在默认或不当配置情况下存在较高安全风险,容易遭受网络攻击并导致敏感信息泄露。同时,在私有化部署场景中,一些服务器长期暴露在公网环境中,模型本身也可能存在被攻击的隐患,整体安全状况仍有待进一步完善。
“从实际应用情况来看,大模型安全问题已不再局限于传统系统层面的漏洞,而是进一步延伸至大模型自身以及大模型应用层面的安全,包括提示词注入、恶意诱导、隐蔽表达、敏感信息套取等,对现有安全机制提出了新的要求。”徐剑军说。
对此,徐剑军团队提出“对话风控模型”,以期解决大模型在严肃场景中的“幻觉”问题。
据悉,“对话风控模型”采用组件化插入模式,可与原有基座大模型深度协同配合,相当于在基座大模型、应用智能体等大模型应用前端,增设了一道专业的安全“防火墙”。用户所有诉求均先经过对话风控模型,由该模型基于自然语言上下文理解,对潜在风险进行快速识别,并可识别变体拼写、谐音代称等隐蔽表达形式,同时可针对风险问题提供安全代答服务。
其中,风险研判模型负责完成对输入的风险识别与分类,实现风险的主动发现、实时预警。安全代答模型则负责对识别出的重点关注类和隐藏条件预警类问题进行回应,按照“事实澄清-政策引用-正向引导”的三段式原则进行回应,兼顾风险防控与服务体验。对于部分存在安全风险的提问,模型并非简单拒答,而是根据风险研判结果,灵活触发安全代答模式或拦截机制。当启动安全代答模式时,模型将依托权威文件构建的动态更新知识库提供回应,回复内容均可溯源至官方权威文件。
徐剑军表示,幻觉是一个表面现象,根本原因就是知识工程和大模型都有各自的边界。“对话风控模型”正是通过精准补位,有效弥补这一边界短板,保障大模型应用的安全性与可靠性。
所有文章未经授权禁止转载、摘编、复制或建立镜像,违规转载法律必究。
举报邮箱:1002263188@qq.com