星启光途_星启智安大模型安全围栏系统

AIGC 带来的风险挑战

在与大模型进行交互提问的过程中，提问内容的注入攻击、大模型生成内容的随机性、幻觉及不可控性等新型漏洞，正不断涌现。这些问题不仅增加了风险类型与复杂度，还带来了合规实施上的新挑战。

如何做到准确回答、正向引导、事实纠偏、精准拦截，是AIGC场景下内容安全必须解决的核心问题。

敏感问题直接提问

涉及政治立场、国家主权、舆情事件、不良价值观、违法犯罪等敏感话题的直接提问，可能触发模型生成高风险内容。

恶意诱导

用户可能通过 prompt 中的缺失指令、特定前提条件或虚构情境，引导大模型生成不当或违法信息。

提示词注入攻击

在输入提示词的过程中插入恶意指令，可干扰模型的正常输出流程。这类指令通常难以与合法提示区分，易造成信息泄露或生成目标偏移。

内生安全-底座训练语科

训练语料是大模型内生安全的根基。语料中若包含敏感信息、不良内容或不当数据，将导致模型在生成过程中产生不适宜、有偏见甚至有害的输出，直接影响生成结果的安全性与合规性。

AIGC 内容合规的难点和重点

AIGC带来新的风险挑战

聚焦知识检索、生成、推荐、问答四大核心能力，深度赋能智能客服、精准营销、业务问答等场景，构建高效人机交互的业务系统。

分类处置正向引导

针对各类风险问题应采取分类处置策略，不能一味拒绝，还需进行正向引导与合理纠偏，做到应答尽责。

突发舆情快速处置

面对突发事件、时事政治及社会热点等舆情问题，要迅速预判，及时干预并有效处置。

内生安全问题

训练语料是AIGC价值观的根基，强化大模型的内生安全建设同样至关重要。

审核量巨大

AIGC生成内容速度极快，平均每秒上万条数据产生，带来巨大的审核压力。

外挂式平台-提问内容过滤/AIGC输出内容安全

检测用户输入与生成的内容，精准识别各类违规与风险，结合人工审核、举报机制，持续迭代模型，全面保障内容合规。
接入后，保障客户大模型生成内容合格率在99.74%以上。

核心能力及优势

方案核心价值主张：聚焦 AIGC 面临的内容安全挑战与合规风险，为客户提供完整的产品与服务体系，助力客户构建平稳、健康、可靠的大模型服务完整的产品矩阵。

完整的产品矩阵

▶ 聚焦 AIGC 场景的风险，提供覆盖输入输出审核分类、风险代答、及时处置干预、蓝军评测、内生安全建设等完整能力矩阵

性能效果业界领先

▶ 接入后，保障客户大模式内容合格率在99.74%以上
▶ 输入query合规检测方面，召回率、误召率领先竞品
▶ 内容合规综合能力方面，代答范围/安全性、应答尽答率领先竞品

大规模落地实践经验

▶ 安全赋能某系列大模型，技术已经搭载应用在其行业应用中，具备大规模落地的技术能力
▶ 助力某基模厂商顺利通过第一批次大模型上线备案

行业引领

▶ 与基模厂商合作，安全深度参与 TC260 编写
▶ 原厂与信通院等合作，参与制定内容安全相关标准、发布行业白皮书
▶ 行业奖项：WitAwards 2023年度优秀网络安全解决方案奖、Find智能科技创新应用典型案例