琶洲实验室×华南理工大学：共建大湾区AI安全研究高地，“火眼・AI鉴真”平台硬核出圈

2026年5月27日

琶洲实验室

710

当前，生成式人工智能狂飙突进，深度融入千行百业，催生生产力变革。但与此同时，深度合成、AI诈骗、违规内容生成等风险暗流涌动，对网络意识形态、公众财产安全及社会治理根基构成严峻挑战。为筑牢AI安全防线，护航数字经济高质量发展，琶洲实验室联合华南理工大学，携手广东联通、南方报业传媒集团，共建粤港澳大湾区人工智能与安全研究中心，自主研发国内首个大模型的人工智能治理平台–“火眼·AI鉴真”，走出一条“技术自主、场景验真、规模落地”的创新之路，为大湾区AI安全治理提供硬核支撑。

粤港澳大湾区人工智能与安全研究中心汇聚多方优势资源，构建算力、数据、场景、人才深度协同的战略型创新联合体，并提供20万核时高性能算力，为大规模模型训练与推理提供基础保障。

“火眼·AI鉴真”

中心自主研发的“火眼·AI鉴真”人工智能治理平台，集成违规内容识别、诈骗语音预警、虚假视频鉴别等核心功能，关键指标领跑行业，已成功落地南方报业等重点场景，为多模态内容安全治理提供可靠技术支撑。凭借在智媒技术协同创新领域的突出贡献，荣获2025年度南方智媒云智媒技术协同创新奖，成为南方报业“两端一云”生态共建的重要技术合作伙伴。

聚焦AI安全治理全链条，团队在核心技术领域实现四大突破，相关成果发表于ICLR、NeurIPS、ICML等国际顶级会议及期刊，技术水平跻身全球前沿。

1、AI内容检测：多模态高泛化鉴别

揭示了最大均值差异（MMD）高方差难题，构建多群体感知训练目标，显著提升文本检测的稳定性；创新物理驱动的概率流守恒生成视频检测框架，实现高泛化性生成视频检测，精准识别AI生成文本、视频内容。

2、违规内容审核：大模型驱动精细化治理

设计多模态大模型违规内容审核架构，提出多阶段任务指令编排方法，拆解复杂审核流程，构建高性能推理框架，大幅提升违规内容审核的准确性与灵活性，实现精细化、智能化内容治理。

3、恶意攻击防御：筑牢鲁棒安全防线

构建大规模近红外人脸伪造数据集，提出语义一致性约束的多源物理伪造人脸检测方法，建立对抗净化防御机制，全面提升模型对恶意样本攻击的鲁棒性，抵御各类AI恶意攻击风险。

4、AI伦理治理：全生命周期安全防控

团队设计可操作的伦理治理工具与评估机制，刻画安全风险动态演化规律，构建全生命周期防控体系；攻克用户长期偏好与短期兴趣精准提取难题，揭示AI诱发偏差行为的伦理风险机制，为算法透明度评估与风险防控提供理论支撑。

人工智能安全治理任重道远，未来，琶洲实验室将持续深化合作，以粤港澳大湾区人工智能与安全研究中心为载体，聚焦AI治理前沿技术研发、成果转化与人才培养，持续优化“火眼・AI鉴真”平台性能，拓展更多应用场景。推动AI安全治理标准体系建设，助力大湾区打造全球领先的人工智能安全治理高地，为我国人工智能产业健康发展保驾护航。