琶洲实验室×华南理工大学:共建大湾区AI安全研究高地,“火眼・AI鉴真”平台硬核出圈

2026年5月27日
琶洲实验室
11

当前,生成式人工智能狂飙突进,深度融入千行百业,催生生产力变革。但与此同时,深度合成、AI诈骗、违规内容生成等风险暗流涌动,对网络意识形态、公众财产安全及社会治理根基构成严峻挑战。为筑牢AI安全防线,护航数字经济高质量发展,琶洲实验室联合华南理工大学,携手广东联通、南方报业传媒集团,共建粤港澳大湾区人工智能与安全研究中心,自主研发国内首个大模型的人工智能治理平台–“火眼·AI鉴真”,走出一条“技术自主、场景验真、规模落地”的创新之路,为大湾区AI安全治理提供硬核支撑。

粤港澳大湾区人工智能与安全研究中心汇聚多方优势资源,构建算力、数据、场景、人才深度协同的战略型创新联合体,并提供20万核时高性能算力,为大规模模型训练与推理提供基础保障。

“火眼·AI鉴真”

中心自主研发的“火眼·AI鉴真”人工智能治理平台,集成违规内容识别、诈骗语音预警、虚假视频鉴别等核心功能,关键指标领跑行业,已成功落地南方报业等重点场景,为多模态内容安全治理提供可靠技术支撑。凭借在智媒技术协同创新领域的突出贡献,荣获2025年度南方智媒云智媒技术协同创新奖,成为南方报业“两端一云”生态共建的重要技术合作伙伴。

聚焦AI安全治理全链条,团队在核心技术领域实现四大突破,相关成果发表于ICLR、NeurIPS、ICML等国际顶级会议及期刊,技术水平跻身全球前沿。

1、AI内容检测:多模态高泛化鉴别

揭示了最大均值差异(MMD)高方差难题,构建多群体感知训练目标,显著提升文本检测的稳定性;创新物理驱动的概率流守恒生成视频检测框架,实现高泛化性生成视频检测,精准识别AI生成文本、视频内容。

2、违规内容审核:大模型驱动精细化治理

设计多模态大模型违规内容审核架构,提出多阶段任务指令编排方法,拆解复杂审核流程,构建高性能推理框架,大幅提升违规内容审核的准确性与灵活性,实现精细化、智能化内容治理。

3、恶意攻击防御:筑牢鲁棒安全防线

构建大规模近红外人脸伪造数据集,提出语义一致性约束的多源物理伪造人脸检测方法,建立对抗净化防御机制,全面提升模型对恶意样本攻击的鲁棒性,抵御各类AI恶意攻击风险。

4、AI伦理治理:全生命周期安全防控

团队设计可操作的伦理治理工具与评估机制,刻画安全风险动态演化规律,构建全生命周期防控体系;攻克用户长期偏好与短期兴趣精准提取难题,揭示AI诱发偏差行为的伦理风险机制,为算法透明度评估与风险防控提供理论支撑。

人工智能安全治理任重道远,未来,琶洲实验室将持续深化合作,以粤港澳大湾区人工智能与安全研究中心为载体,聚焦AI治理前沿技术研发、成果转化与人才培养,持续优化“火眼・AI鉴真”平台性能,拓展更多应用场景。推动AI安全治理标准体系建设,助力大湾区打造全球领先的人工智能安全治理高地,为我国人工智能产业健康发展保驾护航。