重庆脑中心智能认知研究团队一项基于双曲视觉语言引导的双空间视频暴力检测工作发表

近日,重庆脑与智能科学中心智能认知研究部的一项题为“PiercingEye: Dual-Space Video Violence Detection with Hyperbolic Vision-Language Guidance”的研究工作成功被CCF A类国际期刊IEEE Transactions on Pattern Analysis and Machine Intelligence接收。
在智能认知研究领域,弱监督视频暴力检测(VVD)是保障公共安全、实现智能监控落地的核心技术方向之一。当前主流方法多依赖欧氏几何进行特征表征学习,但受限于层级建模能力不足、模糊样本数据稀缺两大关键瓶颈,往往难以精准区分视觉相似但语义完全不同的事件,传统方法易出现误判。
为突破这一技术瓶颈,研究团队创新提出“PiercingEye”双空间学习框架。该框架实现了欧氏几何与双曲几何的深度融合,通过两大核心创新增强特征判别力:层级化双曲建模,引入层敏感双曲聚合策略,结合双曲狄利克雷能量约束,模拟人类认知中从局部细节到全局事件的层级理解过程,逐步厘清事件的语义边界。跨空间特征交互,设计跨空间注意力机制,促进欧氏空间与双曲空间特征的互补融合,解决单一空间表征的局限性。同时,针对模糊样本匮乏的问题,研究团队创新性引入大语言模型生成逻辑引导的模糊事件描述,再通过双曲视觉-语言对比损失实现显式监督,该损失函数采用动态相似度感知加权,优先关注高混淆度样本。在 XD-Violence 与 UCF-Crime 两大公开基准数据集上进行了广泛实验,实验结果表明,PiercingEye 在异常事件检测任务中表现出卓越的性能,其中在 XD-Violence 上达到了 88.82% 的 AP,在 UCF-Crime 上达到了 86.64% 的 AUC。
该成果不仅对公共安全智能监控提供核心技术支撑,而且对智能认知研究领域的多模态空间融合表征、复杂场景智能判别等研究方向具有重要参考价值。
论文链接
https://ieeexplore.ieee.org/abstract/document/11192585
智能认知研究团队简介
研究团队主要借鉴大脑神经结构、学习特性与认知功能,研究脑启发的可信人工智能,探索人类选择性注意力、联想记忆推理、反馈学习和多粒度认知等机制,突破当前人工智能模型效率低、泛化性弱、可解释性差等难题。目前,研究团队授权发明专利100余项,在主流国际期刊和国际会议发表论文300余篇,荣获全国创新争先奖状、国家自然科学二等奖1项、省部级科学技术一等奖5项。