多模态AI，敏感数据识别的终结者

发布时间：2025-07-15 发布人：麒麟实验室阅读：3942 来源：公众号【权说安全】

合同发错群、报销单晒朋友圈？AI：这届人类太难带了！

某科技公司技术中心运营部晨会安全主管老王：“兄弟们，持续一周的数据防泄漏演习中，客户名单轻易发送到了私人邮箱！财务的报销单截图在朋友圈晒了三天！法务的合同草稿居然出现在相亲相爱一家人的群里？！数据防泄漏任务艰巨啊，我们的技防手段还是存在明显的不足呀！”部门众兄弟心中默到：“第1024次失败了...防不甚防啊，一周的加班毁于一旦”

为啥敏感数据防不甚防？

数据量大每天每人至少产生GB级别数据，随着用户数增加，相关关联、外部交换数据会出现激增。

文件格式多样文字报告、财务表格、合同扫描件、会议录音、监控截图、聊天记录、设计图纸，文件格式多样，数据展示形态多样。

文件流转途径多即时通信工具、电子邮件、USB外设、视频拍照，交互越多，通道越多。

数据防泄漏的关键在于对于数据的敏感性识别，除了无限量使用人力做纯“人工智能”识别，有没有更好的方案来解决这个问题？当然有，多模态AI了解一下。

什么是多模态AI？

通俗地说，让AI像人类一样综合运用五感来感知认识世界。多模态AI = 视觉 + 文本 + 语音 + 跨模态理解*数据融合

举个简单的例子：

从这里例子我们可以看出，相较于单模态的识别，多模态AI的判断会更准确，从而提供更高的准确性。

简单的多模态AI识别系统架构如下图所示：

基本功能模块构成包括如下：01文本感知，通常使用NLP语义分析+正则分析技术，常用于合同条款、身份证号、密钥分析02图像感知，通常使用目标检测+OCR透视眼技术，主要用于处理截图中的二维码、公章、表格数据03语音感知，通知通过声纹识别+关键词捕捉，可以用识别会议录音中的电话号码等04多模态决策引擎，通过对于感知模块数据进行综合判定来最终确认“这数据到底多敏感”。

主流架构对比