合同发错群、报销单晒朋友圈?AI:这届人类太难带了!
某科技公司技术中心运营部晨会安全主管老王:“兄弟们,持续一周的数据防泄漏演习中,客户名单轻易发送到了私人邮箱!财务的报销单截图在朋友圈晒了三天!法务的合同草稿居然出现在相亲相爱一家人的群里?!数据防泄漏任务艰巨啊,我们的技防手段还是存在明显的不足呀!”部门众兄弟心中默到:“第1024次失败了...防不甚防啊,一周的加班毁于一旦”
为啥敏感数据防不甚防?
数据量大每天每人至少产生GB级别数据,随着用户数增加,相关关联、外部交换数据会出现激增。
文件格式多样文字报告、财务表格、合同扫描件、会议录音、监控截图、聊天记录、设计图纸,文件格式多样,数据展示形态多样。
文件流转途径多即时通信工具、电子邮件、USB外设、视频拍照,交互越多,通道越多。
数据防泄漏的关键在于对于数据的敏感性识别,除了无限量使用人力做纯“人工智能”识别,有没有更好的方案来解决这个问题?当然有,多模态AI了解一下。
什么是多模态AI?
通俗地说,让AI像人类一样综合运用五感来感知认识世界。多模态AI = 视觉 + 文本 + 语音 + 跨模态理解*数据融合
举个简单的例子:
从这里例子我们可以看出,相较于单模态的识别,多模态AI的判断会更准确,从而提供更高的准确性。
简单的多模态AI识别系统架构如下图所示:
基本功能模块构成包括如下:01文本感知,通常使用NLP语义分析+正则分析技术,常用于合同条款、身份证号、密钥分析02图像感知,通常使用目标检测+OCR透视眼技术,主要用于处理截图中的二维码、公章、表格数据03语音感知,通知通过声纹识别+关键词捕捉,可以用识别会议录音中的电话号码等04多模态决策引擎,通过对于感知模块数据进行综合判定来最终确认“这数据到底多敏感”。
主流架构对比
多模态AI可以用做什么?
误杀率下降 ➘以前:把“交易金额:一块两毛五”识别成敏感数据(金额也是钱!严谨!)现在:自动忽略小额转账截图(AI:呵,人类穷得如此安全...)检出率提升 ➚成功拦截《公司烧烤福利申请表》里隐藏的客户手机号(提交人:“我写调料偏好里也能被发现?!”)
最好的安全防护,不是让人类变成机器,而是让机器学会人类的幽默与温度。