ModelOps在AI安全运营中的工程化实践

发布时间 2022-03-23

随着AI技术的逐渐成熟,各行各业都开始引入AI技术来解决业务生产中的实际问题,其中,安全运营对AI技术的应用也提出迫切的需求。


然而,由于用户业务场景和数据复杂多样,如何在安全运营过程中应用AI技术进行数据建模和分析也成为一项难题。而ModelOps所提供的模型建模能力和模型生命周期管理能力,正是解决此难题的关键。


ModelOps与AI安全运营结合 - 实现AI安全分析模型开发完成即上线


相较于其它业务场景,在安全运营中使用AI技术来提升安全分析和检测能力,具有更高难度。AI模型的创建需要使用数据进行训练,数据安全又对于企业非常重要,因此,企业很难直接把数据交给安全厂商做AI建模,这就使得AI模型往往只能使用非企业真实生产环境的数据进行训练。


当这种“假数据”模型被部署到企业真实生产环境中,由于和真实数据差别很大,使得模型的准确率大幅度下降,并且由于不能提供持续的模型优化能力,使得随着业务数据的变化AI模型的能力也会逐渐降低。


ModelOps提供的模型建模能力和模型生命周期管理能力能够很好地解决这一问题。通过在用户环境中部署ModelOps平台,就有了在用户环境中进行模型训练和模型持续优化集成的能力,也就把AI安全模型的训练和迭代更新过程“右移”到用户的真实生产环境中,因此,模型训练使用的不再是实验室构造的“假数据”,而可以使用用户生产环境现场产生的真实数据,大大提升AI安全模型的准确性。


举例来说,部署用于识别加密恶意流量的AI模型,由于该模型的特征工程将提取大量网络会话中的通信特征信息,比如网络抖动、会话中的帧间距以及TCP会话窗口大小等,显然这些特征在实验室环境和用户真实环境下是不同的,如果直接使用实验室环境下构造出的背景流量作为负样本训练出来的模型在用户真实环境下就可能出现较大的准确性下降,而如果模型就是在用户真实环境中训练的,真实的负样本数据能够有效保证模型的准确性。


ModelOps解决的另一个主要问题是模型能力衰退的问题。由于AI模型的泛化能力有限,AI算法本质也是学习训练数据中所隐含的统计规律,而无论当用户的业务数据(负样本)发生变化还是出现了新的攻击方法(正样本),都有可能无法被现有的AI模型识别。


因此,一方面需要有对现有AI模型的自动化评估方法来发现这种模型能力的衰退,另一方面需要能够自动化和快速高效地使用包含新类型数据的数据集对AI模型进行重新训练,让AI模型能够认识这些新出现的数据上的变化,并重新将AI模型集成到运行环境中去。


ModelOps对模型的全生命周期管理包括了对模型的实时监测评估、对性能衰退模型的自动化维护和迭代更新。XOps(如DevOps、DataOps、ModelOps)其核心理念都是围绕快速迭代和持续集成。在安全运营过程中,如何把AI模型快速和自动化地集成到需要使用该模型的安全产品中是能否真正实现所谓Ops的关键。


在安全分析中所使用的AI模型主要分析的对象是网络流量和各种日志,此类数据具有多种不确定的表征方法,这就提高了对数据治理要求的复杂性,也使得在实验室中生成的AI安全模型难以直接部署使用,而需要重新编写代码。


ModelOps则解决了从模型开发到部署间最后一公里的数据治理问题,其要求的持续集成在安全运营场景下,可以通过三种方式来实现:模型即服务的SaaS模式、模型赋能模式和分析推理结果赋能模式。


1、模型即服务的SaaS模式需要用户提交要分析的数据、选择使用的模型,并通过标准接口获得返回的分析结果;


2、模型赋能模式需要用户具有可运行模型的平台或容器,并自己处理数据ETL过程,用户可以通过ModelOps提供的模型训练功能训练出模型并将其下载到自己的环境中运行;


3、分析推理结果赋能模式需要分布式的部署可运行AI模型的探针到用户环境,通过直接接入数据提供完整的从ETL到模型推理的数据处理过程,并将模型的分析推理结果以标准化的格式返回给用户。


对于需要使用AI安全分析模型的安全产品和系统来说,只要对接了AI模型持续集成的三种模式之一的配置和结果返回的API就可以实现将AI安全分析能力快速集成到自身系统中,并依靠ModelOps提供的持续迭代能力实现对AI模型的更新迭代,实现AI安全分析模型开发完成即上线。


泰合AI安全建模和赋能平台 - 面向AI安全分析模型全生命周期管理和持续集成


ModelOps所倡导的快速迭代持续集成就是为高效运营而生,模型则是场景化安全分析的核心能力,启明星辰泰合本部成立了专注于AI技术研究的北冥实验室,已经全面实现ModelOps的工程化落地,近期发布的AI安全建模和赋能平台,是一个集成多种Al安全分析模型,可提供全生命周期Al模型管理的平台。


AI安全建模和赋能平台通过将AI建模全流程解耦合实现了AI模型的流水线化生产,通过安全分析场景数据ETL引擎、模型建模和推理引擎、安全场景编排引擎实现了让数据工程师只关注数据治理,算法工程师只关注模型算法,安全分析师只关注安全场景化的多工种协同作业。


同时,AI安全建模和赋能平台能够提供一个开放的生态系统,支持用户通过自定义数据源和ETL方法,自定义特征工程算子和算法算子来积累和强化平台的建模能力,并将AI安全建模过程从安全厂商端“右移”到了用户生产环境中,能够直接接入用户的真实生产环境数据,并让熟悉用户业务的业务专家使用此平台来构建更加符合用户业务需求和具有更高准确性的AI模型。


AI安全建模和赋能平台通过标准的API接口和SYSLOG日志接口向其它安全系统和平台提供AI模型的下载服务和AI模型推理结果服务,使得其它无AI能力或无AI建模能力的系统,能够借助AI安全建模和赋能平台向其输出的模型或推理结果实现快速AI化和智能化落地。


下面实例展示AI安全建模和赋能平台通过对外赋能实现AI模型开发完成即上线的过程:


步骤一:在AI安全建模和赋能平台侧通过建模流水线执行数据集创建、算子上传、模型训练实验创建,完成训练模型,并发布模型。


步骤二:在AI探针侧下载发布的模型。


步骤三:创建推理任务,选择下载的模型并执行该推理任务。


步骤四:在泰合安全管理与态势感知平台对应的页面能够直接看到模型的检测结果。


AI安全建模和赋能平台在ModelOps上迈出了工程化实践的第一步。随着越来越多AI技术的应用,更多的AI模型需要能够在安全运营中被管理,AI安全建模和赋能平台也将在结合用户业务的模型持续评估,自动化学习更新等功能方面不断优化和完善。


在数据安全愈发重要的今天,一些应用场景下必须要实现联合多地的数据,进行模型训练和分析推理,通过基于联邦学习实现支持多方计算的模型训练和模型推理,也将是AI安全建模和赋能平台的发展方向,可以预期其将作为安全运营的基础设施和技术底座为安全运营提供最有力支撑。




文章来源:北冥实验室