是公司开发的一个大型预训练语言模型,根据UBS发布的研究报告显示,在1月份的月活跃用户数已经达1亿,成为史上用户增长最快的消费者应用。
为什么能在2个月内月活过亿?这和其卓越的智能程度及丰富的应用场景息息相关,它能在不同行业促进数实共生,促进产业升级。下文首先会对的原理及应用场景进行简单介绍,然后会重点介绍安恒信息在安全领域对的研究以及应用。
PART.1
简介
背后的算法基于架构,这是一种使用自注意力机制处理输入数据的深度神经网络,架构广泛应用于语言翻译、文本摘要、问答等自然语言处理任务。使用了GPT-3.5大规模语言模型(LLM,Large Model),并在该模型的基础上引入强化学习来微调(fine-turn)预训练的语言模型。这里的强化学习采用的是RLHF( from Human ),即采用人工标注的方式。目的是通过其奖励惩罚机制()让LLM模型学会理解各种NLP任务并学会判断什么样的答案是优质的(、、三个维度)。
模型的主要训练流程如下:
1、首先利用一系列问答对模型进行监督训练(这个操作也叫监督指令微调);
2、在完成监督指令微调后,就开始利用强化学习(模型在给定的环境中,不断地根据环境的惩罚和奖励,拟合到一个最适应环境的状态)对模型进行进一步的指令微调,具体地,首先在人类的帮助下训练一个奖赏网络,这个奖赏网络具有对多个聊天回复好坏进行排序的能力;
3、利用这个奖赏网络,进一步通过强化学习不断优化模型。
应用场景
可以进行多轮问答,如实现造句和增加细节。
可以用于编写代码,如用实现快速排序。
可以用于做数学题,如计算哥哥要给弟弟多少个苹果,才能使得哥俩的苹果数量相同。
PART.2
从可以编写代码,可以很容易联想到编程技术的门槛降低,这是一把双刃剑,能被网络犯罪集团用来生成携带恶意载荷的恶意软件、编写巧妙的网络钓鱼邮件等,普通人尝试进行网络攻击也将变得更加容易。从另一面来讲,也可以和安全领域的众多场景结合起来,提升安全防护能力及运营效率。安恒信息已经将类的AI算法和智能数据分类分级、智能生成检测规则、智能告警处置分析、智能客服问答系统、智能钓鱼邮件分析、智能加密流量检测等多个场景进行结合,推进研究并逐步落地到产品中。下面将详细介绍这6个场景。
智能数据分类分级
数据分类分级是数据安全治理的基石,只有对数据进行有效分类分级,才能在数据安全管理上采用更加精细的控制。分类分级的依据通常来源于法律法规、行业标准或地区标准文件,例如《JR/T 0197-2020 金融数据安全 数据安全分级指南》中规定微信号、手机号等个人联系信息的最低安全级别为3级。专业的数据安全分类分级服务人员通过熟悉这些标准文件,凭主观判断完成数据的类别级别梳理工作。
人工智能模型在数据安全分类分级场景中占据越来越重要的地位,正在逐步取代人工繁琐单调的数据分类分级标注工作。基于强化学习的人工智能模型已经在安恒信息数据安全分级产品中部署应用,能够精准识别数据业务含义,进行自动分类分级,大幅提高数据梳理的工作效率。
强化学习 RLH流程示意
内置了融合法律法规、行业标准等领域知识的预训练模型,同时支持模型有监督训练。用户利用有标签的数据源对模型进行训练,学习数据的特征与类别级别之间的内在关联,可预测出其它类似数据源的分类分级结果。产品在交互中接收人工反馈,引入强化学习 RLHF( from Human )来微调预训练的分类分级模型,在模型给出的候选分类分级结果中选择最优结果,通过奖励惩罚机制使模型不断优化自身,训练出一个分类分级领域适合客户的专有AI模型。
产品可根据数据的内容和描述等特征给出正确的分级结果,并且理解并引用标准文件中判断依据,帮助服务人员提升数据治理工作效率,在不同行业、不同业务条件下都能提供更加优质的数据安全分类分级服务。
智能生成检测规则
检测规则是检测网络入侵,保护网络安全的重要手段。当前大部分的网络安全规则主要是依靠安全研究人员的经验来制作的,面对黑客层出不穷的攻击手段,专家经验的规则存在误报和无法识别新的攻击的问题。可以帮助更好地自动生成检测规则。
针对内网环境,可以根据客户现场对误报的处理,从大量的原始日志、告警信息、误报中自动学习,自动生成检测规则。例如自动学习运营人员经常对哪些IP及端口的告警进行误报标记,给出生成检测规则的建议,并对这些IP及端口加入白名单或者封禁。
针对云上环境。可以利用安恒信息MSS(托管安全服务)平台大量收集全国数据,在此基础上研究场景,利用强化学习训练模型和人工反馈不断调试优化。开发运营反馈模块,针对告警排查过程中的各种日志证据,进行录入上报,利用学习到其中的模式并自动的生成告警规则,在降低误报的同时也可以对新产生的攻击方式和手法自动生成检测规则。
智能告警处置分析
告警分析是安全运营的核心内容。伴随着组织机构的扩张、业务逻辑的复杂化,一个大中型企业每日的告警量很容易达到百万量级,从海量告警中筛选出重要风险事件给安全运营人员带来沉重负担。技术在告警响应处置中发挥重要作用。
针对告警处置,可以学习安全分析师对各类风险场景的处置动作,自动生成处置规则。借助运营反馈模块,将告警排查过程中的各种日志证据进行录入上报。针对云上环境,可以利用MSS平台收集全国数据。在此大量数据基础上训练用于风险研判的模型。针对特定告警和风险场景,由模型生成若干处置建议,通过人工反馈训练模型判断出最优的处置动作,使其学会生成正确的处置规则。
在日常的运营过程中,使用技术学习大量历史运营分析报告内容之后,能够针对各类安全设备产生的告警事件和统计指标,迅速生成分析报告、捕捉关键异常、生成处置建议,协助分析师更快地洞察事件全貌。
智能客服问答系统
随着产品数量种类的增加,不同产品的安装部署、系统运维、常见问题、安全服务等都不尽相同,面对大量不同客户的不同问题,如果仅仅依靠人工的方式来集解答和处理,会极大增加人工的成本。
使用技术,通过对不同产品的各类文档和客户常见问题的学习,使用强化学习的方式来训练一个智能客服问答系统,系统可以根据大量的对学习到不同文档中的知识,并且可以在实践的过程中根据人工反馈不断微调以优化系统。智能客服问答系统,可以及时的响应客户在网页端提出的关于系统、产品、运维等相关的常见问题,从而有效的降低产品经理、400客服等的人力沟通成本。
当前,安恒信息已经根据多年积累的数据训练了初步的模型,并在公司内部开始试用,模型可以实现常见系统问题的应答,另外,对于智能语音问答方面也在积极的探索。
智能钓鱼邮件分析
群发式钓鱼邮件和针对式鱼叉攻击都仍然是目前网络攻击的一种主要途径。它通过发送一封看似是从信任的发件人发出的电子邮件,来诱导收件人提供个人信息(如用户名、密码、银行账号)或者打开恶意网站或附件。如何精准识别、拦截潜在的钓鱼邮件,是网络安全领域重要的研究方向。
一方面,使得海量、自动化、多样性的生成钓鱼邮件模版变成一件很容易的事情。攻击者可以通过指定的社工关键字,根据每个目标人物特点,针对性的生成钓鱼邮件,大幅降低伪造的人工成本,同时最大程度提高了钓鱼邮件成功率。
另一方面,安恒信息从多年累积的攻防实践经验出发,基于AI技术,联动邮件附件智能沙箱技术、邮件正文语言分析技术和邮件收发账号UEBA技术,可以准确识别可疑邮件、及时做出钓鱼邮件预警。同时,未来将积极追踪研究Bard、等大型语言模型,试验模型内容指纹技术,自动化分析判别邮件内容来源。对非自然人构建的语言内容及时给出提醒,并作为钓鱼邮件告警系统的重要输入维度,全方位守护用户的邮件安全。
智能加密流量检测
随着新一代网络技术的发展,如云计算和物联网,加密技术的使用提高了数据传输的安全性,但也为网络安全带来了更大的挑战,攻击者可以利用加密技术传输敏感信息和恶意数据。
使用技术可以帮助网络安全领域的专家们构建科学的加密流量分析方案,通过分析网络流量,以及应用层面的安全检测,实现加密流量的安全检测,有效的抵御恶意攻击。技术在加密流量检测中可以通过分析网络流量,用来分析密钥空间,检测攻击模式,以及识别攻击行为来发现未知的网络攻击。技术的应用可以让网络安全管理者更有效地发现、识别和响应安全漏洞和攻击行为,为网络安全实现有效把控提供有力保障。另外,技术可以分析攻击者行为、以及及时响应各种威胁,为安全团队提供有效的应对措施。
安恒信息的EMT智能流量检测系统是一个支持大规模网络全流量捕获、检索,网络攻击检测、分析,威胁行为评估、 溯源的综合系统。EMT智能流量检测系统可以结合技术进行更全面的流量分析,通过深度分析加速网络威胁检测,实时发现和响应所有攻击行为,以及未知的攻击模式。
PART.3
人工智能未来已来,网络安全在这个时代也将发生巨变,新的攻击形式层出不穷,对检测及防护能力也必将提出新的要求。安恒信息一直拥抱AI变化,积极布局AI前沿研究。产品逐步AI智能化是安恒信息实现“构建安全可信的数字世界”企业使命的必经之路。