2022年年末,ChatGPT以其突破性的功能和应用,彻底重塑了人工智能的格局,为智能化时代的到来注入了新的活力。然而,瑞星公司以卓越的前瞻性和创新精神,早已将人工智能技术融入到恶意代码检测引擎和后端运营系统的核心中。
今天,瑞星安全研究院院长叶超将为我们深入解读瑞星是如何紧跟AI技术的发展,将前沿科技转化为实际应用,来提升网络安全防护能力和效率的。
瑞星小狮子:
瑞星从什么时候开始应用AI技术?
叶超:
大概从2008年左右开始探索使用机器学习对恶意软件进行家族分类,提高内部运营工作效率。后续逐步将应用方向调整为恶意代码的黑白鉴定,研发终端可用的人工智能引擎。
瑞星小狮子:
瑞星应用了哪些AI技术?
叶超:
到目前为止,瑞星主要使用了专家系统、机器学习、向量检索、大语言模型等人工智能技术。
瑞星小狮子:
瑞星为什么要应用AI技术?
叶超:
一是解决恶意软件数量和人工运营效率的矛盾。由于全球恶意软件数量爆发式增长,传统人工运营的方式无法满足快速响应、24小时不间断响应的需求,因此通过人工智能技术,可实现无人化、持续性的运营。
二是解决恶意软件对抗技术和传统检测技术的矛盾。大量的恶意软件采用对抗技术来躲避检测,并且这种手段是自动化的,无时无刻不在产生“新病毒”,传统特征码检测技术根本无法应对这样的局面。所以瑞星作为安全厂商必须采取更高阶的技术手段来对抗这样的病毒发展趋势。
瑞星小狮子:
瑞星通过应用AI技术做出了哪些成果?
叶超:
瑞星在行业方向上使用人工智能技术主要包含以下几个方面:
一、使用机器学习识别恶意软件
我们通过精细化的特征工程以及海量历史样本的学习,让模型具备识别大部分恶意软件的能力。这方面瑞星的探索历程大致是:
2013年前后,开始积极使用机器学习技术来检测恶意软件。完成了恶意 WinPE、恶意Flash、恶意PDF的特征工程、模型训练和发布。但针对恶意WinPE的模型由于误报率没有控制到理想范围内,在进行了实验性发布后,便进入了重制阶段。
经过特征工程重构、持续性训练和观察后,瑞星于2017年前后,重新发布了针对恶意WinPE的模型,这次重构将误报率控制到了理想范围内,并对检测对抗手法进行了针对性处理。
后续的几年,我们陆续发布了针对Office宏病毒、Excel公式病毒、恶意DotNet程序的机器学习检测模型。
二、基于向量相似度的恶意软件快速检索和聚类
在特征工程对目标恶意软件进行向量化的基础上,我们使用向量数据库管理恶意软件簇。在此基础上实现了基于KNN算法的恶意软件家族聚类,以及基于相似度比较的恶意软件精确检测。
依托于此技术,瑞星的云端人工智能引擎不仅可以快速判断“黑白”,还能给出恶意软件家族和近似样本列表。
三、基于大语言模型的恶意代码分析
大语言模型在恶意代码分析方面表现出了强大的能力,在对文本类代码的解读能力方面超越了大多数人类。所以,从2023年开始,瑞星使用大模型(GPT3.5级别)对脚本类的恶意软件进行自动化鉴定,实现了脚本类恶意代码运行方向上的降本增效。
四、其他方面
l 针对"图标伪装"类的恶意软件,使用计算机视觉相关的技术。
l 使用马尔可夫模型检测随机字符串,解决代码混淆、动态域名等问题。
l 使用MinHash/LSH解决海量相似内容的快速检索。
瑞星小狮子:
未来瑞星要做哪些AI方面的工作?
叶超:
一是继续使用机器学习技术,迭代升级恶意软件检测能力,尤其是在特征工程上做更多的探索。
二是积极使用大模型识别恶意代码。充分利用大模型提供的代码解读、代码嵌入能力,重新构建我们的自动化运营后端。
三是研究创建瑞星虚拟分析员。将大模型和我们业务系统深度结合,将大部分日常工作转交给虚拟分析员完成,例如:样本黑白标注、检测特征提取、威胁情报运营等。
通过叶院长的解读,能够深入了解瑞星在AI领域的发展历程及未来规划。从机器学习到大语言模型,再到虚拟分析员的构想,瑞星凭借坚实的技术基础和不断进取的态度,紧跟着AI技术的发展,致力于通过持续创新,为用户提供更加安全、智能的网络环境。