引入KiloGram一种用于恶意软件的AI检测的新技术

更新时间：2021-07-04 17:18:15

导读小编来分享一篇个人对引入KiloGram一种用于恶意软件的AI检测的新技术相关分析，众所周知，无论是在坊间民众，还是在汽车媒体的议论中，都是

小编来分享一篇个人对引入KiloGram一种用于恶意软件的AI检测的新技术相关分析，众所周知，无论是在坊间民众，还是在汽车媒体的议论中，都是不错的，至于产品到底香不香，通过测试还是可以对引入KiloGram一种用于恶意软件的AI检测的新技术的产品力分析分析的，一起来看看吧!

最近，一组研究人员在KiloGram上发表了他们的论文，KiloGram是一种用于治理文件中的大型n-gram的新算法，可以改善机器学习对恶意软件的检测能力。新算法比以前的方法快60倍，并且可以处理n = 1024或更高的n-gram。n的大值具有可解释的恶意软件分析和签名生成的其他应用程序。引入KiloGram一种用于恶意软件的AI检测的新技术

在KDD 2019网络安全学习和采矿研讨会上发表的论文中，来自马里兰大学和网络安全公司Endgame的研究人员描述了他们的算法，用于在大型文件数据集中查找最频繁的n-gram。

以前的方法在增加n的大小时会在内存和运行时中遇到“指数成本”，而在分析具有数十万个文件的数据集时，它们的n值将小于8。相比之下，KiloGram算法能够从数百万个文件中的5TB数据中提取n-gram，而仅使用9GB的RAM，并且“运行时间不会随n的增加而增加”。这同意算法为较大的n值提取n-gram，以测试这些n-gram是否为机器学习算法提供了更好的准确性。引入KiloGram一种用于恶意软件的AI检测的新技术

一个n-gram是n个项的唯一序列，并且该思想被用于许多机器学习任务中，尤其是自然语言处理(NLP)。在检测到恶意软件的情况下，n-gram是来自文件的字节序列，该文件将被分类为恶意软件或良性文件。

恶意软件检测的早期工作表明，较大的n-gram(例如n = 15或20)对于训练检测系统是理想的，但是现代数据集的大小使得使用大于6的n值太昂贵。由于KiloGram算法可以处理那些较大的值，因此研究团队能够测试较大值更好的想法。

该团队使用可执行文件和Adobe PDF文档的多个数据集，训练了Elastic-Net正则化逻辑回归分类器来检测恶意软件;为了进行回归，输入特征是使用KiloGram算法提取的n元语法。与文献中的建议相反，研究人员发现“预测精度不会增加到n = 8以上”。较大的n-gram会产生精度降低的模型;但是，它们具有可解释性的优点。较小的n-gram产生“黑匣子”模型，而较大的n-gram特征集包含可能对分析人员故意义的字节序列。例如，它们可能代表代码片段或文本字符串。引入KiloGram一种用于恶意软件的AI检测的新技术

研究人员认为，较大的n-gram在回归模型中使用时不那么精确，因为它们更特定于特定的恶意软件攻击。实际上，它们会导致过度拟合。但是，当在诸如Yara之类的签名模型中使用时，它们的优点是它们的假阳性率低。

也就是说，尽管Yara模型可能会错误地将更多文件标记为良性文件，但如果它确实表明文件为恶意软件，则很少有错。这使得KiloGram算法可用于构建结合了机器学习模型和基于签名的模型的分层系统。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：

上一篇:AWS宣布推出AutoGluon这是一个用于编写AI模型的开源库

下一篇:大学研究团队针对计算机视觉AI的开源自然对抗图像数据集

引入KiloGram一种用于恶意软件的AI检测的新技术

猜你喜欢

最新文章

热门文章

点击排行