上篇文章python_mmdt:一种基于敏感哈希生成特征向量的python库(一)我们介绍了一种叫mmdt_hash
(敏感哈希)生成方法,并对其中的概念做了基本介绍。本篇,我们重点谈谈mmdt_hash
的分类应用场景。
设想这么一个需求:有一批文件需要判定是否属于恶意文件,并且需要给出恶意文件所属的家族类型。这个需求该怎么高效处理呢?处理过程又该怎么固化成我们自己的经验呢?当以后面临同样的需求时,能否复用之前的结果呢?
我能想到的做法有以下三种:
针对以上三种做法,分别讨论其优点和缺点:
这里的需求场景也许太过定制化,但还是有一定的代表性的。针对以上的需求场景,python_mmdt
工具的分类算法,可以很好的覆盖上述场景。
使用python_mmdt
的做法,具有以下优点
mmdt_hash
大小固定,存储占用空间小当然,有三个缺点不能不提:
mmdt_hash
值没有意义,不能用作分类规则。因此,可以在不同的场景使用不同的判定分值,判定分值越高,准确率越高;判定分值越低,漏报率越低。
使用pip
安装python_mmdt
之后,会向系统中添加如下命令:
mmdt_hash
值mmdt_hash
的标准差,用于衡量mmdt_hash
的好坏相似度
mmdt_hash
的特征向量集合mmdt_hash
计算单个文件mmdt_hash
值
mmdt_hash
的值# ? mmdt-hash APT28_1
# 5D58573C:B39A90BCDCB4D491BEC74B207AE5FE39
$ mmdt-hash $file
简单分类的mmdt_hash
结构如:index_hash:value_hash
,:
冒号前的是敏感哈希索引,:
冒号后的是敏感哈希真值。敏感哈希索引用于快速定位相似哈希,敏感哈希真值用于计算两个mmdt_hash
之间的相似度。
mmdt_hash
的标准差计算单个mmdt_hash
值的标准差
mmdt_hash
值mmdt_hash
值的标准差# ? mmdt-std 5D58573C:B39A90BCDCB4D491BEC74B207AE5FE39
# standard deviation: 45.333946
$ mmdt-std $mmdt_hash_str
mmdt_hash
值的标准差,用于衡量生成的mmdt_hash
的好坏。从大量统计结果看,当标注差低于10.0左右时,计算生成的mmdt_hash
的有效性太差,不能有效表示原始文件。
计算两个文件的相似度,输入2个文件路径,输出
# ? mmdt-compare APT28_1 APT28_2
# 0.9929302916167373
$ mmdt-compare $file1 $file2
计算两个输入文件的相似度,相似度本质采用欧几里得距离衡量。计算两个mmdt_hash
的欧几里得距离,并归一化,计算得到相似度。
生成基于mmdt_hash
的特征向量集合
mmdt_feature.label
和mmdt_feature.data
# ? mmdt-gen APT28 apt28.tags
# ...
# process: APT28_3, 22
# process: APT28_4, 23
# end gen mmdt set.
# ? ll mmdt_feature.*
# -rw-r--r-- 1 ddvv staff 703B 1 16 10:34 mmdt_feature.data
# -rw-r--r-- 1 ddvv staff 133B 1 16 10:34 mmdt_feature.label
$ mmdt-gen $file_path $file_tag
遍历指定文件目录,计算该目录下所有文件的mmdt_hash
,并从标签文件中读取对应标签,生成标签索引,记录到特征向量集合中。输入的标签文件采用文件名,标签
的csv格式存储。
对生成的特征向量集合进行过滤处理
# ? mmdt-filter mmdt_feature.data 10.0
# start filter mmdt set.
# old len: 23
# new len: 21
# end filter mmdt set.
# ? ll mmdt_feature.*
# -rw-r--r-- 1 ddvv staff 689B 1 16 10:39 mmdt_feature.data
# -rw-r--r-- 1 ddvv staff 133B 1 16 10:34 mmdt_feature.label
$ mmdt-filter $mmdt_feature_file_name $dlt
特征向量集合的一般过滤方法,计算特征向量集合中mmdt_hash
值的标准差,移除标准差小于10.0的mmdt_hash
。如前所说,标准差小于10.0的mmdt_hash
有效性很低,无法使用。
对生成的基于mmdt_hash
特征向量集合进行适配简单分类器(去重)过滤处理
mmdt_feature.data
文件# ? mmdt-filter-simple mmdt_feature.data
# start filter mmdt set.
# old len: 21
# new len: 21
# end filter mmdt set.
# ? ll mmdt_feature.*
# -rw-r--r-- 1 ddvv staff 689B 1 16 10:39 mmdt_feature.data
# -rw-r--r-- 1 ddvv staff 133B 1 16 10:34 mmdt_feature.label
$ mmdt-filter-simple $mmdt_feature_file_name
简单分类算法的特定过滤方式,移除完全相同的特征向量,并覆盖原始特征向量集合。
对指定文件或文件夹进行分类识别
重要,需要将生成的mmdt_feature.label
和mmdt_feature.data
文件拷贝到python_mmdt
的安装路径,命令如下:
mmdt-copy mmdt_feature.data
mmdt-copy mmdt_feature.label
特别注意:
mmdt_feature.label
和mmdt_feature.data
文件名不可更改mmdt_feature.data
文件时,分类器默认是用python_mmdt
的特征向量集mmdt_feature.label
文件时,分类器仍可以工作,但是判定结果仅输出是否识别文件,而不会输出对应的判定标签# ? mmdt-classify . 0.8 1
# ...
# ./APT28_5,1.000000,group_apt28,39.660364
# ./APT28_2,0.992930,group_apt28,44.917703
# ./APT28_23,1.000000,group_apt28,39.682770
# ...
# 注意:缺失mmdt_feature.label文件时,只会输出是否匹配,而不会输出对应标签
# ? mmdt-classify . 0.8 1
# ...
# ./APT28_5,1.000000,matched_0,39.660364
# ./APT28_2,0.992930,matched_0,44.917703
# ./APT28_23,1.000000,matched_0,39.682770
# ...
$ mmdt-classify $file_or_path $sim_value $classify_type
python_mmdt
的核心功能,实现未知样本的快速识别。mmdt-classify . 0.8 1
表示对当前目录下的文件进行分类,分类判定分值设定为0.8,分类算法采用1(简单分类算法)。
本篇主要介绍了python_mmdt
的一种简单分类应用。在实际使用简单分类器时,python_mmdt
会将特征向量集合转成简单分类特征库,通过查找相等的索引哈希,计算对应mmdt_hash
的相似度,满足判定分值,则返回判定结果。利用python_mmdt
,可以实现自动特征的提取、积累、复用,通过不断的积累,期待实现“见过即可查”的目标。
如果恶意代码分析人员,可以共建一个mmdt_hash
特征向量库,一定可以大大方便恶意代码分析这件事。设想一下,每个特征向量20个字节,1亿条特征向量的集合大小也就2G左右,1亿条特征向量可以检出的恶意代码数量可能达到上百亿,上千亿,提供的保护覆盖面就广阔的多了。更重要的,共享的mmdt_hash
值也不会导致原始文件信息的泄漏,但却能提供非常有价值的信息。
另外,目前python_mmdt
直接对压缩包类型的文件计算敏感哈希,其mmdt_hash
值常常不可用,后续会尝试对压缩包进行解压缩,计算实际文件。当前使用哈希索引匹配的的方式,虽然效率高,但是漏报率也高。后续会尝试使用KNN算法对特征向量集合进行计算,提高基检出率。
python_mmdt:从0到1--实现简单恶意代码分类器(二)
原文:https://www.cnblogs.com/ddvv/p/14324454.html