模糊雜湊演算法工具ssdeep的使用

阿新 • • 發佈：2019-01-16

轉自：http://blog.csdn.net/chichoxian/article/details/54849406

引言

ssdeep 是一個用來計算context triggered piecewise hashes(CTPH) 基於文字的分片雜湊演算法，同樣也可以叫做模糊雜湊 Fuzzy hashes。CTPH可以匹配同源文件（相似文件），這樣的文件可能有一些順序相同的位元組，儘管這些位元組可能在一個序列中長度和內容都不盡相同。

這個是 ssdeep 的程式碼和使用指南連結： ssdeep code

注意，在安裝的時候，如果你使用的是預設的安裝路徑/usr/local/bin.這個時候你必須要獲得root許可權，可以使用sudo 來完成

    $ sudo make install

基本操作

一般情況下，ssdeep能對每一個檔案產生CTPH，模糊雜湊。

產生的方法如下：

C:\temp> ssdeep config.h INSTALL doc\README

得到的結果如下：

ssdeep,1.0--blocksize:hash:hash,filename
96:KQhaGCVZGhr83h3bc0ok3892m12wzgnH5w2pw+sxNEI58:FIVkH4x73h39LH+2w+sxaD,"C:\temp\config.h"
96:MD9fHjsEuddrg31904l8bgx5ROg2MQZHZqpAlycowOsexbHDbk 
:MJwz/l2PqGqqbr2yk6pVgrwPV,"C:\temp\INSTALL"
96:EQOJvOl4ab3hhiNFXc4wwcweomr0cNJDBoqXjmAHKX8dEt001nfEhVIuX0dDcs:3mzpAsZpprbshfu3oujjdENdp21,"C:\temp\doc\README

注意得到的結果輸出是檔案的全路徑。我們可以使用ssdeep 來得到檔案的相對路徑，為了得到相對路徑我們可以使用引數 -l ，重複上面的例子，我們使用引數-l來得出我們的結果

C:\temp> ssdeep -l config.h INSTALL doc\README
ssdeep,1.0–blocksize:hash:hash,filename
96:KQhaGCVZGhr83h3bc0ok3892m12wzgnH5w2pw+sxNEI58:FIVkH4x73h39LH+2w+sxaD,”config.h”
96:MD9fHjsEuddrg31904l8bgx5ROg2MQZHZqpAlycowOsexbHDbk:MJwz/l2PqGqqbr2yk6pVgrwPV,”INSTALL”
96:EQOJvOl4ab3hhiNFXc4wwcweomr0cNJDBoqXjmAHKX8dEt001nfEhVIuX0dDcs:3mzpAsZpprbshfu3oujjdENdp21,”doc\README”

如果你只想輸出檔名我們可以使用引數 -b ，例子如下：

C:\temp> ssdeep -b config.h INSTALL \doc\README
ssdeep,1.0--blocksize:hash:hash,filename
96:KQhaGCVZGhr83h3bc0ok3892m12wzgnH5w2pw+sxNEI58:FIVkH4x73h39LH+2w+sxaD,"config.h"
96:MD9fHjsEuddrg31904l8bgx5ROg2MQZHZqpAlycowOsexbHDbk:MJwz/l2PqGqqbr2yk6pVgrwPV,"INSTALL"
96:EQOJvOl4ab3hhiNFXc4wwcweomr0cNJDBoqXjmAHKX8dEt001nfEhVIuX0dDcs:3mzpAsZpprbshfu3oujjdENdp21,"README"錯誤資訊

如果我們沒有指定特定的檔案，這個時候一個錯誤資訊提示就會出現

C:\temp> ssdeep
ssdeep: No input files

ssdeep 不支援管道操作。如果一個輸入檔案沒有找到，ssdeep將會提示出一個錯誤的資訊，如果想要忽略這個錯誤的資訊，我們可以使用-s這個操作

C:\temp> ssdeep doesnotexist.txt
ssdeep: C:\temp\doesnotexist.txt: No such file or directory
C:\temp> ssdeep -s doesnotexist.txt
C:\temp>

迭代模式(Recursive Mode)

一般情況下如果我們嘗試處理一個目錄的話那麼將會產生一個錯誤的資訊，在迭代模式下，ssdeep 將會雜湊該目錄下的所有檔案，以及這個目錄檔案下的子目錄的所有檔案，迭代模式可以使用 -r引數

C:\temp> ssdeep *
ssdeep: C:\temp\backups Is a directory
ssdeep,1.0--blocksize:hash:hash,filename
96:KQhaGCVZGhr83h3bc0ok3892m12wzgnH5w2pw+sxNEI58:FIVkH4x73h39LH+2w+sxaD,"config.h"
ssdeep: C:\temp\www Is a directory

C:\temp> ssdeep -r *
ssdeep,1.0--blocksize:hash:hash,filename
768:McAQ8tPlH25e85Q2OiYpD08NvHmjJ97UfPMO47sekO:uN9M553OiiN/OJ9MM+e3,"C:\temp\backups\mystuff.zip"
384:bcEKuglk+GUYIk90a1lEF+Wfsy2solvW8mK1enQXP79:bmlFGUNk9L1roy4K1enQ,"C:\temp\backups\ssdeep.exe"
96:CFzROqsgconvv7uUo6jTcEGEvpVCN116S:CNVnqj8cMVCv16,"C:\temp\backups\foo.doc"
96:KQhaGCVZGhr83h3bc0ok3892m12wzgnH5w2pw+sxNEI58:FIVkH4x73h39LH+2w+sxaD,"config.h"
96:aN0jOc0WlWW+LWQnjv7ufGcE5ESr5YaZ6uicEDEO9VCN116Sb5EutkB:aSeoF+L/zqfGtfr5YiWcsVCv16W5htk,"C:temp\www\index.html"

匹配模式

在ssdeep 中最強大的功能就是匹配輸入檔案的雜湊和一系列已知的hash值做比較，由於模糊雜湊的不嚴格性，注意這裡指的是ssdeep能夠指示兩個檔案是匹配，但是這不以為著這些檔案是相關的。你應該獨立的檢測每一對檔案的相似性，看他們是怎麼相關的。

我們建立一個檔案叫做foo.txt 這個時候我們複製foo.txt 到檔案bar.txt中

$ ls -l foo.txt
-rw-r--r--   1 jessekor  jessekor  240 Oct 25 08:01 foo.txt

$ cp foo.txt bar.txt
$ echo 1 >> bar.txt

這個時候我們用傳統的加密hash演算法MD5他並不能匹配這兩個hash, 因為只要一個位元組的輕微變動都會使得他們的hash產生巨大的變化。

$ md5deep foo.txt bar.txt
7b3e9e08ecc391f2da684dd784c5af7c /Users/jessekornblum/foo.txt
32436c952f0f4c53bea1dc955a081de4 /Users/jessekornblum/bar.txt

但是對於這種情況，fuzzy hashing卻可以做到，我們首先計算foo.txt的hash值，然後把它儲存到hashes.txt這個檔案中，這個時候我們比較foo.txt檔案的hash值，和bar.txt的hash值看它們之間的相似程度

在這裡我們使用引數-m ，-m 需要後面接兩個引數，一個是一個已知的檔案的hash值，另一個是輸入的檔案（需要比較的檔案）

$ ssdeep -b foo.txt > hashes.txt
$ ssdeep -bm hashes.txt bar.txt
bar.txt matches foo.txt (64)

在括號裡面的值是相似度得分，這個分數越高就說明這兩個檔案越相似

原始碼複用檢測

ssdeep 最實用的功能就是匹配功能，你可以使用ssdeep 的匹配模式來找出原始碼的複用。假設有兩個資料夾，在這些資料夾中包含了一堆程式碼，我們可以先計算出一個資料夾下的樹結構上的所有檔案的hash值在和另外的一個資料夾下的所有檔案進行一一比對，找出相似程式碼。

假設一個資料夾叫做md5deep-1.12 和一個資料夾叫做ssdeep-1.1,我們比較這兩個資料夾下的程式碼複用情況

C:\> ssdeep -lr md5deep-1.12 > md5deep-hashes.txt

C:\>ssdeep -lrm md5deep-hashes.txt ssdeep-1.1
ssdeep-1.1\cycles.c matches md5deep-1.12\cycles.c (94)
ssdeep-1.1\dig.c matches md5deep-1.12\dig.c (35)
ssdeep-1.1\helpers.c matches md5deep-1.12\helpers.c (57)

模糊雜湊演算法工具ssdeep的使用

轉自：http://blog.csdn.net/chichoxian/article/details/54849406

引言

基本操作

迭代模式(Recursive Mode)

匹配模式

原始碼複用檢測

模糊雜湊演算法工具ssdeep的使用

QMap QHash的選擇（QString這種複雜的比較，雜湊演算法比map快很多）

java中的雜湊演算法和hashcode深入講解

密碼學之Hash雜湊演算法

據說，80%的人都搞不懂雜湊演算法區塊鏈雜湊演算法

hashcode和equals及雜湊演算法理解

資料結構與演算法之美專欄學習筆記-雜湊演算法

密碼學(對稱與非對稱密碼雜湊演算法)

<Golang>MD5、SHA256等雜湊演算法介紹、應用場景及具體實現

MySQL索引演算法——雜湊演算法

https是如何加密的（知道了原理之後，希望自己能用程式碼實現一下，還有用於對個人資訊和公鑰進行加密的雜湊演算法，有時間也去查一下）

4.4.2 python 字串雙指標/雜湊演算法2 —— Substring with Concatenation of All Words & Group Anagrams

4.4.1 python 字串雙指標/雜湊演算法1—— Reverse Vowels of a String & Longest Substring Without Repeating Char

資料結構與算法系列16--雜湊演算法

LeetCode | 你不得不瞭解的雜湊演算法！

十一、雜湊演算法

關於一致性雜湊演算法

解讀：DENC加密演算法—雜湊演算法

【LeetCode】1. Two Sum + 雜湊演算法

【轉】一致性雜湊演算法

模糊雜湊演算法工具ssdeep的使用

轉自：http://blog.csdn.net/chichoxian/article/details/54849406

引言

基本操作

迭代模式(Recursive Mode)

匹配模式

原始碼複用檢測

相關推薦