檢測用戶命令序列異常——使用LSTM分類算法

阿新 • • 發佈：2018-11-22

trac sta red index with open .py dex rip utils

通過搜集 Linux 服務器的 bash 操作日誌，通過訓練識別出特定用戶的操作習慣，然後進一步識別出異常操作行為。

使用 SEA 數據集涵蓋 70 多個 UNIX 系統用戶的行為日誌，這些數據來自 UNIX 系統 acct 機制記錄的用戶使用的命令。 SEA 數據集中每個用戶都采集了 15000 條命令，從用戶集合中隨機抽取 50 個用戶作為正常用戶，剩余用戶的命令塊中隨機插入模擬命令作為內部偽裝者攻擊數據。其中訓練集合大小為 80，測試集合大小為 70。

數據集示意：

cpp
sh
xrdb
cpp
sh
xrdb
mkpts
test
stty
hostname
date
echo
[
find
chmod
tty
echo
env
echo
sh
userenv
wait4wm
xhost
xsetroot
reaper
xmodmap
sh
[
cat
stty
hostname
date
echo
[
find
chmod
tty
echo
sh
more
sh
more
sh
more
sh
more
sh
more
sh
more
sh
more
sh
more
sh
more
sh
more
sh
more
sh
launchef
launchef
sh
9term
sh
launchef
sh
launchef
hostname
[
cat
stty
hostname
date
echo
[
find
chmod
tty
echo
sh
more
sh
more
sh
ex
sendmail
sendmail
sh
MediaMai
sendmail
sh
rm
MediaMai
sh
rm
MediaMai
launchef
launchef
sh
sh
more
sh
sh
rm
MediaMai
netstat
netscape
netscape
netscape
netscape
netscape
netscape
netscape
netscape
netscape
netscape
netscape
netscape
netscape
netscape
netscape
netscape
netscape
netscape
netscape
sh
netscape
more
sh
rm
sh
MediaMai
=
telnet
tput
netscape
netscape
netscape
netscape
netscape

# -*- coding:utf-8 -*-

import sys

import re
import numpy as np


import nltk
import csv
import matplotlib.pyplot as plt
from nltk.probability import FreqDist
from sklearn.feature_extraction.text import CountVectorizer

from sklearn import cross_validation
from tflearn.data_utils import to_categorical, pad_sequences
from tflearn.datasets import imdb
import tflearn

#測試樣本數
N=80

def load_user_cmd_new(filename):
    cmd_list=[]
    dist=[]
    with open(filename) as f:
        i=0
        x=[]
        for line in f:
            line=line.strip(‘\n‘)
            x.append(line)
            dist.append(line)
            i+=1
            if i == 100:
                cmd_list.append(x)
                x=[]
                i=0

    fdist = FreqDist(dist).keys()
    return cmd_list,fdist

def load_user_cmd(filename):
    cmd_list=[]
    dist_max=[]
    dist_min=[]
    dist=[]
    with open(filename) as f:
        i=0
        x=[]
        for line in f:
            line=line.strip(‘\n‘)
            x.append(line)
            dist.append(line)
            i+=1
            if i == 100:
                cmd_list.append(x)
                x=[]
                i=0

    fdist = FreqDist(dist).keys()
    dist_max=set(fdist[0:50])
    dist_min = set(fdist[-50:])
    return cmd_list,dist_max,dist_min

def get_user_cmd_feature(user_cmd_list,dist_max,dist_min):
    user_cmd_feature=[]
    for cmd_block in user_cmd_list:
        f1=len(set(cmd_block))
        fdist = FreqDist(cmd_block).keys()
        f2=fdist[0:10]
        f3=fdist[-10:]
        f2 = len(set(f2) & set(dist_max))
        f3=len(set(f3)&set(dist_min))
        x=[f1,f2,f3]
        user_cmd_feature.append(x)
    return user_cmd_feature

def get_user_cmd_feature_new(user_cmd_list,dist):
    user_cmd_feature=[]
    for cmd_list in user_cmd_list:
        x=[]
        for cmd in  cmd_list:
            v = [0] * len(dist)
            for i in range(0, len(dist)):
                if cmd == dist[i]:
                    v[i] = 1
            x.append(v)
        user_cmd_feature.append(x)
    return user_cmd_feature

def get_label(filename,index=0):
    x=[]
    with open(filename) as f:
        for line in f:
            line=line.strip(‘\n‘)
            x.append( int(line.split()[index]))
    return x


def do_knn(x_train,y_train,x_test,y_test):
    neigh = KNeighborsClassifier(n_neighbors=3)
    neigh.fit(x_train, y_train)
    y_predict=neigh.predict(x_test)
    score = np.mean(y_test == y_predict) * 100

    print  score


def do_rnn(x_train,x_test,y_train,y_test):
    global n_words
    # Data preprocessing
    # Sequence padding
    print "GET n_words embedding %d" % n_words


    #x_train = pad_sequences(x_train, maxlen=100, value=0.)
    #x_test = pad_sequences(x_test, maxlen=100, value=0.)
    # Converting labels to binary vectors
    y_train = to_categorical(y_train, nb_classes=2)
    y_test = to_categorical(y_test, nb_classes=2)

    # Network building
    net = tflearn.input_data(shape=[None, 100,n_words])
    net = tflearn.lstm(net, 10,  return_seq=True)
    net = tflearn.lstm(net, 10, )
    net = tflearn.fully_connected(net, 2, activation=‘softmax‘)
    net = tflearn.regression(net, optimizer=‘adam‘, learning_rate=0.1,name="output",
                             loss=‘categorical_crossentropy‘)

    # Training

    model = tflearn.DNN(net, tensorboard_verbose=3)
    model.fit(x_train, y_train, validation_set=(x_test, y_test), show_metric=True,
             batch_size=32,run_id="maidou")


if __name__ == ‘__main__‘:
    user_cmd_list,dist=load_user_cmd_new("../data/MasqueradeDat/User7")
    #print  "Dist:(%s)" % dist
    n_words=len(dist)
    user_cmd_feature=get_user_cmd_feature_new(user_cmd_list,dist)

    labels=get_label("../data/MasqueradeDat/label.txt",6)
    y=[0]*50+labels

    x_train=user_cmd_feature[0:N]
    y_train=y[0:N]

    x_test=user_cmd_feature[N:150]
    y_test=y[N:150]

    #print x_train

    do_rnn(x_train,x_test,y_train,y_test)

效果：

檢測用戶命令序列異常——使用LSTM分類算法

trac sta red index with open .py dex rip utils 通過搜集 Linux 服務器的 bash 操作日誌，通過訓練識別出特定用戶的操作習慣，然後進一步識別出異常操作行為。使用 SEA 數據集涵

檢測用戶命令序列異常——使用LSTM分類算法

檢測用戶命令序列異常——使用LSTM分類算法

檢測使用者命令序列異常——使用LSTM分類演算法【使用樸素貝葉斯，類似垃圾郵件分類的做法也可以，將命令序列看成是垃圾郵件】

使用python檢測用戶登陸狀態

asp檢測用戶是否登錄狀態

用戶自定義異常

ubuntu新建組合用戶命令不管用

為什麽聚類不能用來作分類算法？

SparkMLlib學習分類算法之邏輯回歸算法

SparkMLlib分類算法之決策樹學習

matlab 實現感知機線性二分類算法（Perceptron）

樸素貝葉斯分類算法

分類算法：決策樹（C4.5）(轉)

KNN分類算法補充

樸素貝葉斯分類算法介紹及python代碼實現案例

Spark 貝葉斯分類算法

27-如何度量分類算法的性能好壞（Scoring metrics for classification）

機器學習二——分類算法--決策樹DecisionTree

uva 1608 不無聊的序列（附帶常用算法設計和優化策略總結）

Python機器學習：7.2 結合不同的分類算法進行投票

機器學習實戰 k-近鄰算法實施kNN分類算法

檢測用戶命令序列異常——使用LSTM分類算法

相關推薦