如何用Pytorch提取視訊單幀網路特徵+SVM分類

阿新 • • 發佈：2019-01-28

1、提取網路特徵

import os
os.environ['CUDA_VISIBLE_DEVICES'] = '3'
os.system('echo $CUDA_VISIBLE_DEVICES')

import torch
import torch.nn as nn
from torchvision import transforms, models
from torch.autograd import Variable

import numpy as np
from PIL import Image

def pre_image(image_path):
    trans = transforms.Compose([transforms.Resize(256),
                                transforms.CenterCrop(224),
                                transforms.ToTensor()])

    img = Image.open(image_path)
    img = trans(img)
    x = Variable(torch.unsqueeze(img,dim=0).float(),requires_grad=False).cuda()
    return x

model = models.resnet152(pretrained=True).cuda()
extractor = nn.Sequential(*list(model.children())[:-1])

feature_path = '/data/FrameFeature/Penn/'
video_path = '/home/UPenn_RGB/frames/'
for video in os.listdir(video_path):
    for frame in os.listdir(os.path.join(video_path,video)):
        image_path = video_path+video+'/'+frame
        x = pre_image(image_path)
        y = extractor(x)
        y = y.data.cpu().numpy().reshape(1,2048)
        if not os.path.exists(feature_path+video):
            os.mkdir(feature_path+video)
        np.savetxt(feature_path+video+'/'+frame.split('.')[0]+'.txt',y,delimiter=',')
    print video

2、時域pooling以及SVM分類器訓練

import os
import numpy as np
import h5py
from sklearn import svm

def load_feature(video_name):
    frames = os.listdir(video_name)
    feature = []
    for frame in frames:
        frame_path = os.path.join(video_name,frame)
        feature.append(np.loadtxt(frame_path,delimiter=','))
    feature = np.asarray(feature)
    return feature

def mean_pool(feature):
    return np.mean(feature,axis=0)

def max_pool(feature):
    return np.max(feature,axis=0)

def min_pool(feature):
    return np.min(feature,axis=0)

if __name__ == '__main__':
    ''' Save Data '''
    # with open('/data/FrameFeature/Penn_train.txt','r') as fp:
    #     mean_feat,max_feat,min_feat,diff_feat,dyna_feat,label=[],[],[],[],[],[]
    #     for line in fp.readlines():
    #         video_name = line.strip().split(' ')[0]
    #         video_label= int(line.strip().split(' ')[1])
    #         video_name = '/data/FrameFeature/Penn/'+video_name
    #         print video_name+'\ttrain'
    #         feature = load_feature(video_name)
    #         mean_feat.append(mean_pool(feature))
    #         max_feat.append(max_pool(feature))
    #         min_feat.append(min_pool(feature))
    #         diff_feat.append(sum_diff_pool(feature))
    #         dyna_feat.append(dynamic_pool(feature))
    #         label.append(video_label)
    # train_mean = np.asarray(mean_feat); del mean_feat
    # train_max  = np.asarray(max_feat);  del max_feat
    # train_min  = np.asarray(min_feat);  del min_feat
    # train_diff = np.asarray(diff_feat); del diff_feat
    # train_dyna = np.asarray(dyna_feat); del dyna_feat
    # train_label= np.asarray(label);     del label
    # h5file = h5py.File('/data/FrameFeature/Penn_train.h5','w')
    # h5file.create_dataset('train_mean',data=train_mean)
    # h5file.create_dataset('train_max',data=train_max)
    # h5file.create_dataset('train_min',data=train_min)
    # h5file.create_dataset('train_diff',data=train_diff)
    # h5file.create_dataset('train_dyna',data=train_dyna)
    # h5file.create_dataset('train_label',data=train_label)
    # h5file.close()
    #
    #
    # with open('/data/FrameFeature/Penn_test.txt','r') as fp:
    #     mean_feat,max_feat,min_feat,diff_feat,dyna_feat,label=[],[],[],[],[],[]
    #     for line in fp.readlines():
    #         video_name = line.strip().split(' ')[0]
    #         video_label= int(line.strip().split(' ')[1])
    #         video_name = '/data/FrameFeature/Penn/'+video_name
    #         print video_name+'\ttest'
    #         feature = load_feature(video_name)
    #         mean_feat.append(mean_pool(feature))
    #         max_feat.append(max_pool(feature))
    #         min_feat.append(min_pool(feature))
    #         diff_feat.append(sum_diff_pool(feature))
    #         dyna_feat.append(dynamic_pool(feature))
    #         label.append(video_label)
    # test_mean = np.asarray(mean_feat); del mean_feat
    # test_max  = np.asarray(max_feat);  del max_feat
    # test_min  = np.asarray(min_feat);  del min_feat
    # test_diff = np.asarray(diff_feat); del diff_feat
    # test_dyna = np.asarray(dyna_feat); del dyna_feat
    # test_label= np.asarray(label);     del label
    # h5file = h5py.File('/data/FrameFeature/Penn_test.h5','w')
    # h5file.create_dataset('test_mean',data=test_mean)
    # h5file.create_dataset('test_max',data=test_max)
    # h5file.create_dataset('test_min',data=test_min)
    # h5file.create_dataset('test_diff',data=test_diff)
    # h5file.create_dataset('test_dyna',data=test_dyna)
    # h5file.create_dataset('test_label',data=test_label)
    # h5file.close()
    ''' Read Data '''
    h5file = h5py.File('/data/FrameFeature/Penn_train.h5','r')
    train_mean = h5file['train_mean'][:]
    train_max  = h5file['train_max'][:]
    train_min  = h5file['train_min'][:]
    train_diff = h5file['train_diff'][:]
    train_dyna = h5file['train_dyna'][:]
    train_label= h5file['train_label'][:]
    h5file.close()

    h5file = h5py.File('/data/FrameFeature/Penn_test.h5','r')
    test_mean = h5file['test_mean'][:]
    test_max  = h5file['test_max'][:]
    test_min  = h5file['test_min'][:]
    test_diff = h5file['test_diff'][:]
    test_dyna = h5file['test_dyna'][:]
    test_label= h5file['test_label'][:]
    h5file.close()

    ''' Train SVM '''
    SVM = svm.SVC(kernel='linear')
    # Mean
    SVM.fit(train_mean, train_label)
    print 'Mean: ' + str(SVM.score(test_mean, test_label))
    # Max
    SVM.fit(train_max, train_label)
    print 'Max: ' + str(SVM.score(test_max, test_label))
    # Min
    SVM.fit(train_min, train_label)
    print 'Min: ' + str(SVM.score(test_min, test_label))

如何用Pytorch提取視訊單幀網路特徵+SVM分類

1、提取網路特徵import os os.environ['CUDA_VISIBLE_DEVICES'] = '3' os.system('echo $CUDA_VISIBLE_DEVICES') import torch import torch.nn as nn fro

linux系統，CentOS7.2安裝ffmpeg擴充套件，PHP用FFmpeg擷取視訊第一幀作為視訊封面，並給圖片新增播放視訊按鈕

最近做公司的專案中，有使用者上傳視訊，後臺這邊接收視訊並上傳，獲取視訊第一幀作為視訊封面的功能，在網上查找了好多資料，並且安裝了ffmpeg-php的PHP擴充套件，由於版本問題，安裝好幾個版本都不成功，最後放棄安裝擴充套件，後來執行程式碼發現不用安裝那個擴充套件也能實現截圖並上傳的功能，所以要擷

用java實現視訊截幀的方法

在軟體系統中有時在wed端、移動端顯示視訊時，如果同時顯示多個視訊，有可能會將多個視訊的資料全部裝入記憶體，在一定程度上回影響系統性能。比較好的一中解決方案是顯示視訊的一幀圖片，點選圖片之後即可播放視訊，是一種比較節省記憶體的方法，大型的網站很多也使用此方法，本篇文章主要

OPENCV HOG特徵+SVM分類器行人識別（從訓練到識別）

想要訓練分類器，首先要有樣本，正樣本和負樣本，在這裡就是有人的樣本和沒有人的樣本，我的樣本來源於”INRIA Person Dataset”這個網站，連結為點選開啟連結，在下邊有個藍色here（970M），點選下載即可，也可以去我的網盤下載，地址點選開啟

用OpenCV將視訊分解成單幀圖片

轉自：https://blog.csdn.net/mr_evanchen/article/details/77733978 本文做的是基於opencv將視訊幀轉成圖片輸出，由於一個視訊包含的幀數過多，經常我們並不是需要它的全

opencv 基於內容的視訊關鍵幀提取（以HSV總量為特徵量）

#include "stdafx.h" #include #include "opencv2/core/core.hpp" #include #include using namespace std; using namespace cv; void RGBtoHSV(float b

【caffe配置】在vs2013用已經訓練好的Alexnet網路提取fc6特徵

首先請參照我的上一篇博文，在windows下配置好caffe-windows這個過程不算太複雜。把ubuntu下的caffe環境也配置好，這樣我們就可以在linux環境下訓練網路，並且把訓練好的網路放在windows下的vs工程中進行一次前饋來提取特徵了。在ubuntu的

京東豬臉識別比賽資料預處理：用Python將視訊每一幀提取儲存為圖片

最近參加京東的豬臉識別比賽，訓練集是30個視訊，需要將視訊的每一幀提取出來儲存為圖片，存入對應的資料夾（分類標籤）。本例是直接呼叫了cv2 模組中的 VideoCapture。一次執行，大概10分鐘，就能得到預處理後的分類圖片了，具體程式碼如下。

libVLC提取視訊幀及自定義讀取媒體檔案

hello誒喂八滴跟我一起嗨嗨嗨。。。，阿循今天給大家分享一下最近在學習的開源視訊播放器vlcplayer的一些心得，我這邊是要把這個弄到Unity裡去用，因此提取視訊幀和自定義讀取是很關鍵的功能點，前者可以拿到資料給unity渲染，後者可以在C#層面去做資料功能模組，開發效率美滋滋。 libv

php用ffmpeg擴充套件擷取視訊第一幀的方法

windows 或linux上要安裝ffmpeg擴充套件，安裝方法可以自行百度通過執行外部命令的方式exec()實現，如果是本地視訊很方便，$tempfiles就是完整的視訊路徑；如果是post過來的視訊（僅限.mp4格式），無法用臨時檔案（.tmp）進行擷取，本人的用了個笨方法，

關於視訊關鍵幀提取演算法

系統總體設計監控系統的移動端部署影象關鍵內容的提取資料傳輸加密監控端與使用者身份認證身份認證實時預警實時預警獲取監控關鍵資訊獲取監控關鍵資訊異常行為檢測過程通常分為四個階段：初始化-通過初始化為整個系統處

用pytorch實現多層感知機（MLP)（全連線神經網路FC）分類MNIST手寫數字體的識別

1.匯入必備的包 1 import torch 2 import numpy as np 3 from torchvision.datasets import mnist 4 from torch import nn 5 from torch.autograd import Variable 6

ffmpeg例項，視訊與圖片互轉，視訊轉gif，單幀視訊

視訊與圖片視訊轉gif ffmpeg -i out.mp4 -ss 00:00:00 -t 10 out.gif t的格式 -t 1.1 -t 00:00:01 視訊轉圖片，-r 幀率每秒鐘轉化1張，image2為image協議的第二版 ffmpeg -i

Android在Adapter中獲取網路視訊第一幀（優化）

獲取成功以後使用的是map儲存，key為adapter的position 避免銷燬再次載入 @SuppressLint("UseSparseArrays") private Map<Integer, Bitmap> bitmapMap = new Hash

libVLC 提取視訊每一幀

什麼是幀 DVD 電影中的場景、從 YouTube 下載的剪輯、通過網路攝像頭拍攝的內容。。。無論是視訊還是動畫，都是由一系列靜止的影象組成。然後，這些影象會一個接一個的播放，讓你的眼睛誤以為物體在移動。影象的播放速度越快，動作看起來越流暢，畫面也越逼真。

一種通過雙網路相互促進來優化對動作視訊取幀的演算法。清華特等獎得主CVPR論文筆記

寫在最前面作者田毅是清華大學2018年十名特等獎學金獲得者之一，其在CVPR這一計算機視覺頂級期刊上發表了這篇文章，從微信推送刷到這一資訊起，論文筆記就鎖定這篇論文了，我想知道我和同年級同專業第一梯隊的人究竟差距多大。其特等獎答辯視訊可以在b站上找到。論文名 De

denseflow視訊截幀提取光流工具

本篇部落格介紹如何安裝denseflow工具，由https://github.com/yjxiong/dense_flow提供。這個工具可以對視訊進行截幀，並計算光流儲存到本地，使用了GPU編譯的OpenCV，所以提取速度很快，後續可以用於行為動作識別中，例如two-stream網

[OpenCV] 基於聚類的視訊關鍵幀提取

參考論文： 1.《用非監督式聚類進行視訊鏡頭分割》 2.《一種基於視訊聚類的關鍵幀提取方法》右邊為提取出來的關鍵幀聚類的基本思想是，先把視訊聚成n個類，這n個類內的視訊幀是相似的，而類與類之間的

用pytorch實現GAN——mnist（含有全部註釋和網路思想）

#coding=utf-8 import torch.autograd import torch.nn as nn from torch.autograd import Variable from torchvision import transforms from torchvision impo

CNN提取圖片特徵，之後用SVM分類

https://blog.csdn.net/qq_27756361/article/details/80479278 先用CNN提取特徵，之後用SVM分類，平臺是TensorFlow 1.3.0-rc0，python3.6 這個是我的一個小小的測試，下面這個連結是我主要參考的，在

如何用Pytorch提取視訊單幀網路特徵+SVM分類

相關推薦