1. 程式人生 > >關於那些羞羞的不可描述的動作分析,一個正經的機器學習專案

關於那些羞羞的不可描述的動作分析,一個正經的機器學習專案

640?wx_fmt=jpeg

參加 2018 AI開發者大會,請點選 ↑↑↑


作者 | Unknown

譯者 | czh912019784

編輯 | 查無此人

出品 | AI科技大本營


現在,機器學習已經應用在各行各業中,開發工程師隊伍越發壯大,其中有一類工程師的工作內容在外行人眼裡似乎更”豐富多彩“,那就是鑑黃師。現在我們看到的視訊都是經過他們本人或他們研發的技術處理而來。就在大家致力從音、言、畫等全方位鑑黃時,有一個逆風而上的團隊,正在利用機器學習研究著一項非同一般的任務。


剛拿到這篇論文的時候,營長是拒絕的,畢竟原文作者都沒有署名。目前就知道這項史無前例的工作是由德國一家公司 Very Intelligent Ecommerce Inc 委託進行的,並將研究和調研成果應用到專案 Autoblow AI 中,旨在使他們的成人智慧玩具更加人性化。(關於這個專案大家可自行搜尋瞭解更多... ...) 


下面營長還是”竭盡所能“地為大家介紹一下這項羞羞的機器學習學術研究專案。研究人員通過分析並標記超過 108 小時的愛情動作視訊,利用聚類分析發現了 16 種”典型“或”常見“的 blowjob(以下簡稱 bj)動作片段,以此設計和評估一個通過使用深度學習來生成完整全過程 bj 的系統。這個系統優於簡單的馬爾科夫鏈模型。雖然內容敏感,但,是真學術!(一本正經臉)欲知詳情,下文繼續為你分解。


640?wx_fmt=jpeg


資料集


我們將獲取到的色(xue) 情(xi) 視訊進行剪下,處理後僅包含 bj 的片段。然後手動對這些片段進行標註,並記錄下嘴巴的位置資訊序列,該位置記錄為整數,其中 1000 和 0 分別表示尖端和基部。(向資料標註工程師獻上我的膝蓋)


640?wx_fmt=gif



為了便於研究,我們使用線性插值技術將視訊和標註標準化為每秒16幀,最終把視訊中剪切出來的 1060 個剪輯處理成 6270467 個標準化幀,這 1060 個剪輯由 109 個小時的視訊中所得來。


640?wx_fmt=png


動作分析


對 Autoblow AI 的設定程式有一個基本的瞭解有助於分析此項研究。Autoblow AI 有十種模式,每一種模式都代表著一系列的動作。上或下運動速度的不同就產生了不同的動作,其中速度可用電機來控制。兩到三個不同的動作連續釋放也可以創造出複雜的動作模式。圖 1 給出了一個基於三種動作模式的分析例子:


640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

640?wx_fmt=png

圖 1 基於三種不同模式而創造出的複雜模式示例


我們能夠清楚地看到運動具有周期性以及隨著時間的變化動作的狀態情況,其中包括停頓和中斷。基於上千個這類的片段,我們能夠構建模型來識別資料集中常見或典型的動作。


640?wx_fmt=jpeg


k 均值聚類


我們首先使用k 均值聚類演算法來進行研究,該演算法雖然存在很多缺點,但是它的運算速度快。


我們將每個視訊分割成一個個一秒鐘的視窗,按每個視窗的位置序列給出一組 16 維的向量。之後採用k 均值來找到 16 個聚類。下圖 2 和 3 給出了每一個類別位置序列的平均值,以及每一個類別中 100 個樣本的具體位置序列。


640?wx_fmt=png

圖 2 16 種類別中嘴位置序列的平均值


640?wx_fmt=png

圖 3 每一類別上100個樣本中嘴的具體位置序列


為了進一步驗證我們的假設,我們使用了最近開發的一種被稱為UMAP 的降維技術來減少聚類的數量,以便能在二維和三維中對資料進行視覺化。其結果如圖 4 所示。


640?wx_fmt=png


640?wx_fmt=png

圖 4 使用 UMAP 降維後資料的分佈圖


我們能從圖中看到許多令人信服的結構。比如類別 5 和類別 2 的資料,它們分別代表著在頂部和底部附近進行活動,而圖中這兩類資料也是處在相互對立的點上。再比如類別 1 和 5 的資料,它們都代表著在頂部進行活動,圖中這兩類資料正好也是彼此相鄰。我們還能從圖中觀察到一條介於兩端點之間密集的線,這條線貫穿了所有表示低強度的動作(5,12,7,3,13,2) 的資料點,這一結構也與現實中 bj時,從最高點到最低點來回活動相符。


這個圖表值得我們去細細分析,在目前這些驗證就足以讓我們去相信資料之間是呈現出某種趨勢的。這些資料能夠為我們建立更加複雜的動作模型做支撐。


640?wx_fmt=jpeg


程式生成


如上所述,一個完整的 bj過程是由一系列的動作來組成的。在上一節中,我們已經確定了在一秒鐘內發生的典型動作。下一步我們要做的是找到這些動作之間常見的演變順序。


這個問題與自然語言中 ‘猜猜下一個詞會是啥’ 的問題有頗多相似之處。以下漫畫最能說明這個問題。


640?wx_fmt=png


我們希望從上一節中構建出來的模組來組成一個典型的 bj過程。我們首先建立了一個以馬爾可夫鏈為基線的簡單模型,之後又設計了一個深度學習模型來作為替代,並定量比較了兩種模型的優劣。


馬爾可夫鏈模型


馬爾可夫鏈背後的原理很簡單:假設下一步的動作僅取決於當前的位置,而不是先前的動作。例如:假設我們剛剛完成了動作 1;在此基礎上,我們知道我們再次做動作 1 的概率為 50%,30% 的概率做動作 2,15% 的概率做動作 3,等等。然後根據概率隨機選擇下一個動作來生成一個 ‘唯一’ 的動作順序。


因此,我們先計算了一個模式由另一個模式引起的頻率,並驗證了此概率與直覺相符。之後採用這些概率生成唯一的動作順序,並使用簡單的移動平均進行平滑處理。結果如下圖 5 所示。


640?wx_fmt=png

圖 5 一個由馬爾可夫鏈模型生成的完整 ‘不可描述動作’ 過程


馬爾可夫鏈的問題很明顯,就是假設下一狀態的概率僅取決於當前的狀態。而事實上,下一狀態的概率會取決於先前的許多狀態。


另一個問題是在預測下一狀態時,還需知道先前狀態哪一個對下一狀態影響最大。深度學習能夠在 “複雜又非顯而易見相關性” 的問題上大展身手。


Dense Neural Network (DNN) 模型


在本節中,我們設計了一個DNN 架構,該架構能夠基於先前的狀態預測出下一步的狀態。


本文中,使用了一個簡單的兩層體系結構,把最後的16種狀態作為模型的輸入,輸出為範圍在 0 到 1 之間的關於 16 種狀態的概率值。用零向量來表示“缺失”狀態(如視訊開始前的一小段)。通過縱向連線先前的狀態向量來建立輸入,以交叉熵作為損失函式,訓練資料與測試資料的比值為 8:2。


模型效能的好壞很大程度上取決於訓練資料與測試資料的切分情況,為了解決這一隨機誤差帶來的影響,我們重複了 10 次試驗,每次都使用不同的隨機種子來分割資料。下面我們將定性地分析一個由模型產生的動作演變順序(如圖 6 所示)。


640?wx_fmt=png

圖 6 由 DNN 模型產生的一個完整 bj過程


模型比較


在本節中,我們將定量地分析這兩種模型。定性地說,DNN 模型具有更好的魯棒性,因為它被鎖定在單一狀態下的可能性要小很多。對於預測來講,首先要考慮的是預測的準確性。圖 7 表示DNN 在不同任務上的預測準確率。


640?wx_fmt=png

圖 7 DNN 在不同任務上的預測準確率


通過計算得到的馬爾可夫鏈模型的準確率約為 58.08%,略低於神經網路的平均精度。


為了證明結果的可信度,我們還引入了 “相對錯誤” 這一度量指標。下面給出一個小例子以便理解相對錯誤。當你在預測是否會下雨時,如果回答百分百下雨,但結果沒下雨,那麼你的預測就完全錯誤。但如果你預測百分之八十下雨,結果沒下雨,那麼意味著你只錯了百分之八十。



根據這一思路,我們重新計算了兩種模型的平均絕對誤差,DNN 模型的誤差如圖 8 所示,而馬爾可夫鏈模型的誤差計算結果為 1.126。從這一結果也能表明DNN 模型優於馬爾可夫鏈模型。


640?wx_fmt=png

圖 8 DNN 模型在不同任務上的平均絕對誤差


未來的研究


第一,我們相信程式生成能夠被改善。DNN 架構的替代方案包括迴圈神經網路、卷積神經網路和生成對抗網路。我們之後打算使用這些技術來改善動作演變順序的真實性。當然,演變順序得以物理硬體的限制為前提。


第二,我們認為類似的分析可以適用於其他情色行為,本文中以 bj 為主題,服務於Autoblow AI。


第三,我們希望能將研究擴充套件到影象識別和視訊分類中去。現在我們已經開發出一個可用於識別靜止幀中是否存在 bj行為的模型,並且正在研究更為複雜的視訊分析問題。接下來研究的重點會著眼於如何將性玩具與色情內容實現同步。


原文連結:

https://www.autoblow.com/bjpaper/


--【完】--


2018 AI開發者大會


AI技術年度盛會即將開啟!11月8-9日,來自Google、Amazon、微軟、Facebook、LinkedIn、阿里巴巴、百度、騰訊、美團、京東、小米、位元組跳動、滴滴、商湯、曠視、思必馳、第四正規化、雲知聲等企業的技術大咖將帶來工業界AI應用的最新思維。


如果你是某個AI技術領域的專業人才,或想尋求將AI技術整合至傳統企業業務當中,掃碼填寫大會註冊資訊表,我們將從中挑選出20名相關性最高的幸運讀者,送出單場分論壇入場券。大會嘉賓陣容和議題,請檢視文末海報。


640?wx_fmt=png


此外,如果你想與所有參會大牛充分交流溝通,點選閱讀原文購票,使用優惠碼:AI2018-DBY 購買兩日通票,立減999元;此外大會還推出了1024定製票,主會+分會自由組合,精彩隨心。


640?wx_fmt=jpeg


推薦閱讀

【面試現場】如何程式設計獲得最多的年終紅包獎?

你最關心的馬蜂窩事件輿論全景圖在這裡,用文字挖掘一挖到底

影響 5000 萬開發者,GitHub 與 CSDN 掌舵人對話技術社群未來

區塊鏈vs.DAG, 區別到底是什麼? 一文讀懂燒腦的資料結構之爭

YC陸奇發起知乎第一問:怎樣的環境才能讓更多AI創業公司成功?

肖仰華談知識圖譜:知識將比資料更重要,得知識者得天下


點選閱讀原文,檢視大會更多詳情。2018 AI開發者大會——擺脫焦慮,擁抱技術前沿。