AI演算法起家的今日頭條為何敗給了色情?一文告訴你機器學習何以搞不定鑑黃
12月29日,國家網際網路資訊辦公室在官網釋出訊息稱,針對今日頭條、鳳凰新聞手機客戶端持續傳播色情低俗資訊、違規提供網際網路新聞資訊服務等問題,要求北京市網際網路資訊辦公室分別約談兩家企業負責人,責令企業立即停止違法違規行為。
對此,今日頭條乖乖表示,依據有關部門的整改要求, 今日頭條手機客戶端“推薦”、“熱點”、“社會”、“圖片”、“問答”、“財經”6個頻道自2017年12月29日18時至次日18時暫停更新24小時,進入維護狀態。
如此,今日頭條遭遇史上最嚴“整改”,網信辦動真格了。
其實,今日頭條不是第一次被抓小辮子了。
2017年1月,北京市網信辦對今日頭條“頭條問答”欄目中的低俗問答,
2017年今年4月,今日頭條旗下火山直播,由於大量女主播穿著暴露,表演低俗不堪,被北京市網信辦、市公安局等聯合約談,責令限期整改。
對此,人民日報曾以三評演算法推薦系列文章,斥責今日頭條“明明擁有精密演算法和先進的資料抓取技術,卻屢屢遊走在法律的灰色地帶不能自拔。”
真是成也人工智慧,敗也人工智慧。
那麼問題來了,作為純靠人工智慧起家,以迅雷不及掩耳盜鈴之勢,從百度、四大門戶、各類新聞客戶端中橫殺出來,在移動網際網路紅利殆盡之時,搶得大量使用者日均時長,與BAT分食天下的大黑馬,到底能不能靠人工智慧再度打硬這場色情硬仗呢?
這就是營長今日關注的問題,AI到底能不能準確識別色情,能不能真正做到鑑黃?
說到這個問題,營長先帶你們從歷史的角度來看看, 從人工到智慧,網際網路鑑黃的三個發展階段。
網際網路鑑黃的三個階段
在近日結束的第四屆烏鎮網際網路大會上(2017年12月3日-5日),據網易雲安全(易盾)CTO朱浩齊介紹稱,網際網路鑑黃主要分為三個階段。
第一階段:人肉階段
十年前,網際網路剛剛起步,網路資訊還不多,網路環境也不夠穩定,網際網路鑑黃主要走“人肉攻略”,人工肉眼盯著,發現不良圖片及時刪除。
第二階段:演算法過濾階段
隨著網際網路的快速發展,網路資料量開始暴增,人肉已難以為繼。以膚色識別演算法過濾“黃色”圖片成為“鑑黃”主流,機器鑑黃與人工稽核分別佔比為80%:20%。
第三階段:深度學習階段
到了移動網際網路階段,網路資料再次暴增,人工稽核連20%的資料量也無法承受了,加上視訊、直播等業務和資料的爆發式增長,純靠膚色識別演算法作為“過濾”的方式,已經不夠用了。
這時,機器學習開始作為一種新的方式,擔當其網路鑑黃的重任。
“網易雲安全每天為中國網際網路過濾的有害資訊達1億條左右。”朱浩齊介紹到。
那麼,機器學習鑑黃的原理是什麼呢?
機器學習鑑黃圖的原理
朱浩齊介紹稱,“辨別一張圖是不是黃圖,從機器學習的角度看,本質上是一個分類問題:給定一張圖片,讓機器判斷是不是黃圖,因此,技術層面要做的就是研發一個‘分類器’,讓它根據輸入的圖片計算出該圖片屬於“黃圖”類別的概率,然後再根據這個概率值輸出一個“是”或者“否”的結果。”
具體來說,因為電腦擅長的是數學運算,所以黃圖“分類器”需要先抽象成某種數學模型,這樣才有可能用電腦來運算。
“為了方便理解,我們把數學模型定義為:y=f(x)。即給定圖片x,我們要找到一個函式f,通過計算f(x)可以得到這個圖片的黃圖概率y”,朱浩齊說,這看上去非常簡單,但既然要教機器分類,還需要有明確的分類標準,就是給“黃圖”下個準確的定義。
“比如,黃圖並不是簡單的露點就是黃圖了,還包括不露點的色情、以及低俗圖片,另外還要排除雕塑、藝術作品等”,朱浩齊說到。
有了定義之後,下一步就是根據定義來收集樣本資料。
再之後的一步,為特徵提取,即通過圖片訓練,得到數學模型y=f(x)中的f。
由於深度學習的神經網路模型在各種影象識別的比賽中獲得了突破性的進展,目前一般鑑黃會採用CNN(卷積神經網路)、GoogLeNet、ResNet(殘差網路)三種深度網路模型結構。通過模型,高效地將圖片資料轉變成了可以運算的數學模型,以便更快更好地得到f。
此後,經過不斷地迭代、演算法調參,就可以得到越來越精準的f(模型)。
總的來說,鑑黃的一般步驟為建模-下定義-收集樣本-特徵提取-調參、迭代-獲得越來越精準的模型。
那麼,直播、視訊又應如何鑑黃呢?
如何用機器學習對視訊進行鑑黃?
雲從科技高階演算法工程師周翔此前在接受媒體採訪時提到,實時視訊影像大致可以從三個方面來鑑定:
1.是否有人物(有:色情概率增加)
2.人形輪廓的膚色比例(大:色情概率增加)
3.姿態分析(性行為姿勢:色情概率增加)
鑑別視訊,其實在本質上與鑑別圖片類似:
視訊/直播是動態的,圖片是靜態的。在鑑別視訊和直播時,動態的內容可以解碼成圖片幀來進行判斷,這就與靜態圖片鑑別方法相似了。
不過,圖普科技運營總監姜澤榮告訴AI科技大本營,直播和線上視訊,其在技術處理上,又略有不同。
在他看來,直播實時性強,對響應時間要求高,並且裡面的場景和人物變化比較大,稽核要求比較嚴格,所以識別難度會相對比較大,需要實時不斷對房間進行截幀傳輸識別,並且結合人工來實現預警處理;
而視訊在畫質整體上比圖片和直播差,一定程度會影響識別效果,通常是以視訊為單位進行等時間間隔截圖,以一個視訊多張截圖的結果來綜合判斷視訊是否色情違規。
舉個例子,如果企業對視訊或直播的每一幀的圖片都進行識別,資料量將變得非常巨大,運營成本會很高。面對這類情況,一般會採用對視訊抽幀的方式進行處理。
例如,一分鐘視訊,可以按照時間段來抽取 6-15 幀左右的圖片進行識別處理,以此企業減少成本。
說到鑑黃技術的難點,姜澤榮認為,相比演算法,資料更難。因為演算法本身的迭代優化速度是沒有資料本身迭代快的,所以目前各大平臺的優化都依然是基於資料本身,而難點依然是資料多樣化,而不是資料的純數量。
“誰擁有更多資料型別,誰有針對不同客戶優化的不同實操經驗,這個才是最有技術含量的地方。總的來說,演算法並不難。”姜澤榮說到。
如今,只有當黃色圖片和視訊幀達到十萬的量級,深度學習才能跑起來。因此,收集資料,訓練,糾正,是一個超大的工作量。
相比傳統的小資料採用特徵分析加分類器演算法,使用大資料採用深度學習訓練所得的效果和精度遠遠超過前者。
但即便如此,想要真正實現AI鑑黃,並沒有那麼容易。
離真正的AI鑑黃還有幾條街?
此前,今日頭條人工智慧實驗室李磊在接受採訪時坦言,人工智慧識別內容最大的難點在於攻克語義的複雜性,其涉及到對邏輯推理和因果關係的上下文分析。
也就是說,人工智慧可以鑑別色情內容,但在區別色情、性感、藝術等照片上還存在很大難度。
比如,好好的沙漠圖片,就被AI給冤枉為色情圖片了。
喏~
為了更好地解決色情問題,AI演算法傲視群雄的Facebook的小扎,也依然在全球投入超7500人做內容人工稽核。
“這個事情要這麼看。AI鑑黃在識別能力上目前肯定是比不上人力鑑黃的,但是AI鑑黃的效率高,成本低,節省企業的人力成本,並不是說讓AI完全替代掉所有人力。”姜澤榮解釋到。
看來,完全取代人工的AI鑑黃,還任重道遠啊。
借用專欄作者“開眼二郎”的一句話:2017歲末,2018跨年,本該是煙花爆竹,擂鼓轟鳴的喜慶日子,天空卻划過來自今日頭條的一聲哀鳴。
曾經靠AI雄霸天下的今日頭條,如今也因AI的不足,敗給了色情。
真所謂,成也AI,敗也AI。