1. 程式人生 > >AI 這麼優秀,連我鑑黃師的飯碗都搶了

AI 這麼優秀,連我鑑黃師的飯碗都搶了

色情行業,或許是對資訊渠道最敏銳、利用各類資訊渠道進行傳播最“充分”的“行業”。這些年,社交 App、直播、短視訊等新的網際網路應用方式,都難逃色情內容的“騷擾”。哪裡人多,色情內容就能立刻撲過去,在海量內容的浪潮中輸出色情圖片、視訊等不法內容,嚴重影響網站、App 的運營安全。高效並準確地鑑別、剔除色情資訊成為一項艱鉅的任務。

早期對於此類資訊,都是通過“鑑黃師”對圖片等資訊“人工”一張張“智慧“識別方式進行稽核篩選。人員投入大,效率低下,長期接觸此類資訊會對稽核人員的身心健康造成不良影響。

隨著近年來 AI 技術迅猛發展, AI 結合大資料,通過機器學習的分類器演算法,取代“人工”,“智慧”地對圖片、視訊等資訊稽核方式,把“鑑黃師”從職業變成一種“演算法”和“模型”。解放人力,並且大大提升處理效率,幫助企業減少投入成本。

人工智慧鑑黃——資料、模型、計算

從計算機的角度看,本質上是一個分類問題:給定一張圖片,讓計算機判斷是不是“色情圖片”。

△ 圖片區分標準

色情:裸露敏感部位,包含露骨鏡頭,描述性行為和色情場景的圖片。

性感:衣著暴露但沒有裸露敏感部位。

正常:非色情,非性感圖片。

我們要做的就是研發一個“分類器”,它能根據輸入的圖片計算出該圖片屬於那種類別的概率,然後再根據這個概率值輸出一個“是”或者“否”的結果。眾所周知,計算機擅長的是數學運算,所以我們要把這個“分類器”先抽象成某種數學模型,這樣才有可能用它來計算,然後通過大資料。利用成千上萬的圖片樣本去“訓練”它,根據性別、膚色、姿態、場景、人體比例、身體裸露程度等資訊,提取圖片中的特徵並不斷記憶。

利用大資料樣本,在學習的過程中不斷提高識別精度。得益於近年來計算機效能的提升、大規模叢集技術的興起、GPU 的應用以及眾多優化演算法的出現,耗時數月的訓練過程可縮短為數天甚至數小時,機器學習可以被廣泛運用,大大提升鑑黃效率。

人工神經網路,讓鑑黃師自愧不如

機器學習演算法有多種,最常見的有樸素貝葉斯分類、SVM 演算法、K - 近鄰演算法和人工神經網路演算法,其中又拍雲內容識別用的就是人工神經網路演算法。下面先來簡單介紹下這個演算法:

人工神經網路,是一種模仿生物神經網路結構和功能的數學模型或計算模型,用於對函式進行估計或近似。神經網路由大量的人工神經元聯結進行計算。大多數情況下人工神經網路能在外界資訊的基礎上改變內部結構,是一種自適應系統。

△ 人工神經網路

△ 反向傳播

反向傳播通過梯度下降的演算法,運用梯度下降的演算法可以找出一組 W 和 B,使得函式 C 最小,在樣本上找到最優或者近似最優的 W 和 B ,之後使用 W 和 B 進行預測。

人工神經網路的特性,使之在語音、圖片、視訊、遊戲等各類應用場景展現出了優異的效能,但需要大量的資料進行訓練來提高準確性的問題。由於目前所處的網際網路時代,資料積累相對比較容易,非常適合機器深度學習。

又拍雲內容識別:機器學習與人工稽核相結合

內容識別是又拍雲基於人工智慧、大資料而研發的新型安全解決方案,能實時對多媒體內容(直播、視訊、圖片等)內容進行鑑別。色情識別的完整過程是將它拿到鑑黃中心鑑別,再把結果傳送至圖片稽核平臺進行最終確認。這部分將會隨著訓練次數的增加而不斷減少,幫助企業大幅度節省安全成本,和提高安全處理效率。

△ 內容識別管理後臺

又拍雲內容識別 VS 鑑黃師

我們以 1 個月 100 萬張圖片為例,橫向比較一下又拍雲內容識別 VS 鑑黃師的效率和成本。

效率:又拍雲內容識別目前最高的識別速度可達每秒 1 萬張,所以稽核 100 萬張圖片,開足馬力的話只需要 100 秒,不到 2 分鐘。公開報道顯示,一個滿負荷的鑑黃師每天看圖5萬張,那麼組建一個 10 人規模的鑑黃師團隊,稽核完 100 萬張圖片需要 2 天。

費用:同樣鑑別 100 萬張圖片,我們來看下又拍雲內容識別“支援版”套餐,5000 元,可以在一年內最多識別 400 萬張圖片,摺合到 100 萬張也僅是 1250元 的成本。如果是 10 人的鑑黃師團隊……這個人力成本各地有異,我就不算了,但肯定遠遠高於 1250 元。

其他:又拍雲內容識別,開通迅速,配置簡單,穩定高效;鑑黃師屬於高負荷工作,人員流失率高,一個鑑黃師裡還包含了不菲的招聘成本和培訓成本。

綜合來看,又拍雲內容識別服務依託於人工智慧,在效率、費用、穩定性上,都領先於鑑黃師團隊,實在是社交、直播、短視訊等服務安全運營的必備利器。

小福利:又拍雲內容識別服務推出永久免費套餐,提供總量 2000 次/天的圖片檢測,等效於2000 條/天的文字鑑別,或 120 分鐘/天的視訊點播與視訊直播檢測。