從12306驗證碼看人工智慧未來發展
事件背景
最近12306對登陸驗證過程進行了升級,讓很多搶票軟體失效,也引起眾多網友的熱議。
如圖,使用者在登陸時需要選擇和題目給出的描述相同的圖片,新的驗證方式推出後,不少網友也在網上發表看法。大部分網友表示此舉很給力,“黃牛搶票軟體失效了,對於我們這樣總是通過正常渠道購票的人來說,總算迎來了‘春天’,普通使用者購票機率就大了。”一位網友表示。除了支援的聲音,也有不少網友調侃,“新的驗證方式很像遊戲‘找你妹’。”“新的驗證方式告訴你,沒有好眼神出不了門。”
但是這種新的驗證方法真的能抵制刷票軟體麼?12306驗證碼改版後,第一時間內,所有搶票工具都已經無法登入。但是當天晚上,有搶票軟體公司發出宣告,已在第一時間投入技術團隊,出臺應對措施,實現影象驗證碼自動識別,12306推出的新的驗證措施對其搶票軟體沒有影響,甚至聲稱“成功率提升200%”。
技術剖析
驗證被破解的訊息可靠麼?作為一個人工智慧專業的學生,我可以告訴你,這非常有可能,而且用到的技術已經非常成熟。要破解這樣的驗證碼,說到底就是影象識別問題。
利用機器學習和人工智慧技術,計算機可以不斷在網際網路上搜集不同圖片和其對應的“標籤”
經過大量圖片和對應標籤的訓練,計算機習得了各種不同標籤圖片之間的區別與關係,形成一個龐大的分類器,此時再向這個分類器輸入一張圖片,分類器將輸出這個圖片的“標籤”,圖片識別過程就完成了。
影象識別的現狀
現在各大網際網路公司,尤其是搜尋引擎都在將影象識別技術逐漸應用到實際中,比如我們最熟悉的百度,很早以前就有了“以圖搜圖”的功能。
當我從本地上傳一張剛剛下載的圖片,點選“百度一下”
百度識圖就能自動猜測圖片的含義,給出最佳猜測,並推薦相關圖片和搜尋結果。
關於驗證碼的思考
網站對於登陸者是否是真正的人類的判斷,和利益驅使下,各種“外掛”“刷票”軟體的鬥爭一直在進行。
驗證碼的本質
想要設計好一個驗證碼,要明白驗證碼的目的和本質。
我認為,驗證碼是將自然人與機器相區別的一種判斷方式。
現有的驗證方式
現有的驗證碼大多是一張有噪聲或形變的圖片,要求使用者輸入圖片中的字母和數字資訊,如圖所示。
這種簡單的驗證碼是想利用人腦聯想記憶的功能,將人與機器區別開來,但隨著人工智慧的發展,機器的聯想記憶能力已經不弱於人類,甚至在一些複雜情況下,憑藉高於人腦的計算能力還會超過人類,我在部落格裡曾經就寫過一篇利用hopfield神經網路分類有噪聲的數字圖片的文章
當然,更有些“奇葩”的驗證方式
上面的兩種驗證方式,前一個似乎認為復旦大學的學生數學能力比電腦還要好,後一個驗證碼想要破解,需要涉及自然語義分析和一個龐大的常識知識庫,提取其中的A,B,在知識庫中找到對應數字,計算最後的式子才能解開,但這也僅僅是麻煩一些而已,想要破解,技術上沒有問題,沒人破解估計也是無利益可圖罷了。
驗證碼的展望
隨著人工智慧的發展,驗證碼越來越顯得無力,人工智慧與自然人類之間的區別越來越小,在不久的將來,人工智慧將實現人類大部分功能,驗證將無比困難。
但是驗證的意義和需求依然存在,我們必須發現其他的途徑,區別開人與機器。
幾點設想
1、從根本上區別人與機器。
這個可能要等到幾十年後,科技發展的高度發達時,人類已經開發出能夠區別C基生命和Si基生命的感測器,驗證過程只需要一掃描就知道你是人類還是機器人。
2、情感識別。
人工智慧的語義識別已經做的不錯了,但是對於情感方面的識別還做得不好,可以利用這一點,區分開人類與機器。
3、和“ta”聊幾句。
我們知道,圖靈測試的基本思想,而且通過圖靈測試的機器人屈指可數。那何不以圖靈測試作為驗證人類與否的標準?但其中一個重要的問題是,驗證過程的判斷是後臺伺服器完成的,也就是一個機器,一個機器是否能判斷一個物件是人類還是機器?
推薦一個工具
說了這麼多,其實就討論了兩個事實:人工智慧的發展讓機器越來越像人類,驗證的需求、現狀和展望。
推薦一個工具:caffe神經網路庫,官網上的介紹是這樣的The Caffe neural network library makes implementing state-of-the-art computer vision systems easy.
寫在最後
人工智慧已經離我們越來越近,我們應該懷著開放、探索的精神去了解它、學習它、利用它。