1. 程式人生 > >反爬蟲的一些心得

反爬蟲的一些心得

  1. 轉載請註明來源
  2. 本帖持續更新

1. 為什麼會彈出驗證碼

訪問頻率太高,網站會針對性的彈出驗證碼限制你的訪問,一般有這幾種情況:

  1. 記錄了你的IP訪問頻率,針對IP彈出驗證碼
  2. 記錄了你的cookies訪問頻率,針對此賬號彈出驗證碼
  3. 雙管齊下,同時限制你的IP和賬號的訪問

2. 比較好的驗證碼設計

2.1 第一種

在這裡插入圖片描述
這種好像是谷歌的驗證碼生成庫生成的中文驗證碼。
拋開大量樣本的深度學習不說,這種驗證碼的難點在於:

  1. 干擾線粗,幾乎和字元差不多,佔面積大,難以使用一般的降噪演算法解決;
  2. 干擾線和字型顏色多變,有時候為同一種顏色,無法使用顏色分離演算法;
  3. 背景色跨度大,加上干擾線和字元顏色也多變,難以準確的消除背景。

特徵:觀察了若干樣本,發現干擾線的顏色一致,長度也固定在某個範圍,且基本上都會比漢字字元的筆畫長。

3. 引數加密是怎麼回事