1. 程式人生 > >爬蟲學習總結(一)

爬蟲學習總結(一)

正確的學習路徑

注意: 本文的主題僅僅適用於用於具備一定python基礎的新手, 請合理評估自己的定位, 大神也請高擡貴手0.0!

爬蟲的原理(必讀, 千萬不要跳過)

         爬蟲一種在做一件事情, 就是逃過人機測試, 也就是說, 如何將自己的身份未造成正常使用者, 為了達成這個目的, 一方面你要讓自己更像瀏覽器, 另一方面, 你對於目標網站的請求頻率不能過快, 因為, 正常使用者的手速不可能超過網站本身設定的速度限制。基於這兩個方面, 將心得的總結設定如下

  1. selenium
  2. requests和lxml
  3. scrapy

劃分說明:常見的教程思路都是先分後和, 即先使用基礎庫進行講解, 然後逐漸合併, 直到最後推出框架, 然而, 我認為, 應當先和後分(selenium==》requests+lxml), 分而後和(requests==》scrapy) 第一階段旨在讓閱讀本文的人明白爬蟲的目的, 之後將大任務分解為兩部分—下載和解析, 第三階段將指明爬蟲的第三個問題(效率問題)從而推出框架, 第四部分為scrapy的進階操作。