1. 程式人生 > >05 爬取華為官網VMALL的手機評論

05 爬取華為官網VMALL的手機評論

wid gin lec image json數據包 線程 size 使用 ges

項目地址:copywang/spiders_collection

實現功能

  1. 爬取手機界面的所有手機評論列表
  2. 存儲到MONGODB

步驟

  1. 獲取首頁的手機列表,並獲取各個手機標題和詳情頁的URL
  2. 把第1步獲取的詳情頁URL分別打開,並獲取產品ID
  3. 根據產品ID結合URL,組合出評論頁的JSON請求並獲取JSON數據
  4. 首頁的JSON數據中包含最大的評論頁數
  5. 使用最大評論頁數作為循環,獲取得到所有頁的評論

遇到的問題

  1. 返回的JSON數據包含一些亂七八糟的開頭,不能使用json.loads()方法生成字典
  2. 有時候請求評論頁JSON會出現亂碼
  3. 暫時想不到多線程在哪裏使用合適

改進

  1. 使用json.loads()方法
  2. 使用多線技術分享圖片技術分享圖片

爬取後的數據:

05 爬取華為官網VMALL的手機評論