1. 程式人生 > >爬取CVPR 2018過程中遇到的坑

爬取CVPR 2018過程中遇到的坑

bs4 怎麽 con 開始 truct pri .... 爬取 hdu

爬取 CVPR 2018 過程中遇到的坑

使用語言及模塊

  • 語言: Python 3.6.6
  • 模塊: re requests lxml bs4

過程

一開始都挺順利的,先獲取到所有文章的鏈接再逐個爬取獲取內容,
中間有一部分的是用正則進行匹配出想要的內容,寫完了就想全部跑一遍試試吧。
爬到一半出錯了,看了一下是這篇出問題了。
好吧,那就f12看看什麽情況。
技術分享圖片
emmmmm....
跟之前的差不多啊...
直接復制下來匹配試試
技術分享圖片
。。。都能匹配到啊。。。
技術分享圖片
直到....emmmm....看看不print出來的是啥玩意...
技術分享圖片
\xa0 ??? 大哥你誰啊,怎麽跑進來了呢???

\xa0

\xa0是什麽?
技術分享圖片

最後

最後修改了一下正則...
嗯..解決了

爬取CVPR 2018過程中遇到的坑