Python 爬蟲入門(一)
阿新 • • 發佈:2019-01-01
- 想要從網頁上爬取資料就必須先知道網頁的構成,一般來說網頁分為兩個部分:一個是html,一個是css,html是網頁的整體構造,相當於未裝修的房子,而css是網頁的樣式表,相當於房子的裝修。
- 而後便是解析網頁,想要解析網頁只需要在瀏覽器中點選滑鼠右鍵,檢查或檢視網頁原始碼即可。
- 對於爬取所需資料來說,資料在網頁原始碼中的路徑極為重要,獲取方法可用在所需資料的地方點選滑鼠右鍵在彈出選單中點選檢查,然後在解析器中選中部分點選滑鼠右鍵,游標移動至copy處,可顯現幾種不同表達的copy路徑。
- 有了對網頁的理解便可以入手學習爬蟲的編寫了,要獲取網頁,首先需要向網頁發出一個請求訊號,即requests函式,訪問成功後可得網頁的資料,例如訪問簡書網並獲取資料
jianshu_url = 'http://www.jianshu.com/'
data = requests.get(jianshu_url)
而後用bs4包中的BeautifulSoup函式對網頁資料進行解析, 並得到相應的網頁原始碼:
soup = BeautifulSoup(data.text, 'lxml')
然後就可以有所需資料的路徑從中獲取需要的資訊,如獲取簡書使用者的暱稱:
authors = soup.select('div.name > a')
for author in authors :
author=author.get_text
print (author)
參考教學視訊連結http://study.163.com/course/courseMain.htm?courseId=1002810012