python抓取知乎首頁文字資訊的簡單實現
阿新 • • 發佈:2019-02-02
利用requests提供的方法得到網頁中的html檔案,然後用beautifulsoup提供的方法解析網頁資訊。
find_all('a',{"class":"question_link"}):找出網頁a標籤中class為question_link的標籤。
get_text():得到裡面的文字資訊。
本程式中先將所有的問題列印到控制檯,然後將所有的答案列印在控制檯。
原始碼如下所示:
find_all('a',{"class":"question_link"}):找出網頁a標籤中class為question_link的標籤。
get_text():得到裡面的文字資訊。
本程式中先將所有的問題列印到控制檯,然後將所有的答案列印在控制檯。
原始碼如下所示:
#encoding:utf-8 #爬的知乎首頁 import urllib.request from bs4 import BeautifulSoup url="http://www.zhihu.com/topic/19570752/top-answers" data=urllib.request.urlopen(url).read().decode('utf-8') bs=BeautifulSoup(data) questions=bs.find_all('a',{"class":"question_link"}) for question in questions: print(question.get_text()) answers=bs.find_all('div',{"class":"zh-summary summary clearfix"}) for answer in answers: print(answer.get_text())