我的第一個爬蟲
阿新 • • 發佈:2018-12-10
最近開始學python,本身我只要學語言就行了,但是感覺單純學習這個語言沒太大動力,就從python爬蟲學起,本來學習一門語言也需要大量的練習,下面是我copy的第一個像樣的爬蟲程式,從豆瓣top50網站爬下來排名前500的電影
import requests from bs4 import BeautifulSoup def get_movies(): headers={ 'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36', 'Host':'movie.douban.com' } movie_list=[] for i in range(0,10): link='https://movie.douban.com/top250?start='+str(i*25) r=requests.get(link,headers=headers,timeout=10) print(str(i+1),'網頁相應狀態碼:',r.status_code) soup=BeautifulSoup(r.text,'lxml') div_list=soup.findAll('div',class_='hd') for each in div_list: movie=each.a.span.text.strip() movie_list.append(movie) return movie_list movies=get_movies() print(movies)
程式碼都是抄的,唯一的值得欣慰就是的就是找到了書中程式碼的兩處錯誤。 findAll()中不能用class=,class是關鍵字,該為class_即可