python---爬蟲51job(1)
阿新 • • 發佈:2018-12-18
這學期學的python,老師每次在上課前會佈置作業,因此再次做下梳理,鞏固知識點
①使用python程式設計實現上述過程(訪問https://www.51job.com/,在搜尋框輸入關鍵字:python java,用右邊的加號選擇北京、上海、廣州、深圳四個城市),不需要使用socket程式設計來做,使用書上提到的request庫或者其它庫都可以。)
這個問題是使用urllib.request和requests分別來做的,不得不說requests庫的確很簡單容易去訪問
先分別來說吧: (1)request庫
課本上的程式碼看的亂七八糟的,所以在網上搜了下相關資訊,進行整合得到的程式碼:
import urllib.request #匯入request庫 url="https://search.51job.com/list/010000%252C020000%252C030200%252C040000,000000,0000,00,9,99,python%2520java,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=" #url---網址(可直接在待爬蟲網址上覆制) header={"User-Agent":"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.104 Safari/537.36"} #谷歌瀏覽器--開發者工具--network--待爬蟲網頁部分--headers-request headers可以獲得 req=urllib.request.Request(url,headers=header) #請求引數設定 response=urllib.request.urlopen(req) #進行請求連結並將網頁內容儲存在變數response中 html=response.read().decode('gbk') #讀取內容並進行轉碼————注意該網頁使用的是gbk編碼方式,不是utf-8 print(html) #輸出即可
(2)requests庫
我電腦原來沒有requests庫,所以需要安裝,而後來作業中需要使用BeautifulSoup時也需要進行安裝,方式相同
cmd---py -3 -m pip install xxx(我使用的是python3.70版本的,xxx代表欲安裝庫名)
cmd---py -3 -m pip list(可查詢已安裝庫)
當然也可以在python檔案中找到
Scripts檔案---
把這裡面pip3直接用滑鼠拖到cmd視窗 --輸入 install xxx即可
(pip3.7,pip還沒有試過)
接下來是程式碼部分,特別簡單
import requests re=request.get("https://search.51job.com/list/010000%252C020000%252C030200%252C040000,000000,0000,00,9,99,python%25E3%2580%2581java,2,1.html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99°reefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=4&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=") re.encoding="gbk" print(re.text)
嗯,這就是第一部分任務的程式碼
還得多實踐呀