python---爬蟲51job（1）

阿新 • • 發佈：2018-12-18

這學期學的python，老師每次在上課前會佈置作業，因此再次做下梳理，鞏固知識點

①使用python程式設計實現上述過程（訪問https://www.51job.com/，在搜尋框輸入關鍵字：python java，用右邊的加號選擇北京、上海、廣州、深圳四個城市），不需要使用socket程式設計來做，使用書上提到的request庫或者其它庫都可以。）

這個問題是使用urllib.request和requests分別來做的，不得不說requests庫的確很簡單容易去訪問

先分別來說吧：（1）request庫

課本上的程式碼看的亂七八糟的，所以在網上搜了下相關資訊，進行整合得到的程式碼：

import urllib.request
#匯入request庫
url="https://search.51job.com/list/010000%252C020000%252C030200%252C040000,000000,0000,00,9,99,python%2520java,2,1.html?lang=c&stype=&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&providesalary=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=&dibiaoid=0&address=&line=&specialarea=00&from=&welfare="
#url---網址(可直接在待爬蟲網址上覆制)
header={"User-Agent":"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.104 Safari/537.36"}
#谷歌瀏覽器--開發者工具--network--待爬蟲網頁部分--headers-request headers可以獲得
req=urllib.request.Request(url,headers=header)
#請求引數設定
response=urllib.request.urlopen(req)
#進行請求連結並將網頁內容儲存在變數response中
html=response.read().decode('gbk')
#讀取內容並進行轉碼————注意該網頁使用的是gbk編碼方式，不是utf-8
print(html)
#輸出即可

（2）requests庫

我電腦原來沒有requests庫，所以需要安裝，而後來作業中需要使用BeautifulSoup時也需要進行安裝，方式相同

cmd---py -3 -m pip install xxx（我使用的是python3.70版本的，xxx代表欲安裝庫名）

cmd---py -3 -m pip list（可查詢已安裝庫）

當然也可以在python檔案中找到

Scripts檔案---

把這裡面pip3直接用滑鼠拖到cmd視窗 --輸入 install xxx即可

（pip3.7,pip還沒有試過）

接下來是程式碼部分，特別簡單

import requests
re=request.get("https://search.51job.com/list/010000%252C020000%252C030200%252C040000,000000,0000,00,9,99,python%25E3%2580%2581java,2,1.html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=4&dibiaoid=0&address=&line=&specialarea=00&from=&welfare=")
re.encoding="gbk"
print(re.text)

嗯，這就是第一部分任務的程式碼

還得多實踐呀

python---爬蟲51job（1）

這學期學的python，老師每次在上課前會佈置作業，因此再次做下梳理，鞏固知識點 ①使用python程式設計實現上述過程（訪問https://www.51job.com/，在搜尋框輸入關鍵字：python java，用右邊的加號選擇北京、上海、廣州、深圳四個城市），不需要使

Python爬蟲學習（1）

數據 bin des fin load 寫入 all pytho urlopen 接觸python不久，也在慕課網學習了一些python相關基礎，對於爬蟲初步認為是依靠一系列正則獲取目標內容數據於是參照著慕課網上的教學視頻，完成了我的第一個python爬蟲，雞凍 >

Python爬蟲-速度（1）

Python爬蟲-速度（1）文章目錄 Python爬蟲-速度（1）前言網頁分析介面設計執行效果 018.9.16 Python爬蟲-速度（2） Python爬蟲-速度（3）前言

$python爬蟲系列（1）——一個簡單的爬蟲實例

name 響應 -s 鏈接實例 blog itl 匹配列表本文主要實現一個簡單的爬蟲，目的是從一個百度貼吧頁面下載圖片。 1. 概述本文主要實現一個簡單的爬蟲，目的是從一個百度貼吧頁面下載圖片。下載圖片的步驟如下：獲取網頁html文本內容；分析html中圖

$python爬蟲系列（1）——一個簡單的爬蟲例項

本文主要實現一個簡單的爬蟲，目的是從一個百度貼吧頁面下載圖片。 1. 概述本文主要實現一個簡單的爬蟲，目的是從一個百度貼吧頁面下載圖片。下載圖片的步驟如下：獲取網頁html文字內容；分析html中圖片的html標籤特徵，用正則解析出所有的

python爬蟲示例（1）---urlretrieve() 函式使用

下面我們再來看看 urllib 模組提供的 urlretrieve() 函式。urlretrieve() 方法直接將遠端資料下載到本地。 1 >>> help(urllib.urlretrieve)

Python爬蟲例項（1）-爬取一張貓的照片

程式設計這種實用性的工程性語言，光看書、背概念是完全刻舟求劍；learning with doing才是最快速的學習方法。我打算將自己學習爬蟲的週期，總結之後寫在CSDN上；通過自己感覺非常經典的例項，來表達爬蟲的知識點。話不多說，上一篇描述了爬蟲的原理之後，這一篇搞第一個例

python爬蟲系列（1）：使用python3和正則表示式獲取貓眼電影排行榜資料

簡述這次打算寫一個爬蟲系列，一邊也想好好總結鞏固學習的知識，一邊做總結筆記，方便以後回憶。這次我們使用Python3和正則表示式來爬取一個簡單html頁面資訊，就從貓眼電影的排行榜單開始吧。如果讀到這篇文章的是位大神，期望您能不吝賜教，指正錯誤，如果您是小白，咋們可以一同

Python爬蟲入門（1）：綜述

大家好哈，最近博主在學習Python，學習期間也遇到一些問題，獲得了一些經驗，在此將自己的學習系統地整理下來，如果大家有興趣學習爬蟲的話，可以將這些文章作為參考，也歡迎大家一共分享學習經驗。 Python版本:2.7，Python 3請另尋其他博文。首先爬蟲是什麼？

Python爬蟲實戰（1）——百度貼吧抓取帖子並儲存內容和圖片

最近在網上看了很多的爬蟲指令碼，寫的參差不齊，但是其中有很多寫的非常的優秀，程式碼質量很高，規範性也很好，很具有代表性，非常值得我們去學習！~ 寫好一個python爬蟲需要有以下幾個必備條件： 1、足夠好的程式碼規範(等號前後加空格、逗號後加空格等等)，結構性封裝性好，重

Python下用Scrapy和MongoDB構建爬蟲系統（1）

這篇文章將根據真實的兼職需求編寫一個爬蟲，使用者想要一個Python程式從Stack Overflow抓取資料，獲取新的問題（問題標題和URL）。抓取的資料應當存入MongoDB。值得注意的是，Stack Overflow已經提供了可用於讀取同樣資料的API。但是使用者想要一個

python每日一類（1）：pathlib

one pre 面向 iss open log python href reg 每天學習一個python的類（大多數都是第三方的），聚沙成金。 -----------------------------------------------------------------

python函數（1）：初始函數

索引編程 sed 使用在一起用法 lease 括號 .com 在學了前面很多python的基礎類型後，我們終於可以進入下一階段，今天我們將走進一個函數的新世界。預習： 1、寫函數，計算傳入字符串中【數字】、【字母】、【空格] 以及【其他】的個數 2、寫函數，判

Python小練習（1）

duyuheng python 比較價錢找出一個月中的天數計算三角的周長點在矩形內嗎？金融方面：比較價錢假設你購買大米時發現它有兩種包裝。你會別寫一個程序比較這兩種包裝的價錢。程序提示用戶輸入每種包裝的重量和價錢，然後顯示價錢更好的那種包裝。下面是個示例運行#!/usr/bin/env pytho

Python 爬蟲 2 （轉）

規範 return python 爬蟲直接 htm str 保存 urn find 一，獲取整個頁面數據首先我們可以先獲取要下載圖片的整個頁面信息。 getjpg.py #coding=utf-8 import urllib def getHtml(url):

Python web 開發（1）——新建項目

mage ati 成功 logs web make == 技術分享 blog 1、新建一個virtulenv mkvirtulenv mxonlie 2、在mxonlie 下安裝Django pip install django==1.9 ps: 為

Python爬蟲系列（一）：從零開始，安裝環境

tar 公司 pip nal 網頁解析目標 http caption 在上一個系列，我們學會使用rabbitmq。本來接著是把公司的celery分享出來，但是定睛一看，celery4.0已經不再支持Windows。公司也逐步放棄了服役多年的celery項目。恰好，公司找

Python爬蟲系列（四）：Beautiful Soup解析HTML之把HTML轉成Python對象

調用 nor 結束版本現在 name屬性 data 官方文檔 get 在前幾篇文章，我們學會了如何獲取html文檔內容，就是從url下載網頁。今天開始，我們將討論如何將html轉成python對象，用python代碼對文檔進行分析。 (牛小妹在學校折騰了好幾天，也沒把h

Python爬蟲學習（一）

code time response utf path urllib quest ext .com Python訪問網頁主要使用包urllib 打開網頁使用 urllib.request.urlopen(url, data=None, [timeout, ]*, cafi

python學習——練習題（1）

二進制位機制三位數結果整除參考數字打印最大值 """ 題目：有四個數字：1、2、3、4，能組成多少個互不相同且無重復數字的三位數？各是多少？ """ import itertools def answer1(): """自己思考完成，一

python---爬蟲51job（1）

相關推薦