python爬了51job 選定python,java和北上廣深四個城市爬取對應地點最高最低工資

阿新 • • 發佈：2018-12-19

寫入資料庫：

import urllib.request
import re
import sqlite3

#連線sqlite資料庫
conn = sqlite3.connect(r'D:\\db51job.db')
cursor = conn.cursor()

#IF NOT EXISTS當表不存在的時候，新建
cursor.execute('create table IF NOT EXISTS result51job(id integer primary key,key varchar(20),addr varchar(40),momin float,momax float)')

key = input("請輸入關鍵字：")
page = input("請輸入想要查詢的頁數：")

#控制查詢頁數
for i in range(1,int(page)+1):

#i必須是字元才能拼接
i=str(i)

#將關鍵字和頁數新增進url
url='https://search.51job.com/list/010000%252C020000%252C030200%252C040000,000000,0000,00,9,99,'+key+',2,'+i+'.html'

res=urllib.request.urlopen(url)

#讀取urllib.request返回的資料
html=res.read()

#read（）返回的是二進位制序列，利用decode（）轉換成html
html=html.decode('GBK')

retur = re. findall('(北京|上海|廣州|深圳).*\s*(\d*\.?\d*)-(\d*\.?\d*)(\w)/(.*)',html)

for i in range(1,len(retur)):
#資料處理：單位換算
minm = float( retur[i][1])
maxm = float(retur[i][2])

#round（x，n）函式：浮點數x 保留n位的四捨五入值
if retur[i][3] == '千':
minm =round(minm /10,2)
maxm =round(maxm /10,2)
if retur[i][4] == '年':
minm = round(minm /12,2)
maxm =round(maxm /12,2)

#插入資料
cursor.execute("insert into result51job(key,addr,momin,momax) values ('%s','%s','%f','%f')" % (key,retur[i][0],minm,maxm))

#commit()作用：執行完commit()之後，才會將插入的資料寫入資料庫
conn.commit();

#查詢資料庫，顯示result51job表中資料
cursor.execute("select * from result51job")
values=cursor.fetchall()
print(values)

#關閉遊標，關閉資料庫連線
cursor.close()
conn.close()

寫入檔案：

import urllib.request
import re

key = input("請輸入關鍵字：")
page = input("請輸入想要查詢的頁數：")
#每個關鍵字對應一個txt檔案，w+會覆蓋之前的內容

f = open(r'D:\\'+key+'.txt', 'w+')
f.write('關鍵字'+' '+'工作地點'+' '+'薪資min'+' '+' 薪資max'+'\r\n')

#for迴圈控制讀取哪幾頁，i表示頁數
for i in range(1,int(page)+1):

#i必須是字元才能拼接
i=str(i)

url='https://search.51job.com/list/010000%252C020000%252C030200%252C040000,000000,0000,00,9,99,'+key+',2,'+i+'.html'

res=urllib.request.urlopen(url)

#讀取urllib.request返回的資料
html=res.read()

#read（）返回的是二進位制序列，利用decode（）轉換成html
html=html.decode('GBK')

#正則表示式的應用
#每一個子表示式後都加了？，目的在於當薪資為空的情況出現時，也會顯示。
#[\u4e00-\u9fa5]表示漢字
#正則表示式中用幾個括號，返回的元組是幾個元素
#.可以匹配任何字元。但是不能匹配換行,改進：1，但是re.S可以讓.*<span中的.匹配任意字元，包括換行符
#1.
#retur = re. findall('(北京|上海|廣州|深圳).*.*(\d*\.?\d*)?-?(\d*\.?\d*)?(\w)?/?(.*)?',html,re.S)
#這種改進方式的缺點：會開啟貪婪模式，即.*後面的所有字元都將被匹配掉，直到最後一行資料
#關閉貪婪模式的方法：在.*後面加上問號?:retur = re. findall('(北京|上海|廣州|深圳).*.*?(\d*\.?\d*)?-?(\d*\.?\d*)?(\w)?/?(.*)?',html,re.S)

#findall方法注意引數是兩個
#第一個引數是想要返回的格式
#第二個引數是搜尋範圍
retur = re. findall('(北京|上海|廣州|深圳).*\s*(\d*\.?\d*)-(\d*\.?\d*)(\w)/(.*)',html)

#每一個子表示式後都加了？，目的在於當薪資為空的情況出現時，也會顯示。
#爬取資料時面對特殊情況，可以直接捨去，因為總體資料量很大，並不會對最後結果造成太大影響
#retur = re. findall('(北京|上海|廣州|深圳).*\s*(\d*\.?\d*)?-?(\d*\.?\d*)?(\w)?/?(.*)?',html)
#retur = re. findall('([\u4e00-\u9fa5]*)?-?(.*)?\s*(\d*\.?\d*)?-?(\d*\.?\d*)?(\w)?/?(.*)?',html)
#address = re. findall('([\u4e00-\u9fa5]*)?-?(.*)?',html)
#money = re.findall('(\d+\.*\d*)?-?(\d+\.*\d*)?(.*)',html)
#money = re.findall('(\d*\.?\d*)?-?(\d*\.?\d*)?萬?(.*)?',html)
#money = re.findall('(\d*\.?\d*)?-?(\d*\.?\d*)?(\w)?/?(.*)?',html)
print(len(retur))

for i in range(1,len(retur)):
minm = float( retur[i][1])
maxm = float(retur[i][2])
#print(key+' '+address[i][0]+' '+money[i][0],' ',money[i][1])
if retur[i][3] == '千':
#round（x，n）函式：浮點數x 保留n位的四捨五入值
minm = round(minm /10,1)
maxm = round(maxm /10,1)
if retur[i][4] == '年':
minm = round(minm /12,1)
maxm =round(maxm /12,1)
result = key+' '+retur[i][0]+' '+str(minm)+' '+str(maxm) +' '+retur[i][3]+' '+retur[i][4]+'\r\n'

print(str(result))

f.write(str( key+' '+retur[i][0]+' '+str(minm)+' '+str(maxm) +'\r\n'))

#注意要關掉開啟的檔案，否則就會寫不進去
f.close()

python爬了51job 選定python,java和北上廣深四個城市爬取對應地點最高最低工資

寫入資料庫：

寫入檔案：

python爬了51job 選定python,java和北上廣深四個城市爬取對應地點最高最低工資

Python演算法題----在列表中找到和為s的兩個數字

python---用鏈表結構實現有序和無序列表的幾個功能

【轉】有助於事業發展和幸福感提升的四個約定

Position屬性四個值：static、fixed、absolute和relative的區別和用法 Position屬性四個值：static、fixed、absolute和relative的區別和用法

Java 面向物件程式設計之四個關鍵字

分析千萬條資料後，終於找到了北上廣深租金最低的地鐵房

Java程式設計師月薪2W除了北上廣深杭，如何達到？需要什麼掌握能力

北上廣深廈蘇合寧房產和股市比較

沒有內涵段子可以刷了，利用Python爬取段友之家貼吧圖片和小視頻(含源碼)

學習了一個月python，進行實戰一下：爬取文章標題和正文並儲存的程式碼

Java、C++、Python、Ruby、PHP、C#和JavaScript的理解

java和python實現一個加權SlopeOne推薦算法

基於thrift的java和python分別作為客戶端和服務端的調用實現

java和python互相調用

我用Python爬了4400條淘寶商品數據，竟發現了這些“潛規則”

Java和Python中for循環的比較

編程語言對比分析：Python與Java和JavaScript（圖）

使用cmd執行Java中文問號，Python列印直接報錯的原因和解決

python爬蟲系列(3.4-使用xpath和lxml爬取伯樂線上)

python爬了51job 選定python,java和北上廣深四個城市 爬取對應地點 最高最低工資

寫入資料庫：

寫入檔案：

相關推薦

python爬了51job 選定python,java和北上廣深四個城市爬取對應地點最高最低工資