python 爬蟲使用正則爬取51job內容並存入txt

阿新 • • 發佈：2018-12-14

python爬蟲基礎–使用正則提取51job內容輸出到txt

from urllib import request
#url
url = 'https://search.51job.com/list/020000%252C010000%252C080200%252C070200%252C120300,000000,0000,00,9,99,%25E4%25BA%25BA%25E5%25B7%25A5%25E6%2599%25BA%25E8%2583%25BD,2,1.html?lang=c&stype=1&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&lonlat=0%2C0&radius=-1&ord_field=0&confirmdate=9&fromType=4&dibiaoid=0&address=&line=&specialarea=00&from=&welfare='
#變為請求
r=request.Request(url)
#訪問得到結果
res = request.urlopen(r)
#讀取並且解碼
#print(res.read().decode('gbk'))#unicode解碼方式

#讀取網頁編碼格式
import chardet
html=res.read()
# code=chardet.detect(html)['encoding']
# print(code)
html=html.decode('gbk')
# print(html)
#提取
import re
#你需要留下的用（.*?）,它的前後一定要有一個原來的存在內容，被你刪掉的，用.*?表示
reg = re.compile('<div class="el">.*?<a target="_blank" title="(.*?)".*?<a target="_blank" title="(.*?)".*?<span class="t3">(.*?)</span>.*?<span class="t4">(.*?)</span>.*?<span class="t5">(.*?)</span>',re.S)
# 得到結果，是一個列表
data = re.findall(reg,html)
# 寫入到 記事本
with open('51job.txt','w',encoding='utf-8') as file:
    # 讀取的每一個 each 都是 一個tuple
    for each in data:
        # 因為 file.write('只能是字串')
        for i in each:
            # 再一次迴圈，一一寫入
            file.write(i+'  ')
        #每一條寫完換個行
        file.write('\n')

python 爬蟲使用正則爬取51job內容並存入txt

python爬蟲基礎–使用正則提取51job內容輸出到txt from urllib import request #url url = 'https://search.51job.com/list/020000%252C010000%252C080200%25

python爬蟲小試例項--爬取網頁圖片並下載

一、python安裝在python的官網下載python版本，需要下載對應版本（在計算機-屬性中檢視自己是32位作業系統還是64位作業系統），我是64位的，就下載64位對應的安裝包了（如下圖：Windows x86-64 executable installer）。官網下載地

python 爬蟲入門(二) 爬取簡單網頁並儲存到本地

import refrom urllib.request import Request, urlopen#爬蟲基本的三個步驟:1.向頁面傳送請求, 獲取原始碼(都是靜態頁面的程式碼);2, 利用正則匹配資料;3 .儲存到資料庫class DataParserTool(obje

教你分分鐘學會用python爬蟲框架Scrapy爬取你想要的內容

python 爬蟲 Scrapy python爬蟲教你分分鐘學會用python爬蟲框架Scrapy爬取心目中的女神 python爬蟲學習課程，下載地址：https://pan.baidu.com/s/1v6ik6YKhmqrqTCICmuceug 課程代碼原件：課程視頻：教你分分鐘學會用py

(爬蟲)採用BeautifulSoup和正則爬取今日頭條圖集.詳細!

用beautifulsoup提取文字資訊,正則匹配關鍵的圖片資訊. 最後存入資料庫mongodb. 完成後的感想: 其實分析網頁是最關鍵的一個環節. ajax分析,json處理等等,還是需要多點練習. 下面是程式碼: ''' 步驟: 1. 首先抓取索引頁的內容,

python 爬蟲實戰4 爬取淘寶MM照片

寫真換行符 rip 多行 get sts tool -o true 本篇目標抓取淘寶MM的姓名，頭像，年齡抓取每一個MM的資料簡介以及寫真圖片把每一個MM的寫真圖片按照文件夾保存到本地熟悉文件保存的過程 1.URL的格式在這裏我們用到的URL是 http:/

正則爬取二手房數據

ace req spider spi con 網址 for repl 插入數據以下代碼是二手房的數據，代碼僅供參考，很簡單，超級簡單#encoding:utf8import requestsimport re調用網址def spider(url): html = r

python爬蟲--打開爬取頁面

PE brush OS htm tab quest replace %s class def requests_view(response): import webbrowser requests_url = response.url base_u

Python爬蟲入門 | 4 爬取豆瓣TOP250圖書信息

Python 編程語言 Python爬蟲先來看看頁面長啥樣的:https://book.douban.com/top250 我們將要爬取哪些信息：書名、鏈接、評分、一句話評價……1. 爬取單個信息我們先來嘗試爬取書名，利用之前的套路，還是先復制書名的xpath：得到第一本書《追風箏的人》的書名xpath如下：

Python爬蟲-正則表達式基礎

AR 替換 class find 字符串存在正則表達式基礎 TE hello import re #常規匹配 content = ‘Hello 1234567 World_This is a Regex Demo‘ #result = re.match(‘^Hello

python 爬蟲 requests+BeautifulSoup 爬取巨潮資訊公司概況代碼實例

pan 字符 selenium 5.0 target 自我 color list tails 第一次寫一個算是比較完整的爬蟲，自我感覺極差啊，代碼low，效率差，也沒有保存到本地文件或者數據庫，強行使用了一波多線程導致數據順序發生了變化。。。貼在這裏，引以為戒吧。 #

Python爬蟲入門 | 5 爬取小豬短租租房信息

圖片交流 ffffff 信息 jpg http 而已基本 mat 小豬短租是一個租房網站，上面有很多優質的民宿出租信息，下面我們以成都地區的租房信息為例，來嘗試爬取這些數據。小豬短租（成都）頁面：http://cd.xiaozhu.com/1.爬取租房標題按照慣例，

Python 爬蟲入門(一)——爬取糗百

upa ext win comment 地址 odi 批量爬蟲程序 article 爬取糗百內容 GitHub 代碼地址https://github.com/injetlee/Python/blob/master/qiubai_crawer.py 微信公眾號：【智能制造專

Python爬蟲項目--爬取自如網房源信息

xml解析 quest chrom 當前 b2b cal 源代碼 headers 判斷本次爬取自如網房源信息所用到的知識點: 1. requests get請求 2. lxml解析html 3. Xpath 4. MongoDB存儲正文 1.分析目標站點 1. url:

Python 爬蟲入門之爬取妹子圖

Python 爬蟲入門之爬取妹子圖來源：李英傑連結： https://segmentfault.com/a/1190000015798452 聽說你寫程式碼沒動力？本文就給你動力，爬取妹子圖。如果這也沒動力那就沒救了。 GitHub 地址:&

python爬蟲-基礎入門-爬取整個網站《1》

python爬蟲-基礎入門-爬取整個網站《1》描述：　　使用環境：python2.7.15 ，開發工具：pycharm，現爬取一個網站頁面（http://www.baidu.com）所有資料。 python程式碼如下： 1 # -*- coding: utf-8 -*- 2 3 i

python爬蟲-基礎入門-爬取整個網站《2》

python爬蟲-基礎入門-爬取整個網站《2》描述：　　開場白已在《python爬蟲-基礎入門-爬取整個網站《1》》中描述過了，這裡不在描述，只附上 python3 的程式碼。 python3 指令碼程式碼： 1 #-*- coding: utf-8 -

python爬蟲-基礎入門-爬取整個網站《3》

python爬蟲-基礎入門-爬取整個網站《3》描述：　　前兩章粗略的講述了python2、python3爬取整個網站，這章節簡單的記錄一下python2、python3的區別 python2.x 使用類庫：　　>> urllib 庫　　>> urlli

Python爬蟲項目--爬取鏈家熱門城市新房

聲明 rules nal logging 命令行 -- new exec 狀態本次實戰是利用爬蟲爬取鏈家的新房(聲明: 內容僅用於學習交流, 請勿用作商業用途) 環境 win8, python 3.7, pycharm 正文 1. 目標網站分析通過分析, 找出相關url

Python爬蟲--正則表示式

什麼是正則表示式？正則表示式，又稱規則表示式。（英語：Regular Expression，在程式碼中常簡寫為regex、regexp或RE），電腦科學的一個概念。正則表示式通常被用來檢索、替換那些符合某個模式(規則)的文字。 Python交流群：942913325 概念正則表示式是對字

python 爬蟲 使用正則爬取51job內容並存入txt

相關推薦

python 爬蟲使用正則爬取51job內容並存入txt