簡易爬蟲爬取51job招聘資訊

阿新 • • 發佈：2019-02-20

import re
import urllib.request

class Grab(object):
    # 定義類屬性
    num = 0
    def __init__(self):
        # 請求的網址
        self.url = "http://search.51job.com/list/010000,000000,0000,00,9,99,python,2,1.html?"
        # 請求頭
        self.headers = {"Host": "search.51job.com",
                "User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36" 

                }

    def openurl(self):
        # 建立請求物件
        fin_url = urllib.request.Request(url=self.url,headers=self.headers)
        # 請求網址
        read_data = urllib.request.urlopen(fin_url)
        # 讀取內容
        data = read_data.read().decode("gbk")
        # 正則匹配字元,取出存放資訊的連結
        mes_list = re.findall(r"http://jobs\.51job\.com.+\.html" 
, data)
        # 遍歷存放連結的列表
        for i in mes_list:

            self.deal(i)


    def deal(self,url):
        # 請求取出的網址
        files = urllib.request.urlopen(url)
        # 讀取網站
        data = files.read()
        # 正則匹配內容
        find_list = re.findall(r"<p>.*</p>",data.decode("gbk" 
))
        # 開啟檔案寫入
        new_file = open("zhaopin"+"/"+str(Grab.num)+".txt","w")
        new_file.write(str(find_list))
        new_file.close()
        Grab.num += 1
def main():
    # 建立物件
    g = Grab()
    g.openurl()




if __name__ == "__main__":
    main()

簡易爬蟲爬取51job招聘資訊

import re import urllib.request class Grab(object): # 定義類屬性 num = 0 def __init__(self)

Python爬蟲爬取51job招聘網站

最近學習爬蟲，做了一個python爬蟲工具寫在這裡記錄一下。# python爬51job工具，稍微改改就可以爬其他網站 # edit by mengqi Date：2018-07-11 # encoding:uft-8 import csv

Python簡易爬蟲爬取百度貼吧圖片

decode works 接口 def 讀取 min baidu 得到 internal 　　　　　通過python 來實現這樣一個簡單的爬蟲功能，把我們想要的圖片爬取到本地。(Python版本為3.6.0) 一.獲取整個頁面數據　　 def getHtml(url)

★ Python爬蟲 - 爬取網頁文字資訊並儲存（美文的爬取與儲存）

本篇文章所包含的主要內容：使用requests模組實現對網頁以字串的形式儲存使用open()、write()、close()函式實現檔案的開啟與寫入使用if() 條件語句對所需要的文字資訊進行過濾以形成一個專用提取函式 &n

爬取51job招聘網

import urllib.request from bs4 import BeautifulSoup import time import pymongo import pymysql #https://search.51job.com/list/170200,000000,0000,

用selenium製作爬蟲爬取教務課程資訊

前段時間在選課，而我們的教務系統又十分蛋疼。先是在選課時不停崩潰，進不去，選課結束要列印選課單時又因為它自己系統太老而不支援64位瀏覽器列印課表。。。沒有辦法我就寫了一個爬取教務課程資訊並將其儲存在MongoDB中的程式，這個程式稍微改改就可以變成搶課指令碼了。內容有

分散式爬蟲——爬取bilibili視訊資訊資源

一、專案介紹：爬取bilibili網站上的全部視訊資訊（不包含直播；廣告和放映廳欄）；資訊量為千萬級，爬取任務較為重，所以採取分散式爬蟲。二、說明： a、裝置說明： 1

Springboot+JPA下實現簡易爬蟲--爬取豆瓣電視劇資料

Springboot+JPA下實現簡易爬蟲--爬取豆瓣電視劇資料　　前言：今天聽到產品那邊討論一些需求，好像其中一點是使用者要求我們爬蟲，在網頁上抓取一些資料然後存到我們公司資料庫中，眾所周知，爬蟲的實現對於python語言可是專家，而對於我們使用的Java語言，我也不確定可不可以，趁著無事，上網參考了下

Python爬蟲-爬取騰訊QQ招聘崗位資訊（Beautiful Soup）

爬取騰訊招聘資訊-Beautiful Soup --------------------------------------- ============================================ =================================

Beautiful Soup爬蟲——爬取智聯招聘的資訊並存入資料庫

本人目前在校本科萌新…第一次寫有所不足還請見諒前期準備智聯招聘網頁讓我們來搜尋一下python 發現網頁跳轉到這讓我們看一下原始碼發現並沒有我們所需要的資料一開始我不信邪用requests嘗試了一下 import requests header

網路爬蟲之scrapy爬取某招聘網手機APP釋出資訊

1 引言 2 APP抓包分析 3 編寫爬蟲昂 4 總結 1 引言過段時間要開始找新工作了，爬取一些崗位資訊來分析一下吧。目前主流的招聘網站包括前程無憂、智聯、BOSS直聘、拉勾等等。有

Python爬蟲爬取智聯招聘職位資訊

目的：輸入要爬取的職位名稱，五個意向城市，爬取智聯招聘上的該資訊，並列印進表格中 #coding:utf-8 import urllib2 import re import xlwt class ZLZP(object): def __init__(self

【爬蟲相關】爬蟲爬取拉勾網的安卓招聘資訊

我爬取了30頁拉勾上安卓的招聘資料告訴你安卓崗位究竟要一個什麼樣的人我知道沒圖你們是不會看的如圖：以上是抓取了30頁拉勾上關於招聘安卓相關的內容然後根據詞頻製作出詞雲圖出現最多的詞是開發經驗整體流程總共分為2步 1.爬蟲爬取相關的招聘資訊 2.根

python3 爬蟲爬取智聯招聘崗位資訊

這套程式基於python3 ，使用requests和re正則表示式，只需要將程式儲存為.py檔案後，即可將抓取到的資料儲存到指定路徑的Excel檔案中。程式在終端中啟動，啟動命令： #python3 檔名.py 關鍵字城市 python3 zhilian.p

簡易python爬蟲爬取boss直聘職位，並寫入excel

python爬蟲寫入excel1，默認城市是杭州，代碼如下#! -*-coding:utf-8 -*-from urllib import request, parsefrom bs4 import BeautifulSoupimport datetimeimport xlwt starttime = dat

python 爬蟲 requests+BeautifulSoup 爬取巨潮資訊公司概況代碼實例

pan 字符 selenium 5.0 target 自我 color list tails 第一次寫一個算是比較完整的爬蟲，自我感覺極差啊，代碼low，效率差，也沒有保存到本地文件或者數據庫，強行使用了一波多線程導致數據順序發生了變化。。。貼在這裏，引以為戒吧。 #

Python練習三:爬蟲練習,從一個提供免費代理的網站中爬取IP地址資訊

西刺代理,http://www.xicidaili.com/,提供免費代理的IP,是爬蟲程式的目標網站. 開始寫程式 import urllib.requestimport re def open_url(url): 　　req = urllib.request.Request(url) 　　req

Python爬蟲：爬取網站電影資訊

以爬取電影天堂喜劇片前5頁資訊為例，程式碼如下： 1 # coding:UTF-8 2 3 import requests 4 import re 5 6 def mov(): 7 headers={'User-Agent':'Mozilla/5.0 (Windo

【python學習筆記】37：認識Scrapy爬蟲,爬取滬深A股資訊

學習《Python3爬蟲、資料清洗與視覺化實戰》時自己的一些實踐。認識Scrapy爬蟲安裝書上說在pip安裝會有問題，直接在Anaconda裡安裝。建立Scrapy專案 PyCharm裡沒有直接的建立入口，在命令列建立（從Anaconda安裝後似乎自動就

c# 爬蟲爬取商品資訊

在一個小專案中,需要用到京東的所有商品ID,因此就用c#寫了個簡單的爬蟲。在解析HTML中沒有使用正則表示式，而是藉助開源專案HtmlAgilityPack解析HTML。一、下載網頁HTML 首先我們寫一個公共方法用

簡易爬蟲爬取51job招聘資訊

相關推薦