前程無憂

阿新 • • 發佈：2018-09-03

學歷 style span arc https ems form lba cal

# -*- coding: utf-8 -*-
import scrapy
import re
from zhaopin_project.items import LagouItem

class QianchengwuyouSpider(scrapy.Spider):
    name = ‘qianchengwuyou‘
    allowed_domains = [‘51job.com‘]
    start_urls = [‘http://51job.com/‘]

    def parse(self, response):
        for i in range(1,1620):
            base_url  
= ‘https://search.51job.com/list/010000,000000,0000,32,9,99,%2B,2,{}.html‘.format(i)
            # print(base_url)
            yield scrapy.Request(base_url,callback=self.parse_detail)

    def parse_detail(self,response):
        html_str = response.xpath(‘//div[@class="el"]/p/span/a/@href‘).extract()
        # print(html_str) 

        for html_list in html_str:
            yield scrapy.Request(html_list,callback=self.parse_list)

    def parse_list(self,response):
        try:
            # 職位名稱
            title = response.xpath(‘//div[@class="cn"]/h1/text()‘).extract_first()
            # 月薪
            salary = response.xpath(‘ 
//div[@class="cn"]/strong/text()‘).extract_first()
            # 位置
            p = re.findall(r‘<p class="msg ltype" title="(.*)">‘,response.text)[0]
            ss = p.split(‘&nbsp;&nbsp;|&nbsp;&nbsp;‘)
            position = ss[0]
            #經驗要求
            jingyan = ss[1]
            # 學歷要求
            if len(ss) ==4:
                xueli = ‘學歷不限‘
            else:
                xueli = ss[2]
            # 時間
            shijian = ss[-1]
            # 發布網站
            fabu = ‘前程無憂‘
            # 職位描述
            job_bt = response.xpath(‘//div[@class="tBorderTop_box"]/div/p/text()‘).extract()
            job_bt = ‘‘.join(job_bt)
            # print(‘--‘*50)

            item = LagouItem()
            item[‘title‘] = title
            item[‘salary‘] = salary
            item[‘position‘] = position
            item[‘jingyan‘] = jingyan
            item[‘xueli‘] = xueli
            item[‘shijian‘] = shijian
            item[‘fabu‘] = fabu
            item[‘job_bt‘] = job_bt
            yield item
        except:
            pass

前程無憂

前程無憂投資拉勾有著如何“不可告人”的秘密？

依然邏輯 -i 我們校園永遠沒有概念關心今天互聯網圈最大的新聞，就是前程無憂1.2億美金投資了拉勾。在互聯網圈，很多人都知道拉勾，但很少人關心前程無憂。這種上古時代的網站誰還用呢？為什麽一家公司可以拿出將近10億現金？後來扒了一下他們的財報，發現簡直是悶聲賺

前程無憂

學歷 style span arc https ems form lba cal # -*- coding: utf-8 -*- import scrapy import re from zhaopin_project.items import LagouItem cl

前程無憂爬蟲原始碼及分析（一）

一、網頁分析 1.1 關鍵字頁面(url入口) 首先在前程無憂網站上檢索關鍵詞"大資料"： &n

R語言爬取前程無憂網招聘職位

資料的獲取是資料探勘的第一步，如果沒有資料何談資料探勘？有時候在做演算法測試的時候，一個好的資料集也是演算法實驗成功的前提保障。當然我們可以去網上下載大型資料網站整理好的，專業的資料，但是自己動手爬取資料是不是更愜意呢？說到這裡，給大家推薦一些常用的大型資料集： (1)、Mov

一個簡單Python爬蟲例項（爬取的是前程無憂網的部分招聘資訊）

從今天開始學習爬蟲，展示我的第一個例項（用的是Python3寫的，Python2需要加個編碼方式吧，或許還有其他的不相容的地方吧，我就不知道了），把這分享給大家，希望對大家有一些幫助 import urllib,re import urllib.request import xlwt #開啟網頁

scrapy爬取前程無憂51job網職位資訊並存儲到資料庫

spiders中程式碼如下 import scrapy from scrapy import Request from QianCheng.items import QianchengItem import re class ExampleSpider(s

scrapy框架爬取前程無憂

用了幾天時間爬取了前程無憂上的資料進行分析，完成了一個小專案，截取了部分程式碼，不足之處，你也打不到我！ pi… pi… 網站：前程無憂資料庫：MySQL 知識點：scrapy框架，mysql資料庫，xpath，echarts，jeiba 直接看專案！爬蟲程式碼》》 i

Scrapy爬取前程無憂（51job）相關職位資訊

Scrapy爬取前程無憂（51job）python職位資訊開始是想做資料分析的，上網上找教程，看到相關部落格我就跟著做，但是沒資料就只能開始自己爬唄。順便給51job的工作人員提提建議，我爬的時候Scrapy訪問量開到128，relay僅有兩秒，還以為會封ip。沒想到只是改請求頭就

前程無憂爬蟲實戰（通過輸入關鍵字爬取任意職位並自動儲存為.csv文字）

![0e644a1fa9dc00c3e7c752bdf4382aa2.jpg](https://upload-images.jianshu.io/upload_images/9136378-72ab92577ff68f7d.jpg?imageMogr2/auto-orient/strip%7Ci

關於前程無憂以‘資料分析’為關鍵詞的招聘資訊的資料分析

背景：作為個數據分析小菜鳥，深知知行合一的重要性。基於本人目前要在杭州尋找一份資料分析的初階工作的現實考量，故決定採用前程無憂上關鍵詞‘資料分析’和地點設定在杭州上的招聘資訊作為此次資料分析的資料來源來進行實操，同時也為了能讓自己更好的瞭解目前杭州關於資料分析崗

如何讓數據庫安全無憂？

技術分享排行生命線失敗報表 grant 一場出現優化 Verizon最新發布的《2015數據泄露調查報告》顯示，500強企業中超半數曾遭受過黑客攻擊。其中，來自中國的數據安全問題更加觸目驚心。報告顯示，特別容易遭受攻擊的是一些掌握大量民眾個人信息的通信運營商、互

無憂保-市審計局四個維度築牢社保基金安全網

深入調查現狀優勢收入操作性 line 資金生活無憂保社保新聞早報：近日，市審計局在社保基金審計中緊扣社保基金運營主線，突出政策落實和運營績效，發揮大數據審計優勢，從四個維度推動築牢社保基金安全網，為基金安全運行“保駕護航”。　　一是關註社會保障政

python獲取無憂網的招聘資料

工作前的閒聊又到了家裡催找工作的時候我的天,就想窩在家多鑽研一下程式都不行的然後,爬爬51job的招聘資訊吧,主要是不想自己一頁頁去翻,怪麻煩的作為一個戀家的人,而且自己有臺車子不開怪可惜的,鑑於廣州限行,就暫不考慮,有需要再看看吧注:以下內容在作者這邊的請求頭中是有c

不是要我教你怎麼去除馬賽克嗎？Python去馬！看片無憂！

該專案使用深度完全卷積神經網路（deep fully convolutional neural network），參照了英偉達在今年4月前釋出的一篇論文。當然，英偉達原文的目的可不是用來做羞羞的事情，而是為了復原畫面被單色條帶遮擋的問

自己的第一份保險（均來自太平）：“福祿康瑞2018重疾險” + “醫無憂” + “愛無憂”

7月參加工作，8月份領到第一份工資後就在米西手裡購置了下面這三款，現在剛好可以學習一下：太平福祿康瑞2018終身重大疾病保險，保額30w，20年交太平醫無憂醫療保險，計劃2 太平愛無憂綜合意外傷害保險，計劃1 一、福祿康瑞2018重疾險簡單點就叫它小福吧，重疾相關基礎知識歡迎點選

掌握instanceof原理，面試無憂

1、instanceof的作用是用來做檢測型別：（1）instanceof可以檢測某個物件是不是另一個物件的例項； var Person = function() {}; var student = new Person(); console.log(stud

郭富城專屬品牌AKFS+在無憂猴首發

自從國慶期間郭天王AKFS+洗護系列預熱了之後，很多粉絲都在後臺留言什麼時候正式售賣。現在小猴子告訴你們：郭富城專屬品牌AKFS+ 今天正式開售發貨啦！這款萬眾期待的AKFS+，它的奇妙之處在於運用大中華漢方精萃結合西方的先進納米浸透科技

華為雲資料庫最佳實踐：智慧化和自動化支撐企業上雲無憂

在剛過去的 2018 華為全聯接大會上，與會者可謂渡過了一個狂歡盛宴。從火到爆炸的 +AI、到紅得發紫的+智慧，從理論、到實踐；各路大咖把當下網際網路最熱門的產品和方案盡數拆解個遍。其中華為雲資料庫帶來的一系列主題演講和最佳實踐，更是成為眾多企業上雲的指路牌。《華

武漢雲遊世紀遊戲開發：星級服務，售後無憂

雲遊世紀棋牌遊戲，能夠為客戶提供哪些服務呢? 1、免費定製棋牌遊戲開發服務。 2、免費定製地方專屬棋牌遊戲推廣方案，大大提高盈利時間。 3、免費提供棋牌遊戲運營資質：網路文化經營許可證、ICP、遊戲軟體著作權、遊戲版號和遊戲備案號。 4、免費享用我公司品牌。 5

好嗨喲，這5個超牛的資源網站，讓你輕鬆無憂找資源！

馬上過年啦！興奮、激動、睡不著？這個時候來點什麼好呢？看個電影，找不到資源；聽個音樂，沒有會員；看個電子書，沒有許可權？這些讓人頭疼的問題，小編今天為大家“出謀劃策”！分享內容：5個超牛的資源網站分享目的：幫你找到想要的資源分享效果：失眠不孤單，旅途不無聊！乾貨

前程無憂

相關推薦