用python拉鉤網的完整版

阿新 • • 發佈：2018-04-16

pda med pos emp agent time () put osi

這是在爬取伯樂在線的基礎之上的，所以就沒重復代碼。

在lagou.py

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from ArticleSpider.utils.common import get_md5
from selenium import webdriver
import time
import pickle
from ArticleSpider.items import LagouJobItemLoader, LagouJobItem
from datetime import datetime
class LagouSpider(CrawlSpider):
    name = ‘lagou‘
    allowed_domains = [‘www.lagou.com‘]
    start_urls = [‘https://www.lagou.com/‘]
    # headers = {
    #     "HOST": "www.lagou.com",
    #     "Referer": ‘https://www.lagou.com‘,
    #
    #     ‘User-Agent‘:"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.162 Safari/537.36"
    # }
    rules = (
        Rule(LinkExtractor(allow=r‘gongsi/j/\d+.html‘), follow=True),
        Rule(LinkExtractor(allow=r‘zhaopin/.*‘), follow=True),
        Rule(LinkExtractor(allow=r‘jobs/\d+.html‘), callback=‘parse_job‘, follow=True),
    )

    def parse_job(self, response):

        #解析拉勾網的職位
        item_loader = LagouJobItemLoader(item=LagouJobItem(), response=response)
        item_loader.add_css("title", ".job-name::attr(title)")
        item_loader.add_value("url", response.url)
        item_loader.add_value("url_object_id", get_md5(response.url))
        item_loader.add_css("salary", ".job_request .salary::text")
        item_loader.add_xpath("job_city", "//*[@class=‘job_request‘]/p/span[2]/text()")
        item_loader.add_xpath("work_years", "//*[@class=‘job_request‘]/p/span[3]/text()")
        item_loader.add_xpath("degree_need", "//*[@class=‘job_request‘]/p/span[4]/text()")
        item_loader.add_xpath("job_type", "//*[@class=‘job_request‘]/p/span[5]/text()")

        item_loader.add_css("tags", ‘.position-label li::text‘)
        item_loader.add_css("publish_time", ".publish_time::text")
        item_loader.add_css("job_advantage", ".job-advantage p::text")
        item_loader.add_css("job_desc", ".job_bt div")
        item_loader.add_css("job_addr", ".work_addr")
        item_loader.add_css("company_name", "#job_company dt a img::attr(alt)")
        item_loader.add_css("company_url", "#job_company dt a::attr(href)")
        item_loader.add_value("crawl_time", datetime.now())

        job_item = item_loader.load_item()

        return job_item

    def start_requests(self):


        browser = webdriver.Chrome(executable_path="D:/Temp/chromedriver.exe")


        browser.get("https://passport.lagou.com/login/login.html?service=https%3a%2f%2fwww.lagou.com%2f")
        browser.find_element_by_xpath("/html/body/section/div[1]/div[2]/form/div[1]/input").send_keys("account")#需要輸入正確的拉鉤網賬號
        browser.find_element_by_xpath("/html/body/section/div[1]/div[2]/form/div[2]/input").send_keys("password")#需要輸入拉鉤網密碼
        print(browser.page_source)
        browser.find_element_by_xpath("/html/body/section/div[1]/div[2]/form/div[5]").click()
        time.sleep(10)
        Cookies=browser.get_cookies()
        # print(Cookies)
        cookie_dict={}
        for cookie in Cookies:
            f=open(‘C:/Users/Dell/scrapytest/Scripts/ArticleSpider‘+cookie[‘name‘]+‘.lagou‘,‘wb‘)
            pickle.dump(cookie,f)
            f.close()
            cookie_dict[cookie[‘name‘]]=cookie[‘value‘]
        browser.close()
        return[scrapy.Request(url=self.start_urls[0], dont_filter=True,cookies=cookie_dict)]
        # return[scrapy.Request(url=self.start_urls[0], headers=self.headers,dont_filter=True,cookies=cookie_dict)]

在main中

from scrapy.cmdline import execute

import sys
import os

sys.path.append(os.path.dirname(os.path.abspath(__file__)))
# execute(["scrapy", "crawl", "jobbole"])
# execute(["scrapy", "crawl", "zhihu"])
execute(["scrapy", "crawl", "lagou"])

在items中

def remove_splash(value):
    #去掉工作城市的斜線
    return value.replace("/","")

def handle_jobaddr(value):
    addr_list = value.split("\n")
    addr_list = [item.strip() for item in addr_list if item.strip()!="查看地圖"]
    return "".join(addr_list)
class LagouJobItemLoader(ItemLoader):
    #自定義itemloader
    default_output_processor = TakeFirst()


class LagouJobItem(scrapy.Item):
    #拉勾網職位信息
    title = scrapy.Field()
    url = scrapy.Field()
    url_object_id = scrapy.Field()
    salary = scrapy.Field()
    job_city = scrapy.Field(
        input_processor=MapCompose(remove_splash),
    )
    work_years = scrapy.Field(
        input_processor = MapCompose(remove_splash),
    )
    degree_need = scrapy.Field(
        input_processor = MapCompose(remove_splash),
    )
    job_type = scrapy.Field()
    publish_time = scrapy.Field()
    job_advantage = scrapy.Field()
    job_desc = scrapy.Field()
    job_addr = scrapy.Field(
        input_processor=MapCompose(remove_tags, handle_jobaddr),
    )
    company_name = scrapy.Field()
    company_url = scrapy.Field()
    tags = scrapy.Field(
        input_processor = Join(",")
    )
    crawl_time = scrapy.Field()

    def get_insert_sql(self):
        insert_sql = """
            insert into lagou_job(title, url, url_object_id, salary, job_city, work_years, degree_need,
            job_type, publish_time, job_advantage, job_desc, job_addr, company_name, company_url,
            tags, crawl_time) VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s)
            ON DUPLICATE KEY UPDATE salary=VALUES(salary), job_desc=VALUES(job_desc)
        """
        params = (
            self["title"], self["url"], self["url_object_id"], self["salary"], self["job_city"],
            self["work_years"], self["degree_need"], self["job_type"],
            self["publish_time"], self["job_advantage"], self["job_desc"],
            self["job_addr"], self["company_name"], self["company_url"],
            self["job_addr"], self["crawl_time"].strftime(SQL_DATETIME_FORMAT),
        )

        return insert_sql, params

在數據庫的設計

技術分享圖片　　

用python拉鉤網的完整版

pda med pos emp agent time () put osi 這是在爬取伯樂在線的基礎之上的，所以就沒重復代碼。在lagou.py import scrapy from scrapy.linkextractors import LinkExtractor

用Python爬取拉鉤網招聘職位資訊

本文實現自動爬取拉鉤網招聘資訊，並將爬取結果儲存在本地文字中（也可以將資料存入資料庫）使用到的Python模組包（Python3）： 1.urllib.request 2.urllib.parse 3.json 簡單分析： 1.在向伺服器傳送請求，

python爬取拉鉤網招聘資訊

拉鉤網網址為：https://www.lagou.com/點選F12進入控制檯觀察結構，發現所有的招聘內容都在此json檔案中：注意headers中的請求url以及請求方法：還有表單資料：獲取以上資訊後，基本就可以開始爬取工作，注意，拉鉤網有反爬機制，所以需要使用cookie

python爬取拉鉤網資料

import requests import re#引用正則匹配 from bs4 import BeautifulSoup headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) A

Python多程序抓取拉鉤網十萬資料

準備安裝Mongodb資料庫其實不是一定要使用MongoDB，大家完全可以使用MySQL或者Redis，全看大家喜好。這篇文章我們的例子是Mongodb，所以大家需要下載它。在Windows中。由於MongoDB預設的資料目錄為C:\data\db，建議大家直接在安裝的時候更改預設

如果你不會Python多程序！那你會爬蟲？扯淡！抓取拉鉤網十萬資料

這篇文章我們來抓取拉鉤網的招聘資訊。全部抓取大概十幾萬條全國招聘資訊，並且儲存資料庫。準備安裝Mongodb資料庫其實不是一定要使用MongoDB，大家完全可以使用MySQL或者Redis，全看大家喜好。這篇文章我們的例子是Mongodb，所以大家需要下載它。最後我們需要開啟管理員許可權的 CMD 視

簡單python爬蟲爬取拉鉤網

因為個人需求，爬取了拉鉤網資料探勘相關職位的資料首先先進入到拉鉤的首頁，搜尋資料探勘，得到相關職位的列表，按F12，檢視網路檢視html，可以看到職位列表並不在html所以肯定是通過XHR非同步載入的，再切換到XHR，可以找到4個，點開檢視，可以看到在一個請求中有我們需要的資

我用Python爬取網易雲音樂上的Hip-hop歌單，分析rapper如何押韻

line gone 謠言大致 -i 態度大眾其中當前緣起《中國有嘻哈》這個節目在這個夏天吸引了無數的目光，也讓嘻哈走進了大眾的視野。作為我今年看的唯一一個綜藝節目，它對我的影響也蠻大。這個夏天，我基本都在杭州度過，在上下班的taxi上，我幾乎都在刷這個節目，最後

ruby 爬蟲爬取拉鉤網職位信息，產生詞雲報告

content 數據持久化 lag works wid spa 代碼職位要求思路：1.獲取拉勾網搜索到職位的頁數　　 2.調用接口獲取職位id 　　 3.根據職位id訪問頁面，匹配出關鍵字　　 url訪問采用unirest，由於拉鉤反爬蟲，短時間內頻繁訪問會被

selelinum+PhantomJS 爬取拉鉤網職位

one while 對象 bili exe 5.0 設置 expect money 使用selenium+PhantomJS爬取拉鉤網職位信息，保存在csv文件至本地磁盤拉鉤網的職位頁面，點擊下一頁，職位信息加載，但是瀏覽器的url的不變，說明數據不是發送get請求得到的

拉鉤網————爬取嘗試

col arch lencod color als input pre 內容 utf #拉勾網需要User-Agent請求頭才能獲取到內容 from urllib import request url="https://www.lagou.com/jobs/l

小夥用python篩選相親網美女資源，兩個月就找到了女朋友

小編今天給大家推送重磅福利，教你用python抓取相親網站上的美女資訊。小編一年前還是單身狗一枚，自從寫了這個簡單的爬蟲之後，美女資訊源源不斷啊，不出兩個月就找到了自己心儀的女朋友。你心動了麼？話不多說，乾貨奉上~ 步驟：開啟網頁分析

7.1 python拉勾網實戰並儲存到mongodb

拉鉤網實戰爬取拉勾網有關“爬蟲”的職位資訊，並把爬取的資料儲存在MongoDB資料庫中確定網頁的載入方式是JavaScript載入通過谷歌瀏覽器開發者工具分析和尋找網頁的真實請求，確定真實資料在position.Ajax開頭的連結裡，請求方式是POST使用request

Python拉勾網資料採集與視覺化

Python中文社群Python中文開發者的精神部落全文簡介本文是先採集拉勾網上面的資料，採集的

用python爬取網貸之家p2p平臺數據

網貸之家中的p2p平臺數據比較容易獲取，重要的就是如何分析網頁的原始碼然後從裡面提取自己需要的資訊，也不需要使用者登入，該網站的爬蟲比較簡單，主要用了urllib包來獲取網頁資訊，用BeautifulSoup來解析網頁，最後用正則表示式提取資料。這裡就直接上原始

使用scrapy+IP代理+多執行緒爬蟲對拉鉤網在杭州網際網路職位資訊的抓取

#encoding=utf8 import urllib2 from bs4 import BeautifulSoup import socket import urllib import requests import random from LagouProject.dbhelper import Tes

redis資料庫和python的互動（完整版）

一、引入redis模組 import redis 二、在python中獲取redis資料庫 redis_0 = redis.StrictRedis(host="localhost", port=

用python爬取網易雲音樂，新手看了也能操作

今天小編帶大家一起來利用Python爬取網易雲音樂，分分鐘將網站上的音樂down到本地。跟著小編執行過程式碼的筒子們將網易雲歌詞抓取下來已經不再話下了，在抓取歌詞的時候在函式中傳入了歌手ID和歌曲名兩個引數，其實爬取歌曲也是同樣的道理，也需要傳入這兩個引數，只不過網易雲歌曲的

根據搜尋內容爬取拉鉤網和招聘網的職位招聘資訊

程式碼：import requests import time import random ip_list = ['117.135.132.107', '121.8.98.196', '194.116.198.212'] #http請求頭資訊 headers={ 'Ac

爬蟲入門——用python爬取網易雲音樂熱門歌手評論數

本文參考Monkey_D_Newdun 的文章用爬蟲獲取網易雲音樂熱門歌手評論數執行平臺：Windows 10IDE：spyderPython版本：3.6瀏覽器：360一、爬蟲基本思路a. 通過URL或者檔案獲取網頁：開啟網頁-F12-找到需要獲取的url，request h

用python拉鉤網的完整版

相關推薦