程序池爬取並存入mongodb

阿新 • • 發佈：2018-11-21

設定程序池爬取拉鉤網：

# coding = utf-8
import json
import pymongo
import pandas as pd
import requests
from lxml import etree
import time
from multiprocessing import Pool


# 設定mongodb
client = pymongo.MongoClient('localhost')
db = client['lagou']
# 查詢的崗位名稱
POSITION_NAME = '資料探勘'
# 想要爬取的總頁面數
PAGE_SUM  
= 200
# 每頁返回的職位數量
PAGE_SIZE = 15
# 指定資料庫的名字
DATA_NAME = "DataMiningPosition"


base_url = 'https://m.lagou.com/search.json?city=%E5%85%A8%E5%9B%BD&positionName={positionName}' \
           '&pageNo={pageNo}&pageSize={pageSize}'


def page_index(pageno):
    headers = {
        "Accept 
": "application/json",
        "Accept-Encoding": "gzip, deflate",
        "Accept-Language": "zh-CN,zh;q=0.9",
        # cookie能不要儘量不要，這裡正好不用cookie也可以正常返回資料
        # "Cookie": "user_trace_token=20181119151914-03711263-38a2-4d81-bd81-5f480d930039; _ga=GA1.2.605262108.1542611954; _gid=GA1.2.249787972.1542611954; LGSID=20181119151916-6c3da9fa-ebcb-11e8-8958-5254005c3644; PRE_UTM=; PRE_HOST=www.baidu.com; PRE_SITE=https%3A%2F%2Fwww.baidu.com%2Flink%3Furl%3DOnHWjpEfiW4_pVm7hX8NYOFm0iJ7bz1ZJJlaKPPnmMzLE-6ypKNo0f19ABO5bjW4%26wd%3D%26eqid%3D8f61629100016e18000000065bf263e7; PRE_LAND=https%3A%2F%2Fwww.lagou.com%2Fgongsi%2F147.html; LGUID=20181119151916-6c3dabf3-ebcb-11e8-8958-5254005c3644; index_location_city=%E5%85%A8%E5%9B%BD; JSESSIONID=ABAAABAAAGCABCC2D851CA25D1CFCD2B28DCDD6E00A2C7E; _ga=GA1.3.605262108.1542611954; X_HTTP_TOKEN=a0cc1a4beb8a41f57f144bc0bfd77bd7; sajssdk_2015_cross_new_user=1; sensorsdata2015jssdkcross=%7B%22distinct_id%22%3A%221672adb3834203-08b3706084b44a-3961430f-1327104-1672adb3835428%22%2C%22%24device_id%22%3A%221672adb3834203-08b3706084b44a-3961430f-1327104-1672adb3835428%22%2C%22props%22%3A%7B%22%24latest_traffic_source_type%22%3A%22%E7%9B%B4%E6%8E%A5%E6%B5%81%E9%87%8F%22%2C%22%24latest_referrer%22%3A%22%22%2C%22%24latest_referrer_host%22%3A%22%22%2C%22%24latest_search_keyword%22%3A%22%E6%9C%AA%E5%8F%96%E5%88%B0%E5%80%BC_%E7%9B%B4%E6%8E%A5%E6%89%93%E5%BC%80%22%7D%7D; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1542611954,1542612053,1542612277,1542612493; _gat=1; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1542613115; LGRID=20181119153837-20bafb1a-ebce-11e8-8958-5254005c3644 
",
        "Host": "m.lagou.com",
        "Proxy-Connection": "keep-alive",
        "Referer": "http://m.lagou.com/search.html",
        "X-Requested-With": "XMLHttpRequest",
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/45.0.2454.85 Safari/537.36 115Browser/6.0.3',
    }
    url = base_url.format(positionName=POSITION_NAME, pageNo=pageno, pageSize=PAGE_SIZE)
    response = requests.get(url, headers=headers)
    html = response.text
    content = json.loads(html)
    print(content)
    if content.get("content"):
        return content
    else:
        time.sleep(30)
        return page_index(pageno)


def parse_page_index(content):
    
    for i in range(15):
        try:
            item = content['content']['data']['page']['result'][i]
            #print(item)
            yield {
                'positionId': item.get('positionId'),
                'positionName': item.get('positionName'),
                'city': item.get('city'),
                'createTime': item.get('createTime'),
                'salary': item.get('salary'),
                'companyId': item.get('companyId'),
                'companyFullName': item.get('companyFullName')
            }
        except IndexError as e:
            print('可能沒有那麼多欄位', e)

def save_to_mongo(data):
    if db[DATA_NAME].update({'positionId': data['positionId']}, {'$set': data}, True):
        print('Saved to Mongo', data['positionId'])
    else:
        print('Saved to Mongo Failed', data['positionId'])

def parse_detail(url):
    # url = "http://m.lagou.com/jobs/4593934.html"
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36",
        "Accept": "text / html, application / xhtml + xml, application / xml;q = 0.9, image / webp, image / apng, * / *;q = 0.8",
        "Accept - Encoding": "gzip, deflate",
        "Accept - Language": "zh - CN, zh;q = 0.9",
        "Cache - Control": "max - age = 0",
        "Connection": "eep - alive",
       # "Cookie": "_ga=GA1.2.474762156.1528795210; _gid=GA1.2.574638607.1528795210; user_trace_token=20180612172010-cdf76dc1-6e21-11e8-9af0-525400f775ce; LGUID=20180612172010-cdf772c0-6e21-11e8-9af0-525400f775ce; Hm_lvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1528795210,1528795215,1528795223; index_location_city=%E5%85%A8%E5%9B%BD; X_HTTP_TOKEN=f3ed266ddeee802fb7d402e4f6d4f4a3; JSESSIONID=ABAAABAAAFDABFG9F9C52FA9D8CAE24F139A0131C45E918; _ga=GA1.3.474762156.1528795210; _gat=1; LGSID=20180612184248-597a7795-6e2d-11e8-9479-5254005c3644; PRE_UTM=; PRE_HOST=; PRE_SITE=http%3A%2F%2Fm.lagou.com%2Fsearch.html; PRE_LAND=http%3A%2F%2Fm.lagou.com%2Fjobs%2F4079910.html; LGRID=20180612184505-ab051d02-6e2d-11e8-9479-5254005c3644; Hm_lpvt_4233e74dff0ae5bd0a3d81c6ccf756e6=1528800306"
    
    }
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            print("請求成功")
            text = response.content.decode()
            # print(text)
            html = etree.HTML(text)
            workyear = html.xpath('//span[@class="item workyear"]/span/text()')
            if workyear:
                workyear = workyear[0]
            else:
                time.sleep(5)
                parse_detail(url)
            positiondesc = html.xpath('//div[@class="positiondesc"]//p/text()')
            #print(workyear, positiondesc)
            return workyear, positiondesc
    except Exception as e:
        print(e)

# 將爬取的資料存到Mongodb
def to_mongo(page_sum):
    # 拉勾網頂多只能顯示到334頁
    for page in range(page_sum):
        html = page_index(page)
        items = parse_page_index(html)
        # print(items)
        for item in items:
            print(item)
            save_to_mongo(item)

# 運用程序池將爬取的資料存到Mongodb
def to_mongo_pool(page):
    # 拉勾網頂多只能顯示到334頁
    content = page_index(page)
    items = parse_page_index(content)
    # print(items)
    for item in items:
        print(item)
        save_to_mongo(item)


# 解析爬取的字條，以便把資料轉為DataFrame格式
def parse_items(page_sum):
    for page in range(page_sum):
        html = page_index(page)
        items = parse_page_index(html)
        for item in items:
            positionId = item["positionId"]
            detail_url = "http://m.lagou.com/jobs/{}.html".format(positionId)
            workyear, positiondesc = parse_detail(detail_url)
            print(positionId,positiondesc)
            yield [
                item["positionId"],
                item["positionName"],
                item["city"],
                item["createTime"],
                item["salary"],
                item["companyId"],
                item["companyFullName"],
                workyear,
                positiondesc
            ]

# 把資料儲存為csv格式
def to_csv(page_sum):
    item_lists = []
    # print(parse_items())
    for item in parse_items(page_sum):
        item_lists.append(item)
    #print(item_lists)
    data = pd.DataFrame(item_lists,
                        columns=["positionId", "positionName", "city", "createTime", "salary", "companyId",
                                 "companyFullName", "workyear", "positiondesc"])
    data.to_csv("python_positon.csv")

if __name__ == '__main__':
    
    #to_csv
    #to_mongo(200)
    #  建議儲存到mongodb資料庫中

    start_time = time.time()
    pool = Pool()  # pool()引數：程序個數：預設的是電腦cpu的核的個數，如果要指定程序個數，這個程序個數要小於等於cpu的核數
    # 第一個引數是一個函式體，不需要加括號，也不需指定引數。。
    #  第二個引數是一個列表，列表中的每個引數都會傳給那個函式體
    pool.map(to_mongo_pool,[i for i in range(PAGE_SUM)])
    # close它只是把程序池關閉
    pool.close()
    # join起到一個阻塞的作用，主程序要等待子程序執行完，才能接著往下執行
    pool.join()
    end_time = time.time()
    print("總耗費時間%.2f秒" % (end_time - start_time))

程序池爬取並存入mongodb

設定程序池爬取拉鉤網： # coding = utf-8 import json import pymongo import pandas as pd import requests from lxml import etree import time from multiprocess

基於ThinkPHP5 使用QueryList爬取並存入mysql資料庫

QueryList4教程地址： https://doc.querylist.cc/site/index/doc/45 在ThinkPHP5程式碼根目錄執行composer命令安裝QueryList: composer require jaeger/querylist

通過程序池爬取王者榮耀所有英雄面板和技能詳情

首先設定UA池 def UserAgent(): list = ['Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 O

Python爬蟲爬取資料存入MongoDB

from bs4 import BeautifulSoup import requests import time import pymongo client = pymongo.MongoClient('Localhost', 27017) ceshi = client[

網貸平臺數據分析爬取並存入mysql,生成csv

學了python怎麼使用mysql就應該實際操作起來用用呀。爬取某網站上的資料並存入mysql，當然也包括存入csv檔案。因為一開始我是存csv，然後今晚學了連線資料庫（學習進度有點慢呀）… 上主程式碼 import requests imp

scrapy爬取新浪微博並存入MongoDB中

spider.pyimport json from scrapy import Request, Spider from weibo.items import * class WeiboSpider(Spider): name = 'weibocn'

Python網路爬蟲（九）：爬取頂點小說網站全部小說，並存入MongoDB

前言：本篇部落格將爬取頂點小說網站全部小說、涉及到的問題有：Scrapy架構、斷點續傳問題、Mongodb資料庫相關操作。背景： Python版本：Anaconda3 執行平臺：Windows IDE：PyCharm 資料庫：MongoDB 瀏

豆瓣電影top250爬取並保存在MongoDB裏

表名 title sta class tinc IV 邏輯運算符取出 mov 首先回顧一下MongoDB的基本操作：數據庫，集合，文檔 db,show dbs,use 數據庫名,drop 數據庫 db.集合名.insert({}) db.集合名.update({條

抓取網路json資料並存入mongodb（1）

我們在百度中搜索http://shixin.court.gov.cn/ ，會有一個內嵌的查詢頁面：這個是通過ajax技術載入的，因為是js渲染，所以頁面原始碼中並不包含這些資訊。通過Firefox的Firebug監視網路請求，發現是向百度opendata請求的，結果返

使用requests、re、BeautifulSoup、線程池爬取攜程酒店信息並保存到Excel中

備案 info imp lis sub host write count star import requests import json import re import csv import threadpool import time, random

神級python碼農教你爬取並儲存百度雲資源，你懂得~

網路爬蟲又被稱為網路機器人，網頁蜘蛛，在FOAF社群中間稱為網頁追逐者。是按照一定的規則，自動抓取資訊的程式或者指令碼。這篇文章主要介紹Python爬蟲框實戰之抓取並儲存百度雲資源！免費給廣大python愛好者提供資源！）尋找並分析百度雲的轉存api 首先你得有一個

建立自己的IP代理池[爬取西刺代理]

一:基本引數和匯入的包 import requests import re import random url = 'http://www.xicidaili.com/nn' headers = {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64)

java爬取並下載酷狗TOP500歌曲

是這樣的，之前買車送的垃圾記錄儀不能用了，這兩天狠心買了好點的記錄儀，帶導航、音樂、藍芽、4G等功能，尋思，既然有這些功能就利用起來，用4G聽歌有點奢侈，就準備去酷狗下點歌聽，居然都是需要辦會員才能下載，而且vip一月只能下載300首，我這麼窮又這麼摳怎麼可能衝

利用Python3對網易的某個話題進行爬取並儲存圖片到本地

__author__ = 'tom' import urllib.request import json import time baseDir = '/Users/tom/netease/{0}' request = 'http://url.163.com/{0}

python簡單爬蟲：爬取並統計自己部落格頁面的資訊（一）

1. 什麼是爬蟲也叫網路爬蟲，簡單來說，爬蟲就是從一個根網站出發，根據某種規則獲得更多的相關網站的url，自動下載這些網頁並自動解析這些網頁的內容，從中獲取需要的資料。例如爬取某種圖片、某類文字資訊等。爬蟲還可以用於編纂搜尋引擎的網路索引。爬蟲所涉及的知

Scrapy爬取並儲存到TXT檔案

在建立完成專案並建立爬蟲的基礎上，編寫儲存到TXT的專案 0.設定setting檔案 1.將 ROBOTSTXT_OBEY 設定為false 2.將 ITEM_PIPELINES 開啟 1.定義items.py資料容器 item是Scrapy提供的類似於字典型別的資

Java 爬取資訊存入資料庫

本人在學習 Spring 的時候學習搭建一個後臺，我這裡拿來練手的是一個新聞的後臺，主要的功能包括抓取新聞資訊，儲存在資料庫中，並根據請求返回相應資料。這裡我選取的新聞來源是一點資訊（主要是他的API比較容易獲取），抓取和解析選取Jsoup+Gson.執行採

豆瓣電影資訊爬取並儲存到excel

import re import openpyxl import requests from bs4 import BeautifulSoup class Movie(object): def __init__(self, title, h

Python爬取並快閃記憶體微信群裡的百度雲資源

需求背景：最近誤入一個免費（daoban）資源的分享群（正經臉），群裡每天都在刷資源連結。但是大家都知道，百度雲的分享連結是很容易被河蟹的，群裡除了分享連結外，就是各種抱怨 “怎麼又失效了”，“又河蟹了...”。本著學習技術的初心，於是我就開始研究怎樣自動爬取微信群的訊息並

Python 爬蟲5——爬取並下載網頁指定規格的圖片

看完上篇文件之後，我們對於正則表示式已經有了基本的瞭解，其實學習最有效的辦法就是帶著問題和目的，這裡我們假設有一個目標：獲取某個網頁上指定規格的圖片的連結地址，並下載到本地。一、實

程序池爬取並存入mongodb

相關推薦