python爬取虎嗅網資料

阿新 • • 發佈：2018-12-14

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import requests

import pymongo
from bs4 import BeautifulSoup


client = pymongo.MongoClient(host='localhost',port=27017)

collection = client['spiders']['huxiu']


url = "https://www.huxiu.com/channel/ajaxGetMore"

headers={
    "Referer":"https://www.huxiu.com/channel/104.html",
    "User-Agent":"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.87 Safari/537.36"
}

def get_total_page():
    data = {
        "huxiu_hash_code": "9501c2ced764ebbe029807a9f17790fa",
        "page": 1,
        "catId": 104
    }
    r = requests.post(url, data=data, headers=headers)

    res_json = r.json()

    total = res_json['data']['total_page']
    return total


def main(page):
    data = {
        "huxiu_hash_code": "9501c2ced764ebbe029807a9f17790fa",
        "page": page,
        "catId": 104
    }
    r = requests.post(url, data=data, headers=headers)

    res_json = r.json()

    data = res_json['data']['data']
    return data


def parse_data(data):
    bs = BeautifulSoup(data, "lxml")
    for item in bs.find_all("div",attrs={"class":"mod-art"}):
        json_atricle={}
        json_atricle["article_aid"] = item["data-aid"]
        a_node = item.find("a",attrs={"class":"transition"})
        json_atricle["article_title"] = a_node['title']
        json_atricle["article_ulr"] = a_node["href"]
        img_node = a_node.find("img")
        json_atricle["article_img"] = img_node.get("data-original") if img_node.get("data-original") else img_node.get("src")
        author_face_node = item.find("div",attrs={"class":"author-face"})
        json_atricle["member_url"] = author_face_node.find('a')["href"]
        json_atricle["author_face"] = author_face_node.find('img')["src"]
        json_atricle["author_name"]= item.find("span",attrs={"class":"author-name"}).string
        #資料入庫
        collection.insert(json_atricle)
        print("success")


if __name__ =="__main__":
    pages = get_total_page()
    for page in range(1,(pages +1)):
        print("正在爬去第{}頁".format(page))
        data = main(page)
        parse_data(data)

python 爬取虎嗅網資料

python爬取虎嗅網資料

#!/usr/bin/env python # -*- coding:utf-8 -*- import requests import pymongo from bs4 import BeautifulSoup client = pymongo.MongoClient(host='l

python爬取拉勾網資料儲存到mysql資料庫

環境:python3 相關包:requests , json , pymysql 思路:1.通過chrome F12找到拉鉤請求介面,分析request的各項引數 2.模擬瀏覽器請求拉鉤介面 3.預設返回的json不是標準格式 ,

python爬取拉鉤網資料

import requests import re#引用正則匹配 from bs4 import BeautifulSoup headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) A

Python爬取拉勾網資料(破解反爬蟲機制)

人生苦短, 我學 Python! 這篇文章主要記錄一下我學習 Python 爬蟲的一個小例子, 是爬取的拉勾網的資料. 1.準備配置 Python 環境什麼的就不說了, 網上教程很多, 自行解決. 2.扒原始碼先開啟拉勾網的網頁. 我們要爬取這部分的資料

爬取虎嗅網，並對爬取數據進行分析

ror range class index 關於 def mob 文章內容 gin 一、分析背景： 1，為什麽要選擇虎嗅　　「關於虎嗅」虎嗅網創辦於 2012 年 5 月，是一個聚合優質創新信息與人群的新媒體平臺。 2，分析內容分析虎嗅網 5 萬篇文章的基本情況，包括

python爬取拉勾網資料並進行資料視覺化

爬取拉勾網關於python職位相關的資料資訊，並將爬取的資料已csv各式存入檔案，然後對csv檔案相關欄位的資料進行清洗，並對資料視覺化展示，包括柱狀圖展示、直方圖展示、詞雲展示等並根據視覺化的資料做進一步的分析，其餘分析和展示讀者可自行發揮和擴充套件包括各種分析和不同的儲存方式等。。。。。一、爬取和分析

python爬取拉勾網網際網路大資料職業情況

爬取拉勾網資訊資料處理製圖所需知識只有一點點（畢竟是個小白）： requests基礎部分 json pyecharts wordcloud 接下來開始敲程式碼了，程式碼分成了3個部分：爬取、製圖、生成詞雲爬取部分：首先要說明的是，拉勾網有反爬

Python爬蟲：爬取拉勾網資料分析崗位資料

1 JSON介紹 JSON（JavaScript Object Notation）已經成為通過HTTP請求在Web瀏覽器和其他應用程式之間傳送資料的標準格式之一。比CSV格式更加靈活。Json資料格式，非常接近於有效的Pyhton程式碼，其特點是：JSON物件所

python爬取大眾點評網商家資訊以及評價，並將資料儲存到excel表中（原始碼及註釋）

import requests from bs4 import BeautifulSoup import traceback # 異常處理 import xlwt # 寫入xls表 # Cookie記錄登入資訊，session請求 def get_content(url,he

python 爬蟲實戰（三）使用pyspider爬取虎嗅新聞

#!/usr/bin/env python # -*- encoding: utf-8 -*- # Created on 2018-03-02 23:14:26 # Project: huxiu fr

利用高德API + Python爬取鏈家網租房資訊 01

看了實驗樓的專案發現五八同城爬取還是有點難度所以轉戰鏈家實驗程式碼如下 from bs4 import BeautifulSoup from urllib.request import urlopen import csv url = 'https://gz.lia

Python爬取千圖網PS素材圖片

宣告：僅用於學習交流，請勿用於任何商業用途！感謝大家！需求：在千圖網http://www.58pic.com中的某一板塊中，將一定頁數的高清圖片素材爬取到一個指定的資料夾中。分析：以數碼電器板塊為例檢視該板塊的每一頁的URL：

Python爬取網頁的圖片資料

本案例是基於PyCharm開發的，也可以使用idea。在專案內新建一個python檔案TestCrawlers.py TestCrawlers.py # 匯入urllib下的request模組 import urllib.request # 匯入正則匹配包 import re

用python爬取拉勾網招聘資訊並以CSV檔案儲存

爬取拉勾網招聘資訊 1、在網頁原始碼中搜索資訊，並沒有搜到，判斷網頁資訊使用Ajax來實現的 2、檢視網頁中所需的資料資訊，返回的是JSON資料； 3、條件為北京+資料分析師的公司一共40087家，而實際拉勾網展示的資料只有 15條/頁 * 30頁 = 450條，所以需要判斷

Python-爬取校花網視訊(單執行緒和多執行緒版本)

一、參考文章 python爬蟲爬取校花網視訊，單執行緒爬取爬蟲----爬取校花網視訊，包含多執行緒版本上述兩篇文章都是對校花網視訊的爬取，由於時間相隔很久了，校花網上的一些視訊已經不存在了，因此上

python爬取京東文胸資料(三)

上篇我們只爬了一個牌子的文胸，這次我們來多爬幾個牌子的 ##1.爬取不同牌子的url 其實可以直接爬那個href,但我發現有的帶了https有的沒帶就索性直接取id拼接了 import requests import json import threading imp

python爬取京東文胸資料(二)

##1.獲取js請求上一篇我們只抓取了一頁的評論，今天我們多抓點 ##2.比較異同 import requests import json import threading import time import re class cpu: def __init__(s

python爬取京東文胸資料(一)

##點選——>要爬取網址作為一個爬蟲小白解決問題是十分蛋疼的(Φ皿Φ)，就這幾行程式碼，我折磨了一下午，然後我發現，學習程式碼最大的難題是學習資源獲取的途徑並不是程式碼本身，只要學，任何人都能學會 **1.**先到達頁面開啟開發者模式(F12)，點選商品評論，我們隨便的複

python爬取拉勾網之selenium

重點程式碼解釋： 1.呼叫lxml的etree實現xpath方法呼叫，xpath相對正則比較簡單，可以不在使用Beauitfulsoup定位 from lxml import etree 2.介面的可視話與否，對於你的執行資源只能用減少 opt=webdri

python爬取圖蟲網相簿

創作緣由這幾天發現了一個很好的圖片網站，圖蟲但是裡面的圖片大部分有版權，要麼需要付費下載，要麼需要關注作者才能下載，而且在圖片上不能右擊，這讓我們下載圖片有了很大的問題，為了解決這個問題，上網搜尋了許多圖蟲網的爬蟲，發現都是千篇一律，功能都是搜尋關鍵字後下載，而且程式碼神似，估計

python爬取虎嗅網資料

相關推薦