python AjaxSpider 代碼演示

阿新 • • 發佈：2018-10-21

orm art pymongo ces insert numbers == cli script


import re # 引入正則表達式
import json #  引入 json
import pymongo # 引入mongo數據庫
import requests # 引入HTTP請求協議
from hashlib import md5 # 引入MD5
from bs4 import BeautifulSoup #引入BeautifulSoup 信息查詢框架
from multiprocessing import Pool # 引入 多線程池
from urllib.parse import urlencode #引入網頁解析
from json.decoder import JSONDecodeError #引入json錯誤異常
from requests.exceptions import RequestException #引入 HTTP異常

from config import * #導入數據庫配置信息

client = pymongo.MongoClient(MONGO_URL,connect=False)
db = client[MONGO_DB]

# 抓取索引
def get_page_index(offset,keyword):
    # 構造請求數據信息
    data ={
        ‘office‘:offset, # 默認頁碼
        ‘format‘: ‘json‘, # 數據格式
        ‘keyword‘: ‘keyword‘, # 關鍵字
        ‘autoload‘: ‘true‘,
        ‘count‘: ‘20‘,
        ‘cur_tab‘: 3,
    }
    url = ‘http://www.toutiao.com/search_content/?‘ + urlencode(data)
    try:
        response = requests.get(url)
        # 判斷是否有正常獲取到網頁信息
        if response.status_code == 200:
            # 如果訪問正常澤返回數據，否則為空
            return response.text
        return None
    except RequestException:
        print(‘請求索引出錯‘)
        return None

def parse_page_index(html):
   try:
        data = json.loads(html)
        if data and ‘data‘ in data.keys():
            for item in data.get(‘data‘):
                yield item.get(‘article_url‘)
   except JSONDecodeError:
       pass

def get_page_detail(url):
    try:
        response = requests.get(url)
        if response.status_code == 200:
                return response.text
        return None
    except RequestException:
        print(‘請求詳情頁出錯‘,url)
        print(url)


def parse_page_detail(html,url):
    soup = BeautifulSoup(html,‘lxml‘)
    title = soup.select(‘title‘)[0].get_text()
    print(title)
    images_pattern = re.compile(‘var gallery = (.*?)‘,re.S)
    result = re.search(images_pattern,html)
    if result:
        data = json.loads(result.group(1))
        if data and ‘sub_images‘ in data.keys():
            sub_images = data.get(‘sub_images‘)
            images = [item.get(‘url‘) for item in sub_images]
            for image in images: download_image(image)
            return {
                ‘title‘:title,
                ‘url‘:url,
                ‘images‘:images,

            }

def save_to_monogo(result):
    if db[MONGO_TABLE].insert(result):
        print(‘存儲到MonogoDB成功‘,result)
        return True
    return False

def download_image(url):
    print(‘正在下載‘,url)
    try:
        response = requests.get(url)
        if response.status_code == 200:
                # return response.text
            save_image(response.content)
        return None
    except RequestException:
        print(‘請求圖片出錯出錯‘,url)
        return None

def save_image(content):
    file_path = ‘{0}/{1}.{2}‘.format(ls.getcwd(),md5(content).hexdigest(),‘jpg‘)
    if not os.path.exists(file_path):
        with open(file_path,‘wb‘) as f:
            f.writable(content)
            f.close()


def main(offset):
    # html = get_page_index(0,‘街拍‘)
    html = get_page_index(offset,KEYWORD)
    for url in parse_page_index(html):
        html = get_page_detail(url)
        if html:
           result = parse_page_detail(html,url)
           if result: save_to_monogo(result)

           print(result)
if __name__ == ‘__main__‘:
    # main()
    groups = [x*20 for x in range(GROUP_START,GROUP_END + 1)]
    pool = Pool()
    pool.map(main, groups)

orm art pymongo ces insert numbers == cli script import re # 引入正則表達式 import json # 引入 json import pymongo # 引入mongo數據庫 import requests

Python Web框架Tornado的異步處理代碼演示樣例

str lease 異步處理 item 行業異步模式業務怎樣 mvc 1. What is Tornado Tornado是一個輕量級但高性能的Python

Linux線程基本使用代碼演示樣例

-m nis tpi div argv and sub sig ack #include <pthread.h> #include <stdio.h> #include <unistd.h> void* thread_func(voi

最近開始努力學python 寫了一個python小代碼：判斷一個登陸程序，如果賬號密碼輸錯3次，鎖定賬號無法再登陸

登陸 readlines 輸入連續 nbsp 努力一個取數據 lis 1 count = 0 2 username = ‘zhangsan‘ 3 userpassword = ‘111111‘ 4 5 f = open(‘lock.txt‘,‘r+‘

Java操作Redis（代碼演示）

exce xxx mem log 來看 != 技術分享 org ons redis-demo演示一、創建一個maven工程 1、在pom.xml中引入相關redis的相關依賴 1 <project xmlns="http://maven.apache.org/P

python基礎代碼

scores ted append class tuples code xtend indices odi 1 from heapq import *; 2 from collections import *; 3 import random as rd;

Python 初識代碼

激情格式完全一周時間開頭同學有時技術 Python，一周兩次往本部跑，一上18周，有點絕望，毫不意外是選課的時候人品不好別的課沒有課余量了，不過既然選上它了，就是一種猿糞。第一次上課之前預想的是有個差不多的老師在差不多的教室上著差不多的課，結果發

python源代碼和java的區別

技術 body wiki java編譯 url png 分享 args blank 解釋器是用C寫的；而java編譯器就是java寫的類似這種，不看也罷。不過我用編輯器寫的時候，會出現一些友好的提示，比如sum可傳2個參數，一個iterable，一個start。所

Python一些代碼

range encoding odi 尾插 iteration elf tac pen size 自定義with open打開文件 # 是使用上下文管理協議自定義open class Open(object): def __init__(self,filepat

Python小代碼_3_購物車

bubuko one ppi sorry while avi color wan app product_list = [ (‘MacBook‘, 9000), (‘kindle‘, 500), (‘tesla‘, 900000), (‘b

Python小代碼_10_判斷是否為素數

clas pri post integer class log 代碼輸出結果 col import math n = int(input(‘Input an integer:‘)) m = int(math.sqrt(n) + 1) for i in range(2,

Python小代碼_9_求水仙花數

pos == body post end for print color 代碼 for i in range(100, 1000): ge = i % 10 shi = i // 10 % 10 bai = i // 100 if ge *

Python小代碼_11_生成小於 n 的裴波那契數列

spa nbsp body color 代碼 pre end gpo col def fib(n): a, b = 1, 1 while a < n: print(a, end=‘ ‘) a, b = b, a + b

Python小代碼_12_生成前 n 行楊輝三角

spa lin log range color pri append body 小代碼 def demo(t): print([1]) print([1, 1]) line = [1, 1] for i in range(2, t):

【從0開始Tornado建站】0.9版本號python站點代碼開源--持續更新中

分享 body clas .com tis https -m SM 。。 ? ? ? ? 從5月份開始【從0開始Tornado建站】這個專欄，開始一點一點把這個分類

Windows下將Python源代碼.py文件封裝成exe可執行文件方法

同時 win www http windows pos 相關 log www. 安裝pyinstaller cmd中使用pip安裝 pip install pyinstaller 同時會自動安裝pywin32(pip真慢50M這裏就走20KB)，可以進行

每日一讀：《關於定義Python源代碼編碼》

文字 nts unicode文件 magic nature file local beginning cape 官方pep原文:Abstract:This PEP proposes to introduce a syntax to declare the encoding

python 測試代碼

() false bubuko 測試方法 esp unit resp first self 編寫函數或者類時進行測試，確保代碼正常工作 python模塊unittest 提供了代碼測試工具。單元測試用於核實函數的某個方面沒有問題；測試用例是一組單元測試，這些單元測試一起

python學習代碼

pre color hello inpu 去除 sys pop 系統小寫 # encoding=utf-8 import sys import time # 我想從鍵盤輸入信息 name =‘‘ #賦值為空 print name #輸出空 name=raw_i

multer處理post請求的代碼演示

multer app col -- RR expr use con send let express = require(‘express‘); let multer = require(‘multer‘); let mObj = multer({dest:__di

python AjaxSpider 代碼演示

相關推薦