爬取小程式所有教程scrapy

阿新 • • 發佈：2021-07-01

setting:

from fake_useragent import UserAgent

BOT_NAME = 'wxapp'

SPIDER_MODULES = ['wxapp.spiders']
NEWSPIDER_MODULE = 'wxapp.spiders'

ROBOTSTXT_OBEY = False

DOWNLOAD_DELAY = 1

DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'User-Agent': str(UserAgent().random),
}

ITEM_PIPELINES  
= {
   'wxapp.pipelines.WxappPipeline': 300,
}

wxapp_spider

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from wxapp.items import WxappItem

class WxappSpiderSpider(CrawlSpider):
    name = 'wxapp_spider'
    allowed_domains = ['wxapp-union.com 
']
    start_urls = ['https://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1']

    rules = (
        Rule(LinkExtractor(allow=r'.+mod=list&catid=2&page=\d'), follow=True),
        Rule(LinkExtractor(allow=r".+article-.+\.html"),callback="parse_detail",
             follow=False)
    )

    def parse_detail(self, response):
        title  
= response.xpath("//h1[@class='ph']/text()").get()
        author_p = response.xpath("//p[@class='authors']")
        author = author_p.xpath(".//a/text()").get()
        time = author_p.xpath(".//span[@class = 'time']/text()").get()
        article = response.xpath("//td[@id='article_content']//text()").getall()
        article = "".join(article).strip()
        print(title, author, time)
        print(article)
        item = WxappItem(title=title,author=author,time=time,content=article)
        yield item

items.py:

# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.html

import scrapy


class WxappItem(scrapy.Item):
    title = scrapy.Field()
    author = scrapy.Field()
    time = scrapy.Field()
    content = scrapy.Field()

pipelines.py:

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html


# useful for handling different item types with a single interface
from itemadapter import ItemAdapter

from scrapy.exporters import JsonLinesItemExporter
class WxappPipeline:
    def __init__(self):
        self.fp = open("wxjc.json","wb")
        self.export = JsonLinesItemExporter(self.fp,ensure_ascii=False,encoding = 'utf-8')
    def process_item(self, item, spider):
        self.export.export_item(item)
        return item
    def close_spider(self,spider):
        self.fp.close()

爬取小程式所有教程scrapy

setting: from fake_useragent import UserAgent BOT_NAME = \'wxapp\' SPIDER_MODULES = [\'wxapp.spiders\'] NEWSPIDER_MODULE = \'wxapp.spiders\'

Scrapy 爬取MT論壇所有主題帖，原因論壇搜尋功能很不好使。爬到本地搜尋。

在spiders下建立mt.py 寫入： import scrapy class itemSpider(scrapy.Spider): name = \'mt\' start_urls = [\'https://bbs.binmt.cc/forum.php\']

小紅書資料採集教程，使用協程方式爬取小紅書熱門頁下的資料

小紅書資料採集教程，使用協程方式爬取小紅書熱門頁下的資料 from gevent import monkey

Python3 實現爬取網站下所有URL方式

獲取首頁元素資訊：目標 test_URL：http://www.xxx.com.cn/ 首先檢查元素，a 標籤下是我們需要爬取得連結，通過獲取連結路徑，定位出我們需要的資訊

Python爬蟲實戰：爬取小姐姐最近的聽歌曲目

前言作為網易雲村的深度使用者，網易雲音樂應該是我除了微信外開啟時間最長的 App 了。並不是應為網易雲上面的歌曲多，而是因為那些走心的評論。邊聽歌邊刷評論，感覺就像是走進了他人的人生之中，從另外一種意義來

微信小程式入門教程之一：初次上手

微信是中國使用量最大的手機 App 之一，日活躍使用者超過3億，月活躍使用者超過11億（2019年底統計），市場極大。

從零開始的微信小程式入門教程(二)，初識WXML與WXSS

壹 ❀ 引時隔大半年，我終於開始寫小程式入門教程的第二篇了，其實我也在納悶，這麼久的時間我到底幹了什麼，仔細一想，我學了JavaScript部分進階知識，學了ES6，系統性的去複習了angularjs，學了正則以及一些亂七八

從零開始的微信小程式入門教程(三)，有趣且好玩的資料繫結

壹 ❀ 引我在從零開始的微信小程式入門教程(二)，初識WXML與WXSS一文中簡單介紹了小程式元件與小程式樣式相關概念，在瞭解這兩者之後，其實我們已經可以搭建出簡單的靜態頁面，與書寫HTML頁面一樣，小程式頁面也只能

從零開始的微信小程式入門教程(四)，理解小程式事件與冒泡機制

壹 ❀ 引我在之前初識WXML與資料繫結兩篇文章中，介紹了小程式靜態模板與樣式相關概念，以及小程式幾種常用資料繫結方式，在知道這些知識後，我們可以寫一些不算複雜的小程式頁面，並能將一些自定義的資料渲染到檢視

爬取英雄聯盟所有英雄面板

這裡有兩種型別的同樣的圖片，一種是大圖片的，一種是類似頭像的小圖片。我們這裡抓取大圖片

Python爬取小姐姐美照！

大家好我是阿喵今天教大家用如何用爬蟲爬取可愛小姐姐的美照第一步：現將python環境搭建好，工欲利其事必先利其器！第二步：尋找目標網站，我選擇的網站是http://www.win4000.com，裡面有一個美女板塊，裡面有

帶著大家用Python爬取小紅書，完完整整的全過程

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

使用Python爬蟲爬取小紅書完完整整的全過程

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

Python爬取小姐姐圖片（beautifulsoup法）

技術標籤：python爬蟲列表 Python有許多強大的庫用於爬蟲，如beautifulsoup、requests等，本文將以網站https://www.xiurenji.cc/XiuRen/為例（慎點！！），講解網路爬取圖片的一般步驟。為什麼選擇這個網站？其

微信小程式基礎教程之echart的使用

前言先看下最終實現的效果–自己做的小demo 首先到ECharts官網下載官網地址根據上面的網址下載程式碼把ec-canvas檔案拷貝下來放到你自己的專案中，

Py爬取b站視訊教程

前言:我是一個爬蟲萌新,所以這裡面有一些錯誤的歡迎指正.本教程面向有一定Python基礎的人.1.爬取普通的視訊.首先,我們先來解析一下的網址,看看能不能直接獲取啥資訊.我們先開啟視訊原始碼.如圖所示,我用的edge.

Python爬蟲正則表達爬取b站所有動漫的評分

import requests import re import csv wq=1 while(wq<163): dat={ \"season_version\":\"-1\", \"spoken_language_type\":\"-1\",

微信小程式開發教程第九章：微信小程式拍照收納開發以及刪除名片等

第九章：微信小程式拍照收納開發以及刪除名片等還是先來看看我們今天的主題——拍照收納。

微信小程式開發教程第七章：微信小程式編輯名片頁面開發

編輯名片有兩條路徑，分為新增名片流程與修改名片流程。使用者手填新增名片流程：

微信小程式開發教程！博卡君第二彈【微信小程式專案結構以及配置】

前面我們轉了博卡君通宵吐血趕稿的微信小程式開發教程，當時只更新了兩章，現在接著釋出第三章：微信小程式專案結構以及配置，第四章：微信小程式首頁面開發，以下是微信小程式教程

爬取小程式所有教程scrapy

相關推薦