scrapy爬取網站案例

阿新 • • 發佈：2020-08-06

scrapy爬取網站案例

爬取抽屜網資料，存到Redis和MySQL中，實現持久化

Mysql實現

# settings.py
ITEM_PIPELINES = {
   'firstscrapy.pipelines.DrawerMysqlPipeline': 305,
}

# pipelines.py
class DrawerMysqlPipeline:

    def __init__(self):
        """
        初始化方法
        host=None, user=None, password="",
                 database=None, port=0, unix_socket=None,
                 charset='',
        """
        self.conn = pymysql.connect(
            host='127.0.0.1',
            port=3306,
            user='root',
            password='123456',
            database='drawer',
            charset='utf8'
        )
        self.cursor = self.conn.cursor(cursor=pymysql.cursors.DictCursor)

    def open_spider(self,spider):
        pass

    def process_item(self, item, spider):
        sql = 'insert into drawer (title,url,img_url)values (%s,%s,%s)'  # sql語句
        self.cursor.execute(sql,[item['title'],item['url'],item['img_url']])  # 執行sql
        self.conn.commit()  # 提交命令，修改資料庫
        return item

    def close_spider(self,spider):
        self.cursor.close()
        self.conn.close()

Redis實現

from redis import Redis
import json
class DrawerRedisPipeline:
    def __init__(self):
        self.conn = None

    def open_spider(self,spider):
        self.conn = Redis(host='127.0.0.1',port=6379)

    def process_item(self, item, spider):
        self.conn.lpush('drawer_news',json.dumps(dict(item)))
        return item

    def close_spider(self,spider):
        pass

爬取cnblogs文章，把標題和連線地址打印出來

import scrapy

class CnblogsSpider(scrapy.Spider):
    name = 'cnblogs'
    allowed_domains = ['www.cnblogs.com']
    start_urls = ['https://www.cnblogs.com/']

    def parse(self, response, **kwargs):
        article_list = response.xpath('//article[@class="post-item"]')
        article_info = []
        for article in article_list:
            article_info.append(
                {
                    'author':article.xpath('.//a[@class="post-item-author"]/span/text()').extract_first(),
                    'title':article.xpath('.//a[@class="post-item-title"]/text()').extract_first(),
                    'link':article.xpath('.//a[@class="post-item-title"]/@href').extract_first(),
                    'delivery_time':article.xpath('.//span[@class="post-meta-item"]/span/text()').extract_first()
                }
            )
        for art in article_info:
            print(art)
        print(len(article_info))

資料持久化

儲存到MySQL資料庫中

# items.py
class ArticleItem(scrapy.Item):
    author = scrapy.Field()
    title = scrapy.Field()
    link = scrapy.Field()
    delivery_time = scrapy.Field()
    content = scrapy.Field()
    
# cnblogs.py
import scrapy
from scrapy.http.request import Request
from firstscrapy.items import ArticleItem


# spider.py
import scrapy
from scrapy.http.request import Request
from firstscrapy.items import ArticleItem


class CnblogsSpider(scrapy.Spider):
    name = 'cnblogs'
    allowed_domains = ['www.cnblogs.com']
    start_urls = ['https://www.cnblogs.com/']
    page_num = 1
    items = []

    def content_parse(self, response, **kwargs):
        item = response.meta.get('item')
        content = response.css('#cnblogs_post_body').extract_first()
        item['content'] = str(content)
        return item

    def parse(self, response, **kwargs):
        article_list = response.xpath('//article[@class="post-item"]')
        for article in article_list:
            item = ArticleItem()
            item['author'] = article.xpath('.//a[@class="post-item-author"]/span/text()').extract_first()
            item['title'] = article.xpath('.//a[@class="post-item-title"]/text()').extract_first()
            item['link'] = article.xpath('.//a[@class="post-item-title"]/@href').extract_first()
            item['delivery_time'] = article.xpath('.//span[@class="post-meta-item"]/span/text()').extract_first()
            self.items.append(item)
        if self.page_num < 20:
            self.page_num += 1
            next_url = f'https://www.cnblogs.com/sitehome/p/{self.page_num}'
            yield Request(url=next_url, callback=self.parse)
        for item in self.items:
            yield Request(item['link'], meta={'item': item}, callback=self.content_parse)

自定給抽屜點贊

執行方案：

<1>先用 selenium獲取使用者登入的cookie

<2>再通過requests物件自動點贊

from selenium import webdriver
import time
import json


# 載入驅動
bro = webdriver.Chrome(executable_path='./chromedriver.exe')
# 隱式等待10s
bro.implicitly_wait(10)
bro.get("https://dig.chouti.com/")  # 瀏覽器開啟抽屜
# 找到頁面上的登入按鈕
login_btn = bro.find_element_by_id("login_btn")
login_btn.click()
username = bro.find_element_by_name("phone")
password = bro.find_element_by_name("password")
username.send_keys("18395806407")
time.sleep(1)
password.send_keys("wang931219peng")
time.sleep(1)
button = bro.find_element_by_css_selector("button.login-btn")
button.click()
time.sleep(10)

cookie_list = bro.get_cookies()
print(cookie_list)

cookie = {}
for item in cookie_list:
    cookie[item['name']] = item['value']

with open('cookie.txt',mode='w',encoding='utf-8') as fw:
    fw.write(json.dumps(cookie))   # 存到檔案中，也可以存到mysql或者Redis中

import requests
import json

with open('cookie.txt', mode='r', encoding='utf-8') as fr:
    cookie = json.loads(fr.read())
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.163 Safari/537.36',
    'Referer': 'https://dig.chouti.com/'
}

res = requests.get("https://dig.chouti.com/top/24hr?_=1596712494547", headers=headers)

id_list = []
for item in res.json()['data']:
    id_list.append(item['id'])  # 新增id號

for id in id_list:
    ret = requests.post('https://dig.chouti.com/link/vote', headers=headers, cookies=cookie, data={'linkId': id})
    print(ret.text)

 ret = requests.post(
        "https://dig.chouti.com/comments/create",
        headers=headers,
        cookies=cookie,
        data={
            'content':'信春哥，得永生',
            'linkId': id,
            'parentId': 0
        }
    )
    time.sleep(5)

scrapy爬取網站案例

scrapy爬取網站案例爬取抽屜網資料，存到Redis和MySQL中，實現持久化 Mysql實現 # settings.py

scrapy爬取網站，並下載照片

scrapy爬取網站，並下載照片 items中定義實體 spider中編寫爬取邏輯 settings開啟一系列東西，

Python scrapy爬取小說程式碼案例詳解

scrapy是目前python使用的最廣泛的爬蟲框架架構圖如下解釋： Scrapy Engine(引擎): 負責Spider、ItemPipeline、Downloader、Scheduler中間的通訊，訊號、資料傳遞等。

【Python爬蟲】入門級爬蟲案例，20行程式碼爬取網站圖片（附原始碼）

知識點爬蟲的步驟 requests parsel xpath資料解析爬蟲四個步驟: 1.獲取網頁地址 (目標地址)2.傳送請求3.資料解析4.儲存本地

Java爬取網站原始碼和連結程式碼例項

1. 網路爬蟲是一個自動提取網頁的程式，它為搜尋引擎從全球資訊網上下載網頁，是搜尋引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的U

Python3 實現爬取網站下所有URL方式

獲取首頁元素資訊：目標 test_URL：http://www.xxx.com.cn/ 首先檢查元素，a 標籤下是我們需要爬取得連結，通過獲取連結路徑，定位出我們需要的資訊

scrapy爬取快代理並儲存mongo資料庫

我們先分析下網頁這個網友的頁面規律很簡單 https://www.kuaidaili.com/free/inha/1 https://www.kuaidaili.com/free/inha/2

Python基於requests庫爬取網站資訊

requests庫是一個簡介且簡單的處理HTTP請求的第三方庫 get()是獲取網頁最常用的方式，其基本使用方式如下

SpringBoot中使用Jsoup爬取網站資料的方法

爬取資料匯入jar包 <properties> <java.version>1.8</java.version> <elasticsearch.version>7.6.1</elasticsearch.version>

python爬蟲使用正則爬取網站的實現

本文章的所有程式碼和相關文章，僅用於經驗技術交流分享，禁止將相關技術應用到不正當途徑，濫用技術產生的風險與本人無關。

提升scrapy爬取資料的效率

方法： - 在配置檔案中進行相關的配置即可:(預設還有一套setting) #1 增加併發：

使用scrapy爬取jian shu文章

settings.py中一些東西的含義可以看一下這裡 python的scrapy框架的使用和xpath的使用 && scrapy中request和response的函式引數 && parse()函式執行機制

Java使用WebMagic 爬取網站

安裝這裡使用maven進行安裝。根據maven下載相關的包 <dependency> <groupId>us.codecraft</groupId>

Python爬蟲框架：scrapy爬取迅雷電影天堂最新電影！

專案開始第一步仍然是建立scrapy專案與spider檔案切換到工作目錄兩條命令依次輸入

首頁和次頁地址不一致，爬取網站通訊錄

from pyquery import PyQuery as pq import requests import csv def get_env(url=\"http://localhost:8080/index.htm\", data=\"\", headers=\"\"):

Scrapy 爬取MT論壇所有主題帖，原因論壇搜尋功能很不好使。爬到本地搜尋。

在spiders下建立mt.py 寫入： import scrapy class itemSpider(scrapy.Spider): name = \'mt\' start_urls = [\'https://bbs.binmt.cc/forum.php\']

Scrapy 爬取重大注意事項！！因為這個困擾了我4天，頭髮都掉光了。。

原因爬取某站：則麼試都沒問題，程式碼提取沒問題。 IP = response.xpath(\'//*[@class=\"mimvp-tbl free-proxylist-tbl\"]/tbody/tr/td[2]//text()\').extract()

python爬蟲利器之requests庫的用法(超全面的爬取網頁案例)

requests庫利用pip安裝: pip install requests 基本請求 req = requests.get(\"https://www.baidu.com/\")

scrapy爬取豆瓣top250電影

技術標籤：程式人生剛開始接觸爬蟲，第一次使用scrapy 爬取資料一、步驟安裝scrapy

find_all可以連續使用_Python爬蟲使用正則爬取網站，正則都不會就別玩爬蟲了！...

技術標籤：find_all可以連續使用本文章的所有程式碼和相關文章，僅用於經驗技術交流分享，禁止將相關技術應用到不正當途徑，濫用技術產生的風險與本人無關。本文章是自己學習的一些記錄。歡迎各位大佬點評！

scrapy爬取網站案例

scrapy爬取網站案例

爬取抽屜網資料，存到Redis和MySQL中，實現持久化

爬取cnblogs文章，把標題和連線地址打印出來

資料持久化

自定給抽屜點贊

相關推薦