python Scrapy 爬蟲例項

阿新 • • 發佈：2018-12-05

https://www.jianshu.com/p/78f0bc64feb8

1.新建專案

scrapy startproject cnblog

2.pycharm 開啟專案

image.png

3.新建spider

image.png

新建main.py

from scrapy import cmdline
cmdline.execute("scrapy crawl cnblog".split())

爬蟲程式碼

import scrapy
from cnblog.items import CnblogItem

class Cnblog_Spider(scrapy.Spider):

    name = "cnblog"
    allowed_domains = ["cnblog.com"]
    start_urls = [
     'https://www.cnblogs.com/',
    ]

    def parse(self, response):

        item = CnblogItem()

        item['title'] = response.xpath('//a[@class="titlelnk"]/text()').extract()
        item['link'] = response.xpath('//a[@class="titlelnk"]/@href').extract()

        yield item

item程式碼

import scrapy


class CnblogItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    title = scrapy.Field()
    link = scrapy.Field()

setting

BOT_NAME = 'cnblog'

SPIDER_MODULES = ['cnblog.spiders']
NEWSPIDER_MODULE = 'cnblog.spiders'

DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  #user-agent新新增
  'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"
}

#新修改
ITEM_PIPELINES = {
    'cnblog.pipelines.FilePipeline': 300,    #實現儲存到txt檔案
    'cnblog.pipelines.mysqlPipeline': 300,  # 實現儲存到mysql

}

4.儲存成text

class FilePipeline(object):

    def process_item(self, item, spider):
        data = ''
        with open('cnblog.txt', 'w', encoding='utf-8') as f:
            titles = item['title']
            links = item['link']
            for i, j in zip(titles, links):
                data += i + ':'+j+'\n'
            f.write(data)
            f.close()
        return item

python Scrapy 爬蟲例項

https://www.jianshu.com/p/78f0bc64feb8 1.新建專案 scrapy startproject cnblog 2.pycharm 開啟專案 image.png 3.新建spider image.png 新

Python Scrapy 爬蟲框架例項（一）

之前有介紹 scrapy 的相關知識，但是沒有介紹相關例項，在這裡做個小例，供大家參考學習。注：後續不強調python 版本，預設即為python3.x。爬取目標這裡簡單找一個圖片網站，獲取圖片的先關資訊。該網站網址： http://www.58pic.com/c/ 建立專案終端命令列執

Python網路爬蟲之股票資料Scrapy爬蟲例項介紹，實現與優化！（未成功生成要爬取的內容！）

結果TXT文本里面竟然沒有內容！cry~ 編寫程式：步驟： 1. 建立工程和Spider模板 2. 編寫Spider 3. 編寫ITEM Pipelines 程式碼：成功建立 D:\>cd pycodes D:\pycodes>

Python：爬蟲例項2：爬取貓眼電影——破解字型反爬

字型反爬字型反爬也就是自定義字型反爬，通過呼叫自定義的字型檔案來渲染網頁中的文字，而網頁中的文字不再是文字，而是相應的字型編碼，通過複製或者簡單的採集是無法採集到編碼後的文字內容的。現在貌似不少網站都有采用這種反爬機制，我們通過貓眼的實際情況來解釋一下。下圖的是貓眼網頁

Python requests爬蟲例項

作業系統：Windows Python：3.5 歡迎加入學習交流QQ群：657341423 需要用到的庫： requests wxPython docx win32api需要安裝pywin32 解釋： requests這個用來做爬蟲，基本上不用多作解釋 wx

Python簡單爬蟲例項

前剛接觸python，看了一下基本語法，照著網上的一篇部落格寫了個很簡單的爬蟲小demo，有興趣的可以看下實現，將一個網頁中的所有jpg圖片，及網頁中所有.html格式的跳轉連結中的jpg檔案取出來儲存到本地主要用到一個urllib庫，使用很簡單，用於讀

python 網路爬蟲例項

自己用Python寫了一個抓取百度貼吧裡面的圖片的小例項，程式碼如下： from urllib.request import urlopen from urllib.request import ur

崔老哥python scrapy爬蟲框架入門

Scrapy入門本篇會通過介紹一個簡單的專案，走一遍Scrapy抓取流程，通過這個過程，可以對Scrapy對基本用法和原理有大體的瞭解，作為入門。在本篇開始之前，假設已經安裝成功了Scrapy，如果尚未安裝，請參照上一節安裝課程。本節要完成的任務有：建立一個Scrapy專案建立一個Spider來抓取站點和處理

幾個python簡單爬蟲例項

# coding=utf-8 import requests import re header = { 'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:47.0) Gec

Win7中Anaconda配置python+Scrapy爬蟲

Scrapy需要安裝的包首先我們可以先檢視一下自己的Anaconda軟體中是否包含了Scrapy需要的包，即可檢視已經有了哪些包而如果僅僅只是用python2.7版本安裝的需要的包有 pywin32,lxml,pip,esay_install,pyO

python網路爬蟲例項：Requests+正則表示式爬取貓眼電影TOP100榜

一、前言最近在看崔慶才先生編寫的《Python3網路爬蟲開發實戰》這本書，學習了requests庫和正則表示式，爬取貓眼電影top100榜單是這本書的第一個例項，主要目的是要掌握requests庫和正則表示式在實際案例中的使用。二、開發環境執行平

python scrapy 爬蟲 pipeline

網上 RoCE 如果遇到出現字典 pytho setting pip 　　最近做項目遇到了一個問題：pipeline的start_spider()和close_spider()都執行了，但是沒有執行process_item() 　　百度結果：　　　　網上大多是說

python - scrapy 爬蟲框架（創建, 持久化, 去重, 深度, cookie）

阻塞持久 xxx dep get site process ide 使用 ## scrapy 依賴 twisted - twisted 是一個基於事件循環的異步非阻塞框架/模塊 ## 項目的創建 1. 創建 project scrapy

python - scrapy 爬蟲框架 ( redis去重 )

use 去重 class conn elf sin cls col returns 1. 使用內置，並加以修改 ( 自定義 redis 存儲的 keys ) settings 配置 # ############### scrapy redis連接 ########

Python 和 Scrapy 爬蟲框架部署

python scrapy 爬蟲框架 Scrapy 是采用Python 開發的一個快速可擴展的抓取WEB 站點內容的爬蟲框架。安裝依賴 yum install gcc gcc-c++ openssl mysql mysql-server libffi* libxml* libxml2 l

python爬蟲—使用scrapy爬蟲框架

pywin32 rip for 鏈接是把 ror sdn 成功 repl 問題1.使用scrapy框架，使用命令提示符pip命令下載scrapy後，卻無法使用scrapy命令，出現scrapy不是內部或外部命令。也不是可運行的程序解決：一開始，我是把python安裝在

Python之Scrapy爬蟲框架安裝及簡單使用

intern 原理 seda api release linux發行版 3.5 pic www 題記：早已聽聞python爬蟲框架的大名。近些天學習了下其中的Scrapy爬蟲框架，將自己理解的跟大家分享。有表述不當之處，望大神們斧正。一、初窺Scrapy Scrapy是

2017.07.26 Python網絡爬蟲之Scrapy爬蟲框架

返回 scripts http ref select 文本 lang bsp str 1.windows下安裝scrapy：cmd命令行下：cd到python的scripts目錄，然後運行pip install 命令然後pycharmIDE下就有了Scrapy：

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報

font size 項目執行 weather html time art show 1.項目準備：網站地址：http://quanzhou.tianqi.com/ 2.創建編輯Scrapy爬蟲： scrapy startproject weather scrapy

2017.08.04 Python網絡爬蟲之Scrapy爬蟲實戰二天氣預報的數據存儲問題

sql語句 city amd64 ces img href asp encoding primary 1.數據存儲到JSon：程序閱讀一般都是使用更方便的Json或者cvs等待格式，繼續講解Scrapy爬蟲的保存方式，也就是繼續對pipelines.py文件動手腳（1）創

python Scrapy 爬蟲例項

1.新建專案

2.pycharm 開啟專案

3.新建spider

相關推薦