scrapy學習筆記一 —— 建立jobbole小爬蟲

阿新 • • 發佈：2018-12-17

一、安裝scrapy

建立虛擬環境
- 執行命令：conda create -n scrapy python=3.7 ，會在anaconda安裝目錄下的envs資料夾下創建出scrapy執行環境：~/anaconda3/envs/scrapy/
- 切換到剛剛建立的scrapy虛擬環境，執行命令：pip install scrapy
pycharm設定剛剛建立的直譯器

二、建立爬蟲py檔案

import scrapy


class JobboleSpider(scrapy.Spider):  # 繼承自scrapy的Spider類
    name = 'jobbole'  # 爬蟲名稱

    start_urls = 
 ['http://blog.jobbole.com/all-posts/']  # 種子url

    def parse(self, response):  # 引數response為種子url的response，parse為start_urls的預設回撥的解析方法
        for href in response.css("a.archive-title::attr(href)"):  # css選擇器
            full_url = response.urljoin(href.extract())  # 獲取到絕對url
            yield scrapy. 
Request(full_url, callback=self.parse_article)  # 為該url設定回撥解析方法

    def parse_article(self, response):  # 文章解析方法
        yield {
            'title': response.css("div.entry-header h1::text").extract()[0],  # css選擇器
            'date': response.css("p.entry-meta-hide-on-mobile::text").extract()[0].replace( 
'·', '').strip(),  # css選擇器
        }

三、執行爬蟲

回到剛剛的命令列執行命令：scrapy runspider jobbole_spider.py -o jobbole.json -s FEED_EXPORT_ENCODING=UTF-8（注意如果不加上-s FEED_EXPORT_ENCODING=UTF-8的話，中文會顯示為unicode），執行完成後，就會在當前目錄下面看到jobbole.json

scrapy學習筆記一 —— 建立jobbole小爬蟲

一、安裝scrapy 建立虛擬環境執行命令：conda create -n scrapy python=3.7 ，會在anaconda安裝目錄下的envs資料夾下創建出scrapy執行環境：~/a

Vue學習筆記一建立vue專案

1：安裝Node.js Node.js 是一個基於 Chrome V8 引擎的 JavaScript 執行環境。可以搜尋Node.js的官網下載，安裝完成後，開啟命令提示符cmd.exe,輸入node

MVC學習筆記(一) 建立一個屬於自己的MVC專案

學習MVC兩個來月了,終於決定最個能讓自己滿意的MVC.於是,在cnblog的洞庭夕照大大的MVC5網站開發實踐的幫助下,開始了MVC之路再次感謝洞庭夕照大大,框架就直接按洞庭夕照大大的來了.. 專案名字就叫FantasyCMS好了.取自FINAL FANTASY遊戲

ROS學習筆記(一):工作空間的定義和建立方法

一、工作空間（Workspace）：定義：存放工程開發相關檔案的資料夾。檔案構成：( Workspace 下基本資料夾) src:程式碼空間，放置功能包原始碼的空間； build:編譯空間，編譯過程中產生的中間檔案； devel:開發空間，編譯完成後的

ROS學習筆記(一)：建立工作空間和功能包

所有的ROS程式，包括我們自己開發的程式，都被組織成功能包，而ROS的功能包被存放在稱之為工作空間的目錄下。因此，在我們寫程式之前，第一步是建立一個工作空間以容納我們的功能包。其實ROS工作空間就是linux下的一個目錄，建立ROS工作空間就是建立一個linux目錄（我們建立名為catkin_ws的

python爬蟲學習筆記一：爬蟲學習概覽與Requests庫的安裝與使用

python網路爬蟲與資訊提取學習目錄： the website is the API Requests：自動爬取HTML頁面自動網路請求提交 robots.txt：網路爬蟲排除標準 Beautiful Soup：解析HTML頁面正則表示式詳解，提取頁面關鍵資訊Re

React 學習筆記 (一)（建立元件、繫結資料、繫結屬性、迴圈資料、引入圖片）

使用 create-react-app 快速構建 React 開發環境 $ cnpm install -g create-react-app $ create-react-app my-app $ cd my-app/ $ npm start 建立元件、繫結資料、繫結屬性、迴圈資

ArcGIS API for JavaScript 4.9學習筆記一（建立2D/3D地圖）

ArcGIS API for JavaScript 4.9學習筆記一（建立2D/3D地圖） 2D：程式碼： <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <meta

小程式學習筆記一

1. 生命週期和相關函式 Page({ data: {}, // Page 例項的生命週期函式 onLoad: (option) => { // 頁面初次載入時候觸發，只會觸發一次 console.log(option.id) // 1

Vue 2.0 學習筆記一基於webpack模板建立專案

vuejs 框架需要基於nodejs自帶的npm下載所以電腦先安裝nodejs 地址：https://nodejs.org/en/download/ 1全域性安裝腳手架 npm install --global vue-

Python3爬蟲學習筆記一 (get,post,cookie,proxy,agent)

No.1 第一個python爬蟲練習 from urllib import request,parse import chardet if __name__ == '__main__': url = 'https://blog.csdn.net/m0_37355951/arti

EF6學習筆記一：code-first簡單建立資料庫、表的一些過程

我的EF學習筆記是按照汪鵬（網名Jeffcky）大俠《你必須掌握的Entity Framework 6.x與Core 2.0》來弄的。這也是我第一篇部落格，感覺這東西不能亂寫啊，算了，幹吧。 EF我之前是做過的，但是隻是一些零碎的東西，不成系統。 EF是什麼呢？ORM框架objec

SpringBoot學習筆記一之【Idea下建立springboot示例、啟動原理分析與兩種部署啟動方式】

1、使用背景首先說下我們為什麼使用springboot，原因有以下幾點 1、快速建立獨立執行的spring專案以及與主流框架繼承 2、使用嵌入式的Servlet容器，無需打成war包 3、starters自動依賴於版本控制 4、大量的自動配置，簡化開發，也可修改預設值 5、

ExtJS4學習筆記(一)---window的建立

小弟最近剛接觸Extjs4，將蒐集到的中文學習資料整理如下：本文轉載至：http://www.mhzg.net/a/20114/201142910380227.html Extjs4,建立Ext元件有了新的方式，就是Ext.create(....)，而且可以使用動態載入JS的方式來加

python爬蟲學習筆記一

廢話不多說，直接上程式碼： from selenium import webdriver from selenium.webdriver.chrome.options import Options d

Hadoop學習筆記(一)----環境搭建之VMware虛擬機器安裝及建立CentOS

一、vmware安裝準備好軟體包: 點選安裝vmware 下一步下一步下一步下一步下一步點選安裝安裝完畢: 點選桌面上的

Python爬蟲框架Scrapy學習筆記

開發十年，就只剩下這套架構體系了！ >>>

AngularJS入門學習筆記一

rect directive 技術分享 attr 兩個 ava 內容 module 大括號首先聲明：本博客源自於學習：跟我學AngularJs:AngularJs入門及第一個實例。通過學習，我自己的一些學習筆記。 1.AngularJS的一些基本特性（1）使用雙大括號

Halcon學習筆記(一)

direct fusion 采集 das com nom pat 學習 filter 一、Halcon編程之圖像處理 1、讀取圖片 1、讀取單個圖片： 1.1 直接用算子read_image read_image (Image, ‘D:/3.tiff‘) 2

django學習筆記一

site url ssa .com tin sessions .site add 註冊 2017年5月9日 ps 強烈推薦,django教程寫的很棒 http://code.ziqiangxuetang.com/django/django-tutorial.html 〇

scrapy學習筆記一 —— 建立jobbole小爬蟲

相關推薦