Learning Scrapy 筆記

阿新 • • 發佈：2018-12-22

1. 命令列在專案根目錄,根據crawl模版建立名為test的spider,web指spider可爬取的域名url,
   scrapy提供了諸多模版
    scrapy genspider –t crawl test web

2. scrapy抓取中文結果預設是unicode,無法顯示中文
    在setting設定 FEED_EXPORT_ENCODING = 'utf-8'

3. 併發下載數量限制,預設為8個
    CONCURRENT_REQUESTS_PER_DOMAIN = 1

4. 請求間的延遲
    DOWNLOAD_DELAY = 5

5. 請求不去重
    scrapy.Request()增加引數 dont_filter = True

6. ValueError: Missing scheme in request url
    scrapy.Request(response.urljoin(link))

7. scrapy shell 報錯403 shell里加個UA頭
    scrapy shell -s USER_AGENT='Mozilla/5.0' url_link

8. 程式碼沒問題,取不到資料,無報錯,一般是xpath有問題,可使用scrapy shell除錯xpath
    xpath在chrome能取到資料,在scrapy不一定能取到

9. 爬取到指定數量的item後關閉爬蟲,scrapy也提供了定時關閉方法
    CLOSESPIDER_ITEMCOUNT = 10

10. 資料消除空格和'\n'
    extract()獲取到列表後使用[0]切片,使用strip()方法 .extract()[0].strip()
    .replace(old_str, new_str)    替換字串
    .split(' / ')    刪除指定引數,返回切割後的字串列表

Learning Scrapy 筆記

1. 命令列在專案根目錄,根據crawl模版建立名為test的spider,web指spider可爬取的域名url, scrapy提供了諸多模版 scrapy genspider –t crawl test web 2. scrapy抓取中文結果預設是unicode,無法顯示中文

scrapy筆記

read city 接收 erer dir gin style cati page 1、關於請求url狀態碼重定向問題： from scrapy import Request handle_httpstatus_list = [404, 403, 500, 503, 521

Neural Networks and Deep Learning學習筆記ch1 - 神經網絡

1.4 true ole 輸出使用 .org ptr easy isp 近期開始看一些深度學習的資料。想學習一下深度學習的基礎知識。找到了一個比較好的tutorial，Neural Networks and Deep Learning，認真看完了之後覺

Deep Learning論文筆記之（二）Sparse Filtering稀疏濾波

structure 分布的確 tlab bolt 期望有一個尋找 mean Deep Learning論文筆記之（二）Sparse Filtering稀疏濾波自己平時看了一些論文，但老感覺看完過後就會慢慢的淡忘，某一天重新拾起來的時候又好像沒有

吳恩達deep learning課程筆記0 Welcome

pro ron 其它 con 領域沒有 str 如果這樣的 1 課程概述這是一個專項課程(Specialization)，包含5個獨立的課程。 1.1 Neural Networks and Deep Learning 了解NN的基礎，如何建立NN，如何訓練它，課程

Coursera 深度學習吳恩達 deep learning.ai 筆記整理（3-2）——機器學習策略

新的 bsp 誤差 spa 歸納空間 font 處理整理一、誤差分析定義：有時我們希望算法能夠勝任人類能做的任務，但是當算法還沒達到人類所預期的性能時，人工檢查算法錯誤會讓你知道接下來做什麽，這也就是誤差分析檢查，發現會把夠狗當恒，是否需要做一個項目專門處理狗

CS229 Machine Learning學習筆記:Note 5(正則化與模型選擇)

n) 不重復所有交叉 war 比例 class 搜索 machine 模型選擇假設目前有d個學習模型構成的集合\(\mathcal M=\{M_1,\cdots,M_d\}\)，訓練集S，下面介紹幾種選取模型的方法 Hold-out cross validation(

CS229 Machine Learning學習筆記:Note 7(K-means聚類、高斯混合模型、EM算法)

learn 不同的 inf ear 公式 course splay alt spa K-means聚類 ng在coursera的機器學習課上已經講過K-means聚類，這裏不再贅述高斯混合模型問題描述聚類問題：給定訓練集\(\{x^{(1)},\cdots,x^{(m

Deep Learning 簡略筆記

learn 則無之間 spro better 機器 seq 概率工作原理 Deep Learning筆記概略基本概念監督學習：所有輸入數據都有確定的對應輸出；輸入輸出位於網絡的兩端，訓練就是不斷調整它們之間的網絡連接權重 NN：房子特征和房價左邊輸入列是

CS229 Machine Learning學習筆記:Note 12(強化學習與自適應控制)

inf 輸入概念 play 化學適應 UNC 之前 stat 強化學習的概念在監督學習中，我們會給學習算法一個訓練集，學習算法嘗試使輸出盡可能接近訓練集給定的真實值y；訓練集中，對於每個樣本的輸入x，都有確定無疑的正確輸出y 在強化學習中，我們只會給學習算法一個獎勵函

Learning Structured Representation for Text Classification via Reinforcement Learning 學習筆記

ctu recursive fec 註釋 css 進攻 imp column converge Representation learning ：表征學習，端到端的學習 pre-specified 預先指定的 demonstrate 論證;證明，證實;顯示

吳恩達Machine Learning學習筆記（三）--邏輯回歸

多分類 nbsp 可用 bubuko 邏輯回歸泛化能力筆記 ima 學習分類任務　　原始方法：通過將線性回歸的輸出映射到0～1，設定閾值來實現分類任務　　改進方法：原始方法的效果在實際應用中表現不好，因為分類任務通常不是線性函數，因此提出了邏輯回歸邏輯回歸假設

【DeepLearning學習筆記】Coursera課程《Neural Networks and Deep Learning》——Week1 Introduction to deep learning課堂筆記

決定如同樣本理解你是水平包含 rod spa Coursera課程《Neural Networks and Deep Learning》 deeplearning.ai Week1 Introduction to deep learning What is a

python Deep learning 學習筆記（3）

本節介紹基於Keras的使用預訓練模型方法想要將深度學習應用於小型影象資料集，一種常用且非常高效的方法是使用預訓練網路。預訓練網路(pretrained network)是一個儲存好的網路，之前已在大型資料集(通常是大規模影象分類任務)上訓練好使用預訓練網路有兩種方法:特徵提取(feature ext

python Deep learning 學習筆記（4）

本節講卷積神經網路的視覺化三種方法視覺化卷積神經網路的中間輸出（中間啟用）有助於理解卷積神經網路連續的層如何對輸入進行變換，也有助於初步瞭解卷積神經網路每個過濾器的含義視覺化卷積神經網路的過濾器有助於精確理解卷積神經網路中每個過濾器容易接受的視覺模

從零開始-Machine Learning學習筆記(25)-整合學習

文章目錄 1. Boosting - AdaBoosting 2. Bagging與隨機森林 2.1 Bagging - 並行式整合學習 2.2 隨機森林 3. 結合策略

從零開始-Machine Learning學習筆記(24)-貝葉斯分類器

首先還是先取出周志華先生在《機器學習》貝葉斯分類器一章中對於貝葉斯決策論的定義：貝葉斯決策論是概率框架下實施決策的基本方法。在分類任務中，在所有相關概率都已知的情況下，貝葉斯決策論考慮的是如何基於這些概率和誤判損失來選擇最優的標記。基於最小化條件風險，我

python Deep learning 學習筆記（6）

本節介紹迴圈神經網路及其優化迴圈神經網路（RNN，recurrent neural network）處理序列的方式是，遍歷所有序列元素，並儲存一個狀態（state），其中包含與已檢視內容相關的資訊。在處理兩個不同的獨立序列（比如兩條不同的 IMDB 評論）之間，RNN 狀態會被重置，因此，你仍可以將一個序列

從零開始-Machine Learning學習筆記(26)-聚類

文章目錄 0. 前言 1. 聚類的效能度量和距離計算 1.1 效能度量 1.2 距離計算 2. 原型聚類 2.1 K-means 2.2 學

從零開始-Machine Learning學習筆記(31)-規則學習

文章目錄 1. 基本概念 2. 序貫覆蓋 3. 剪枝優化 3.1 預剪枝-CN2演算法 3.2 後剪枝-RIPPER演算法 4. 一階規則學習 5. 歸納邏

Learning Scrapy 筆記

相關推薦