1. 程式人生 > >爬蟲教程-1

爬蟲教程-1

很久沒來了,先貼一篇上個月的舊文。#最近爭取每天中午更新一點,也算是複習筆記了,哭泣#

可能是我蠢,爬蟲這塊搞了好幾天才寫了這麼一點點,先入門吧,之後再寫複雜的。#可能是下個月了:)#


環境:VirtualBox,lubuntu。

1. 安裝docker

https://yeasy.gitbooks.io/docker_practice/install/ubuntu.html#ubuntu-1604-

$ sudo apt-get update

$ sudo apt-get install \

    apt-transport-https \

    ca-certificates \

    curl \

    software-properties-common

$ curl -fsSL https://mirrors.ustc.edu.cn/docker-ce/linux/ubuntu/gpg | sudo apt-key add -

$ sudo add-apt-repository \

    "deb [arch=amd64] https://mirrors.ustc.edu.cn/docker-ce/linux/ubuntu \

    $(lsb_release -cs) \

    stable"

$ sudo apt-get update

$ sudo apt-get install docker-ce

 

啟動 Docker CE

$ sudo systemctl enable docker

$ sudo systemctl start docker

 

建立 docker 組:

$ sudo groupadd docker

將當前使用者加入 docker 組:

$ sudo usermod -aG docker $USER

退出當前終端並重新登入,進行如下測試。

測試是否安裝成功:

sudo docker run hello-world

 

2.安裝Splash

https://scrapy-cookbook.readthedocs.io/zh_CN/latest/scrapy-12.html

 

sudo docker pull scrapinghub/splash

sudo docker run -p 5023:5023 -p 8050:8050 -p 8051:8051 scrapinghub/splash

現在可以通過0.0.0.0:8050(http),8051(https),5023 (telnet)來訪問Splash了。

 

3. 安裝scrapy

sudo apt-get install python-dev

sudo apt-get install libevent-dev

sudo apt-get install libssl-dev

 

現在是萬眾矚目的debug時間

 

fatal error: libxml/xmlversion.h: 沒有那個檔案或目錄

ln -s /usr/include/libxml2/libxml /usr/include/libxml

 

fatal error: libxslt/xsltconfig.h: 沒有那個檔案或目錄

sudo apt-get install libxslt-dev

 

sudo pip install scrapy

 

The script scrapy is installed in '/usr/lib/pypy/../../local/bin' which is not on PATH.

sudo leafpad ~/.bashrc

export PATH=/usr/lib/pypy/../../local/bin:$PATH

source ~/.bashrc

 

下一篇,我會更新爬蟲抓取靜態頁面的例子。而使用javascript的動態頁面,抓取的時候需要更注意,之後更新。