爬蟲教程-1
很久沒來了,先貼一篇上個月的舊文。#最近爭取每天中午更新一點,也算是複習筆記了,哭泣#
可能是我蠢,爬蟲這塊搞了好幾天才寫了這麼一點點,先入門吧,之後再寫複雜的。#可能是下個月了:)#
環境:VirtualBox,lubuntu。
1. 安裝docker
https://yeasy.gitbooks.io/docker_practice/install/ubuntu.html#ubuntu-1604-
$ sudo apt-get update
$ sudo apt-get install \
apt-transport-https \
ca-certificates \
curl \
software-properties-common
$ curl -fsSL https://mirrors.ustc.edu.cn/docker-ce/linux/ubuntu/gpg | sudo apt-key add -
$ sudo add-apt-repository \
"deb [arch=amd64] https://mirrors.ustc.edu.cn/docker-ce/linux/ubuntu \
$(lsb_release -cs) \
stable"
$ sudo apt-get update
$ sudo apt-get install docker-ce
啟動 Docker CE
$ sudo systemctl enable docker
$ sudo systemctl start docker
建立 docker 組:
$ sudo groupadd docker
將當前使用者加入 docker 組:
$ sudo usermod -aG docker $USER
退出當前終端並重新登入,進行如下測試。
測試是否安裝成功:
sudo docker run hello-world
2.安裝Splash
https://scrapy-cookbook.readthedocs.io/zh_CN/latest/scrapy-12.html
sudo docker pull scrapinghub/splash
sudo docker run -p 5023:5023 -p 8050:8050 -p 8051:8051 scrapinghub/splash
現在可以通過0.0.0.0:8050(http),8051(https),5023 (telnet)來訪問Splash了。
3. 安裝scrapy
sudo apt-get install python-dev
sudo apt-get install libevent-dev
sudo apt-get install libssl-dev
現在是萬眾矚目的debug時間
fatal error: libxml/xmlversion.h: 沒有那個檔案或目錄
ln -s /usr/include/libxml2/libxml /usr/include/libxml
fatal error: libxslt/xsltconfig.h: 沒有那個檔案或目錄
sudo apt-get install libxslt-dev
sudo pip install scrapy
The script scrapy is installed in '/usr/lib/pypy/../../local/bin' which is not on PATH.
sudo leafpad ~/.bashrc
export PATH=/usr/lib/pypy/../../local/bin:$PATH
source ~/.bashrc
下一篇,我會更新爬蟲抓取靜態頁面的例子。而使用javascript的動態頁面,抓取的時候需要更注意,之後更新。