寫簡單的爬蟲都需要什麼

阿新 • • 發佈：2018-11-24

寫爬蟲都需要些什麼呢,
寫簡單的爬蟲都需要什麼
A 要爬取的網址難度的大小 (選擇谷歌對要爬取的網址原始碼進行分析)

B 借用Python中的模組urllib與requests 對網址進行請求與訪問
以requests為例:(requests模組的匯入見:http://blog.51cto.com/13747953/2321389)
a 下載圖片

import requests            

ret=requests.get('http://×××w.xiaohuar.com/d/file/20180724/40d83a6709eca21137dcdd80ee28c31b.jpg')
print(ret,type(ret))
print(ret.status_code)
print(ret.content)
with open(r'E:\text1\爬蟲\text_png\p1.png','wb') as f:
    f.write(ret.content)

寫簡單的爬蟲都需要什麼
b 基本文字資訊的獲取

import requests
from urllib import request

# ret=requests.get('http://maoyan.com/board')
headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'

}
ret=request.Request('http://maoyan.com/board',headers=headers)
resp=request.urlopen(ret)
print(resp,type(resp))
print(resp.read().decode('utf-8'))

這裡不用requests 模組是因為在請求的過程中返回了403的錯誤
猜想可能的原因是:網址的反爬蟲機制發現了來自pycharm的請求;
所以可以用urllib(Python自帶的模組)提供的request模組
寫簡單的爬蟲都需要什麼
結果如下:

C 如何從B-b中獲取的文字資料中提取出自己想要的資料呢
a 分析資料的相同點
寫簡單的爬蟲都需要什麼

利用正則表示式與re模組
詳見:(未完)

(程式猿很無聊多多指教交流)

寫簡單的爬蟲都需要什麼

寫簡單的爬蟲都需要什麼

寫簡單的爬蟲都需要什麽

用nodejs寫簡單爬蟲抓取https淘寶頁面

node 寫的簡單爬蟲

用Java，在這裡門簡單分為防盜門需要密碼、鑰匙；安全門需要密、鑰匙、虹膜。如果，不當進入會引起警報，警報有警車警報、煙霧警報，對要求寫程式碼

一天時間入門python爬蟲，直接寫一個爬蟲案例，分享出來，很簡單

使用node寫一個爬蟲(原來使用node.js做爬蟲如此簡單!)

使用Gecco寫Java簡單爬蟲

用BeautifulSoup + selenium 寫簡單的爬蟲程式設計

WSWP（用python寫網路爬蟲）筆記一：實現簡單爬蟲

這些HTML、CSS知識點，面試和平時開發都需要 No8-No9（知識點：媒體操作、構建表單）

Python開發簡單爬蟲（二）---爬取百度百科頁面數據

你真的知道自己每天都需要做什麽嗎？

小說和辦公都需要的PDF閱讀器

python實現簡單爬蟲功能

爬蟲基礎知識與簡單爬蟲實現

99%運維人都需要的Linux命令大全

Idea-每次修改JS文件都需要重啟Idea才能生效解決方法

每個程序員都需要學習javascript的7個理由

selenium+PhantomJS簡單爬蟲

寫簡單的爬蟲都需要什麼

相關推薦