爬蟲入門筆記
阿新 • • 發佈:2017-07-29
collect head 有一個 cnblogs ted col https 指定 爬蟲
爬蟲,在網絡中爬行的一只蜘蛛,如遇到資源,就會按指定的規則抓取下來
爬蟲爬取HTML代碼後,通過分析和過濾這些HTML代碼,實現對圖片,文字等資源的獲取
URL的格式由三部分組成:
1、第一部分是協議
2、第二部分是存儲該資源的主機IP和端口
3、第三部分是資源的具體地址,如目錄和文件名
爬蟲爬取數據時必須有一個目標URL才可以獲取數據,因此,它是爬蟲獲取數據根本
import re import urllib.request import urllib from collections import deque queue = deque() visited = set() url= ‘https://jecvay.com/‘ queue.append(url) cnt = 0 while queue: url = queue.pop() visited.add(url) print(‘Count: ‘ + str(cnt) + ‘ visiting <--- ‘ + url) cnt += 1 urlop = urllib.request.urlopen(url) if ‘html‘ not in urlop.getheader(‘Content-Type‘): continue try: data= urlop.read().decode(‘utf-8‘) except: continue linkre = re.compile(r‘href="(.+?)"‘) for x in linkre.findall(data): if ‘http‘ in x and x not in visited: queue.append(x) print(‘add---> ‘ + x)
爬蟲入門筆記