網路爬蟲學習筆記

阿新 • • 發佈：2021-10-11

常用寫法

import requests
from lxml import html
etree=html.etree
import pandas as pd
網址 = "https://www.jkl.com.cn/cn/shopLis.aspx?id=865"
UA偽裝 = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.9231 SLBChan/8'}

network->name->headers

爬取京客隆網站店鋪資訊

import requests
from lxml import html
etree=html.etree
import pandas as pd
網址 = "https://www.jkl.com.cn/cn/shop.aspx"
UA偽裝 = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.9231 SLBChan/8'}
#1.拿取每個域區網址
響應資料=requests.get(url=網址,headers=UA偽裝).text
解析 = etree.HTML(響應資料)
城區 = 解析.xpath('//div[@class="infoLis"]//@href')#‘/’表示一個層級；'//'表示多個層級
for 區 in 城區:
    網址2 = 'http://www.jkl.com.cn/cn/' + 區
    響應資料1 = requests.get(url=網址2,headers=UA偽裝).text
    解析1 = etree.HTML(響應資料1)
    店鋪名稱 = 解析1.xpath('//span[@class="con01"]/text()')#
    詳細地址 = 解析1.xpath('//span[@class="con02"]/text()')#
    電話號碼 = 解析1.xpath('//span[@class="con03"]/text()')#
    營業時間 = 解析1.xpath('//span[@class="con04"]/text()')#都是列表方式儲存
    列表 = []
    for 店名 in 店鋪名稱:
        新資料 = 店名.strip()
        列表.append(新資料)
    資料 = pd.DataFrame({'店名':列表,'地址':詳細地址,'電話':電話號碼,'時間':營業時間})#字典
    資料.to_csv('D:\One Driver\OneDrive\桌面\爬蟲/店鋪資訊1.csv',index=False,header=0,mode = 'a',encoding='ANSI')

處理翻頁URL不變的情況

import requests
from lxml import html
etree=html.etree
import pandas as pd
網址 = "https://www.jkl.com.cn/cn/shopLis.aspx?id=865"
UA偽裝 = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.89 Safari/537.36 SLBrowser/7.0.0.9231 SLBChan/8'}
for 頁碼 in range(1,4):
    換頁 = {
        '__EVENTTARGET': 'AspNetPager1',
        '__EVENTARGUMENT': 頁碼
    }
    響應資料1 = requests.post(url = 網址,headers = UA偽裝,data=換頁).text
    解析1 = etree.HTML(響應資料1)
    店鋪名稱 = 解析1.xpath('//span[@class="con01"]/text()')
    詳細地址 = 解析1.xpath('//span[@class="con02"]/text()')
    電話號碼 = 解析1.xpath('//span[@class="con03"]/text()')
    營業時間 = 解析1.xpath('//span[@class="con04"]/text()')
    列表 = []
    for 店名 in 店鋪名稱:
        新資料 = 店名.strip()
        列表.append(新資料)
    資料 = pd.DataFrame({'店名':列表,'地址':詳細地址,'號碼':電話號碼,'時間':營業時間})
    資料.to_csv('D:\One Driver\OneDrive\桌面\爬蟲/多頁店鋪資訊.csv',index=False,header=0,mode='a',encoding='ANSI')

網路爬蟲學習筆記

常用寫法 import requests from lxml import html etree=html.etree import pandas as pd 網址 = \"https://www.jkl.com.cn/cn/shopLis.aspx?id=865\"

python爬蟲學習筆記之Beautifulsoup模組用法詳解

本文例項講述了python爬蟲學習筆記之Beautifulsoup模組用法。分享給大家供大家參考，具體如下：

python爬蟲學習筆記之pyquery模組基本用法詳解

本文例項講述了python爬蟲學習筆記之pyquery模組基本用法。分享給大家供大家參考，具體如下：

python爬蟲學習筆記(二十五)-Scrapy框架 Middleware

1. Spider 下載中介軟體(Middleware) Spider 中介軟體(Middleware) 下載器中介軟體是介入到 Scrapy 的 spider 處理機制的鉤子框架，您可以新增程式碼來處理髮送給 Spiders 的 response 及 spider 產生的 item 和 req

python爬蟲學習筆記(二十四)-Scrapy框架圖片管道的使用

1. 介紹 Scrapy提供了一個 item pipeline ，來下載屬於某個特定專案的圖片，比如，當你抓取產品時，也想把它們的圖片下載到本地。

python爬蟲學習筆記(二十三)-Scrapy框架 CrawlSpider

1. CrawlSpiders 原理圖 sequenceDiagram start_urls ->>排程器: 初始化url 排程器->>下載器: request

python爬蟲學習筆記(二十二)-Scrapy框架案例實現

爬取小說 spider import scrapy from xiaoshuo.items import XiaoshuoItem class XiaoshuoSpiderSpider(scrapy.Spider):

python爬蟲學習筆記(二十九)-Scrapy 框架-分散式

1. 介紹scrapy-redis框架 scrapy-redis 一個三方的基於redis的分散式爬蟲框架，配合scrapy使用，讓爬蟲具有了分散式爬取的功能。

python爬蟲學習筆記(二十八)-Scrapy 框架爬取JS生成的動態頁面

問題有的頁面的很多部分都是用JS生成的，而對於用scrapy爬蟲來說就是一個很大的問題，因為scrapy沒有JS engine，所以爬取的都是靜態頁面，對於JS生成的動態頁面都無法獲得

python爬蟲學習筆記（更新中）

requests庫簡單介紹 import requests r = requests.get("url") /* r=requests.get(url,params=Node,**kwargs)

【計算機網路】學習筆記，第一篇：概述（謝希仁版）

本來沒想著更新計網，想直接整理一下 HTTP、TCP 那塊，不過想了一下從頭開始整理哇，順便鞏固一下學的知識

從Request到Selenium的簡單爬蟲學習筆記

selenium是一個用於網站測試的工具，是一個Web自動化工具，測試人員必會的工具。他可以操作瀏覽器對網頁進行模擬人的操作，比如點選，獲取文字資料，跳轉等等。所以也可以被用來爬蟲。

網路流學習筆記

網路流學習筆記最新update：2020.11.19：初學網路流，包括最大流的Edmonds-Karp演算法

網路協議學習筆記(一)通訊協議綜述

概述網路知識是計算機最重要的一部分知識之一，我們常常遇到線上的bug大部分和網路有關係，尤其是分散式的叢集中，如果想解決問題，就繞不開檢視網路狀態和網路連線的日誌。現在我給大家分享一下網路的一些基礎知識

千鋒教育網路安全學習筆記1-IP詳解極簡單的DOS命令

目錄 Ip詳解　　區域網　　IP地址　　子網掩碼　　閘道器　DNS DOS命令 IP詳解區域網

千鋒教育網路安全學習筆記2：批處理、病毒

目錄初始批處理　　一個簡單的批處理程式　　　　1、引入　　　　2、echo輸出

千鋒教育網路安全學習筆記3：使用者與組管理、破解系統密碼

目錄使用者與組管理破解系統密碼使用者與組管理 window伺服器系統：win2000 win2003 win2008 win2012

千鋒教育網路安全學習筆記4-DHCP伺服器、DNS伺服器

目錄 DHCP部署與安全　　　　1、DHCP作用　　　　2、DHCP相關概念　　　　3、DHCP優點

千鋒教育網路安全學習筆記6-域

目錄域　　1.Domain 　　2.內網環境　　3.域的特點　　4.域的組成　　5.域的部署

千鋒教育網路安全學習筆記8-滲透測試

目錄滲透測試滲透測試 0、授權 1、資訊收集　　nslookup whois 2、掃描漏洞　　nmap = ip範圍埠號