python爬蟲（含scrapy）

阿新 • • 發佈：2022-05-12

python爬蟲

1.解析HTML：

lxml 是一種python編寫的庫，可以迅速、靈活的處理xml和html

使用：根據版本的不同，有如下兩種：

形式1：

from lxml import etree

轉換成樹形結構物件：

obj=etree.HTML(htmlStr)
形式2：

from lxml import html

getHtml=requests.get(url,headers=header)

htmlObj=html.fromstring(getHtml.content.decode("utf8"))

htmlObj.xpath("")

a、xpath語法：

表示式	說明
/	從根節點選取
//	從匹配選擇的當前節點選擇文件中的節點，而不考慮它們的位置
@	選取屬性
.	選擇當前節點
節點名	1選取此節點所有子節點
//book	選取所有book子元素，而不管它們在文件中的位置
div//book	選擇屬性div元素的後代的所有book元素，而不管它們位於div之下的什麼位置
//@lang	選取名為lang的所有屬性

b、舉例

路徑表示式	結果
/div/div[1]	選取資料div元素的第一個div元素
/div/div[last()]	選取屬於div元素的最後一個div元素
/div/div[last()-1]	選取屬於div元素的倒數第二個div元素
/div/div[position() < 3]	選取最前面的兩個屬於div元素的子元素的book元素
//title[@lang]	選取所有擁有名為lang屬性的title元素
//title[@lang='eng']	選取所有lang屬性值為eng的title元素

2.解析json

import json
str='{"result":0,"data":[{"id":"664","numbers":"42235"}],"msg":"\u6210\u529f"}'
obj=json.loads(str)
xxrs=obj['data'][0]['numbers']
print(xxrs)#結果：42235

3.正則表示式

菜鳥教程：https://www.runoob.com/python/python-reg-expressions.html

正則表示式：

字元	描述
[…]	用來表示一組字元，單獨列出，例如， [amk]匹配a， m或k
[^…]	不在[]中的字元，例如， [^abc]匹配除了a， b， c之外的字元
*	匹配0個或多個的表示式
+	匹配1個或者多個的表示式
?	匹配0個或1個由前面的正則表示式定義的片段，非貪婪方式
{n}	精確匹配n次前面的表示
{n,m}	匹配n到m次由前面的正則表示式定義的片段，貪婪模式
a\|b	匹配a或者b
( )	匹配括號內的表示式，也表示一個組

例項	描述
[Pp]ython	匹配 "Python" 或 "python"
rub[ye]	匹配 "ruby" 或 "rube"
[aeiou]	匹配中括號內的任意一個字母
[0-9]	匹配任何數字。類似於 [0123456789]
[a-z]	匹配任何小寫字母
[A-Z]	匹配任何大寫字母
[a-zA-Z0-9]	匹配任何字母及數字
[^aeiou]	除了aeiou字母以外的所有字元

.	匹配除 "\n" 之外的任何單個字元。要匹配包括 '\n' 在內的任何字元，請使用象 '[.\n]' 的模式。
\d	匹配一個數字字元。等價於 [0-9]。
\D	匹配一個非數字字元。等價於 [^0-9]。
\s	匹配任何空白字元，包括空格、製表符、換頁符等等。等價於 [ \f\n\r\t\v]。
\S	匹配任何非空白字元。等價於 [^ \f\n\r\t\v]。
\w	匹配包括下劃線的任何單詞字元。等價於'[A-Za-z0-9_]'。
\W	匹配任何非單詞字元。等價於 '[^A-Za-z0-9_]'。

a.常用方法：

re.findall()

使用案例：

import re
a="宣告：python是一門簡單的語言!python是一門好用的語言!"
#findall() 返回資料為list格式
result=re.findall("python(.*)!",a)# ['是一門簡單的語言!python是一門好用的語言']

result2=re.findall("python(.*?)!",a)#['是一門簡單的語言','是一門好用的語言']

# (.*)貪婪匹配，會盡可能的往後匹配
# (.*?) 非貪婪匹配，會盡可能少的匹配，是否加？影響匹配結果的長度

4.scrapy使用步驟：

新建資料夾（scrapyPro）存放scrapy檔案
到scrapyPro目錄下，執行：scrapy startproject scrapyOne
進入到scrapyOne下的spiders目錄執行：scrapy genspider 爬蟲名稱 xxx.com
用編碼工具修改settings.py 中的robots 設定為false
修改爬蟲程式程式碼
執行爬蟲：scrapy crawl 爬蟲名稱

a.scrapy使用小知識

Settings.py檔案介紹：

專案名：BOT_NAME = ‘xxxx‘

遵循ROBOT協議：ROBOTSTXT_OBEY = False

使用者身份：USER_AGENT =‘xxxx’

最大併發數：CONCURRENT_REQUESTS=32預設為16

下載延遲：DOWNLOAD_DELAY = 3
每個域名最大併發數：CONCURRENT_REQUESTS_PER_DOMAIN

Cookie設定：COOKIES_ENABLED預設為true，下次請求帶上cookie
預設請求頭設定：DEFAULT_REQUEST_HEADERS

一系列中介軟體、快取、http請求的配置等（不常用）
爬蟲專案的工程目錄及各個組成的作用：

scrapy.cfg：專案配置檔案。
settings.py：專案設定檔案。

pipelines.py：專案管道檔案，主要用於對

Items定義的資料進行加工與處理。

middlewares.py：專案的中介軟體檔案。

items.py：專案的資料容器檔案，用於定義獲取的資料。

init.py：初始化檔案。
spiders目錄：爬蟲目錄，例如，建立檔案、編寫爬蟲解析規則等

b.資料儲存的四種格式

以txt文字形式儲存：

class xxxxPipeline:
    def __init__(self):
        self.file=open("test.txt","w",encoding="utf8")
        
    def process_item(self,item,spider):
        row='{},{},{},{}\n'.format(item['name'],
                                   item['age'],item['zy'],item['dy'])
        self.file.write(row)
        return item
    def close(self):
        self.file.close()

CSV格式

import csv

class xxxxPipeline:
    def __init__(self):
        self.file = open('../moot2.csv','a',encoding='utf-8',newline='')
        self.writer = csv.writer(self.file,delimiter=';')
        self.writer.writerow(['表頭1','表頭2',.....])
        
    def process_item(self,item,spider):
       self.writer.writerow([item['title'],item['price'],......])
       return item
    def close(self):
        self.file.close()

json格式：

import json

class xxxxPipeline:
    def __init__(self):
        self.file = open('../moot2.json','a',encoding='utf-8')
        
        
    def process_item(self,item,spider):
       jsonstr = json.dumps(dict(item),ensure_ascii=False)
       self.file.write(jsonstr+'\n')
       return item
    def close(self):
        self.file.close()

mysql儲存

import pymysql

class xxxxPipeline:
    def __init__(self):
        self.conn = pymysql.connect(host='IP/localhost',
                                   user='root',password='123456',
                                    port=3306,db='資料庫名')
        self.cursor = self.conn.cursor()
        
    def process_item(self,item,spider):
       sql = "insert into tb_moot values(null,%s,%s,......)"
       self.cursor.execute(sql,(item['title'],item['price'],.......))
       self.conn.commit()
       return item
    
    def close(self):
        self.cursor.close()
        self.conn.close()

python爬蟲（含scrapy）

python爬蟲 1.解析HTML： lxml 是一種python編寫的庫，可以迅速、靈活的處理xml和html

小白學 Python 爬蟲（8）：網頁基礎

人生苦短，我用 Python 前文傳送門：小白學 Python 爬蟲（1）：開篇小白學 Python 爬蟲（2）：前置準備（一）基本類庫的安裝

新聞網頁Python爬蟲（jieba分詞+關鍵詞搜尋排序）

前言最近做了一個python3作業題目，涉及到：網頁爬蟲網頁中文文字提取建立文字索引

python爬蟲（一）---BeautufulSoup

一、介紹 Beautiful Soup 是 python 的一個庫，最主要的功能是從網頁抓取資料。官方解釋如下：

基於BP神經網路的函式逼近方法以及python實現（含課程論文）

技術標籤：神經網路python人工智慧基於BP神經網路的函式逼近方法（含課程論文）

Python爬蟲（二）導包、解釋urllib、bs4

技術標籤：爬蟲爬蟲python 包、模組理解： #引入自定義模組 from test1 import t1#從包匯入模組如果是在同一包內直接匯入模組名即可

90分鐘掌握Python多執行緒爬蟲（全程實戰）

https://edu.csdn.net/learn/20379?spm=1002.2001.3001.4157 #encoding: utf-8 import requests from bs4 import BeautifulSoup

Python爬蟲（一）

什麼是爬蟲？爬蟲是什麼呢，就是地上爬的小蟲子，就是爬蟲咯。呵呵，開個玩笑，一般說的爬蟲都是網路爬蟲。那什麼是網路爬蟲呢，百度百科的解釋是這樣子的：

15行Python程式碼能幹嘛？能寫一個抖音網頁版的簡易爬蟲（附原始碼）

Python爬蟲、資料分析、網站開發等案例教程視訊免費線上觀看 https://space.bilibili.com/523606542

python網路爬蟲（動態網頁）

目錄爬取動態網頁解析網站在Python中用Selenium執行JavaScript安裝iSelenium下載PhantomJS網頁爬取

python 將多個模型的ROC曲線繪製在一張圖裡（含圖例）

多條ROC曲線繪製函式 def multi_models_roc(names, sampling_methods, colors, X_test, y_test, save=True, dpin=100):\"\"\"將多個機器模型的roc圖輸出到一張圖上Args:names: list, 多個模型的名稱sampling_method