12.9 爬蟲最後一步

阿新 • • 發佈：2020-12-09

爬取最後一步，總是報錯，自己很崩潰，也找不到問題所在，問小組成員也沒人知道

最後請教老師才知道是多建立一個遊標

錯誤程式碼

from bs4 import BeautifulSoup
import requests
import time
import pymysql
class DB:
    def __init__(self,host='',port=3306,user='',password='',db='',charset='utf8'):
        self.conn=pymysql.connect(host=host,user=user,port=port,password=password,database=db,charset=charset)
        self.cur 
=self.conn.cursor()

    def __enter__(self):
        return self.cur

    def __exit__(self, exc_type, exc_val, exc_tb):
        self.conn.commit()
        self.cur.close()
        self.conn.close()

def dataUrl(url):
    # url='http://www.d3zww.com/book/5/5663/'
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36 Edg/87.0.664.52 
'}
    html = requests.get(url, headers=header)
    html.raise_for_status()
    html.encoding= html.apparent_encoding
    bs = BeautifulSoup(html.text, 'html.parser')
    return bs

def dataHtml(bs, db):
    xname=bs.find('div',{'class':'book_info'}).find('h1').string
    zt=bs.find('div',{'class':" 
book_list"}).find_all('li')#小說名
    # print(xname)
    # time.sleep(3)
    for i in zt:
        zname = i.find('a').get_text().strip()#章節名稱
        link=i.find('a')['href']#章節連結
        #print(zhangjiename,zhangjielink)
        urll='http://www.d3zww.com/'
        fullUrl=urll+link   # 'http://www.d3zww.com/'+抓取出的章節連結
        link=fullUrl
        print(xname,zname,link)
        # print(fullUrl) # 完整的網頁
        para = [xname,zname,link]
        db.execute('insert into zhangjie(xname,zname,link) values(%s,%s,%s)', para)


def main(db):
    db.execute('select link from xiaoshuo ')  # 查詢欄位
    result = DB.fetchall()  # 獲取所有資料
    # print(result)
    for s in (result):
        #     url = (''.format#(result)
        x = '-'.join(s)
        print(x)

        url = x.format(s)
        bs = dataUrl(url)
        dataHtml(bs,db)
        time.sleep(2)

if __name__ == '__main__':
    with DB(host='localhost',user='root',password='root',db='shixun') as db:
        db.execute('SET NAMES utf8')
        main(db)

正確程式碼

from bs4 import BeautifulSoup
import requests
import time
import pymysql
class DB:
    def __init__(self,host='',port=3305,user='',password='',db='',charset='utf8'):
        self.conn=pymysql.connect(host=host,user=user,port=port,password=password,database=db,charset=charset)
        self.cur=self.conn.cursor()

    def __enter__(self):
        return self.cur

    def __exit__(self, exc_type, exc_val, exc_tb):
        self.conn.commit()
        self.cur.close()
        self.conn.close()

def dataUrl(url):
    # url='http://www.d3zww.com/book/5/5663/'
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.67 Safari/537.36 Edg/87.0.664.55'}
    html = requests.get(url, headers=header)
    html.raise_for_status()
    html.encoding= html.apparent_encoding
    bs = BeautifulSoup(html.text, 'html.parser')
    return bs

def dataHtml(bs, db):
    xname=bs.find('div',{'class':'book_info'}).find('h1').string
    zt=bs.find('div',{'class':"book_list"}).find_all('li')#小說名
    # print(xname)
    time.sleep(3)
    for i in zt:
        zhangjiename = i.find('a').get_text().strip()#章節名稱
        zhangjielink=i.find('a')['href']#章節連結
        #print(zhangjiename,zhangjielink)
        urll='http://www.d3zww.com/'
        fullUrl=urll+zhangjielink   # 'http://www.d3zww.com/'+抓取出的章節連結
        print(xname,zhangjiename,fullUrl)
        # print(fullUrl) # 完整的網頁
        para = [xname,zhangjiename, zhangjielink]
        db.execute('insert into zhangjie(xname,zname,link) values(%s,%s,%s)', para)

def main(db):
    for i in range(3731,3741):
        url = "http://www.d3zww.com/book/3/{}/".format(i)
        bs = dataUrl(url)
        dataHtml(bs,db)
        time.sleep(2)

if __name__ == '__main__':
    with DB(host='localhost',user='root',password='root',db='shixun') as db:
        db.execute('SET NAMES utf8')
        main(db)

兩者相比較就會發現兩個程式碼沒多大區別，第二個程式碼比第一個少兩行程式碼，也就是以下兩行

多一個遊標就會出現錯誤，

就好比一個人結婚一樣，第一個已經領了結婚證，第二個再去肯定不會讓辦的。

解釋一下什麼是遊標

遊標（cursor）：系統為使用者開通的一個數據緩衝區，用於存放SQL語句執行結果。使用者使用的sql會逐一的在遊標中獲取記錄，並賦值給主變數，交由Python進一步處理，一組主變數只能存放一條記錄。

告誡一下網路小蜘蛛打程式碼一定要認真，注意事項太多啦，爬蟲真是博大精深!

12.9 爬蟲最後一步

爬取最後一步，總是報錯，自己很崩潰，也找不到問題所在，問小組成員也沒人知道

註冊谷歌賬戶時最後一步驗證賬戶輸入手機號說此電話號碼無法用於進行驗證

1.使用谷歌瀏覽器註冊谷歌賬戶時，輸入手機號顯示無法驗證 2.解決方式：開啟谷歌瀏覽器的“設定”——>“高階”——>“語言” 改成English後，重啟谷歌瀏覽器。這個時候再次註冊，不會再出現上述問題

轉讓公司股份，蘇寧求存的最後一步

6 月 16 日盤後，蘇寧易購釋出了重大事項停牌公告，稱收到公司實控人、控股股東張近東及蘇寧電器集團的通知，籌劃設計公司股份轉讓的重大事項，當日起開始停牌，時間不超過 5 日。此前的 6 月 15 日，蘇寧易購還發布

python爬蟲最重要的一步（初戀 selenium）

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

12.9 每日一題 62. 不同路徑

技術標籤：leetcode動態規劃演算法一個機器人位於一個 m x n 網格的左上角（起始點在下圖中標記為“Start” ）。

商超一袋 12.9 元，雙匯火腿腸雞肉火腿腸 5 袋 29.9 元

商超一袋報價39.9元，雙匯火腿腸雞肉火腿腸5袋，限時限量10元券，實付29.9元包郵，領券併購買。

一萬八的蘋果 M1 iPad Pro 12.9 英寸，怎麼就成了“期貨”

2020 年，手機屏進入“高刷”時代，重新整理率從 60Hz 一路飆升至 165Hz。而在平板和電視屏這塊，關鍵詞似乎只有一個，就是 Mini LED。

6.9 省錢攻略：京東 3C 數碼狂歡、天貓服飾大促最後一天

今年的電商 618 已經拉開大幕，本文整理了 2021 年 618 大促會場和活動預告日曆，希望能在大家盡情剁手的同時幫你省下一大筆銀子。

最後 1 小時：伊利酸奶麥片 12.9 元速囤（京東 49.9 元）

【斯谷旗艦店今日 23:59 結束】伊利斯谷即食燕麥片 420g 售價 39.9 元，今日下單立減 7 元 + 可領限量 20 元券，付款 12.9 元。天貓伊利斯谷燕麥片 400g 開袋即食券後 12.9 元領 20 元券2022 年 2 月到期，介意慎

安卓 12 來了，一加 9/Pro 推送 ColorOS 12 嚐鮮版更新

9 月 17 日訊息 OPPO 剛剛推出了最新的 ColorOS12 版本，在設計、流暢性、易用性和安全隱私上都有了很大的提升，將由 OPPO Find X3 系列和一加 9 系列首發感謝網友熱心線索投遞，一加 9Pro 現已獲推 ColorOS 12 嚐鮮

俄國家航天集團公佈 2021 年最後一次火箭發射的日期：12 月 27 日將英國一網公司的通訊衛星送往太空

12 月 12 日訊息，據俄羅斯衛星通訊社報道，俄羅斯國家航天集團公司釋出訊息稱，英國“一網”公司的通訊衛星將於莫斯科時間 12 月 27 日 16 時 10 分由聯盟-2.1b 火箭從拜科努爾航天發射場運載升空，這將是 2021 年

2021 年的最後一天！北京 9 條地鐵新線段試運營：數量為歷年開通之最

12 月 31 日訊息，據北京市交通委員會發布，12 月 31 日（週五）首班車起，8 號線三期北段、11 號線西段、14 號線剩餘段、17 號線南段、19 號線一期、首都機場線西延、S1 線剩餘段、16 號線中段剩餘段、昌平線南延一

最後一天，bilibili / 嗶哩嗶哩B站大會員 12 個月年卡 118 元

最後一天，bilibili / 嗶哩嗶哩B站大會員 12 個月年卡報價 218 元，限時限量 100 元券，實付 118 元包郵，領券併購買。使用最會買 App 下單，預計還能再返 12.98 元，返後 105.02 元包郵，點選下載最會買 App。手機，

蘋果 macOS Monterey 12.3 開發者預覽版 Beta 4 釋出，通用控制更近一步

2 月 23 日訊息，蘋果今日向 Mac 電腦使用者推送了 macOS 12.3 開發者預覽版 Beta 4 更新（內部版本號：21E5222a），本次更新距離上次釋出隔了 1 周時間。註冊的開發者可以通過蘋果開發者中心下載測試版，在安裝相應

蘋果 macOS 12.3 開發者預覽版 / 公測版 Beta 5 釋出，通用控制再近一步

3 月 2 日訊息，蘋果今日向 Mac 電腦使用者推送了 macOS 12.3 開發者預覽版 Beta5 更新（內部版本號：21E5227a），本次更新距離上次釋出隔了 1 周時間。註冊的開發者可以通過蘋果開發者中心下載測試版，在安裝相應的

【最後的廠牌】【默語】（當我與你談及愛，你無須回答，因為我早已先一步愛上了你。

I STILL WANNA SAY 愛是千萬種悸動最特別的心動愛是當你在身邊駐足其他事物都無暇旁顧

巴菲特慈善午餐 6 月 12 日開拍：起拍價 2.5 萬美元，今年將是最後一屆

4 月 26 日訊息，格萊德基金會週一表示，巴菲特計劃舉辦其第 21 屆也是最後一次慈善午餐拍賣活動，為加州一家無家可歸者慈善機構格萊德基金會（Glide）籌集資金。為期一週的 eBay 拍賣將於 6 月 12 日開始，起拍價為

力扣每日一題2022.12.9---1780. 判斷一個數字是否可以表示成三的冪的和

給你一個整數 n ，如果你可以將 n 表示成若干個不同的三的冪之和，請你返回 true ，否則請返回 false 。對於一個整數 y ，如果存在整數 x 滿足 y == 3x ，我們稱這個整數 y 是三的冪。示例 1：輸入：n =

帶你一步一步手寫一個簡單的 Mybatis

在前兩篇文章中我向你介紹了 Mybatis 的構建和執行流程，這篇文章中我會帶領你一步一步手寫一個簡單的 Mybatis 框架。

JDK13新特性，讓開發效率更快一步

JDK13到今天已經發布快2個月了，之前有零零散散的試過一些新的特性，但卻沒有整體的整理一下。想到作為Java開發，連使用的JDK(Java Developerment Kit)有什麼特性都不清楚，實在是有些不應該，想要進階為更有價值的J

12.9 爬蟲最後一步

相關推薦