1. 程式人生 > >Python爬蟲錯誤記錄

Python爬蟲錯誤記錄

本文注意是用於記錄在用Python寫爬蟲的過程中所經歷的一些問題及其解決方法,便於後續翻查。

語法錯誤

錯誤檔案已存在時無法建立檔案

出錯程式碼

fp = open("filetest.txt","w")
fp.write("Hello World \n")
fp.close()
import os
os.rename("filetest.txt","newfiletest.txt")
fp = open("newfiletest.txt","r")
print ("the new file name is:",fp.name)

詳細錯誤資訊

FileExistsError: [WinError 183] 當檔案已存在時,無法建立該檔案。: 'filetest.txt' -> 'newfiletest.txt'

原因及解決方法

由於歷史原因,在本程式碼出錯之前已有其他錯誤,導致檔案已經被重新命名為filetest.txt,導致無法重複對其進行重新命名,因而出錯。解決方法是將程式碼目錄下的同名檔案刪除,再執行程式碼,即可。

‘ResultSet’ object has no attribute ‘get’

出錯程式碼

def getMMAlbumList(personal_id, file):
    # get the ambum list of a sigle mm
    data = urllib.request.urlopen(personal_id)
    soup = BeautifulSoup(data, 'lxml'
) tag=soup.find_all('div') album_url=tag.get('href') return data

詳細錯誤資訊

    album_url=tag.get('href')
AttributeError: 'ResultSet' object has no attribute 'get'

原因及解決方法

通過列印tag可知其為一個tag的集合(類似於一個結構體),而程式碼需要從中找出href的屬性值(可以理解為結構體中的某個變數的型別),如此在獲取單個tag的屬性值之前必須要定位到該tag,不能對整個tag集合進行操作。因此在該段程式碼中,若想取得某個tag的屬性,需要遍歷整個tag集合,找出該tag,最後呼叫get函式,獲得相應屬性值。修改後的程式碼如下:

def getMMAlbumList(personal_id, file):
    # get the ambum list of a sigle mm
    data = urllib.request.urlopen(personal_id)
    soup = BeautifulSoup(data, 'lxml')
    for tag in soup.find_all('a')
        print (tag)
    return data

相關推薦

python 爬蟲錯誤記錄

1、UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcf in position 116: invalid continuation byte 問題原因:html = response.read().decode(

Python爬蟲錯誤記錄

本文注意是用於記錄在用Python寫爬蟲的過程中所經歷的一些問題及其解決方法,便於後續翻查。 語法錯誤 錯誤檔案已存在時無法建立檔案 出錯程式碼 fp = open("filetest.

Python爬蟲實踐 -- 記錄我的第一只爬蟲

width 進入 color spa alt ads python3 我們 round 一、環境配置 1. 下載安裝 python3 2. 安裝requests和lxml 進入到 pip 目錄,CMD --> C:\Python\Scripts,輸入命令: pip

Python爬蟲錯誤】ConnectionResetError: [WinError 10054] 遠端主機強迫關閉了一個現有的連線

轉載連結:https://blog.csdn.net/illegalname/article/details/77164521 今天寫爬蟲爬取天天基金網站(http://fund.eastmoney.com/)時出現如下圖所示的錯誤。 分析原因,是因為使用urlopen方法太過頻繁,引起遠

Python爬蟲實踐 -- 記錄我的第二隻爬蟲

1、爬蟲基本原理 我們爬取中國電影最受歡迎的影片《紅海行動》的相關資訊。其實,爬蟲獲取網頁資訊和人工獲取資訊,原理基本是一致的。 人工操作步驟: 1. 獲取電影資訊的頁面 2. 定位(找到)到評分資訊的位置 3. 複製、儲存我們想要的評分資料 爬蟲操作步驟: 

python3+selenium自動化測試:除錯python程式錯誤記錄,呼叫類時格式出錯

 如圖所示,driver後面的括號報錯,當時不明白缺少了什麼,後來查資料,才知道,Login物件化的格式錯誤,應該寫為Login()。 修改後沒有再報錯。 程式碼如下: from selenium import webdriver from public impor

一次簡單Python爬蟲程式碼記錄

順手記錄一次簡單Python爬蟲程式碼,留以後備用 #!/usr/bin/python # -*- coding: UTF-8 -*- import cookielib import urllib2 from urllib import urlencode i

記錄一次python爬蟲批量下載一個校花網站的妹子圖片

學python也快2個禮拜了,從開始看別人寫的爬蟲程式碼,然後試著抄著學習,感覺沒太大進步,最大收穫就是改了幾處bug(可能有些地方不適用我的pyyhon平臺報錯)。 中午看到一個帖子校花妹子圖使用爬蟲進行批量下載,看了下,感覺不錯(我說的技術,哈哈哈)。 然後決定自己寫一個爬蟲,已經看書兩個禮

python-爬蟲技能升級記錄

====== python-爬蟲技能升級記錄 =========== (一)感知爬蟲及爬取流程 =====<code>從簡單存取一個頁面到 爬取到大量的定量資料,對技術要求更高,以百度百科資料爬取為入門練手專案.歷時一個月,經歷很多問題.爬取流程:分析目標網頁、得到url、拿url抓取、解析抓到的

python爬蟲執行scrapy crawl demo出現: import win32api ModuleNotFoundError: No module named 'win32api'錯誤

執行: >scrapy crawl demo 可能會出現這個錯誤: import win32api ModuleNotFoundError: No module named 'win32api' 下載依賴唄:https://pypi.org/project/py

[Python爬蟲]通過分析胸罩銷售記錄 發現了驚人的祕密

通過爬蟲去爬取京東的使用者評價,通過分析爬取的資料能得到很多結果,比如,哪一種顏色的胸罩最受女性歡迎,以及中國女性的平均size(僅供參考哦~) 開啟開發者工具-network,在使用者評價頁面我們發現瀏覽器有這樣一個請求 通過分析我們發現主要用的引數有三

python爬蟲學習之日誌記錄模組

這次的程式碼就是一個日誌記錄模組,程式碼很容易懂,註釋很詳細,也不需要安裝什麼庫。提供的功能是日誌可以顯示在螢幕上並且儲存在日誌檔案中。呼叫的方式也很簡單,測試程式碼裡面有。 原始碼: #encoding=utf-8 import logging import getpass import

錯誤記錄: linux 使用yum安裝軟體出錯 basn: /usr/bin/yum: /usr/bin/python: bad interpreter: no such file or

最近在使用yum安裝一些東西的時候出現錯誤:比如 yum -y install gcc 錯誤提示: basn: /usr/bin/yum: /usr/bin/python: bad interpreter: no such file or directory 通過網上查詢發現這是由

Ubuntu下搭建Appium+python自動化環境記錄及遇到的錯誤記錄

     系統:Ubuntu 18.04.1 LTS   64位 搭建環境前準備     1.JDK 8安裝     2.android-sdk_r24.3.4-linux  

python爬蟲:從頁面下載圖片以及編譯錯誤解決。

#!/usr/bin/python import re import urllib def getHtml(url):page = urllib.urlopen(url)html = page.read()return html def getImage(html):reg

python爬蟲解決403禁止訪問錯誤

在python寫爬蟲的時候,html.getcode()會遇到403禁止訪問的問題,這是網站對自動化爬蟲的禁止,要解決這個問題,需要用到python的模組urllib2模組 urllib2模組是屬於一個進階的爬蟲抓取模組,有非常多的方法 比方說連線url=http://b

Python】學習遇到錯誤記錄

########################### 錯誤 *.whl is not a supported wheel on this platform. D:\Download>pip install pygame-1.9.3-cp36-cp36m-win32.whlpygame

Python爬蟲實戰之爬取鏈家廣州房價_04鏈家的模擬登入(記錄)

問題引入 開始鏈家爬蟲的時候,瞭解到需要實現模擬登入,不登入不能爬取三個月之內的資料,目前暫未驗證這個說法是否正確,這一小節記錄一下利用瀏覽器(IE11)的開發者工具去分析模擬登入網站(鏈家)的內部邏輯過程,花了一個週末的時間,部分問題暫未解決。 思路介

華為2016校園招聘上機筆試題:簡單錯誤記錄 [python]

''' [程式設計題] 簡單錯誤記錄 時間限制:1秒 空間限制:65536K 開發一個簡單錯誤記錄功能小模組,能夠記錄出錯的程式碼所在的檔名稱和行號。  處理: 1.記錄最多8條錯誤記錄,對相同的錯誤

python爬蟲(爬取蜂鳥網高畫素圖片)_空網頁,錯誤處理

__author__ = 'AllenMinD' import requests,urllib,os from bs4 import BeautifulSoup ans = 1 #counting