利用Python requests庫從網上下載txt檔案時多出一個CR的處理

阿新 • • 發佈：2018-11-13

問題描述

讀¹ 的Reading word lists小節時，發現需要從thinkpython2/code/words.txt上下載words.txt檔案。我不想利用複製-貼上的方法構造該檔案，想到之前學過的爬蟲技術，於是寫下如下程式碼：

import requests

r = requests.get('http://greenteapress.com/thinkpython2/code/words.txt')
# since abobe net use ISO-8859-1 encoding
r.encoding = 'utf-8'

# 寫入外部檔案
words = open('words.txt' 
,'w')
words.write(r.text)
words.close()

得到檔案words.txt後，發現每個單詞後面會跟個空行，我採用Notepad++的檢視->顯示符號->顯示行尾符後，具體如下圖所示：
多出cr
上述是個問題，怎樣去掉多餘的行？

解決方法

對上述檔案的內容觀察，發現是Macintosh格式，顯示內容多出CR。為此我利用Notepad++的功能將其轉換為Windows格式，如下圖：

轉換後得到結果如下圖所示：
轉換Windows後
我用程式實際測試，在Windows系統下，Python的\n相當於CR LF。於是對於轉換成Windows格式後的檔案words.txt來說，我們需要做的是：將\n\n

替換為\n。為此我使用如下程式碼（利用正則表示式）：

# stripNewline.py
import re

fi = open('words.txt')
str = fi.read()
#str = 'nihao\n\n'
dnewlinePattern = re.compile(r'\n\n')
outStr = re.sub(dnewlinePattern,'\n',str)
fo = open('wordsOut.txt','w')
fo.write(outStr)
fo.close()
#print(repr(outStr))
fi.close()

得到的檔案wordOut.txt滿足了要求。如圖：
滿足要求的格式

Allen B. Downey. Think Python: How to think like a computer scientist 2nd Edition. Sebastopol, CA: O’Reilly, 2016. ↩︎

利用Python requests庫從網上下載txt檔案時多出一個CR的處理

問題描述讀1 的Reading word lists小節時，發現需要從thinkpython2/code/words.txt上下載words.txt檔案。我不想利用複製-貼上的方法構造該檔案，想到之前學過的爬蟲技術，於是寫下如下程式碼： import requests r =

利用Python requests庫實現cas認證

1.準備工作-背景知識 1.1 requests庫簡介： python有很多可以用來測試介面的模組，個人覺得，requests庫是最好用的，在Robot Framwork裡，它的測試庫requestsLibrary，也是基於requests寫的。 1.1.1 安裝：作為第三方模組，使用前，需要安裝，最簡單

利用python requests庫模擬登陸知乎

當初搜模擬登陸的時候在知乎上也找到一些內容。以下是程式碼 import requests import time import json import os import re import sys import subprocess from bs4 import Be

python用 requests 模組從 Web 下載檔案

requests 模組讓你很容易從 Web 下載檔案，不必擔心一些複雜的問題，諸如網路錯誤、連線問題和資料壓縮。requests 模組不是 Python 自帶的，所以必須先安裝。通過命令列，執行 pip install requests。編寫 requests 模組是因為 P

python requests庫學習筆記（下）

mail 接收緩存 nbsp 0.10 基本 eat agen 維基百科 1.請求異常處理請求異常類型：請求超時處理（timeout）：實現代碼： import requestsfrom requests import exceptions #引

python requests 庫請求帶有檔案引數的介面

有些介面引數是一個檔案格式，比如fiddler 抓包引數如下顯示這個介面的 form-data fiddler 顯示的和不帶檔案引數的介面有明顯區別，顯示的不是簡單的鍵值對，所以我們也不能只通過 data給介面傳參，需要再value為<file>的引數通過 files傳參

從網上下載的web原始碼在Windows下出現跨域問題

從百度下載了UEditor原始碼，發現一個現像：我把demo中的index.html用文字工具開啟另存到同路徑下換個名字比如index2.html，那麼這個index2.html就會出現執行錯誤，而原來的index.html則執行正常。檢視錯誤資訊是iframe跨域訪問被拒絕。那麼index2中

利用Python sklearn庫裡的決策樹模型生成決策樹圖片以及測試分類的準確度

本案例利用sklearn自帶的資料集，選取房子經緯度作為特徵引數來對標籤進行分類。也用切分的資料訓練模型來進行特徵引數的選擇得到最好的測試準確度。 Python原始碼： #!/usr/bin/env python # encoding: utf-8 """ @Company：華中科技大

實戰：利用Python sklearn庫裡的邏輯迴歸模型訓練資料---建立模型

本案例主要是通過對不均衡的28萬組資料建立模型，分析預測欺詐使用者，採用sigmod函式作為損失函式，採用交叉驗證的方法和l1正交法則，比對了不同懲罰函式下的模型的召回率，也通過預測值和實際值做出混淆矩陣更加直觀看到各種預測結果。也比較了sigmod函式下的不同閾值下的模型預測的精度和召

怎麼用Java從網上下載一個視訊下來

用Java的IO流從網上下載一個視訊原理：就是用URL物件與目標地址建立一個連結，用IO流的方式從這個連結上把視訊的二進位制資料讀取下載然後再寫入本地檔案。程式碼思路先建立一個連結物件，獲取到網頁的連結；從連結物件獲取到輸入流，讀取資料；建立一個輸出流

離線安裝python requests庫

網上很多人寫的什麼離線安裝，無非是下載一個xxx.whl檔案，通過pip install xxx.whl命令列安裝。實際上安裝的過程中還需要聯網去下載一些依賴包。 requests==2.19.1 - certifi [required: >=2017.4.17, ins

python--requests庫

請求庫雖然Python的標準庫中urllib模組已經包含了平常我們使用的大多數功能，但是它的API使用起來讓人感覺不太好，而請求庫的宣傳是“HTTP for Humans”，說明使用更加簡潔方便。安裝和文件地址：利用pip可以非常網求方便的安裝： pip install req

python爬蟲：從頁面下載圖片以及編譯錯誤解決。

#!/usr/bin/python import re import urllib def getHtml(url):page = urllib.urlopen(url)html = page.read()return html def getImage(html):reg

Java將圖片從網上下載至本地

ImageIO.write(RenderedImage im, String formatName, File output) 例項： String urlString = "http://tile.openstreetmap.org/1/0/0.png"; Image image = new

利用git 從github下載指定檔案或資料夾

1.在Config中允許使用Sparse Checkout模式： $git config core.sparsecheckout true 2.接下來你需要告訴Git哪些檔案或者資料夾是你真正想Check Out的，你可以將它們作為一個列表儲存在 .git/info/sp

python requests庫呼叫網易蜂巢API！

沒事看了下網易蜂巢的控制檯API，參考文件寫了一部分建立雲主機的API練練手，主要是通過requests庫來發送 HTTP 請求完成各種資料的傳送具體程式碼 #!/usr/bin/env python #-*-coding:utf-8 import requests import json

python-requests 庫使用

python-requests 庫使用 """ 安裝 pip install requests """ # 使用 import requests response = requests.get('https://www.baidu.com/') print(type(response)

Python Requests庫簡明使用教程

Requests是一常用的http請求庫，它使用python語言編寫，可以方便地傳送http請求，以及方便地處理響應結果。一、安裝 1.1 使用pip進行安裝要安裝requests，最方便快捷的方法是使用pip進行安裝。 pip ins

python requests庫報錯的問題及解決

報錯如下： requests.exceptions.ConnectionError: HTTPConnectionPool(host='www.8ydy.com', port=80): Max retries exceeded with url: / (Caused by

如何執行從網上下載的iWatch專案詳細步驟.

今天幫朋友解決iWatch的問題,他把專案直接扔給我,我們都知道如果專案中帶一些需要開發認證的框架(比如Healthkit框架內)是不能直接執行的.昨天經過一個多小時的研究(PS:樓主比較笨),終於搞

利用Python requests庫從網上下載txt檔案時多出一個CR的處理

問題描述

解決方法

相關推薦