處理文字檔案

阿新 • • 發佈：2021-11-14

處理文字檔案

處理文字的最佳實踐是“Unicode三明治”。儘早把輸入的的位元組序列解碼成字串，然後對字串進行處理，在其他過程中一定不能編碼或解碼。對輸出來說，要儘量晚地把字串編碼成位元組序列

在Python3中能輕鬆的採納Unicode三明治的建議，因為內建的open函式會再讀取檔案時做必要的解碼，以文字模式寫入檔案時還會做必要的編碼，所以呼叫my_file.read()方法得到的以及傳給my_file.write(text)方法的都是字串物件

open('./cafe.txt', 'w', encoding='utf_8').write('café')

open('cafe.txt').read()

'caf茅'

寫入檔案時制定了UTF-8編碼，但是讀取檔案時沒那麼做，因此Python假定要使用系統預設的編碼（cp936）,於是檔案的最後一個位元組解碼成了字元'茅'，而不是'é'。

fp = open('cafe.txt', 'w', encoding='utf_8')
fp  # 預設情況下，open函式採用文字模式，返回一個TextIOWrapper物件

<_io.TextIOWrapper name='cafe.txt' mode='w' encoding='utf_8'>

fp.write('café')  # 在TextIOWrapper物件上呼叫write方法返回寫入的Unicode字元數

fp.close()

import os
os.stat('cafe.txt').st_size  # os.stat報告檔案中有5個位元組，UTF-8編碼的'é'佔兩個位元組，0xc3和0xa9

fp2 = open('cafe.txt')
fp2  # 開啟文字檔案時沒有顯式指定編碼，返回一個TextIOWrapper物件，編碼是區域設定中的預設值

<_io.TextIOWrapper name='cafe.txt' mode='r' encoding='cp936'>

fp2.encoding  # TextIOWrapper物件有個encoding屬性，可以檢視當前編碼是cp936

'cp936'

fp2.read()

'caf茅'

fp3 = open('cafe.txt', encoding='utf_8')  # 使用正確的編碼開啟文字檔案
fp3

<_io.TextIOWrapper name='cafe.txt' mode='r' encoding='utf_8'>

fp3.read() 結果符合預期，得到四個Unicode字元'café'

'café'

fp4 = open('cafe.txt', 'rb')  # 'rb'標誌指明在二進位制中讀取檔案
fp4

<_io.BufferedReader name='cafe.txt'>

fp4.read()  # 讀取返回的位元組序列，結果與預期相符

b'caf\xc3\xa9'

編碼預設值

import sys
import locale
expressions = '''
locale.getpreferredencoding()
type(my_file)
my_file.encoding
sys.stdout.isatty()
sys.stdout.encoding
sys.stdin.isatty()
sys.stdin.encoding
sys.stderr.isatty()
sys.stderr.encoding
sys.getdefaultencoding()
sys.getfilesystemencoding()'''
my_file = open('cafe.txt', 'w')
for expression in expressions.split():
    value = eval(expresion)
    print(expression.rjust(30), '->', repr(value))

 locale.getpreferredencoding() -> 'cp936'
                 type(my_file) -> 'cp936'
              my_file.encoding -> 'cp936'
           sys.stdout.isatty() -> 'cp936'
           sys.stdout.encoding -> 'cp936'
            sys.stdin.isatty() -> 'cp936'
            sys.stdin.encoding -> 'cp936'
           sys.stderr.isatty() -> 'cp936'
           sys.stderr.encoding -> 'cp936'
      sys.getdefaultencoding() -> 'cp936'
   sys.getfilesystemencoding() -> 'cp936'

在GNU/Linux和OS X中，這些編碼的預設值都是UTF-8，而且多年來都是如此，因此I/O能處理所有Unicode字元。

locale.getpreferreadencoding()返回的編碼是最重要的：這是開啟檔案的預設值，也是重定向到檔案sys.stdout/stdin/stderr的預設編碼。

關於編碼預設值的最佳建議是：別依賴預設值

如果遵從Unicode三明治的建議，而且始終在程式中顯式指定編碼，那將避免很多問題。

即使把位元組序列正確地轉換成字串，Unicode仍然有不如人意的地方

java8 Stream流逐行處理文字檔案

本文中為大家介紹使用java8 Stream API逐行讀取檔案，以及根據某些條件過濾檔案內容

五、StreamWriter-基本操作-適合處理文字檔案

1.StreamWriter Write 不換行寫入存在會覆蓋原檔案 1/// <summary> 2/// StreamWriter Write方法不換行寫入檔案

四、StreamReader -基本操作-適用於處理文字檔案

1.ReadLine 一行一行讀取 1/// <summary> 2/// 使用StreamReader中的ReadLine一行一行讀取資料返回字串

python處理文字檔案內容專題 -

1.讀取一個文字檔案之後得到裡面出現最多的關鍵字的程式碼如下： from time import time

處理文字檔案

處理文字檔案處理文字的最佳實踐是“Unicode三明治”。儘早把輸入的的位元組序列解碼成字串，然後對字串進行處理，在其他過程中一定不能編碼或解碼。對輸出來說，要儘量晚地把字串編碼成位元組序列

真的簡單，文字檔案逐行處理–用java8 Stream流的方式

本文中為大家介紹使用java8 Stream API逐行讀取檔案，以及根據某些條件過濾檔案內容

ASP.NET使用一般處理程式實現上傳文字檔案後實時讀取

之前我的做法是上傳文字檔案，儲存到伺服器硬碟，再去讀取伺服器上的文字檔案。

Python編解碼問題與文字檔案處理

編解碼器在字元與位元組之間的轉換過程稱為編解碼，Python自帶了超過100種編解碼器，比如：

Python實現PyPDF2處理PDF檔案的方法示例

實際應用中，可能會涉及處理 pdf 檔案，PyPDF2 就是這樣一個庫，使用它可以輕鬆的處理 pdf 檔案，它提供了讀，割，合併，檔案轉換等多種操作。

python 如何將資料寫入本地txt文字檔案的實現方法

一、讀寫txt檔案 1、開啟txt檔案 file_handle=open(\'1.txt\',mode=\'w\') 上述函式引數有（1.檔名，mode模式）

python遍歷檔案目錄、批量處理同類檔案

本文例項為大家分享了python遍歷檔案目錄、批量處理同類檔案的具體程式碼，供大家參考，具體內容如下

python批量處理txt檔案的例項程式碼

通過python對多個txt檔案進行處理讀取路徑，讀取檔案獲取檔名，路徑名對響應的資料夾名字進行排序

Python讀取分割壓縮TXT文字檔案例項

廢話不多說，上程式碼看吧！ \'\'\' 為了避免截斷中文字元檔案要求是 unicode 編碼

Java 使用 FFmpeg 處理視訊檔案示例程式碼詳解

目前在公司做一個小東西，裡面用到了 FFmpeg 簡單處理音視訊，感覺功能特別強大，在做之前我寫了一個小例子，現在記錄一下分享給大家，希望大家遇到這個問題知道解決方案。

Python文字檔案的合併操作方法程式碼例項

我們有時候，看到幾k的日誌檔案，一大堆，一個一個開啟又很麻煩，少看幾個，又擔心遺漏，這個時候，如果有一個可以合併所有文字檔案的工具就好了。

C++讀入"N,X,Y,Z"格式文字檔案到Eigen3 Matrix

C++讀入\"N,X,Y,Z\"格式文字檔案到Eigen3 Matrix，以及相同格式輸出方法很多資料資料的格式類似這樣：

java實現大文字檔案拆分

本文例項為大家分享了java實現大文字檔案拆分的具體程式碼，供大家參考，具體內容如下

Python連線HDFS實現檔案上傳下載及Pandas轉換文字檔案到CSV操作

1. 目標通過hadoop hive或spark等資料計算框架完成資料清洗後的資料在HDFS上爬蟲和機器學習在Python中容易實現

python如何儲存文字檔案

python儲存文字檔案的方法：使用python內建的open()類可以開啟文字檔案，向檔案裡面寫入資料可以用write()函式，寫完之後，使用close()函式就可以關閉並儲存文字檔案了

C#讀寫文字檔案原始碼片段

下邊內容段是關於C#讀寫文字檔案片段的內容，應該是對碼農們也有用。 using System; using System.IO; public class TestReadFile {public static void Main(String[] args){FileStream fs = new FileStream(@c:temp

處理文字檔案

處理文字檔案

編碼預設值

相關推薦