python：epub檔案批量轉TXT

阿新 • • 發佈：2019-01-02

寫在前面

程式碼很菜，而且寫了很久之後才寫的筆記，程式碼裡僅包含主要函式的實現。

原因

有很多很多，大概8000本epub檔案需要轉換成TXT。沒找到現成工具偷懶，就想寫一段程式碼代工。

缺點

只對文字有效，圖片類無法轉化。

原理

先轉換成壓縮包，解壓縮得到一些包含圖書內容的html檔案，從html標記中獲取文字並儲存。
* 轉換成壓縮包：修改檔名字尾為’.rar’
* 解壓縮：使用360批量解壓。作者又懶又菜，寫出解壓縮程式碼的用的時間要遠遠超過使用工具的時間。
* 遍歷檔案，生成html檔案的路徑
* 解析html檔案，獲取文字資訊
* 儲存成TXT

需要的程式碼

依賴的包

import os
from urllib.request import urlopen
from bs4 import BeautifulSoup
from nt import chdir

修改檔名字尾

##將.epub修改成.rar
def epub_rar(start):
    files = os.listdir(start+'\\.')#獲取當前目錄下的檔案
    for filename in files:
        portion = os.path.splitext(filename)#將檔名拆成名字和字尾
        if portion[1 
] == ".epub":
            newname = portion[0] + ".rar"
            os.rename(start+'\\'+filename,start+'\\'+newname)#修改

例子：

jingxuan='E:\\BaiduYunDownload\\語料庫\\精選電子書7200本合集'
starts=[]
files = os.listdir(jingxuan+'\\.')#獲取當前目錄下的檔案
for filename in files:
    starts.append(jingxuan+'\\'+filename+'\\.' 
)
for i in starts:
    epub_rar(i)

如果已經解壓縮

##遍歷資料夾，找出網頁檔案
def bianli(filepath):
    if os.path.isfile(filepath):
        if '.html'in filepath or '.xhtml' in filepath or '.htm' in filepath:
            all_file.append('file:\\\\'+filepath)
    else:
        filelist = os.listdir(filepath)
        for l in filelist:
            path=os.path.join(filepath,l)
            bianli(path)
    return all_file

例子：

##獲取所有的文字名和文字下的的檔案路徑
filedic={}
start = 'E:\\BaiduYunDownload\\語料庫\\豆瓣高分電子書合集'
files = os.listdir(rootdir)
for i in f_list:
    path = os.path.join(rootdir,i)
    all_file=[]
    all_file=bianli(path)
    filedic[i]=all_file

*獲取文字內容

#把連結轉換成txt文字，依賴urlopen和bs4
def get_text(url):
    html=urlopen(url)
    b=BeautifulSoup(html,'lxml').text
    return b

建立資料夾和儲存檔案

##建立資料夾
def mkdir(path):    
    folder = os.path.exists(path)    
    if not folder:                   #判斷是否存在資料夾如果不存在則建立為資料夾  
        os.makedirs(path)            #makedirs 建立檔案時如果路徑不存在會建立這個路徑   
    else:  
        print ("---  There is this folder!  ---" )        
##儲存檔案
def save_txt(filename,text):
    with open(filename,"w",encoding='utf-8') as f:
        f.write(text)

例子：

##生成精選7200的類別路徑
start = 'E:\\BaiduYunDownload\\語料庫\\精選電子書7200本合集'
newpath='E:\\BaiduYunDownload\\語料庫\\精選電子書7200本txt合集'
mkdir(newpath)
files = os.listdir(start)
##獲取精選7200的類別路徑，建立對應的txt檔案的路徑
jingxuan_f=[]
new_f=[]##存放新txt檔案的路徑
for i in files:
    jingxuan_f.append(os.path.join(start,i))
    new_f.append(os.path.join(newpath,i))
    mkdir(os.path.join(newpath,i))
##轉換精選電子書
for i in range(0,len(jingxuan_f)-1):
    f_list = os.listdir(jingxuan_f[i])
    leibiedic={}
    for f in f_list:
        path = os.path.join(jingxuan_f[i],f)
        all_file=[]
        all_file=bianli(path)
        leibiedic[f]=all_file
    for name in leibiedic:
        try:
            textname=new_f[i]+'\\'+name+'.txt'
            result=''
            for url in leibiedic[name]:
                url=str(url)
                text=get_text(url)
                result=result+text
        except:
            print(name)
            continue
        save_txt(textname,result)

把壓縮檔案刪除

##遍歷刪除.rar檔案
def bianlidel(filepath):
    if os.path.isfile(filepath):
        if '.rar'in filepath:
            os.remove(filepath)
    else:
        filelist = os.listdir(filepath)
        for l in filelist:
            path=os.path.join(filepath,l)
            bianlidel(path)

python：epub檔案批量轉TXT

寫在前面程式碼很菜，而且寫了很久之後才寫的筆記，程式碼裡僅包含主要函式的實現。原因有很多很多，大概8000本epub檔案需要轉換成TXT。沒找到現成工具偷懶，就想寫一段程式碼代工。缺點只對文字有效，圖片類無法轉化。原理先轉換成壓縮

將UCS-2 Little Endian(即 utf-16)編碼的txt檔案批量轉化為utf-8編碼（python）

折騰了好久，終於搞定了。參考連結：python使用codecs模組進行檔案操作-讀寫中英文字元 - CSDN部落格 http://blog.csdn.net/chenyxh2005/article/details/72465758#t0程式碼：import os import

python：discover()方法批量執行用例

runner 收集使用子目錄 utils 每次框架 ner docs 自動化測試過程中，自動化覆蓋的功能點和對應測試用例之間的關系基本都是1 VS N，如果每次將測試用例一個個單獨執行，不僅效率很低，無法快速反饋測試結果，而且維護起來很麻煩。在python的單元測試

【專案實戰】：python：寫檔案個性化設定模組Python_Xlwt練習

python：寫檔案個性化設定模組Python_Xlwt練習 # -*- coding: utf-8 -*- """ Created on Sun Aug 5 22:52:22 2018 @author: A3 """ # ================

Python：whl檔案是神？如何安裝whl檔案？

whl格式本質上是一個壓縮包，裡面包含了py檔案，以及經過編譯的pyd檔案。使得可以在不具備編譯環境的情況下，選擇合適自己的python環境進行安裝。安裝方法很簡單，進入命令列輸入 pip install xxxx.whl 或者如果是升級 pip install -U x

python：讀取檔案並替換欄位

fp = open(''test2.txt','w') #開啟你要寫得檔案test2.txt lines = open('test1.txt').readlines() #開啟檔案，讀入每一行 fo

Selenium+Python：下載檔案(Firefox 和 Chrome)

1. 環境作業系統 Win10 IDE Eclipse (Oxygen 4.7)+ PyDev 5.9.2 (JDK1.8) Python 3.5 Selenium selenium-3.9.0-py2.py3-none-any.whl FirefoxD

Python：獲取檔案的副檔名

def get_file_extension(filename): arr = os.path.splitext(filename) return arr[len(arr) - 1] #return arr[len(arr) - 1].replace(

Python 讀取csv檔案批量入庫Mysql

注：僅為筆記 1、Python ftp連線，下載檔案 def ftpDownload() : #建立ftp物件例項 ftp = FTP() ftp.connect(FTPIP, FTPPORT) #通過賬號和密碼登入FTP伺服器 ftp.logi

python 實現xml檔案轉換成txt文件

#!/usr/bin/evn python #coding: utf-8 import os,shutil import sys import xml.dom.minidom reload(sys) sys.setdefaultencoding('ut

使用iconv對檔案批量轉碼

本文映象地址 Windows下中文使用的編碼一般預設為GB18030，git無法識別裡面的中文，在Linux和Mac上開啟會出現亂碼問題 iconv可以對單個檔案進行轉碼,使用方式如下：顯示支援的編碼 iconv -l 將GB18030碼轉為UTF-8碼,並重

Python：檔案批量建立、讀寫、複製、內容修改和重新命名

需求：一個郵件檔案對應一個CSV檔案，對大量的郵件檔案重新命名，然後把此檔案移動到對應的CSV檔案目錄下，檢查CSV檔案中郵件名稱內容與格式的正確性，不正確的做出修改，正確的保留。資料夾中最後是一個（視訊、郵件等）檔案對應一個CSV檔案。 1.建立並寫入CSV檔案

python：檔案處理之TXT

檔案讀寫 1、讀寫檔案是最常見的IO操作。Python內建了讀寫檔案的函式，用法和C是相容的。 2、讀寫檔案前，我們先必須瞭解一下，在磁碟上讀寫檔案的功能都是由作業系統提供的，現代作業系統不允許普通的程式直接操作磁碟，所以，讀寫檔案就是請求作業系統開啟一個檔案物件（通常稱

python實戰-pdf檔案轉txt之類的文字可編輯型別檔案

背景：最近剛好需要將一個pdf的內容打出來，這是個比較枯燥的內容，而且pdf裡面的文字明顯是規範的，所以想寫個指令碼讀取內容，直接複製貼上。剛好，python的理念就是不重複造輪子，這樣的包自然是有的，這個指令碼最主要的包就是pdfminer3k。 1.思路解析出文件，

十幾行程式碼帶你用Python批量實現txt轉xls，方便快捷

前天看到後臺有一兄弟發訊息說目前自己有很多txt 檔案，領導要轉成xls檔案，問用python怎麼實現，我在後臺簡單回覆了下，其實完成這個需求方法有很多，因為具體的txt格式不清楚，當然如果是有明確分隔符的會更好處理些，可以直接把txt檔案轉成csv檔案，這樣可以用excel開啟後就是表格的樣式了，如果直接要

python excel轉txt檔案

直接上程式碼吧 import xlrd def row2str(row_data): values = ""; for i in range(len(row_data)):

python：txt檔案轉換為csv檔案

這篇部落格主要是應用python將txt文字檔案轉換為csv檔案。主要實現如下： #-*-coding:utf-8 -*- import csv with open('file.csv', 'wb') as csvfile: spamwriter

Python：將大型CSV檔案轉化為DataFrame

之前因為比賽一直在玩DataFrame，處理一些小型資料感覺很是方便。但是今天遇到了一個3.32G大的CSV檔案感覺甚是無力，總是報記憶體錯誤。上網查找了一些方法感覺都很有啟發啊，所以自己整合了一下。並記錄下來，以防記性不好的我忘記。方法一：with open('C:

python txt檔案轉換乘excel檔案（轉）

#!/bin/env python # -*- encoding: utf-8 -*- #------------------------------------------------------------------------------- # Pu

Python：檔案的讀取、建立、追加、刪除、清空（轉）

Python：檔案的讀取、建立、追加、刪除、清空1.用Python建立一個新檔案，內容是從0到9的整數, 每個數字佔一行：#python>>>f=open('f.txt','w') # r只讀，w可寫，a追加>>>for i in r

python：epub檔案批量轉TXT

寫在前面

原因

缺點

原理

需要的程式碼

相關推薦