1. 程式人生 > >python3.4.3實現txt文字指定字元提取

python3.4.3實現txt文字指定字元提取

TXT文件中提取指定文字

在每天上班的路上,都會在地鐵上看看高曉鬆的《魚羊野史》。很有意思的一本書,口頭語言記錄成冊,來自《曉鬆奇談》。每天都會按著日期看,今天是哪一天就翻到哪一天,看看歷史上的今天發生了什麼事,大千世界,天文地理,古今中外,體育娛樂,歷史趣聞,明星軼事,無所不包,無所不有。總有一款你喜歡的。內容斑雜卻生動有趣,今天批評歷史罪人,痛罵漢奸走狗,明日歌頌名族英雄,讚美時代偉人,好不趣味連連。書中涉及到很多電影和書籍。發現都是用書名號“《》”包含起來的,於是心血來潮,試了試用新學的python將所有電影和書籍名提取出來。

1.提取文字思路

step 1: 首先讀取檔案
step 2: 讀取出的str轉換為list
step 3: 查詢字元“《”,當查到時,在當前索引號index後30個字元範圍內查詢“》”,並將這段字元用list的append()方法新增進一個新的list,插入“》”後插入換行符號”\n“
step 4: 新生成的的list轉換為str
step 5: 生成新文件

2.demo

#!/bin/python3

TXTtemp = open("fishandsheephistory.txt","r+")
txtbuffer=TXTtemp.read()
#i=0
oldlist=['']
newlist=['']
#for txtchar in txtbuffer:
#	oldlist.append(txtchar)
#	i=i+1
oldlist=list(txtbuffer)
for index in range(len(txtbuffer)):
	if oldlist[index]=="《":
		for j in range(30):
			if oldlist[
index+j]=="》": newlist.append("》") newlist.append("\n") j=0 break newlist.append(oldlist[index+j]) print(newlist) strlist="".join(newlist) txtnew=open("newtxt.txt","w") txtnew.write(strlist) txtnew.close() TXTtemp.close()

3.結果與改進思路

這裡寫圖片描述
簡單的一段小demo,涉及Python3檔案讀寫,open(),write()方法的使用,list與str的轉換。不過主要思維邏輯還是採用C的陣列操作思想,理想的用法應該是匯入re模組,採用正則表示式才是最優的,奈何自己正則沒學好,以後會嘗試改進。而且提取出來會存在很多重複,下一步就要去重。

相關推薦

python3.4.3實現txt文字指定字元提取

TXT文件中提取指定文字 在每天上班的路上,都會在地鐵上看看高曉鬆的《魚羊野史》。很有意思的一本書,口頭語言記錄成冊,來自《曉鬆奇談》。每天都會按著日期看,今天是哪一天就翻到哪一天,看看歷史上的今天發生了什麼事,大千世界,天文地理,古今中外,體育娛樂,歷史趣聞,

Python學習12_python3.4.3實現txt文字指定字元提取

TXT文件中提取指定文字 在每天上班的路上,都會在地鐵上看看高曉鬆的《魚羊野史》。很有意思的一本書,口頭語言記錄成冊,來自《曉鬆奇談》。每天都會按著日期看,今天是哪一天就翻到哪一天,看看歷史上的今天發生了什麼事,大千世界,天文地理,古今中外,體育娛樂,歷史趣聞,明星軼事,無

Ubuntu16.04 python3.4.3升級到python3.7.1

strong ads www. rm -rf erro error: class python3.4 import python有兩個版本,一個2版本,使用的是python;另一個是3版本,使用的是python3。 簡易安裝python後得到的3版本的版本號是python3

IDE相關(六)Ubuntu18.04+Python2/3.6.5+OpenCV3.4.3實現開啟攝像頭

 必要的環境配置見:IDE相關(五)基於ubuntu 18.04 配置opencv 並在Qt上應用(全過程) 一、Ubuntu下執行Python指令碼 新建檔案: touch test.py 或 vim test.py (前提是安裝了vim) vim t

hibernate4.1.2使用ehcache2.4.3實現二級快取時報錯

我的異常已解決,就借鑑一下人家的異常吧 In my application I use the hibernate-core-4.1.8 jar and would like to take an ehCache as 2nd level cache. The jar I

win10下安裝python時出現的問題(這裡以python3.4.3為例)

進到這個官網後,選擇Downloads-》windows 然後找到python3.4.3版本點選箭頭所指向的地方然後就進入一個頁面,往下拉動,找到files然後點選windows x86-64 MSI installer進行下載。 這裡下載的檔案是msi格式的壓縮包

Python3.4/3.5+Django1.8.16連線MySQL

Django自帶的資料庫是SQLite,而我對MySQL熟一些,所以還是讓Django用MySQL資料庫吧。Python版本方面,我虛擬機器Ubuntu16.04上用的是Python3.5,阿里雲Ub

win7 64位下Python3.4.3 PIP安裝模組安裝失敗解決方案

學習在Python中匯入第三方模組,當我嘗試>pip install Pillow時,編譯報錯error:microsoft visual c++ 10.0 is required 我的解決方法

python爬蟲——windows + python3.4.3下的BeautifulSoup安裝

      python3.4.3 對BeautifulSoup的支援不太好,大多網上都是python2.7 的安裝教程,而按那個真是頗費周折。      1.下載      2.解壓至D:\python34   即python安裝目錄      3.開啟cmd,進入

Python3.4 12306 2015年3月驗證碼識別

like target bottom edr ocr extra spl apple creat import ssl import json from PIL import Image import requests import re import urllib.r

oozie4.3.0+sqoop1.4.6實現mysql到hive的增量抽取

ssa 使用 註意 表分區 namenode localhost coord 分隔 his 1.準備數據源 mysql中表bigdata,數據如下: 2. 準備目標表 目標表存放hive中數據庫dw_stg表bigdata 保存路徑為 hdfs://localh

Zabbix 3.4.6實現微信告警

oss height 準備 python Language ont radius https usr 一、註冊企業微信準備發送消息python腳本註冊企業微信,獲取CorpID在企業微信中創建一個應用,獲取AgentID和Secret安裝simplejsonwget htt

並發編程 - 協程 - 1.協程概念/2.greenlet模塊/3.gevent模塊/4.gevent實現並發的套接字通信

() 原理 utf-8 計算 幫我 error rec sum spa 1.協程並發:切+保存狀態單線程下實現並發:協程 切+ 保存狀態 yield 遇到io切,提高效率 遇到計算切,並沒有提高效率 檢測單線程下 IO行為 io阻塞 切 相當於

1. 安裝Oracle,配置環境 2. 實現查詢From子句 3. 實現查詢where子句 4. 實現查詢order by子句

不可 所有 ear sql文件 是否 階段 dna cls 數學運算 一、環境安裝1. 登錄:以管理員身份登錄 sqlplus 登錄名/密碼 管理員身份登錄:sqlplus system/1234562. 登錄後,導入案例。下載scott.sql文件,執行下面一行的命令 S

用正則表達式實現 運算 express = '1 -2* ((60-30 +(-40/5) *(9-2*5/3 +7 /3*99 /4*2998 +10 *568 /14))-(-4*3)/(16-3*2))'

repl bsp val 實現 strip expr 運算 lac spl #!/usr/bin/env python # coding:utf-8 import re def dealwith(express): express.replace(‘+-‘,‘

ActionScript 3.0對文字實現Tween類特效拖動處理

先說明一下Tween類: 我們看一下Tween類的建構函式: Tween(obj:Object, prop:String, func:Function, begin:Number,finish:Number, duration:Number, useSeconds:Bool

python3.6 PIL + tkinter 實現帶UI的字元畫轉換器

閒著沒事就想著做點小東西調劑下,在知乎上看到了字元畫像,就想著用python實現這個功能,主要思路如下: 1、需要將圖片的轉化為灰度影象  2、將轉化後的灰度影象對映到字元上 3、通過for來轉化影象,主要考慮換行 4、將檔案儲存到本地資料夾 5、最後通過pyinstaller打包生成ex

python實現西瓜書《機器學習》習題4.3資訊增益決策樹

首先這篇的格式可能會亂,markdown裝上以後,有時候是用csdn原來的編輯器,有時候就變成了markdown編輯器,蒙。 更蒙的是,大牛的程式碼太飄逸了,有點看不懂,慣例先來原地址:https://blog.csdn.net/Snoopy_Yuan/article/details/689

Python3 爬蟲學習筆記】資料儲存 1 -- TXT文字儲存

資料儲存的形式可以多種多樣,最簡單的形式是直接儲存為文字檔案,如TXT、JSON、CSV等。另外,還可以儲存到資料庫中,如關係型資料庫MySQL,非關係型資料庫MongoDB、Redis等。 檔案儲存 文字儲存形式多種多樣,比如可以儲存成TXT純文字形式,也可以儲存為JSON格式、C

HttpClient 4 3 6 使用MultipartEntityBuilder實現類似form表單提交方式的檔案上傳

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!