Python統計一個英文文件中各單詞出現的行數

阿新 • • 發佈：2019-01-17

在網上看到一個人求的大作業，要求是這樣的：

讀入一個英文的文件，然後建立一個單詞引用索引表，也就是說，對於該文件中出現的所有單詞，按照字母順序進行排序，並且每個單詞後面跟著它在文件中出現的行號。然後把這個索引表顯示出來，同時儲存在一個輸出檔案中。為了方便處理，假定文件長度不超過1000個字元，行數不超過20行，文件中的單詞最長不超過20個字母。噪聲單詞，如“a, an, and, are, in, is, of, or, that, the, this, to, have”等單詞不出現。
比如讀入的是1.txt,則輸出的單詞索引表為2.txt

其實這個大作業要求是用C語言來完成的，我嘗試了一下用Python來實現：

def analysisline(aline):
newline = ''
for c in aline:
if c.isalpha():
newline += c
else:
newline += ' '
wordlist = newline.split()

for strt in wordlist:
for listt in data:
if strt.lower() in listt:
listt.append(lineindex)
break
else:
if strt.lower() not in outword:
data.append([strt.lower(), lineindex])

outword = ['a', 'an', 'and', 'are', 'in', 'is', 'of', 'or', 'that', 'the', 'this', 'to', 'have']
file1 = open("1.txt")
data = []
lineindex = 0

while True:
line = file1.readline()
if not line:
break
lineindex += 1
analysisline(line)

file1.close()
data.sort()
file2 = open("2.txt", "w")
firstc = ''
for inlist in data:
if inlist[0][0] != firstc:
firstc = inlist[0][0]
file2.write("\n********************* ")
file2.write(inlist[0][0].upper())
file2.write(" *********************\n")
word = inlist[0]
while len(word)<30:
word += '-'
file2.write(word)
for element in inlist:
if str(element).isdigit():
file2.write(' '+str(element))
file2.write("\n")

file2.close()

其實看起來還是很囉嗦，主要是對字串的操作還不是很熟悉。Python提供了很多對字串的操作，這已經大大簡化了平時對字串的處理，因為這個操作實在是太多了。

在程式中用了一個列表data來儲存需要寫要檔案2.txt中的資料，data中的元素又是一個列表，其第一個元素是統計到的單詞，其他的元素就是這個單詞的所在行。在構建data列表的時候，首先是一行一行的讀出檔案的內容，然後對每一行進行處理，把每行中的非字母字元都換成空格，然後對這個新的字串按空格進行分隔得到一個單詞的列表。對列表的單詞進行遍歷，加入到data列表中，同時記錄這個此時的行數。當然，因為統計單詞不需要區分大小寫，所以在把單詞加入到列表的時候全都轉為了小寫，這樣，後面只要啟用一個sort函式就可以對列表進行排序了。輸出到檔案的時候，先按照單詞的首字母列印一個表頭，然後取出單詞填充字元'-'直到30個字元為止，後面緊跟所在行。這樣就把所有的資料輸出到了檔案 2.txt中。

其中在用到open函式的時候還出現了一個失誤，原本以為用'w'模式開啟檔案的時候，每write一次都要把原來的內容清除掉。實際上是隻有在open函式呼叫的時候會把原來檔案的內容清除掉，而wirte函式需要注意的是其引數只能是str型別。另外還有len函式，開始是用str.len()來呼叫，出現異常，正確用法是len(str)。

Python統計一個英文文件中各單詞出現的行數

Python統計一個英文文件中各單詞出現的行數

awk命令之 - 統計/etc/passwd文件中各用戶所使用的shell類型及出現次數

用python把一個txt文件中所有逗號，替換成空格？

python 一個.py文件如何調用另一個.py文件中的類和函數

通過PHP把一篇英文文件中所有單詞的首字母轉為大寫

python將一個txt文件的內容轉為字典格式/將字典格式儲存到txt文件中

如何在一個js文件中引入另外的js文件

Java關於條件判斷練習--統計一個src文件下的所有.java文件內的代碼行數(註釋行、空白行不統計在內)

Python將一個大文件按段落分隔為多個小文件的簡單方法

用python比較兩個文件中內容的不同之處, 並輸出行號和內容.

編寫一個程序,將 a.txt 文件中的單詞與 b.txt 文件中的單詞交替合並到 c.txt 文件中,a.txt 文件中的單詞用回車符分隔,b.txt 文件中用回車或空格進行分隔。

python交互環境中導入文件中自定義的函數報錯

python：將txt文件中是數值型資料讀入到array陣列中

一個word文件中，多個表格的批量調整（根據視窗調整表格和新增表格水平線）

十進位制轉化成2,8,16進位制數工具。將程式碼全部複製到一個txt文件中儲存，並將檔案字尾.txt改為.html，再瀏覽器開啟即可

C語言K&R習題系列——統計文件中每個單詞所包含的字母個數，以直方圖形式輸出

統計一TXT文件中單詞出現頻率，輸出頻率最高的10個單詞

Aspose.Words：如何新增另一個WORD文件中的Node物件

在文件中的指定位置寫入數據

go源文件中是否有main函數

Python統計一個英文文件中各單詞出現的行數

相關推薦