總結一下我寫過的讀檔案的方式
阿新 • • 發佈:2018-12-18
讀取excel
# 讀取excel
worksheet = xlrd.open_workbook(filepath)
table = worksheet.sheet_by_index(1)#讀取第一個sheet裡面的類容
datas=[]
# 第一行和第二行的內容不讀入
for i in range(table.nrows):
if i == 0:
continue
if i == 1:
continue
s = table.cell_value(i,4) # 讀取第5列的內容
datas.append(s)
讀取txt
#這個txt是已經切好詞的txt,詞與詞之間用空格隔開。並且每一行第一個詞是標籤。 def get_count(fPath): invertedIndex = defaultdict(list) docNumber = 0 text=[] with open(fPath, 'r',encoding='utf-8') as f: line = f.readline() while line: line = line.strip('\n').split(' ')#這裡輸出的line是切好詞的list text.append(line) lengthOfDocument = len(line) # 讀出文章的長度,也就是每個line的長度 docNumber += 1 # 計算文件索引,也就是line的索引 if len(line) == 0:# 文字中的空行也要讀取。在我看來有點多餘。 line = f.readline() continue docIndex = line[0] # 文章標籤 for term in set(line): count = line.count(term) #計算每行中去重單詞的個數 invertedIndex[term].append([docIndex,count,lengthOfDocument]) line = f.readline() f.close()