數據挖掘-語料庫的構建

阿新 • • 發佈：2018-10-01

實驗室 walk () 目錄命名編號 rup 系統數據 16px

語料庫：是我們要分析的所有文檔的集合

使用搜狗實驗室提供的語料庫，裏面有一個classlist，裏面內容是文件的編號及分類名稱

1、導入模塊

import os   
import os.path

filePaths=[]    #建立一個空的列表來存放語料庫的文件名稱，數組變量
for root,dirs,files in os.walk(     
    "D:\\Python\\Python數據挖掘\\2.1\\SogouC.mini\\Sample"):
    for name in files:
        filePaths.append(os.path.join(root,name))

使用os.walk傳入這個目錄作為參數，遍歷該文件夾下的全部文件，該方法返回一個Truple的數組，第一個root是文件所在目錄，第二個是root文件下的子目錄命名為dirs，第三個root文件下的所有文件命名為files

拼接文件路徑（可解決不同系統下的的文件拼接）

os.path.join(root,name)

2、把第一步的文件路徑下的內容讀取到內存中

import codecs

filePaths=[]
fileContents=[]
filenames=[]
for root,dirs,files in os.walk(
    "D:\\Python\\Python數據挖掘\\2.1\\SogouC.mini\\Sample 
"):
    for name in files:
        filePaths.append(os.path.join(root,name))
        filePath=os.path.join(root,name)
        f=codecs.open(filePath,"r",encoding="utf-8")
        fileContent=f.read()   #讀取內容後關閉
        fileContents.append(fileContent)

使用codecs.open(filePath,method,encoding)來打開文件，然後用文件的read()方法

3、把讀取到的內容變成一個數據框

import pandas
corpos=pandas.DataFrame({
        "filePath":filePaths,
        "fileContent":fileContents,
        "class":filenames})

數據挖掘-語料庫的構建

實驗室 walk () 目錄命名編號 rup 系統數據 16px 語料庫：是我們要分析的所有文檔的集合使用搜狗實驗室提供的語料庫，裏面有一個classlist，裏面內容是文件的編號及分類名稱 1、導入模塊 import os import os.path

數據挖掘-語料庫的構建

數據挖掘-語料庫的構建

數據挖掘比賽，構建矩陣時的腦殘行為

python數據可視化、數據挖掘、機器學習、深度學習常用庫、IDE等

python資料探勘實戰筆記——文字挖掘（1）：語料庫構建

數據挖掘——親和性分析

Kaggle 數據挖掘比賽經驗分享

Python和R數據挖掘分析技術高級公開課在上海舉行

R語言數據挖掘實戰系列（1）

使用excel進行數據挖掘（6）---- 預測

R語言數據挖掘實戰系列（3）

（轉）淘淘商城系列——導入商品數據到索引庫——Service層

數據挖掘R 神經網絡基礎

數據挖掘與機器學習——weka應用技術與實踐

數據挖掘十大算法總結--核心思想，算法優缺點，應用領域

2017.06.29數據挖掘基礎概念第六，八，九章

2017.06.29數據挖掘基礎概念第四章

數據挖掘之定義

用SQL玩轉數據挖掘之MADlib（一）——安裝

數據挖掘 - 算法 - ID3 - 轉自 http://www.cnblogs.com/dztgc/archive/2013/04/22/3036529.html

數據挖掘工程師如何選擇數據可視化工具？

數據挖掘-語料庫的構建

相關推薦