機器學習之文字挖掘（初學1）

阿新 • • 發佈：2019-02-11

一. 這裡是基於對網頁進行文字提取

#coding:utf-8

from lxml import etree,html
import chardet

#HTML檔案路徑，以及讀取檔案

path = 'C:/Users/zs/Desktop/learning.html' #路徑
content = open(path,"rb").read()
print(type(content)) # 輸出結果是<class 'bytes'>
page = html.document_fromstring(content) #解析檔案
text = page.text_content() #去除所有標籤
# print type(text)
# print chardet.detect(text)
print(text) #輸出去除標籤後的解析結果

知識點：

2.import chardet：是用來檢視字串編碼

3.補充一下‘bytes’類的一些知識：
Bytes 物件只負責以二進位制位元組序列的形式記錄所需記錄的物件
# 。bytes是一種位元流，它的存在形式是01010001110這種。
#我們無論是在寫程式碼，還是閱讀文章的過程中，肯定不會有
#人直接閱讀這種位元流，它必須有一個編碼方式，使得它變成有意義的位元流

二、

import sys
import os
import jieba

'''
python3 預設編碼是utf-8，所以這裡已經不需要這個了
reload(sys)
sys.setdefaultencoding('utf-8')
'''
seq_list=jieba.cut("小魚兒喜歡花無缺，也喜歡張衛健",cut_all=False)
print ("Default Mode:","/".join(seq_list))

seq_list=jieba.cut("小魚兒喜歡花無缺，也喜歡張衛健",cut_all=True)
print("Full Mode:","/".join(seq_list))

#搜尋引擎模式
seq_list=jieba.cut_for_search("小魚兒喜歡花無缺，也喜歡張衛健")
print("search:","/".join(seq_list))

# 詞性標註
import jieba.posseg as pseg
words=pseg.cut("會飛的的驢")
for w in words:
print(w.word,w.flag)

輸出結果：

Default Mode: 小魚兒/喜歡/花無缺/，/也/喜歡/張衛健
Full Mode: 小魚/小魚兒/魚兒/喜歡/花無缺/無缺///也/喜歡/張衛健
search: 小魚/魚兒/小魚兒/喜歡/無缺/花無缺/，/也/喜歡/張衛健
會 v
飛的 z
的 uj
驢 n

機器學習之文字挖掘（初學1）

機器學習之文字挖掘（初學1）

機器學習之決策樹（Decision Tree）文字演算法的精確率

機器學習之線性迴歸（Linear Regression）

系統學習機器學習之神經網路（十一） --TDNN

機器學習之邏輯迴歸（logistic regression）

系統學習機器學習之神經網路（十二） --人工神經網路總結

機器學習之邏輯迴歸（logistics regression）程式碼（牛頓法實現）

機器學習之決策樹（Decision Tree）及其Python程式碼實現

Stanford coursera Andrew Ng 機器學習課程程式設計作業（Exercise 1）Python3.x

輕松入門機器學習之概念總結（二）

機器學習之數學基礎（一）-微積分，概率論和矩陣

機器學習之K-近鄰（KNN）算法

機器學習之微積分與概率論入門1

機器學習之決策樹（二）

機器學習之主題模型（七）

系統學習機器學習之特徵工程（二）--離散型特徵編碼方式：LabelEncoder、one-hot與啞變數*

機器學習之數學系列（二）邏輯迴歸反向傳播數學推導

機器學習之數學系列（一）矩陣與矩陣乘法

機器學習之模型選擇（K折交叉驗證，超引數的選擇）

【ML1】機器學習之EM演算法（含演算法詳細推導過程）

機器學習之文字挖掘（初學1）

相關推薦