機器學習之文字挖掘(初學1)
一. 這裡是基於對網頁進行文字提取
#coding:utf-8
from lxml import etree,html
import chardet
#HTML檔案路徑,以及讀取檔案
path = 'C:/Users/zs/Desktop/learning.html' #路徑
content = open(path,"rb").read()
print(type(content)) # 輸出結果是<class 'bytes'>
page = html.document_fromstring(content) #解析檔案
text = page.text_content() #去除所有標籤
# print type(text)
# print chardet.detect(text)
print(text) #輸出去除標籤後的解析結果
知識點:
2.import chardet:是用來檢視字串編碼
3.補充一下‘bytes’類的一些知識:
Bytes 物件只負責以二進位制位元組序列的形式記錄所需記錄的物件
# 。bytes是一種位元流,它的存在形式是01010001110這種。
#我們無論是在寫程式碼,還是閱讀文章的過程中,肯定不會有
#人直接閱讀這種位元流,它必須有一個編碼方式,使得它變成有意義的位元流
二、
import sys
import os
import jieba
'''
python3 預設編碼是utf-8,所以這裡已經不需要這個了
reload(sys)
sys.setdefaultencoding('utf-8')
'''
seq_list=jieba.cut("小魚兒喜歡花無缺,也喜歡張衛健",cut_all=False)
print ("Default Mode:","/".join(seq_list))
seq_list=jieba.cut("小魚兒喜歡花無缺,也喜歡張衛健",cut_all=True)
print("Full Mode:","/".join(seq_list))
#搜尋引擎模式
seq_list=jieba.cut_for_search("小魚兒喜歡花無缺,也喜歡張衛健")
print("search:","/".join(seq_list))
# 詞性標註
import jieba.posseg as pseg
words=pseg.cut("會飛的的驢")
for w in words:
print(w.word,w.flag)
輸出結果:
Default Mode: 小魚兒/喜歡/花無缺/,/也/喜歡/張衛健
Full Mode: 小魚/小魚兒/魚兒/喜歡/花無缺/無缺///也/喜歡/張衛健
search: 小魚/魚兒/小魚兒/喜歡/無缺/花無缺/,/也/喜歡/張衛健
會 v
飛的 z
的 uj
驢 n