【python資料處理】jieba分詞

阿新 • • 發佈：2018-12-14

jieba（結巴）是一個強大的分詞庫，完美支援中文分詞

三種分詞模式

import jieba

s = u'我想和女朋友一起去北京故宮博物院參觀和閒逛。'
cut = jieba.cut(s)

#三種模式
print( '【Output】精確模式：')
print (cut)
print ('/'.join(cut))

print( '【Output】全模式：')
print ('/'.join(jieba.cut(s,cut_all = True)))

print( '【Output】搜尋引擎模式：')
print('/'.join(jieba.cut_for_search(s)))

結果

詞性分析

import jieba
import jieba.posseg as psg

s = u'我想和女朋友一起去北京故宮博物院參觀和閒逛。'
cut = jieba.cut(s)


print ('【Output】')
for x in psg.cut(s):
    if (x.flag.startswith('n')):
        print([x.word,x.flag])

結果

高頻詞統計

由於不給條件會把的吧這種無意義的詞選入所以給了一個限制len（x）>=2

import jieba
import jieba.posseg as psg
from collections import Counter

s = u'我想和女朋友一起去北京故宮博物院參觀和閒逛。'
cut = jieba.cut(s)

santi_text = open('st.txt',encoding='utf-8').read()
santi_words = [x for x in jieba.cut(santi_text) if len(x) >= 2]
jieba.disable_parallel()
c = Counter(santi_words).most_common(20)
print (c)

【python資料處理】jieba分詞

jieba（結巴）是一個強大的分詞庫，完美支援中文分詞三種分詞模式 import jieba s = u'我想和女朋友一起去北京故宮博物院參觀和閒逛。' cut = jieba.cut(s) #三種模式 print( '【Output】精確模式：') prin

【python資料處理】seaborn

簡化了matplotlib 不存在直方圖 Seaborn是一個Python資料視覺化庫，它提供簡單的程式碼，為統計探索和洞察建立優雅的視覺化。Seaborn基於Matplotlib，但在幾個方面改進了Matplotlib： Seaborn提供更具視覺吸引力的繪圖風格和簡潔的

【python資料處理】pandas多表操作

pandas多表操作 1.Inner Merge 合併dataframe pd.merge()將兩張dataframe合成一張除了pandas的方法,each DataFrame都有自己的merge()方法查詢類似於SELECT WHERE res

【python資料處理】Lists

1.Lists [x,x,x,x] 可以使用.append 或者 + 來連線 heights = [61, 70, 67, 64] list 以逗號間隔 ints_and_strings = [1, 2, 3, 'four', 'five']

【python資料處理】pandas行列操作及聚合

1.列操作 apply df.coulumn.function() (df.count.mean()這種) 例子：將Name列全部大寫 from string import upper df['Name'] = df.Name.a

【python資料處理】pandas基礎操作

基礎操作 1.建立表 dataframe 類似於csv 與SQL表方法1 import codecademylib import pandas as pd df1 = pd.DataFrame({ 'Product ID': [1, 2

【python資料處理】numpy

numpy array與 python list很像 1.第一種建立方式可用np.array方法將list轉化成numpy array import numpy as np test_1=np.array([92, 94, 88, 91, 87]) my_list = [

【python資料處理】matplotlib

最近學習python與資料處理時，發現數據總是很生硬，所以我便開始學習python一個強大的庫matplotlib，可以有效將資料轉化為直觀的圖形。 1.一些公共的方法標籤控制 Modify Ticks 調整橫縱座標值注意要修改座標名為sting型別時要先使用plt.su

【Python資料分析】1rd-資料探索與資料預處理

《Python資料分析與挖掘實戰》讀書筆記之資料探索與資料預處理一、資料探索 Python中用於資料探索的庫主要是Pandas（資料分析）和Matplotlib（資料視覺化）資料分析內容資料質量分析缺失值分析異常值分析

【Python-資料讀取】讀取txt檔案每一行資料生成列表

好多時候我們要讀取txt檔案獲得資料，並把資料的按行或者按列存放到列表中，從而生成特徵和類別標籤。今天讀了好幾個都沒有成功，最後發現，資料間的分隔符十分重要，總結一下經驗。資料間的分隔符是空格讀取的程式碼如下所示： file=open('ll.txt') dataM

【NLP學習筆記】中文分詞

分詞通俗的講就是如何將一個句子劃分成詞語，大多數情況下不同的劃分方式會導致不同的語義。分詞方法分類自動分詞主要分為三個流派：規則分詞、統計分詞和混合分詞（規則+統計） 1、規則分詞通過維護一個詞典，在切分語句時，將語句的每個字串與表中的詞進行逐一匹配，找到

【python 走進NLP】英文敏感詞過濾演算法改進版本

中文DFA演算法過濾敏感詞改進版本 # 中文DFA演算法過濾敏感詞改進版本 class Chinese_DFAFilter(): def __init__(self): self.keyword_chains = {} s

【python資料分析】波士頓房價分析小例子

一、匯入模組 %matplotlib inline #將生成的圖片嵌入網頁中 import matplotlib.pyplot as plt from sklearn import datasets from sklearn.feature_sele

【python影象處理】影象的濾波（ImageFilter類詳解）

在影象處理中，經常需要對影象進行平滑、銳化、邊界增強等濾波處理。在使用PIL影象處理庫時，我們通過Image類中的成員函式filter()來呼叫濾波函式對影象進行濾波，而濾波函式則通過ImageFil

【Python資料分析】簡單爬蟲，爬取知乎神回覆

歡迎加入Python學習交流QQ群：535993938 禁止閒聊！名額有限！非喜勿進！看知乎的時候發現了一個 “如何正確地吐槽” 收藏夾，

【python影象處理】影象的縮放、旋轉與翻轉

影象的幾何變換，如縮放、旋轉和翻轉等，在影象處理中扮演著重要的角色，python中的Image類分別提供了這些操作的介面函式，下面進行逐一介紹。 1、影象的縮放影象的縮放使用resize()成員函

自然語言處理2 -- jieba分詞用法及原理

系列文章，請多關注 Tensorflow原始碼解析1 – 核心架構和原始碼結構帶你深入AI（1） - 深度學習模型訓練痛點及解決方法自然語言處理1 – 分詞自然語言處理2 – jieba分詞用法及原理自然語言處理3 – 詞性標註自然語言處理4 – 句法分析自然語言處理5 –

【海量資料處理】尋找最大/小的k個數

/****************************************************** 尋找k個最小的數方法：堆排序 ***************************************************/ #in

【python影象處理】影象的讀取、顯示與儲存

python作為機器學習和影象處理的利器，收到越來越多的推崇，特別是在影象處理領域，越來越多的研究和開發開始轉向使用python語言，下面就介紹python影象處理中最基本的操作，即影象的讀取顯示與儲

【python影象處理】python的影象處理模組Image【原創】

版本資訊：2.7.11 環境：windows 7 64位系統編輯器：PyCharm 執行工具：PyCharm 檔案地址：D:\phpStudy\WWW\python\Image 一、引入影象模組 1. PIL簡介：PIL(Python Imaging Library Py

【python資料處理】jieba分詞

三種分詞模式

結果

詞性分析

結果

高頻詞統計

相關推薦