利用jieba庫對紅樓夢進行分詞統計

阿新 • • 發佈：2020-11-13

import jieba
excludes = {"什麼","一個","我們","那裡","你們","如今","說道","知道","起來","姑娘","這裡","出來","他們","眾人","自己",
            "一面","只見","怎麼","兩個","沒有","不是","不知","這個","聽見","這樣","進來","咱們","告訴","就是",
            "東西","襲人","回來","只是","大家","只得","老爺","丫頭","這些","不敢","出去","所以","不過","的話","不好",
            "姐姐","探春","鴛鴦"," 
一時","不能","過來","心裡","如此","今日","銀子","幾個","答應","二人","還有","只管",
            "這麼","說話","一回","那邊","這話","外頭","打發","自然","今兒","罷了","屋裡","那些","聽說","小丫頭","不用","如何"}

txt = open("E:/下載/紅樓夢.txt","r",encoding='utf-8').read()
words = jieba.lcut(txt) #將紅樓夢的所有語句分成詞彙
counts = {} #建立的一個空的字典
for word in words:
    if len(word) == 1:      # 
如果長度是一，可能是語氣詞之類的，應該刪除掉
        continue
    else:
        counts[word] = counts.get(word,0) + 1
# 如果字典中沒有這個健（名字）則建立，如果有這個健那麼就給他的計數加一 [姓名:數量]，這裡是數量加一
for word in excludes: #如果列出的干擾詞彙在分完詞後的所有詞彙中那麼刪除
    del(counts[word])
items = list(counts.items()) #把儲存[姓名：個數]的字典轉換成列表
items.sort(key=lambda x:x[1],reverse = True) # 
對上述列表進行排序，'True'是降序排列
for i in range(20):
    word,count = items[i]
    print("{0:<10}{1:>5}".format(word,count))

利用jieba庫對紅樓夢進行分詞統計

import jieba excludes = {\"什麼\",\"一個\",\"我們\",\"那裡\",\"你們\",\"如今\",\"說道\",\"知道\",\"起來\",\"姑娘\",\"這裡\",\"出來\",\"他們\",\"眾人\",\"自己\",

jieba庫——紅樓夢名字分詞

1 import jieba 2 txt = open(\"D:\\作業\\python 作業\\jieba分詞\\紅樓夢.txt\",\"r\",encoding = \'ansi\').read()

python 用jieba分詞統計關於紅樓夢的高頻詞

import jieba excludes = {\"什麼\",\"一個\",\"我們\",\"那裡\",\"你們\",\"如今\",\"說道\",\"知道\",\"起來\",\"姑娘\",\"這裡\",\"出來\",\"他們\",\"眾人\",\"自己\",

使用pandas庫對csv檔案進行篩選儲存

這個操作現在看來真沒啥難的，但是我找相關的資料真的找了好久。多數大佬都是直接pandas官網甩我臉上，然後舉一個入門級的例子。

利用OpenCV中對影象資料進行64F和8U轉換的方式

在OpenCV中很多對資料的運算都需要轉換為64F型別，比如伽瑪變換，這個很明顯要求冪的底數是double型別~

【Jpa】動態多表if多條件聯合查詢，並對查詢結果進行分頁

public Page<Map<String, Object>> resourceList(TeachingInfo teachingInfo, Pageable pageable) {

Jpa動態多表if多條件聯合查詢（if中包含list不為null和“=”的判斷），並對查詢結果進行分頁

方法一： public Page<Map<String, Object>> resourceList(TeachingInfo teachingInfo, IPage pageable) {

如何利用Shell指令碼對Ubuntu作業系統進行常規初始化和系統優化及其安全加固(適用於等保2.0)

Ubuntu 20.04 系統初始化安全加固描述: 適用於企業內部 Ubuntu 系列伺服器作業系統初始化、系統安全加固指令碼，內容包含了，網路初始化設定，軟體更新源替換以及核心版本升級 ,時間時區初始化設定系統安全加固(等

對List集合進行分頁

1 簡要說明　　有時候，我們有一個list集合，需要對它進行分頁處理　　下面的根據類MyPageUtilVo就可以做到

HanLP的分詞統計

HanLP的分詞效果鄙人研究了HanLP，他的分詞效果確實還可以，而且速度也比較快，10的資料是9000毫秒

jieba 分詞（紅樓夢相關的分詞，出現次數最高的20個）

import jieba txt=open(\'D:/紅樓夢/紅樓夢.txt\',\"r\",encoding=\'utf-8\').read() excludes = {\"什麼\",\"一個\",\"我們\",\"你們\",\"如今\",\"說道\",\"知道\",\"姑娘\",\\

Python利用XGBoost庫，對資料進行分類預測

from sklearn.datasets import load_iris import xgboost as xgb import pandas as pd from xgboost import plot_importance

jieba分詞-紅樓夢

import jiebaexcludes = {\"什麼\",\"一個\",\"我們\",\"那裡\",\"你們\",\"如今\",\"說道\",\"知道\",\"起來\",\"姑娘\",\"這裡\",\"出來\",\"他們\",\"眾人\",\"自己\",\"一面\",\"只見\",\"怎麼\",\"兩個\",\"沒

紅樓夢jieba分詞

import jieba with open (\"D:\\紅樓夢.txt\",encoding=\"ANSI\") as file: f = file.read() del_list ={\"什麼\",\"一個\",\"我們\",\"那裡\",\"如今\",\"你們\",\"說道\",\"起來\",\"姑娘\",\"這裡\",\"出來\",\