新聞分類（包含：畫詞雲圖、停用詞使用等）

阿新 • • 發佈：2020-08-23

import pandas as pd
data = pd.read_table('val.txt',names=['category','theme','URL','content'])
#讀取資料，轉成DataFrame格式。因為前期資料已經是處理好的，所以可以這樣寫。這裡的read_table和read_csv可以互換的，一個意思。

data.dropna(inplace=True)  #丟掉有空資料的行
print(data.shape)  #發現沒有空的資料。。。
data_content = data['content'].tolist()  #把content一列變成list，等下用jieba分詞器拆解每一行 

import jieba
data_content_list = []   #這一個list中套list，也就是二維陣列
for i in data_content:
    jieba_content = jieba.lcut(i)
    if len(jieba_content)>1 and jieba_content!='\r\n':   #排除空行之類的資料
        data_content_list.append( jieba_content )
data_content_df = pd.DataFrame({'data_content_list':data_content_list})

import pandas as pd
stopwords_data = pd.read_table("stopwords.txt",sep="\t",quoting=3,names=['stopword'],encoding='utf-8')
#缺少 quoting=3報錯
stopwords_data_list = stopwords_data['stopword'].tolist()
stopwords_list_letter = []
for i in range(ord('ａ'),ord('ｚ')):
    stopwords_list_letter.append(chr(i))
 
for i in range(ord('Ａ'),ord('Ｚ')):
    stopwords_list_letter.append(chr(i))
#原資料中包含這些英文字母，但是這不是簡單的英文字母，ascii碼值沒有在0-127之內
stopwords_data_list = stopwords_list_letter+stopwords_data_list  #重新組成新的停用詞list
data_content_and_stopwords_list = []  #去停用詞之後的content，最終結果也是一個list中套list
all_content_and_stopwords_list = []
#data_content_list 是需要去停用詞的list，是一個list中套list
for i in data_content_list:
    line_content = []
    for j in i:
        if j not in stopwords_data_list:
            line_content.append(j)
            all_content_and_stopwords_list.append(j)  #all_content_and_stopwords_list 內容是所有詞，做詞頻用
    data_content_and_stopwords_list.append(line_content)   #這是去停用詞之後的結果

#統計詞頻，轉為字典
data_temporary_all_content_and_stopwords_df = pd.DataFrame({'content':all_content_and_stopwords_list})
counts = data_temporary_all_content_and_stopwords_df['content'].value_counts()
df_counts = pd.DataFrame({'counts':counts})
dic = dict(zip(df_counts.index.tolist(),df_counts['counts'].tolist()))
print(dic)
#統計詞頻，轉為字典
#上邊寫這麼多很麻煩，可以直接用collection直接實現
# from collections import Counter
# dic = Counter(all_content_and_stopwords_list)
#如果想把dic轉成字典
#df = pd.DataFrame(dic.items(), columns=['key', 'value'])

畫詞雲圖：

from wordcloud import WordCloud
import matplotlib.pyplot as plt

wordcloud=WordCloud(font_path="./data/simhei.ttf",background_color="white",max_font_size=80)
wordcloud=wordcloud.fit_words(frequencies=dic)
#frequencies引數是接收的資料
plt.imshow(wordcloud)
#plt.axis('off')  #去掉橫縱座標
plt.show()

新聞分類（包含：畫詞雲圖、停用詞使用等）

import pandas as pd data = pd.read_table(\'val.txt\',names=[\'category\',\'theme\',\'URL\',\'content\'])

華為小藝輸入法 1.0.7.300 版本開啟內測：新增華為賬號登入，增加同步詞庫、備份設定選項等

11 月 7 日訊息，感謝網友 @肖戰割割的線索投遞，華為小藝輸入法在今日開啟了 1.0.7.300 版本國內眾測升級。本次眾測的時間為 2021 年 11 月 7 日至 2021 年 11 月 21 日，小藝輸入法 1.0.7.300 版本的大小為 43.9M

SpringBoot - 實現靜態資源的訪問（附：修改過濾規則、靜態資源位置）

一、預設靜態資源訪問策略（1）當我們使用IntelliJ IDEA建立Spring Boot專案，會預設建立classpath:/static/目錄，我們直接把靜態資源放在這個目錄下即可。

數位dp（ tzoj6061：Bomb-求49個數；tzoj1427: 不要62）

6061：http://www.tzcoder.cn/acmhome/problemdetail.do?method=showdetail&id=6061 dfs記憶化搜尋

tomcat的maxThreads、acceptCount（最大執行緒數、最大排隊數）

https://www.cnblogs.com/baibaluo/archive/2011/08/23/2150305.html tomcat 6的Connector配置如下 <Connector port=\"8080\" protocol=\"HTTP/1.1\"connectionTimeout=\"20000\"redirectPort=\"8443\"maxThre

MySQL模糊查詢用法（正則、萬用字元、內建函式等）

轉載: https://blog.csdn.net/qq_39390545/article/details/106414765 一、MySQL萬用字元模糊查詢(%,_)

【轉】CSS_控制 video 標籤的控制欄元件（隱藏、顯示進度條、播放按鈕、全屏按鈕等）

// 當 video 標籤新增上 controls 屬性時，頁面上會顯示出所有的控制組件。若有些元件不需要只需要在css中設定相關屬性把它隱藏掉即可。

C# 在 WinForm程式中開啟命令列（附：Visual Studio 命令列不顯示解決辦法）

1 using System; 2 using System.Collections.Generic; 3 using System.Linq; 4 using System.Threading.Tasks;

（三）Perl_列表與陣列（元素訪問、特殊索引$#、qw簡寫、列表賦值等）

技術標籤：Perl學習文章目錄一、陣列與列表介紹二、陣列中元素的訪問——下標數字三、陣列特殊索引——$#陣列名、負數索引四、列表操作——字元$"、qw簡寫、範圍操作..五、列表賦值——一一對應

用Javascript實現點選input輸入框後輸入框的提示文字消失,並且邊框顏色發生變化（包含input框的password型別如何顯示提示文字）

技術標籤：JScsshtmljavascript 用Javascript實現點選input輸入框後輸入框的提示文字消失。並且邊框顏色發生變化（包含input框的password型別如何顯示提示文字）

外媒：臺積電、聯華電子等晶片代工商傾向於優先考慮長期客戶訂單

2 月 1 日訊息，據國外媒體報道，晶片代工商產能緊張的訊息在去年下半年就已開始出現，最初是 8 英寸晶圓代工廠產能緊張，隨後延伸到了 12 英寸晶圓。DB HiTek、聯華電子等多家晶片代工商，已提高了晶片代工價格。有

愚人節小米移動推出 K、W、X 手機 SIM 卡：一觸啟用、隨用隨付、虛擬形象加持

4月1日訊息你的第二卡槽是否虛位以待？你是否苦苦等待許久，都找不到心儀的卡？小米移動官方表示，為了解決你的煩惱我們絞盡腦汁 ,終於在今天呈現我們的黑科技大招！手機 SIM 卡支援一觸啟用、隨用隨付、虛擬形象加持

最高法：積極參與反壟斷法、電子商務法等法律修訂工作，引導網際網路健康發展

5 月 31 日訊息最高人民法院今日下午召開新聞釋出會。據中證網，最高法下一步將積極參與反壟斷法、電子商務法等法律的修訂工作，認真研究起草有關反壟斷、反不正當競爭的司法解釋。

訊息稱蘋果 WWDC21 釋出的 iOS 15 將對 iMessage 進行大升級：新增自動回覆、勿擾模式等

6 月 4 日訊息據外媒 MacRumors 報道，從種種跡象來看，在即將舉行的 WWDC 21 開發者大會上，蘋果可能將著重介紹 iMessage 應用，伴隨著此次 iOS、iPadOS 等系統大更新，蘋果的這款即時通訊應用 --iMessage 也將會

華為本月多款待發布新品曝光：兒童智慧屏、新款 Sound X 等

7 月 13 日訊息近日有大量爆料者稱華為 P50 系列將於 7 月 29 日釋出，屆時還將推出其他多款新品。

MySQL模糊查詢用法大全（正則、萬用字元、內建函式等）

一、MySQL萬用字元模糊查詢(%,_)1-1. 萬用字元的分類\"%\" 百分號萬用字元: 表示任何字元出現任意次數 (可以是0次)。\"_\" 下劃線萬用字元:表示只能匹配單個字元,不能多也不能少,就是一個字元。當然，也可以like \"

連續包月 79 元，華為正式推出 Petal One 超值會員：200GB 雲空間、視訊/音樂 VIP 等服務

7 月 31 日訊息7 月 29 日，在華為釋出了 P50 系列旗艦新品，在釋出會上，華為還正式推出 Petal One。Petal One 是集合了華為雲空間、視訊和音樂等服務的超值會員組合。獲悉，華為會員中心 App 已開放 Petal One 預

蘋果宣佈對兒童安全的全新保護措施：iMessage 簡訊警報、iCloud 照片掃描等，iOS 15 正式版後全面上線

北京時間 8 月 6 日早間訊息，蘋果公司週四表示，該公司將向執法部門報告上傳到其美國 iCloud 服務上的兒童性虐待圖片。

正式確定：廣州乘公交、地鐵用乘車碼將可享票價優惠

8 月 12 日訊息據廣州市交通運輸局官網，昨日，廣州市交通運輸局印發了關於《廣州市公共交通票價優惠管理辦法》（以下簡稱《通知》）的通知。

小新 Pad Pro OTA6 正式開啟推送：支援平行視窗、息屏顯示等

8 月 27 日訊息今日，聯想小新官方表示，小新 Pad Pro OTA6 正式開啟推送。在 ZUI 版本 12.6.133 中，小新 Pad Pro 新增平行視窗、息屏顯示功能，以及面部解鎖後留在鎖屏的設定開關。

新聞分類（包含：畫詞雲圖、停用詞使用等）

相關推薦