沒有物件也要談戀愛之女朋友的情緒監控之分詞

阿新 • • 發佈：2018-12-16

?? 通過女朋友的一句話分析她的心情。

Analyze her mood through her girlfriend's words .

通過一句話分析女朋友的情緒變化，最重要的就是對這句話先進行詞法分析，將話中的每一個關鍵詞分離開來，然後分析關鍵詞。

關鍵詞我們可以以情緒值來進行估算最終情緒，然後總體一個基址，每次都在此上加減。

第一章分詞

1、JieBa庫

“結巴”中文分詞：做最好的 Python 中文分片語件

"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.

2、特點

支援三種分詞模式：
- 精確模式，試圖將句子最精確地切開，適合文字分析；
- 全模式，把句子中所有的可以成詞的詞語都掃描出來, 速度非常快，但是不能解決歧義；
- 搜尋引擎模式，在精確模式的基礎上，對長詞再次切分，提高召回率，適合用於搜尋引擎分詞。
支援繁體分詞
支援自定義詞典
MIT 授權協議

3、演算法

基於字首詞典實現高效的詞圖掃描，生成句子中漢字所有可能成詞情況所構成的有向無環圖 (DAG)
採用了動態規劃查詢最大概率路徑, 找出基於詞頻的最大切分組合
對於未登入詞，採用了基於漢字成詞能力的 HMM 模型，使用了 Viterbi 演算法

4、主要功能

1) 分詞

jieba.cut

方法接受三個輸入引數: 需要分詞的字串；cut_all 引數用來控制是否採用全模式；HMM 引數用來控制是否使用 HMM 模型
jieba.cut_for_search 方法接受兩個引數：需要分詞的字串；是否使用 HMM 模型。該方法適合用於搜尋引擎構建倒排索引的分詞，粒度比較細
待分詞的字串可以是 unicode 或 UTF-8 字串、GBK 字串。注意：不建議直接輸入 GBK 字串，可能無法預料地錯誤解碼成 UTF-8
jieba.cut 以及 jieba.cut_for_search 返回的結構都是一個可迭代的 generator，可以使用 for 迴圈來獲得分詞後得到的每一個詞語(unicode)，或者用

jieba.lcut 以及 jieba.lcut_for_search 直接返回 list
jieba.Tokenizer(dictionary=DEFAULT_DICT) 新建自定義分詞器，可用於同時使用不同詞典。jieba.dt 為預設分詞器，所有全域性分詞相關函式都是該分詞器的對映。

seg_list = jieba.cut("我要有女朋友了", cut_all=True)
print("全模式: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我要有女朋友了", cut_all=False)
print("預設模式: " + "/ ".join(seg_list))  # 預設模式

seg_list = jieba.cut("我要有女朋友了")
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("我要有女朋友了，然後我要打爆室友的狗頭")  # 搜尋引擎模式
print("搜尋引擎模式: "+", ".join(seg_list))

output :

全模式: 我/ 要/ 有/ 女朋友/ 朋友/ 了
預設模式: 我要/ 有/ 女朋友/ 了
我要, 有, 女朋友, 了
搜尋引擎模式: 我要, 有, 朋友, 女朋友, 了, ，, 然後, 我要, 打爆, 室友, 的, 狗頭

2) 新增自定義詞典

載入詞典

開發者可以指定自己自定義的詞典，以便包含 jieba 詞庫裡沒有的詞。雖然 jieba 有新詞識別能力，但是自行新增新詞可以保證更高的正確率
用法： jieba.load_userdict(file_name) # file_name 為檔案類物件或自定義詞典的路徑
詞典格式和 dict.txt 一樣，一個詞佔一行；每一行分三部分：詞語、詞頻（可省略）、詞性（可省略），用空格隔開，順序不可顛倒。file_name 若為路徑或二進位制方式開啟的檔案，則檔案必須為 UTF-8 編碼。
詞頻省略時使用自動計算的能保證分出該詞的詞頻。

print('/'.join(jieba.cut('這個東梨會不會被分開呢。', HMM=False)))
# 新增字典
print(jieba.suggest_freq(('東梨'), True)) # 新增一個詞語'東梨'
print('/'.join(jieba.cut('這個東梨會不會被分開呢。', HMM=False)))

output :

這個/東/梨/會/不會/被/分開/呢/。
這個/東梨/會/不會/被/分開/呢/。

調整詞典

使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程式中動態修改詞典。
使用 suggest_freq(segment, tune=True) 可調節單個詞語的詞頻，使其能（或不能）被分出來。
注意：自動計算的詞頻在使用 HMM 新詞發現功能時可能無效。

3) 關鍵詞提取

基於 TF-IDF 演算法的關鍵詞抽取

import jieba.analyse

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
- sentence 為待提取的文字
- topK 為返回幾個 TF/IDF 權重最大的關鍵詞，預設值為 20
- withWeight 為是否一併返回關鍵詞權重值，預設值為 False
- allowPOS 僅包括指定詞性的詞，預設值為空，即不篩選
jieba.analyse.TFIDF(idf_path=None) 新建 TFIDF 例項，idf_path 為 IDF 頻率檔案

s = "作業系統（Operation System，簡稱OS）是管理計算機硬體與軟體資源的程式，是計算機系統的核心與基石；作業系統本質上是執行在計算機上的軟體程式 ；為使用者提供一個與系統互動的操作介面 ；作業系統分核心與外殼（我們可以把外殼理解成圍繞著核心的應用程式，而核心就是能操作硬體的程式）。"
for x, w in jieba.analyse.extract_tags(s, withWeight=True):
    print('%s %s' % (x, w))

print('-'*40)
print(' TextRank')
print('-'*40)

for x, w in jieba.analyse.textrank(s, withWeight=True):
    print('%s %s' % (x, w))

output :

核心 1.0625279118105262
作業系統 0.7315222629276317
外殼 0.4645002019336842
軟體程式 0.36580730663157895
軟體資源 0.34756659135263157
程式 0.3333060550794737
操作介面 0.32345367735526315
Operation 0.31459914481315787
System 0.31459914481315787
OS 0.31459914481315787
計算機硬體 0.2800679240526316
應用程式 0.2763021123763158
計算機系統 0.23982068182078944
互動 0.23731251919447366
基石 0.23595272944342105
硬體 0.22168984473789474
本質 0.18271527055526315
使用者 0.1795351598005263
計算機 0.1790732744968421
圍繞 0.177282393885
----------------------------------------
 TextRank
----------------------------------------
核心 1.0
程式 0.5362199524590612
系統 0.48948949335129555
提供 0.48602227553244165
圍繞 0.4446670737747918
執行 0.4225011310851474
管理 0.4151898395341863
基石 0.4131936048253403
計算機系統 0.38302557644090945
硬體 0.36775003601316436
操作 0.36615155530109056
本質 0.3554627436547271
計算機硬體 0.3491604047032015
理解 0.3433887505596043
外殼 0.3419635842574655
應用程式 0.33616306371021853
使用者 0.33122514947879544
互動 0.3287196036788538
計算機 0.23122054865622482
簡稱 0.22777433887730136

4) 詞性標註

jieba.posseg.POSTokenizer(tokenizer=None) 新建自定義分詞器，tokenizer 引數可指定內部使用的 jieba.Tokenizer 分詞器。jieba.posseg.dt 為預設詞性標註分詞器。
標註句子分詞後每個詞的詞性，採用和 ictclas 相容的標記法。
用法示例

words = jieba.posseg.cut("我愛北京天安門")
for word, flag in words:
    print('%s %s' % (word, flag))
print('='*40)

output :

我 r
愛 v
北京 ns
天安門 ns

5) 並行分詞

原理：將目標文字按行分隔後，把各行文字分配到多個 Python 程序並行分詞，然後歸併結果，從而獲得分詞速度的可觀提升
基於 python 自帶的 multiprocessing 模組，目前暫不支援 Windows
用法：
- jieba.enable_parallel(4) # 開啟並行分詞模式，引數為並行程序數
- jieba.disable_parallel() # 關閉並行分詞模式

6) Tokenize：返回詞語在原文的起止位置

注意，輸入引數只接受 unicode
預設模式

print(' 預設模式')
print('-'*40)
result = jieba.tokenize('永和服裝飾品有限公司')
for tk in result:
    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))

print('-'*40)
print(' 搜尋模式')
print('-'*40)

result = jieba.tokenize('永和服裝飾品有限公司', mode='search')
for tk in result:
    print("word %s\t\t start: %d \t\t end:%d" % (tk[0],tk[1],tk[2]))

output :

word 永和      start: 0        end:2
word 服裝      start: 2        end:4
word 飾品      start: 4        end:6
word 有限公司        start: 6        end:10
----------------------------------------
 搜尋模式
----------------------------------------
word 永和      start: 0        end:2
word 服裝      start: 2        end:4
word 飾品      start: 4        end:6
word 有限      start: 6        end:8
word 公司      start: 8        end:10
word 有限公司        start: 6        end:10

5、一個完整的分詞可執行例項

目錄結構

jieba是我們要匯入的第三方庫，在專案中我直接把它放在了裡面。

│  run.py
│
└─jieba
    │  dict.txt
    │  _compat.py
    │  __init__.py
    │  __main__.py
    │
    ├─analyse
    │  │  analyzer.py
    │  │  idf.txt
    │  │  textrank.py
    │  │  tfidf.py
    │  │  __init__.py
    │  │
    │  └─__pycache__
    │          analyzer.cpython-37.pyc
    │          textrank.cpython-37.pyc
    │          tfidf.cpython-37.pyc
    │          __init__.cpython-37.pyc
    │
    ├─finalseg
    │  │  prob_emit.p
    │  │  prob_emit.py
    │  │  prob_start.p
    │  │  prob_start.py
    │  │  prob_trans.p
    │  │  prob_trans.py
    │  │  __init__.py
    │  │
    │  └─__pycache__
    │          prob_emit.cpython-37.pyc
    │          prob_start.cpython-37.pyc
    │          prob_trans.cpython-37.pyc
    │          __init__.cpython-37.pyc
    │
    ├─posseg
    │  │  char_state_tab.p
    │  │  char_state_tab.py
    │  │  prob_emit.p
    │  │  prob_emit.py
    │  │  prob_start.p
    │  │  prob_start.py
    │  │  prob_trans.p
    │  │  prob_trans.py
    │  │  viterbi.py
    │  │  __init__.py
    │  │
    │  └─__pycache__
    │          char_state_tab.cpython-37.pyc
    │          prob_emit.cpython-37.pyc
    │          prob_start.cpython-37.pyc
    │          prob_trans.cpython-37.pyc
    │          viterbi.cpython-37.pyc
    │          __init__.cpython-37.pyc
    │
    └─__pycache__
            _compat.cpython-37.pyc
            __init__.cpython-37.pyc

run.py中編寫程式碼，並且呼叫jieba庫實現分詞。

run.py

#encoding=utf-8
from __future__ import unicode_literals
import jieba

if __name__=="__main__":
    ch = input()
    seg_list = jieba.cut(str(ch))
    print(", ".join(seg_list))

在此處輸入"我馬上就要有女朋友了"。

即可得到輸出結果如下。

我, 馬上, 就要, 有, 女朋友, 了

6、程式碼地址

Github : [https://github.com/CasterWx/python-girlfriend-mood](https://github.com/CasterWx/python-girlfriend-mood)

沒有物件也要談戀愛之女朋友的情緒監控之分詞

?? 通過女朋友的一句話分析她的心情。 Analyze her mood through her girlfriend's words . 通過一句話分析女朋友的情緒變化，最重要的就是對這句話先進行詞法分析，將話中的每一個關鍵詞分離開來，然後分析關鍵詞。關鍵詞我們可以以情緒值來進行估算最終情緒，然後總

沒有物件也沒有new方法的大白

快速排序核心思想: 快速排序就是立一個數作為基準數,比他小的統統放左邊,比他大的統統放在他的右邊,接著通過遞迴,對它的左邊序列,右邊序列重複此過程,直到無數可分複雜度分析最好情況:O(nl

2 Elasticsearch 篇之倒排索引與分詞

文章目錄書的目錄與索引正排與倒排索引簡介倒排索引詳解分詞介紹 analyze_api 自帶分詞器 Standard Analyzer Simple Analyzer W

當遊戲直播也要授權的背後：利益之爭讓各路人馬殺紅眼

遊戲直播都知道當下直播行業有多火爆，也衍生出一條龐大的產業鏈。不過真正深入直播領域觀察可以發現，其中堅力量是遊戲直播，而不是看似內容千變萬化的娛樂直播。其實只要從遊戲直播和娛樂直播的觀看人數、主播收入等就可見一斑，遊戲直播在多個方面都遙遙領先。火爆的遊戲直播，也讓其成為各路人馬圍繞利益展開的角鬥場。

FPGA設計中遇到的奇葩問題之“芯片也要看出身”（一）

程序人生摘要：昨夜西風雕碧樹。獨上高樓，望盡天涯路 2000年的時候，做設計基本都是使用Xilinx公司的Virtex和Virtex-E系列芯片。那時候Altera技術實力還比較弱，基於Altera的芯片做設計是要被大家diss的。昨夜西風雕碧樹。獨上高樓，望盡天涯路2000年的時候，做設計基本都是使用Xi

前端也要學系列：設計模式之策略模式

語句做的一個 code IE 說我目的 ret 曾經做前端開發已經好幾年了，對設計模式一直沒有深入學習總結過。隨著架構相關的工作越來越多，越來越能感覺到設計模式成為了我前進道路上的一個阻礙。所以從今天開始深入學習和總結經典的設計模式以及面向對象的幾大原則。今天

治癒系笑話---擼碼之餘也要胖胖的

風和日麗的一天，老媽在稱體重，發現老爸在竊笑。老媽生氣氣，責問道：“是不是嫌棄我胖？！” 老爸意識到情況不對，立刻收起笑容，正色道：“按你的體重而言，身高應該一米九有餘。所以你並不是胖，只是不夠高……” 背景：體育課小雨綿綿，開課前20分鐘出現一位精神值得我們學習的道

趣談網路協議---雲中網路的隔離GRE、VXLAN：雖然住一個小區，也要保護隱私

VLAN 只有 12 位，共 4096 個，對於雲平臺的隔離問題，不夠用。所以，要擴充套件 VLAN 協議，在原來的包的格式的基礎上擴展出一個頭，裡面包含用於區分租戶的 ID，外層的包的和格式儘量和傳統一樣，很像隧道協議。底層的物理網路裝置組成的網路為 Un

即便沒有讀者，你也要寫部落格

導讀：正好昨天在微博又推薦了一條黃博文《敏捷地寫部落格》文章的評論，然後又在Hacker News上看到了 Nathan Marz 的這篇英文博文，真趕巧。後來才想起來，我們以前編譯的博文《開發者拒絕寫技術部落格的常見理由》中已經有過類似忠告：“就算你覺得沒人會看你

為什麼要和成熟的男人談戀愛

知乎提問：和成熟的男人談戀愛是啥感覺？昨天跟先生出去看電影，車裡剛好在放一首非常傷感的歌，然後我就不爭氣的想到初戀男友了，發了會兒呆。他就捕捉到了。晚上回來，他有點不高興。我問他怎麼了。他這樣跟我說：雖然我知道女人總是記住那些傷害過他的男人，那些刻骨銘心不過是因為他

jQuery新版本沒有了Toggle事件，兩個按鈕分別控制隱藏顯示，同事這兩個按鈕點選也要互斥。

十二月沒來得及整理髮布，一直在草稿箱。現在已經2019年1月了。。。需求大概是這樣的 //XX點選事件 var flagBar = 0; $("#doNotBaseRate").click(function () { if (flagBar == 0) { $("#De

jQuery新版本沒有了Toggle事件，兩個按鈕分別控制隱藏顯示，同事這兩個按鈕點擊也要互斥。

hide fun 點擊 flag 新版本 nbsp 同事 query 控制十二月沒來得及整理發布，一直在草稿箱。現在已經2019年1月了。。。需求大概是這樣的 //XX點擊事件 var flagBar = 0; $("#doNotB

Spring之條件註解@Conditional，條件（系統）不同注入的物件也不同。

條件註解，可以根據不同的條件來做出不同的事情。在Spring中條件註解可以說是設計模式中狀態模式的一種體現方式，同時也是面向物件程式設計中多型的應用部分。在Spring框架中，當我們使用條件註解時，我們會為每種獨立的條件建立一個類，根據這個類對應的條件的成立

C++之寫了placement new也要寫placement delete(52）---《Effective C++》

條款52：寫了placement new也要寫palcement delete 問題： Widget* pw=new Widget; 這條語句的執行導致兩個函式被使用：一個是用以分配記憶體的operator new，另一個是Widget的default

即使沒有翅膀，心也要飛翔！

/*本文參考部落格：http://xxxx.sina.com.cn/s/blog_49633a46010008r3.html */ 指稱語義:把語言成分對映為數學物件，然後用定義在物件上的運算所表達出的語言的語義。指稱語義方法定義語言的語義基本思想是：先確定指稱物，然

李愬雪夜襲蔡州：挽救唐朝國祚的關鍵之戰（先示弱於敵軍，對降將攻心為上、以誠待人，然後逐步收集情報，最後出奇兵奇襲。但出奇兵也要有預案，否則會被兩面夾擊。做一件事情真不容易）

嚴重答案發現指揮主力否則持久感恩十月元和十年（815年）六月宰相武元衡遇刺後，唐憲宗任命裴度為宰相，讓他繼續挑起平定淮西的重擔。裴度對憲宗說：“淮西是朝廷的心腹之疾，不能不除；而且朝廷既已出兵，兩河藩鎮都在密切關註事態的發展，以決定他們的

9. 【對於所有物件都通用的方法】重寫equals方法時一定也要重寫hashCode方法

本文是《Effective Java》讀書筆記第9條，其中內容可能會結合實際應用情況或參考其他資料進行補充或調整。在每個覆蓋了equals方法的類中，一定也要覆蓋hasCode方法。否則會導致該類無法結合所有基於雜湊的集合（比如HashMap、HashS

《Effective C++》讀書筆記之item52：寫了placement new也要寫placement delete

1.當在類中聲明瞭一個placement new（一個特定位置上的new），它接受了除std::size_t外的其他變數作為引數，則必須同樣宣告一個placement delete並且其引數與placement new相同以取得對應關係，這樣當記憶體分配失敗時C++編譯器將

數據分析報告的框架——既要懂分析，也要會講故事

數據分析數據分析項目到收尾關頭，總要出一份數據報告。按照項目類型，可能是產品投放市場的效果評估；日常報表數據匯總；活動數據分析。而報告也分多種情況，有的需要給項目組一個交代，有的需要和業務組一同評估分析，有的則是郵件抄送領導向上級匯報。數據報告無論是文本、PPT還是數據圖表，都得展示分析的核心思路和結果，本質

自媒體運營：逃離耍猴式營銷陷阱，粉絲也要“路轉粉”

自媒體很多人認為自己的產品有很多粉絲，總是自高自大地以為只要自己舉起了“屠龍寶刀”，就可以號令武林莫敢不從。其實真實的情況是，除了你自己，沒有人在乎你的產品。哪怕你有數以千萬計的粉絲。其實絕大多數只是來關註了一下，但算不上真正的擁護者。你在馬路邊上耍個猴，也會有一圈一圈的人圍觀的。文/張書樂（人民網、人民郵電

沒有物件也要談戀愛之女朋友的情緒監控 之 分詞

第一章 分詞

1、JieBa庫

2、特點

3、演算法

4、主要功能

1) 分詞

2) 新增自定義詞典

3) 關鍵詞提取

4) 詞性標註

5) 並行分詞

6) Tokenize：返回詞語在原文的起止位置

5、一個完整的分詞可執行例項

6、程式碼地址

相關推薦

沒有物件也要談戀愛之女朋友的情緒監控之分詞

第一章分詞