字典統計詞頻

阿新 • • 發佈：2018-11-01

import pandas as pd
import numpy as np

#構造B列為多值，那麼B列是字串，也就是['','','']，這樣可以split。不能寫成[[],[],[]]，這樣是list，list不能split。
temp=pd.DataFrame({'A':[1,2,3],'B':['4,2,1','5,3,2','6,4,3']},index=['a','b','c'])
print(temp)
#    A      B
# a  1  4,2,1
# b  2  5,3,2
# c  3  6,4,3


for index, row in temp[['A','B']].iterrows():
    print(index)
    #a
    #b
    #c
    print(row)#下面這些類是series
    # A
    # 1
    # B
    # 4, 2, 1
    # Name: a, dtype: object
    # A
    # 2
    # B
    # 5, 3, 2
    # Name: b, dtype: object
    # A
    # 3
    # B
    # 6, 4, 3
    # Name: c, dtype: object
    print(row['A'])
    # 1
    # 2
    # 3
    print(row['B'])
    # 4, 2, 1
    # 5, 3, 2
    # 6, 4, 3


#統計詞頻
#寫法1：(更簡單？）
from collections import defaultdict
back = defaultdict(lambda :0)
for index, row in temp[['A', 'B']].iterrows():
    word_list=row['B'].split(',')#這一列是以空格分隔的括號裡就空的，以逗號分隔就是','
    for word in word_list:
        # print(back[word])#這種寫法在這裡寫這一句，會列印0，因為上面已設定預設為0
        back[word] = back[word] + 1
        print(back[word])
        # 1
        # 1
        # 1
        # 1
        # 1
        # 2
        # 1
        # 2
        # 2
print(back)
#defaultdict(<function <lambda> at 0x0000015191AFE598>, {'5': 1, '6': 1, '1': 1, '2': 2, '3': 2, '4': 2})


#寫法2：
back = {}
for index, row in temp[['A', 'B']].iterrows():
    word_list=row['B'].split(',')
    for word in word_list:
        # print(back[word])#會報錯，因為字典統計詞頻需要首先有這個詞
        try:
            back[word]=back[word]+1
        except:
            back[word]=1
        print(back[word])
        # 1
        # 1
        # 1
        # 1
        # 1
        # 2
        # 1
        # 2
        # 2
print(back)
#{'5': 1, '6': 1, '1': 1, '2': 2, '3': 2, '4': 2}

字典統計詞頻

import pandas as pd import numpy as np #構造B列為多值，那麼B列是字串，也就是['','','']，這樣可以split。不能寫成[[],[],[]]，這樣是list，list不能split。 temp=pd.DataFrame({'A':[1,2

UVA1167Hardwood Species字典樹統計詞頻

https://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&page=show_problem&problem=1167 Hardwoods are the botanical group o

python-二維列表轉換為字典並統計詞頻

在學習過程中經常會遇到列表轉字典的問題，現提供一種方法供參考：目的：將二位列表轉換為一維列表，再將一維列表轉換為字典斌統計詞頻。 from collections import Counter

python統計詞頻

讀取程序 lac install 分析文件 __name__ __main__ all pytho 一、程序分析（1）讀取文件到緩沖區 def process_file(dst): # 讀文件到緩沖區 try: # 打開文件 f

Python自然語言處理—統計詞頻

一資料的預處理本文所有的例子我都將使用中文文字進行，所以在分析前需要對中文的文字進行一個預處理的過程（暫時只用的分詞，去除停用詞的部分後面介紹） # -*- coding:utf-8 -*- from nltk import FreqDist import jieba import py

現代軟體工程第二次結對程式設計（統計詞頻）總結

作業要求及Github連結作業要求：文字檔案中英語單詞的頻率專案原始碼：統計詞頻合作方式有了第一次結對程式設計的經驗，我們這次有意識的採取了多種合作方式：結對程式設計，我和隊友共用一臺顯示器和電腦完成了最簡單的-c -f標籤的處理和輸入輸出統一。各自獨立程式設計，我和隊友各自獨立

Java正則表示式過濾、替換，將一段文字中的英語單詞分別提取出，並統計詞頻，按詞頻排序。

最近在學習自然語言處理，在建立基礎標籤庫時，遇到一個需要提取語料中的英文單詞的工作，做好了現在來和大家分享下。實現效果：讀取檔案內容，把其中的英文單詞提取出，並統計詞頻。提取時，原本不是連在一起的單詞可以分開獨立提取，例如：我的PPT和WORD,可以提取出PPT，WORD兩個單詞。基本思

統計詞頻

寫一個 bash 指令碼以統計一個文字檔案 words.txt 中每個單詞出現的頻率。為了簡單起見，你可以假設： words.txt只包括小寫字母和 ’ ’ 。每個單詞只由小寫字母組成。單詞間由一個或多個空格字元分隔。示例: 假設 words.txt 內容如下： th

scala 用actor併發統計詞頻

import scala.actors.{Actor, Future}import scala.collection.mutableimport scala.io.Sourcecase class MySend(file: String)case class MyRecieve(msg: Map[String

Trie樹：統計詞頻、排序、查詢

Trie樹利用字串的公共字首降低了查詢時間的開銷，提高了查詢的效率。字典樹的插入，刪除和查詢都非常簡單，用一個一重迴圈即可。 1. 從根節點開始一次搜尋 2. 取得要查詢關鍵詞的第一個字母，並根據該字母選擇對應的子樹並轉到該子樹繼續進行檢索 3. 在相應的子樹上，取得要查

python自然語言處理（一）之中文分詞預處理、統計詞頻

一個小的嘗試。。資料來源資料集一共200條關於手機的中文評論，以XML格式儲存。分詞工具 python-jieba預處理包括去停用詞、去標點符號和數字去停用詞：使用的是他人總結的停用詞表去標點符號和數字：用正則表示式。原本打算的是中文標點符號從網上覆制，英文標點符號用st

語料中篩選出英文單詞並統計詞頻，正則切割匹配

1.正則的使用匹配2.dic.setdefault()的使用3、內建函式enumerate(sequence,start=0)的使用4、內建函式sorted(),key,reversed引數設定5、str.lower()string大小寫轉換#coding:utf-8 im

【自然語言處理入門】01：利用jieba對資料集進行分詞，並統計詞頻

一、基本要求使用jieba對垃圾簡訊資料集進行分詞，然後統計其中的單詞出現的個數，找到出現頻次最高的top100個詞。二、完整程式碼 # -*- coding: UTF-8 -*- fr

list 轉換成dictionary，並統計詞頻

counter times 詞頻 ont mil mes 轉換成 new size >>> from collections import Counter>>> Counter([‘apple‘,‘red‘,‘apple‘,‘red‘,‘

python3結巴分詞分行拆分統計詞頻

python3 和 python2 的語法差異應該是最蛋疼的事情了 dict本來就是沒有順序的吧把dict轉換成list 再去排序就會比較好了 #!/usr/bin/env python3 # -*- coding: utf-8 -*- import jieba im

python讀取檔案裡的單詞，統計詞頻，輸出到檔案

(2017-05-15 優化的程式碼） #!/usr/bin/env python3 #-*- coding:utf-8 -*- ''' 程式用python3執行時，可將當前路徑下的aa.txt檔案

python jieba分詞並統計詞頻後輸出結果到Excel和txt文件

前兩天，班上同學寫論文，需要將很多篇論文題目按照中文的習慣分詞並統計每個詞出現的頻率。讓我幫她實現這個功能，我在網上查了之後發現jieba這個庫還挺不錯的。執行環境：具體程式碼如下： #!/usr/bin/python # -*- coding:utf-8

192. 統計詞頻

寫一個 bash 指令碼以統計一個文字檔案 words.txt 中每個單詞出現的頻率。為了簡單起見，你可以假設： words.txt只包括小寫字母和 ' ' 。每個單詞只由小寫字母組成。單詞間由一個或多個空格字元分隔。示例: 假設 words.txt 內容如

Java 用hashmap統計詞頻

C:\\Temp\\1\\a.txt 內容：1,a,28 2,b,35 3,c,28 4,d,35 5,e,28 6,a,28 7,b,35 8,c,28 9,a,28 public class FileTest { static File filea

python jieba分詞（新增停用詞，使用者字典取詞頻

中文分詞一般使用jieba分詞 1.安裝 1 pip install jieba 2.大致瞭解jieba分詞包括jieba分詞的3種模式全模式 1 import jieba 2 3 seg_list = jieba.cut("我來到北京清華大學", cut_all=True, HMM=False

字典統計詞頻

相關推薦