192. 統計詞頻

阿新 • • 發佈：2019-02-10

寫一個 bash 指令碼以統計一個文字檔案 words.txt 中每個單詞出現的頻率。

為了簡單起見，你可以假設：

words.txt只包括小寫字母和 ' ' 。
每個單詞只由小寫字母組成。
單詞間由一個或多個空格字元分隔。

示例:

假設 words.txt 內容如下：

the day is sunny the the
the sunny is is

你的指令碼應當輸出（以詞頻降序排列）：

the 4
is 3
sunny 2
day 1

說明:

不要擔心詞頻相同的單詞的排序問題，每個單詞出現的頻率都是唯一的。

解析：

1、sort語法複習
sort -n 將字串轉數字
sort -r 指定順序為從大到小
sort -k 2 指定第二個欄位作為排序判斷標準

tr -s ' ' '\n' 是將所有連續的空格空行刪除並保證每一行只有一個字串
sort | uniq -c 通常一起用來統計重複出現的次數。

cat words.txt | tr -s ' ' '\n' | sort | uniq -c | sort -rn | awk '{print $2, $1}'

2、 awk 是逐行檢索文字。分為3的部分。
BEGIN{#這裡進行一些檢索文字前的初始化操作}
{#這裡是對應每一行的操作}。

例如這裡 for(i=1;i<=NF;++i){++m[$i]}就是將每一行分隔的欄位，進行詞頻統計。
NF是分隔的欄位數。
$0表示整行字串
$1到$NF

表示從分隔的第一個字串到最後一個字串
awk中的陣列可以用作hashtable做來詞頻統計。
END{#在檢索文字後的操作}
for(k in m) k表示的就是m的key。

awk -F' ' '{for(i=1;i<=NF;i=i+1){print $i}}' words.txt|sort|uniq -c|sort -nr|awk -F ' ' '{printf("%s %s\n", $2, $1)}'

192. 統計詞頻

寫一個 bash 指令碼以統計一個文字檔案 words.txt 中每個單詞出現的頻率。為了簡單起見，你可以假設： words.txt只包括小寫字母和 ' ' 。每個單詞只由小寫字母組成。單詞間由一個或多個空格字元分隔。示例: 假設 words.txt 內容如

python統計詞頻

讀取程序 lac install 分析文件 __name__ __main__ all pytho 一、程序分析（1）讀取文件到緩沖區 def process_file(dst): # 讀文件到緩沖區 try: # 打開文件 f

字典統計詞頻

import pandas as pd import numpy as np #構造B列為多值，那麼B列是字串，也就是['','','']，這樣可以split。不能寫成[[],[],[]]，這樣是list，list不能split。 temp=pd.DataFrame({'A':[1,2

Python自然語言處理—統計詞頻

一資料的預處理本文所有的例子我都將使用中文文字進行，所以在分析前需要對中文的文字進行一個預處理的過程（暫時只用的分詞，去除停用詞的部分後面介紹） # -*- coding:utf-8 -*- from nltk import FreqDist import jieba import py

現代軟體工程第二次結對程式設計（統計詞頻）總結

作業要求及Github連結作業要求：文字檔案中英語單詞的頻率專案原始碼：統計詞頻合作方式有了第一次結對程式設計的經驗，我們這次有意識的採取了多種合作方式：結對程式設計，我和隊友共用一臺顯示器和電腦完成了最簡單的-c -f標籤的處理和輸入輸出統一。各自獨立程式設計，我和隊友各自獨立

Java正則表示式過濾、替換，將一段文字中的英語單詞分別提取出，並統計詞頻，按詞頻排序。

最近在學習自然語言處理，在建立基礎標籤庫時，遇到一個需要提取語料中的英文單詞的工作，做好了現在來和大家分享下。實現效果：讀取檔案內容，把其中的英文單詞提取出，並統計詞頻。提取時，原本不是連在一起的單詞可以分開獨立提取，例如：我的PPT和WORD,可以提取出PPT，WORD兩個單詞。基本思

統計詞頻

寫一個 bash 指令碼以統計一個文字檔案 words.txt 中每個單詞出現的頻率。為了簡單起見，你可以假設： words.txt只包括小寫字母和 ’ ’ 。每個單詞只由小寫字母組成。單詞間由一個或多個空格字元分隔。示例: 假設 words.txt 內容如下： th

scala 用actor併發統計詞頻

import scala.actors.{Actor, Future}import scala.collection.mutableimport scala.io.Sourcecase class MySend(file: String)case class MyRecieve(msg: Map[String

Trie樹：統計詞頻、排序、查詢

Trie樹利用字串的公共字首降低了查詢時間的開銷，提高了查詢的效率。字典樹的插入，刪除和查詢都非常簡單，用一個一重迴圈即可。 1. 從根節點開始一次搜尋 2. 取得要查詢關鍵詞的第一個字母，並根據該字母選擇對應的子樹並轉到該子樹繼續進行檢索 3. 在相應的子樹上，取得要查

python自然語言處理（一）之中文分詞預處理、統計詞頻

一個小的嘗試。。資料來源資料集一共200條關於手機的中文評論，以XML格式儲存。分詞工具 python-jieba預處理包括去停用詞、去標點符號和數字去停用詞：使用的是他人總結的停用詞表去標點符號和數字：用正則表示式。原本打算的是中文標點符號從網上覆制，英文標點符號用st

語料中篩選出英文單詞並統計詞頻，正則切割匹配

1.正則的使用匹配2.dic.setdefault()的使用3、內建函式enumerate(sequence,start=0)的使用4、內建函式sorted(),key,reversed引數設定5、str.lower()string大小寫轉換#coding:utf-8 im

UVA1167Hardwood Species字典樹統計詞頻

https://uva.onlinejudge.org/index.php?option=com_onlinejudge&Itemid=8&page=show_problem&problem=1167 Hardwoods are the botanical group o

【自然語言處理入門】01：利用jieba對資料集進行分詞，並統計詞頻

一、基本要求使用jieba對垃圾簡訊資料集進行分詞，然後統計其中的單詞出現的個數，找到出現頻次最高的top100個詞。二、完整程式碼 # -*- coding: UTF-8 -*- fr

list 轉換成dictionary，並統計詞頻

counter times 詞頻 ont mil mes 轉換成 new size >>> from collections import Counter>>> Counter([‘apple‘,‘red‘,‘apple‘,‘red‘,‘

python3結巴分詞分行拆分統計詞頻

python3 和 python2 的語法差異應該是最蛋疼的事情了 dict本來就是沒有順序的吧把dict轉換成list 再去排序就會比較好了 #!/usr/bin/env python3 # -*- coding: utf-8 -*- import jieba im

python-二維列表轉換為字典並統計詞頻

在學習過程中經常會遇到列表轉字典的問題，現提供一種方法供參考：目的：將二位列表轉換為一維列表，再將一維列表轉換為字典斌統計詞頻。 from collections import Counter

python讀取檔案裡的單詞，統計詞頻，輸出到檔案

(2017-05-15 優化的程式碼） #!/usr/bin/env python3 #-*- coding:utf-8 -*- ''' 程式用python3執行時，可將當前路徑下的aa.txt檔案

python jieba分詞並統計詞頻後輸出結果到Excel和txt文件

前兩天，班上同學寫論文，需要將很多篇論文題目按照中文的習慣分詞並統計每個詞出現的頻率。讓我幫她實現這個功能，我在網上查了之後發現jieba這個庫還挺不錯的。執行環境：具體程式碼如下： #!/usr/bin/python # -*- coding:utf-8

Java 用hashmap統計詞頻

C:\\Temp\\1\\a.txt 內容：1,a,28 2,b,35 3,c,28 4,d,35 5,e,28 6,a,28 7,b,35 8,c,28 9,a,28 public class FileTest { static File filea

perl 大文本詞頻統計.

pre bst geb don nbsp length $2 詞頻統計 int 思想是設置子文本最大長度,然後分割成多個子文本, 最後合並. 詞頻則是當前位置字和前一位置的字的組合進入hash. 代碼如下 use Encode; ##編碼解碼 system("ti

192. 統計詞頻

相關推薦