R語言：詞雲圖

阿新 • • 發佈：2019-02-04

這是當時在琢磨文字挖掘時的小技術，貼出來共享一下

library(Rwordseg) #分詞的包

#匯入資料
data = read.csv("C:\\Users\\hormy\\Documents\\諮詢資料.csv",stringsAsFactors=F)

#去除數字,英文字元
data$內容 = gsub("[a-z0-9A-Z_]","",data$內容)

#分詞,Rwordseg包,手動加入分詞表在工作路徑的檔案
words = segmentCN(data$內容)

#生成停詞表stopwordsCN.txt，讀入,確保是utf-8編碼
stopwordsCN = as.character(readLines("stopwordsCN.txt"))
stopwordsCN = enc2utf8(stopwordsCN)
stopwordsCN<-stopwordsCN[Encoding(stopwordsCN)!="unknown"]

#編寫去停詞函式
removeStopWords <- function(x,stopwords) {
  temp <- character(0)
  index <- 1
  xLen <- length(x)
  while (index <= xLen) {
    if (length(stopwords[stopwords==x[index]]) <1)
      temp<- c(temp,x[index])
    index <- index +1
  }
  temp
}

#去停詞
words = lapply(words,removeStopWords,stopwordsCN)

#畫詞雲圖
library(wordcloud)
#計算詞頻
wordsnum = table(unlist(words))
wordsnum = sort(wordsnum)  #排序
#選出詞頻最高的250個
wordsnum = tail(wordsnum,250)
#畫詞雲圖
wordcloud(names(wordsnum), as.vector(wordsnum),random.order=FALSE,

          random.color=FALSE,colors=brewer.pal(8,"Dark2"),family="myFont3")

R語言：詞雲圖

這是當時在琢磨文字挖掘時的小技術，貼出來共享一下 library(Rwordseg) #分詞的包 #匯入資料 data = read.csv("C:\\Users\\hormy\\Documents\\諮詢資料.csv",stringsAsFactors=F) #去除

R語言：時間的轉化

origin 從數據需要 code mat 時間 for 忘記 clas 一般使用R從數據庫導出來的時間數據一般都不是我們能看的懂的（具體是什麽格式的我也忘記了），需要做如下轉化 1 as.Date(time,origin = ‘1970-01-01‘) 最近從網上爬

R語言：as.Date出現NA值

日期格式 -1 技術分享 log 解決辦法 .com 大寫出現 data > head(as.Date(data$日期,‘%y%M%D‘))[1] NA NA NA NA NA NA data日期格式如下：解決辦法： > head(as.Date(da

R語言：隨機抽樣（sample函數）

.cn png 函數 -1 數據集 img image 如果一個數如果想從一堆數據集中隨機抽出一個數，用sample函數就能實現，代碼展示如下： forehead<-c(249,189,128,111,184,233,313,120,151,196,135,

R語言：提取路徑中的文件名字符串（basename函數）

lena art star filename div base none gpo highlight 假設存在路徑C:/coverage/Homo_sapiens.sort.add_exon1_coverage.txt，欲提取Homo_sapiens.sort.add_ex

R語言：常用統計一些方法代碼

1.5 憑據 alter con blank () 紐約理論 nbsp 理論漫衍依賴於若幹未知參數時Kolmogorov-Smirnov 檢討ks.test()例一對一臺設備舉辦壽命檢討，記錄十次無妨礙操縱時間，並按從小到大的序次分列如下，用ks檢討要領檢討此設備無妨礙

R語言：畫樹圖

原始資料長這樣： “iyear”表示年份；“nkill”表示死亡人數；“region”表示地區；“總計”表示某年份死亡總人數；nkii裡的缺失資料自動按“0”運算。資料儲存在名為“ljs”的csv格式裡。應提前下載好treemap包，先介紹treemap函式

R語言：因子與字串的互轉

在匯入大批量資料時，如果沒有顯式地指定“stringsAsFactors = FALSE”，預設會將所有的字串轉換為因子，導致資料處理速度較慢。示例資料如下： name,math,english,sex,year "yiifaa",65,68,"M",

R語言進行詞雲統計分析

R語言進行詞雲統計分析本文章從爬蟲、詞頻統計、視覺化三個方面講述了R語言的具體應用，歡迎大家共同談論學習 1、使用 rvest 進行資料的爬取 #如果沒有，先安裝rvest包 install.packages("rvest") library(rvest) url <- "http://www.

R語言：缺失值的處理

一.什麼是缺失值，NA與NULL的區別（1）NA表示資料集中的該資料遺失、不存在。在針對具有NA的資料集進行函式操作的時候，該NA不會被直接剔除。如x<-c(1,2,3,NA,4)，取mean(x)，則結果為NA，如果想去除NA的影響，需要顯式告知

R語言：生成正態分佈資料生成--rnorm,dnorm,pnorm,qnorm

norm是正態分佈，前面加r表示生成隨機正態分佈的序列，其中rnorm(10)表示產生10個數；給定正太分佈的均值和方差， Density(d), distribution function§, quantile function(q) and random® generation

R語言：實現文字分析例項（基礎篇）

#1載入軟體包： #1.1資料欲處理包： #Snowball（處理帶空格的語句） #rJava（rmmseg4j的支援包） #rmmseg4j(處理中文的分詞，把不帶空格的分為帶空格的。) #1.2文字分析包： #tm #資料處理## library (RODBC) excel_file <- od

R語言：自定義函式

R語言系列：自定義function 在用R語言做各種事物時，使用者自定義函式是不可或缺的。這期來講講如何自定義R的function。首先要介紹的是function的基本框架： myfunction <- function(arg1, arg2, .

R語言：“cannot open the connection”的解決辦法

在R語言的實踐中，讀入資料檔案幾乎是必須的操作，但沒有設定好工作空間的位置，將會提示如下錯誤： Error in file(file, "rt") : cannot open the connection In addition: Warning mess

R語言：再談REmap包

之前寫過一篇關於Remap的文章，原文連結為：http://blog.csdn.net/wzgl__wh/article/details/53108754 但有許多網友都存在不同的問題，在我的微信公眾

R語言：64位作業系統讀取excel檔案方法總結

首先嚐試的是RODBC，不過過程相當不順利我電腦上安裝的是office 2003，ODBC資料來源裡面找不到excel的驅動程式原因是office是32為版本，安裝的驅動程式無法在64位的win7上使用。執行c:\windows\sysWOW64\odbc

R語言：用簡單的文字處理方法優化我們的讀書體驗

2）從趨勢來說，人人都會程式設計會成為更廣範圍內的一個硬要求這裡有一些暢想：從文字處理的角度，當我們要背單詞時，為什麼不能找一部美劇或電影的字幕，匯入R裡面，然後匹配一下雅思託福詞彙，或者單詞本，把要背的單詞所在的段落全部選出來閱讀？（靈感來源：書《單詞社交網路》）然後以前那些編寫彙總集、梳理

R語言：ggplot2精細化繪圖——以實用商業化圖表繪圖為例

3、常用的商業用圖接下來分享一下我在這次作圖過程中，最常用的幾個圖形的程式碼。首先宣告，這些圖形的進一步做法以及變形，基本都可以在這兩本參考書籍裡(R視覺化技術 | ggplot2:資料分析與圖表技術 )找到。我這裡更多的摘取一些我比較常用的圖表進行講解 1、簡單柱形圖+文字（單一變數） 2、分面柱

R語言：文字（字串）處理與正則表示式

這兩個函式返回向量水平的匹配結果，不涉及匹配字串的詳細位置資訊。 grep(pattern, x, ignore.case = FALSE, perl = FALSE, value = FALSE, fixed = FALSE, useBytes =FALSE, invert = FALSE) grepl

R語言：如何在一張圖上畫多個填色等值線圖

　　在R語言：填色等值線圖及其色標（color bar）設定中我們介紹了filled.contour函式的用法，它可以很方便的繪製帶色標的填色等值線圖。但是我們平時可能更多的需要將多個填色圖放在同一張圖上（如下圖所示），這種圖該如何繪製？　　相比R語言：填色等值線圖及其

R語言：詞雲圖

相關推薦