Spark中分散式使用HanLP（1.7.0)分詞d

阿新 • • 發佈：2018-12-17

Spark中分散式使用HanLP（1.7.0)分詞

HanLP分詞（https://github.com/hankcs/HanLP），如README中所說，如果沒有特殊需求，可以通過maven配置，如果要新增自定義詞典，需要下載“依賴jar包和使用者字典".

本人一些經驗:

是直接"java xf hanlp-1.6.8-sources.jar" 解壓原始碼，把原始碼加入工程（依賴本地jar包，有些麻煩，有時候到伺服器有找不到jar包的情況)
按照文件操作，在Spark中分詞，預設找的是本地目錄，所以如果是在driver中分詞是沒有問題的。但是如果要分散式分詞，是要把詞典目錄放在HDFS上面，因為這樣每臺機器才可以訪問到【參考程式碼】

最好把新增詞典放在首位（我沒有放在首位好像沒有生效).第一次使用時,HanLP會把新增txt檔案，生成bin檔案，這個過程比較慢。但是隻需要跑一次，它會把bin檔案寫到HDFS路徑上面，第二次以後速度就快一些了。

注意到issue中說，只可以在mapPartition中使用（https://github.com/hankcs/HanLP/issues/588）

參考scala程式碼

class HadoopFileIoAdapter extends IIOAdapter {

  override def create(path: String): java.io.OutputStream = {
    val conf: Configuration = new Configuration()
    val fs: FileSystem = FileSystem.get(URI.create(path), conf)
    fs.create(new Path(path))
  }

  override def open(path: String): java.io.InputStream = {
    val conf: Configuration = new Configuration()
    val fs: FileSystem = FileSystem.get(URI.create(path), conf)
    fs.open(new Path(path))
  }
}

def myfuncPerPartition_ ( iter : Iterator [String] ) : Iterator[(Int, mutable.Buffer[String])]  = {
      println("run in partition")
      val keyWordNum = 6
      HanLP.Config.IOAdapter = new HadoopFileIoAdapter
      val ret = iter.filter(_.split(",",2).length==2)
        .map(line=>(line.split(",",2)(1).trim.hashCode, HanLP.extractKeyword(line.split(",",2)(0),keyWordNum)
          .map(str=>str.filterNot(stopChar.contains(_))).filter(w=>(w.length>1 || ( w.length==1 && white_single_word.contains(w(0))) ))
          .filterNot(stopWords.contains(_)).take(keyWordNum).distinct))
      ret
    }

//呼叫
raw_data.repartition(100).mapPartitions(myfuncPerPartition_)

Spark中分散式使用HanLP（1.7.0)分詞d

Spark中分散式使用HanLP（1.7.0)分詞 HanLP分詞（https://github.com/hankcs/HanLP），如README中所說，如果沒有特殊需求，可以通過maven配置，如果要新增自定義詞典，需要下載“依賴jar包和使用者字典". 本人一些經驗:

Spark中分散式使用HanLP（1.7.0)分詞示例

HanLP分詞，如README中所說，如果沒有特殊需求，可以通過maven配置，如果要新增自定義詞典，需要下載“依

呼叫Android系統自帶相機拍照，從相簿中獲取圖片（相容7.0系統）

一，前言：在日常的手機應用開發過程中，經常會遇到上傳圖片的需求，像上傳頭像之類的，這就需要呼叫系統的相機，相簿獲取照片。但是在Android 系統7.0之後認為這種操作是不安全的，這篇文章主要就是記錄7.0獲取照片遇到的問題。二，FileProvider介紹都

自然語言處理基礎（1）--基本分詞方法

基本的分詞方法包括最大匹配法、最大概率法（最短加權路徑法）、最少分詞法、基於HMM的分詞法、基於互現資訊的分詞方法、基於字元標註的方法和基於例項的漢語分詞方法等。 1.最大匹配法最大匹配法需要一個詞表，分詞的過程中用文字的候選

USGS-EROS項目espa-surface-reflectance中的LaSRC Version 1.3.0模塊利用vs2010編譯出windows64位版本（一）

product 發現 jpeg git clone args dcl 函數中一比較 Landsat8衛星的大氣校正目前國內有很多學者都在做，隨便百度一下就能找到很多論文，提出的算法都有各自的亮點，學術研究上都有意義。但是，問題來了，如果要真正拿出來處理任意一幅La

USGS-EROS項目espa-surface-reflectance中的LaSRC Version 1.3.0模塊利用vs2010編譯出windows64位版本的使用（三）

合成 ast mage files 關系分享一周 com window Landsat8大氣校正程序LaSRC是目前最好的，使用方式也夠傻瓜，輸入文件輸出結果。但有一個限制，就是程序需要預先下載好的MODIS輔助文件來確定水汽、壓強等大氣參數。如果待大氣校正的l

Flume NG高可用叢集搭建詳解（基於flume-1.7.0）

1、Flume NG簡述 Flume NG是一個分散式，高可用，可靠的系統，它能將不同的海量資料收集，移動並存儲到一個數據儲存系統中。輕量，配置簡單，適用於各種日誌收集，並支援 Failover和負載均衡。並且它擁有非常豐富的元件。Flume NG採用的是三層架構：Agent層，Collecto

Windows10離線安裝Anaconda3-4.2.0-Windows-x86_64.exe（對應python3.5）和tensorflow_gpu-1.7.0-cp35-cp35m-win_amd

Windows10離線安裝Anaconda3-4.2.0-Windows-x86_64.exe（對應python3.5）和tensorflow_gpu-1.7.0-cp35-cp35m-win_amd64.whl（對應GPU版本的tensorflow，35表示著對應python3.5）安裝這個

Spark 下操作 HBase（1.0.0 新 API）

HBase經過七年發展，終於在今年2月底，釋出了 1.0.0 版本。這個版本提供了一些讓人激動的功能，並且，在不犧牲穩定性的前提下，引入了新的API。雖然 1.0.0 相容舊版本的 API，不過還是應該儘早地來熟悉下新版API。並且瞭解下如何與當下正紅的 Spark 結合，進

如何取得指定的int型資料中某一位的二進位制值（1還是0）

public static void main(String[] args) { int num = 19; String binaryString = In

我和spark有個約會（1）-Spark中的stage的劃分原理

我和spark有個約會（1）瞭解DAGScheduler 階段對stage的劃分原理 spark寬窄依賴 narrow dependencies:child rdd只依賴於parentrdd[s]的部分固定的partition wide d

Solr4.x（4.7.0）中新增Solr例項(Core)

在下載的solr的解壓包的事例中，預設只有一個Core(collection1)，如果想新增自己的Core，比如我想新增一個Core（item），可以使用如下的步驟： 1. 在Solr的Home目錄的solr目錄中建立資料夾item（在C:\solr-tomcat\solr中建立item). 2.在新

python中的JSON（1）

welcome 定義 ack () found 存儲 remember nbsp python程序很多程序都要求用戶輸入某種信息，例如：讓用戶存儲遊戲首選項或提供要可視化的數據，程序把用戶的信息存儲在列表和字典等數據結構中，用戶關閉程序時，我們幾乎總要保存他們提

Rust 1.7.0 語法基礎 sep_token 和 non_special_token

++ pri ava type mod ont key 代碼 1.7 一、分隔符 sep_token 指的是分隔符, 是除了 * 和 + 之外的不論什麽符號，通常情況下是使用，逗號。比如：宏的多個參數分隔,以下代碼中的逗號就是 sep_

Rust 1.7.0 匹配器 match 的簡介和使用

let 滿足選擇多個 efault msg i++ pretty article 使用過正則表達式的人應該都知道 matcher ,通過 matcher 匹配器運算正則表達式，完畢一系列的匹配規則。在Rust 中沒有 switch 語句。mat

java學習日記（1-7）

har span 編譯失敗數組長度 int() 冒泡排序 string length 類型 java 中標識符可以為$符，默認是int類型超出int型必須標明是long型char 為 2字節String 是引用類型 byte b = 1;b = b + 1; #會報錯

開發常見錯誤之：Missing artifact com.sun:tools:jar 1.7.0

problems code iss file http 1.7 tin osi 改名 Missing artifact com.sun:tools:jar 1.7.0 解決辦法一：手動配置pom.xml，添加一個dependency如下： <dependency&

Beta 沖刺（1/7）

ges 機制技術 .cn 耗時疑問分享圖片 ima 優化網絡隊名：天機組組員1友林 228（組長）今日完成：查找了相關資料及api文檔。明天計劃：繼續相關資料及源碼。剩余任務：優化網絡通訊機制主要困難：查找的代碼調試較為困難。收獲及疑問：暫無組員2方

大數據生態圈中相關原理（1）

兩種大數據進行排序表示數據塊溢出任務傳輸數據 MapReduce 原理客戶端任務到jobTracker, jobTracker分發任務到map和reduce。 map從datasplit 中獲取數據區，根據客戶端的相關業務邏輯生成（K,V）對，數據先緩存到

spark成長之路（1）spark究竟是什麽？

engine nosql 之路每天畢業 hat 數據查詢 -a 並行計算今年6月畢業，來到公司前前後後各種事情折騰下來，8月中旬才入職。本以為終於可以靜下心來研究技術了，但是又把我分配到了一個幾乎不做技術的解決方案部門，導致現在寫代碼的時間都幾乎沒有了，所以只能在每天

Spark中分散式使用HanLP（1.7.0)分詞d

相關推薦