spark中自然語言處理的一些方法

阿新 • • 發佈：2019-02-06

spark中常用的一些自然語言處理方法，分詞、tf-idf、word2vec、文字分類等看看程式碼吧：

package com.iclick.word2vec
import org.apache.log4j.{ Level, Logger }
import org.apache.spark.{ SparkConf, SparkContext }
import org.apache.spark.sql.SQLContext
import org.apache.spark.mllib.feature.{ Word2Vec, Word2VecModel }

import org.apache.spark.mllib.linalg.{ SparseVector => SV }
import org.apache.spark.mllib.feature.HashingTF
import org.apache.spark.mllib.feature.IDF

object Word2VecTest {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org.apache.spark").setLevel(Level.ERROR)
    Logger.getLogger("org.eclipse.jetty.server").setLevel(Level.OFF)
    val sc = new SparkContext("local", "mysql")
    val sqlContext = new SQLContext(sc)
    val path = "D:\\SPARKCONFALL\\Spark機器學習資料\\20news-bydate-train\\*"
    val rdd = sc.wholeTextFiles(path).cache()
    val xxx = rdd.map {
      case (file, text) => file.split("/").takeRight(2).head
    }.map(n => (n, 1)).reduceByKey(_ + _).collect().sortBy(_._2).mkString("\n")
    println("文章主題的數目")
    println(xxx)
    val newsgroups = rdd.map { case (file, text) => file.split("/").takeRight(2).head }
    println("分詞數目")
    val text = rdd.map { case (file, text) => text }

    val whieteSpaceSplit = text.flatMap { t => t.split(" ") }.map(_.toLowerCase())
    println(whieteSpaceSplit.distinct().count)
    println(whieteSpaceSplit.sample(true, 0.3, 42).take(100).mkString(","))

    println("改進分詞")
    val nonWordSplit = text.flatMap(t => t.split("""\W+""").map(_.toLowerCase))
    println(nonWordSplit.distinct.count)
    println(nonWordSplit.distinct.sample(true, 0.3, 42).take(100).mkString(","))
    val regex = """[^0-9]*""".r
    val filterNumbers = nonWordSplit.filter(token => regex.pattern.matcher(token).matches)
    println(filterNumbers.distinct.count)
    println(filterNumbers.distinct.sample(true, 0.3, 42).take(100).mkString(","))

    println("移除停用詞")
    val tokenCounts = filterNumbers.map(t => (t, 1)).reduceByKey(_ + _)
    val oreringDesc = Ordering.by[(String, Int), Int](_._2)
    //println(tokenCounts.top(20)(oreringDesc).mkString("\n"))

    val stopwords = Set(
      "the", "a", "an", "of", "or", "in", "for", "by", "on", "but", "is", "not", "with", "as", "was", "if",
      "they", "are", "this", "and", "it", "have", "from", "at", "my", "be", "that", "to")
    val tokenCountsFilteredStopwords = tokenCounts.filter { case (k, v) => !stopwords.contains(k) }
    //println(tokenCountsFilteredStopwords.top(20)(oreringDesc).mkString("\n"))

    val tokenCountsFilteredSize = tokenCountsFilteredStopwords.filter { case (k, v) => k.size >= 2 }
    println(tokenCountsFilteredSize.top(20)(oreringDesc).mkString("\n"))

    println("移除低頻詞")
    val oreringAsc = Ordering.by[(String, Int), Int](-_._2)
    //println(tokenCountsFilteredSize.top(20)(oreringAsc).mkString("\n"))

    val rareTokens = tokenCounts.filter { case (k, v) => v < 2 }.map { case (k, v) => k }.collect.toSet
    val tokenCountsFilteredAll = tokenCountsFilteredSize.filter { case (k, v) => !rareTokens.contains(k) }
    println(tokenCountsFilteredAll.top(20)(oreringAsc).mkString("\n"))

    def tokenize(line: String): Seq[String] = {
      line.split("""\W+""")
        .map(_.toLowerCase)
        .filter(token => regex.pattern.matcher(token).matches)
        .filterNot(token => stopwords.contains(token))
        .filterNot(token => rareTokens.contains(token))
        .filter(token => token.size >= 2)
        .toSeq
    }
    //println(text.flatMap(doc => tokenize(doc)).distinct.count)
    val tokens = text.map(doc => tokenize(doc))
    println(tokens.first.take(20))

    println("訓練模型")
    val dim = math.pow(2, 18).toInt
    val hashingTF = new HashingTF(dim)
    val tf = hashingTF.transform(tokens)
    tf.cache()

    val v = tf.first.asInstanceOf[SV]
    println(v.size)

    println(v.size)
    println(v.values.size)
    println(v.values.take(10).toSeq)
    println(v.indices.take(10).toSeq)

    println("fit & transform")
    val idf = new IDF().fit(tf)
    val tfidf = idf.transform(tf)
    val v2 = tfidf.first.asInstanceOf[SV]
    println(v2.values.size)
    println(v2.values.take(10).toSeq)
    println(v2.indices.take(10).toSeq)

    //    分析權重
    val minMaxVals = tfidf.map { v =>
      val sv = v.asInstanceOf[SV]
      (sv.values.min, sv.values.max)
    }
    val globalMinMax = minMaxVals.reduce {
      case ((min1, max1), (min2, max2)) =>
        (math.min(min1, min2), math.max(max1, max2))
    }
    println(globalMinMax)
    //globalMinMax: (Double, Double) = (0.0,66155.39470409753)
    //常用詞

    val common = sc.parallelize(Seq(Seq("you", "do", "we")))
    val tfCommon = hashingTF.transform(common)
    val tfidfCommon = idf.transform(tfCommon)
    val commonVector = tfidfCommon.first.asInstanceOf[SV]
    println(commonVector.values.toSeq)
    //不常出現的單詞

    val uncommon = sc.parallelize(Seq(Seq("telescope", "legislation", "investment")))
    val tfUncommon = hashingTF.transform(uncommon)
    val tfidfUncommon = idf.transform(tfUncommon)
    val uncommonVector = tfidfUncommon.first.asInstanceOf[SV]
    println(uncommonVector.values.toSeq)

    //    
    //    4 使用模型
    //4.1 餘弦相似度
    import breeze.linalg._

    val hockeyText = rdd.filter { case (file, text) => file.contains("hockey") }
    val hockeyTF = hockeyText.mapValues(doc => hashingTF.transform(tokenize(doc)))
    val hockeyTfIdf = idf.transform(hockeyTF.map(_._2))

    val hockey1 = hockeyTfIdf.sample(true, 0.1, 42).first.asInstanceOf[SV]
    val breeze1 = new SparseVector(hockey1.indices, hockey1.values, hockey1.size)

    val hockey2 = hockeyTfIdf.sample(true, 0.1, 43).first.asInstanceOf[SV]
    val breeze2 = new SparseVector(hockey2.indices, hockey2.values, hockey2.size)
    val cosineSim = breeze1.dot(breeze2) / (norm(breeze1) * norm(breeze2))
    println(cosineSim)

    val graphicsText = rdd.filter { case (file, text) => file.contains("comp.graphics") }
    val graphicsTF = graphicsText.mapValues(doc => hashingTF.transform(tokenize(doc)))
    val graphicsTfIdf = idf.transform(graphicsTF.map(_._2))
    val graphics = graphicsTfIdf.sample(true, 0.1, 42).first.asInstanceOf[SV]
    val breezeGraphics = new SparseVector(graphics.indices, graphics.values, graphics.size)
    val cosineSim2 = breeze1.dot(breezeGraphics) / (norm(breeze1) * norm(breezeGraphics))
    println(cosineSim2)

    val baseballText = rdd.filter { case (file, text) => file.contains("baseball") }
    val baseballTF = baseballText.mapValues(doc => hashingTF.transform(tokenize(doc)))
    val baseballTfIdf = idf.transform(baseballTF.map(_._2))
    val baseball = baseballTfIdf.sample(true, 0.1, 42).first.asInstanceOf[SV]
    val breezeBaseball = new SparseVector(baseball.indices, baseball.values, baseball.size)
    val cosineSim3 = breeze1.dot(breezeBaseball) / (norm(breeze1) * norm(breezeBaseball))
    println(cosineSim3)

    //4.2 學習單詞與主題的對映關係
    //多分類對映
    import org.apache.spark.mllib.regression.LabeledPoint
    import org.apache.spark.mllib.classification.NaiveBayes
    import org.apache.spark.mllib.evaluation.MulticlassMetrics

    val newsgroupsMap = newsgroups.distinct.collect().zipWithIndex.toMap
    val zipped = newsgroups.zip(tfidf)
    val train = zipped.map { case (topic, vector) => LabeledPoint(newsgroupsMap(topic), vector) }
    train.cache
    //樸素貝葉斯訓練
    val model = NaiveBayes.train(train, lambda = 0.1)
    //載入測試資料集
    val testPath = "D:\\SPARKCONFALL\\Spark機器學習資料\\20news-bydate-test\\*"
    val testRDD = sc.wholeTextFiles(testPath)
    val testLabels = testRDD.map {
      case (file, text) =>
        val topic = file.split("/").takeRight(2).head
        newsgroupsMap(topic)
    }
    val testTf = testRDD.map { case (file, text) => hashingTF.transform(tokenize(text)) }
    val testTfIdf = idf.transform(testTf)
    val zippedTest = testLabels.zip(testTfIdf)
    val test = zippedTest.map { case (topic, vector) => LabeledPoint(topic, vector) }
    //計算準確度和多分類加權F-指標
    val predictionAndLabel = test.map(p => (model.predict(p.features), p.label))
    val accuracy = 1.0 * predictionAndLabel.filter(x => x._1 == x._2).count() / test.count()
    println(accuracy)

    val metrics = new MulticlassMetrics(predictionAndLabel)
    println(metrics.weightedFMeasure)

    //5 評估
    val rawTokens = rdd.map { case (file, text) => text.split(" ") }
    val rawTF = rawTokens.map(doc => hashingTF.transform(doc))
    val rawTrain = newsgroups.zip(rawTF).map { case (topic, vector) => LabeledPoint(newsgroupsMap(topic), vector) }
    val rawModel = NaiveBayes.train(rawTrain, lambda = 0.1)
    val rawTestTF = testRDD.map { case (file, text) => hashingTF.transform(text.split(" ")) }
    val rawZippedTest = testLabels.zip(rawTestTF)
    val rawTest = rawZippedTest.map { case (topic, vector) => LabeledPoint(topic, vector) }
    val rawPredictionAndLabel = rawTest.map(p => (rawModel.predict(p.features), p.label))
    val rawAccuracy = 1.0 * rawPredictionAndLabel.filter(x => x._1 == x._2).count() / rawTest.count()
    println(rawAccuracy)

    val rawMetrics = new MulticlassMetrics(rawPredictionAndLabel)
    println(rawMetrics.weightedFMeasure)

    println("word2Vec模型訓練")
    val word2vec = new Word2Vec()
    word2vec.setSeed(42) // we do this to generate the same results each time
    val word2vecModel = word2vec.fit(tokens)
    println("尋找最相似的二十個單詞，")
    word2vecModel.findSynonyms("hockey", 20).foreach(println)
    word2vecModel.findSynonyms("legislation", 20).foreach(println)
  }

}

spark中自然語言處理的一些方法

spark中常用的一些自然語言處理方法，分詞、tf-idf、word2vec、文字分類等看看程式碼吧： package com.iclick.word2vec import org.apache.log4j.{ Level, Logger } import org.apac

文本情感分析的基礎在於自然語言處理、情感詞典、機器學習方法等內容。以下是我總結的一些資源。

建議中心這場分詞自然語言處理目前能力開放計算推薦算法文本情感分析的基礎在於自然語言處理、情感詞典、機器學習方法等內容。以下是我總結的一些資源。詞典資源：SentiWordNet《知網》中文版中文情感極性詞典 NTUSD情感詞匯本體下載自然語言處理

自然語言處理中的語言模型預訓練方法

16px 預測網絡語言緩解 lang 大數一中標準小數自然語言處理中的語言模型預訓練方法最近，在自然語言處理（NLP）領域中，使用語言模型預訓練方法在多項NLP任務上都獲得了不錯的提升，廣泛受到了各界的關註。就此，我將最近看的一些相關論文進行總結，選取了幾

Python自然語言處理nltk庫中的一些重要的模組

nltk庫中的一些重要的模組 ——nltk.corpus ————獲取語料庫。 ——————語料庫和詞典的標準化介面 ——nltk.tokenize,nltk.stem ————字串處理 ——————分詞，句子分解，提取主幹 ——nltk.collocation

nodejs在自然語言處理中的一些小應用

nodejs做自然語言處理是非常可行的，這次我做了一些小小的嘗試，一起來體驗一下吧。因為還保持著對自然語言處理的那份熱愛，最近沒事的時候會把畢業論文翻出來看（畢業論文的課題就是關於自然語言處理的），然後在我的新部落格中加入了一些相關的處理，主要做了以下幾個

深度學習方法（八）：自然語言處理中的Encoder-Decoder模型，基本Sequence to Sequence模型

歡迎轉載，轉載請註明：本文出自Bin的專欄blog.csdn.net/xbinworld。技術交流QQ群：433250724，歡迎對演算法、技術感興趣的同學加入。 Encoder-Decoder（編碼-解碼）是深度學習中非常常見的一個模型框架，比如無監督演

自然語言處理中的Attention Model：是什麽及為什麽

(zhuan) 自然語言處理中的Attention Model：是什麽及為什麽

機器 pri 概念 max page acf 集中 use tps 自然語言處理中的Attention Model：是什麽及為什麽 2017-07-13 張俊林待字閨中要是關註深度學習在自然語言處理方面的研究進展，我相信你一定聽說過Attention Model（

[轉]對當前自然語言處理方法論中的一個疑惑

相對缺失差異 mark 利用表達知識因此設備周錫令 [email protected] 2001-11-8 在大多數情況下，我習慣於研究遠離我們主觀世界的客體。典型的例子是“天體”。在研究的過程中，使用的方法是“建立模型”。研究的進展過程主要表現為“模

網頁和自然語言處理中的字符問題（半角和全角）

字符轉換處理 unicode 指點介紹合並圖片十六進制文本　　先來看一個截圖，爬蟲得到的結果，裏面99的字體貌似有點奇怪，剛開始以為是不同的字體，在Excel裏選中調整字體時發現沒有變化，後來經過大佬指點，才知道是全角數字（原諒我小白無知）。為了統一起見，把所

自然語言處理工具包 HanLP在 Spring Boot中的應用

本文共 782字，閱讀大約需要 2分鐘！概述 HanLP 是基於 Java開發的 NLP工具包，由一系列模型與演算法組成，目標是普及自然語言處理在生產環境中的應用。而且 HanLP具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點，因此十分好上手，本文就結合 Spring Bo

哈工大自然語言處理工具pyltp的本地安裝方法

在研究中發現，哈工大的LTP在分詞、實體識別等方面的效果甚至要優於中科院ICTCLAS，而且LTP還具備了目前在中文資訊處理領域較為罕見的語義角色標註（SRL）功能。以前我都是直接以get方式通過LTP-Cloud去使用的，但是由於受限於網速，當語料較大時執行速度較慢。於是近期考慮在自己的機子

《NLP漢語自然語言處理原理與實踐》第四章 NLP中的概率圖模型

目前最流行的演算法思想包含如下兩大流派：基於概率論和圖論的概率圖模型；基於人工神經網路的深度學習理論。 4.1概率論迴歸 4.1.1 多元概率論的幾個基本概念 4.1.2 貝葉斯與樸素貝葉斯演算法

自然語言處理中的自注意力機制（Self-attention Mechanism）

from: https://www.cnblogs.com/robert-dlut/p/8638283.html 近年來，注意力（Attention）機制被廣泛應用到基於深度學習的自然語言處理(NLP)各個任務中，之前我對早期注意力機制進行過一些學習總結（可見http://www.cn

用深度學習解決自然語言處理中的7大問題，文字分類、語言建模、機器翻譯

摘要：本文講的是用深度學習解決自然語言處理中的7大問題，文字分類、語言建模、機器翻譯等，自然語言處理領域正在從統計學方法轉向神經網路方法。在自然語言中，仍然存在許多具有挑戰性的問題。但是，深度學習方法在某些特定的語言問題上取得了state-of-the-art的結果。本文講的是用深度學習解決自

Spring Boot中對自然語言處理工具包hanlp的呼叫詳解

概述 HanLP 是基於 Java開發的 NLP工具包，由一系列模型與演算法組成，目標是普及自然語言處理在生產環境中的應用。而且 HanLP具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點，因此十分好上手，本文就結合 Spring Boot來將 HanLP用起來！

Python中呼叫自然語言處理工具HanLP手記

HanLP方法封裝類： 1. # -*- coding:utf-8 -*- 2. # Filename: main.py 3. 4.from jpype import * 5. 5.startJVM(getDefaultJVMPath(), "-Djava.class.path=C:\h

自然語言處理中常見的10個任務簡介及其資源

from:http://www.datalearner.com/blog/1051509699533080 簡介現在很多公司和組織每天都要處理大量的文字資訊，包括郵件、評論、客戶的電話等。將這些資料變成有用的資訊需要花費大量的時間。抽取這些資訊的一個核心的技能就是自然語言處理（Natura

自然語言處理系列-2-文字分類-傳統機器學習方法

文件分類是指給定文件p（可能含有標題t），將文件分類為n個類別中的一個或多個，本文以人機寫作為例子，針對有監督學習簡單介紹傳統機器學習方法。文件分類的常見應用: 新聞分類: 也就是給新聞打標籤，一般標籤有幾千個，然後要選取k個標籤，多分類問題，可見2017知乎

自然語言處理（NLP）——分詞統計可能用到的模組方法

一、itertools.chain( *[ ] ) import itertools a= itertools.chain(['a','aa','aaa']) b= itertools.chain(

spark中自然語言處理的一些方法

相關推薦