Spark MLlib原始碼分析—Word2Vec原始碼詳解

阿新 • • 發佈：2019-01-05

以下程式碼是我依據SparkMLlib(版本1.6)中Word2Vec原始碼改寫而來，基本算是照搬。此版Word2Vec是基於Hierarchical Softmax的Skip-gram模型的實現。
在決定讀懂原始碼前，博主建議讀者先看一下《Word2Vec_中的數學原理詳解》或者看本人根據這篇文件做的一個摘要總結：
http://blog.csdn.net/liuyuemaicha/article/details/52611219
Ps* 程式碼註解的很詳細了，閱讀程式碼請從類CWord2Vec的fit函式開始


import java.nio.ByteBuffer
import java.util.{Random => JavaRandom}

import 
 com.github.fommil.netlib.BLAS.{getInstance => blas}
import org.apache.spark.rdd.RDD
import org.apache.spark.mllib.linalg.{Vector, Vectors}
import scala.collection.mutable
import scala.util.hashing.MurmurHash3

/**
  *  Entry in vocabulary
  */
private case class VocabWord(
  var word: String, //分詞
  var cn: Int,//計數
  var point: Array[Int], //儲存路徑，即經過得結點
  var code: Array[Int], //記錄Huffman編碼
  var codeLen: Int ////儲存到達該葉子結點，要經過多少個結點
) 


class CWord2Vec extends Serializable{

  private val random = new JavaRandom()
  private var seed = new JavaRandom().nextLong()
  private var vectorSize = 100 //向量大小
  private var learningRate = 0.025 //學習率
  private var numPartitions = 1 
  private var numIterations = 60 //迭代次數
  private var minCount = 5 //關鍵詞的上下視窗 

  private var maxSentenceLength = 1000 //每條語句以長度maxSentenceLength分組

  private val EXP_TABLE_SIZE = 1000 
  private val MAX_EXP = 6
  private val MAX_CODE_LENGTH = 40
  /** context words from [-window, window] */
  private var window = 5
  private var trainWordsCount = 0L
  private var vocabSize = 0

  private var vocab: Array[VocabWord] = null
  private var vocabHash = mutable.HashMap.empty[String, Int]

  /* 詞典構建 */
  private def learnVocab[S <: Iterable[String]](dataset: RDD[S]): Unit = {
    val words = dataset.flatMap(x => x)

    vocab = words.map(w => (w, 1))
      .reduceByKey(_ + _)  //分詞計數
      .filter(_._2 >= minCount)//過濾頻數少於minCount的分詞
      .map(x => VocabWord(
        x._1,
        x._2,
        new Array[Int](MAX_CODE_LENGTH),
        new Array[Int](MAX_CODE_LENGTH),
        0))
      .collect()
      .sortWith((a, b) => a.cn > b.cn) //按頻數從大到小排序

    vocabSize = vocab.length //詞典的元素個數
    require(vocabSize > 0, "The vocabulary size should be > 0. You may need to check " +
      "the setting of minCount, which could be large enough to remove all your words in sentences.")

    var a = 0
    while (a < vocabSize) {
      vocabHash += vocab(a).word -> a //生成hashMap（K：word，V：a）--> 對詞典中所有元素進行對映，方便查詢
      trainWordsCount += vocab(a).cn //計算語料C中分詞的數量
      a += 1
    }
    //logInfo(s"vocabSize = $vocabSize, trainWordsCount = $trainWordsCount")
  }

  /* Create Huffman Tree */
  private def createBinaryTree(): Unit = {
    val count = new Array[Long](vocabSize * 2 + 1) //二叉樹中所有的結點
    val binary = new Array[Int](vocabSize * 2 + 1)//設定每個結點的Huffman編碼：左1，右0 
    val parentNode = new Array[Int](vocabSize * 2 + 1)//儲存每個結點的父節點
    val code = new Array[Int](MAX_CODE_LENGTH)//儲存每個葉子結點的Huffman編碼
    val point = new Array[Int](MAX_CODE_LENGTH)//儲存每個葉子結點的路徑（經歷過哪些結點）
    var a = 0
    while (a < vocabSize) {
      count(a) = vocab(a).cn //初始化葉子結點，以頻數作為權值,葉子：0~vocabSize-1
      a += 1
    }
    while (a < 2 * vocabSize) {
      count(a) = 1e9.toInt //10的9次方，非葉子結點，初始化為最大值
      a += 1
    }
    var pos1 = vocabSize - 1
    var pos2 = vocabSize

    var min1i = 0
    var min2i = 0

    a = 0
    while (a < vocabSize - 1) {  //構造Huffman樹
      if (pos1 >= 0) {
        if (count(pos1) < count(pos2)) {
          min1i = pos1
          pos1 -= 1
        } else {
          min1i = pos2
          pos2 += 1
        }
      } else {
        min1i = pos2
        pos2 += 1
      }
      if (pos1 >= 0) {
        if (count(pos1) < count(pos2)) {
          min2i = pos1
          pos1 -= 1
        } else {
          min2i = pos2
          pos2 += 1
        }
      } else {
        min2i = pos2
        pos2 += 1
      }
      count(vocabSize + a) = count(min1i) + count(min2i)
      parentNode(min1i) = vocabSize + a
      parentNode(min2i) = vocabSize + a
      binary(min2i) = 1
      a += 1
    }
    // Now assign binary code to each vocabulary word
    var i = 0
    a = 0
    while (a < vocabSize) {
      var b = a
      i = 0
      while (b != vocabSize * 2 - 2) { //vocabSize * 2 - 2 表示根結點
        code(i) = binary(b) //第b個結點的Huffman編碼是0 or 1
        point(i) = b  //儲存路徑，經過b結點
        i += 1
        b = parentNode(b)
      }
      vocab(a).codeLen = i  //儲存到達葉子結點a，要經過多少個結點
      vocab(a).point(0) = vocabSize - 2
      b = 0
      while (b < i) {
        vocab(a).code(i - b - 1) = code(b) ////記錄Huffman編碼
        vocab(a).point(i - b) = point(b) - vocabSize //記錄經過的結點
        b += 1
      }
      a += 1
    }
  }

  //建立sigmoid函式查詢表
  private def createExpTable(): Array[Float] = { //初始化ExpTable，初始化引數為0-999的e值
    val expTable = new Array[Float](EXP_TABLE_SIZE)
    var i = 0
    while (i < EXP_TABLE_SIZE) {
      val tmp = math.exp((2.0 * i / EXP_TABLE_SIZE - 1.0) * MAX_EXP)
      expTable(i) = (tmp / (tmp + 1.0)).toFloat
      i += 1
    }
    expTable
  }

  def fit[S <: Iterable[String]](dataset: RDD[S]): Word2VecModel = {
    learnVocab(dataset)  //構建詞典
    createBinaryTree()   //構建 Huffman 樹

    val sc = dataset.context
    val expTable = sc.broadcast(createExpTable()) 
    val bcVocab = sc.broadcast(vocab)
    val bcVocabHash = sc.broadcast(vocabHash)

    val sentences: RDD[Array[Int]] = dataset.mapPartitions { sentenceIter =>
      // Each sentence will map to 0 or more Array[Int]
      sentenceIter.flatMap { sentence =>
        val wordIndexes = sentence.flatMap(bcVocabHash.value.get)// 將分詞轉化為對應的目錄值（index）
        wordIndexes.grouped(maxSentenceLength).map(_.toArray) //一條語句長度大於1000後，將被拆分為多個分組
      }
    }

    val newSentences = sentences.repartition(numPartitions).cache()
    val initRandom = new XORShiftRandom(seed)
    if (vocabSize.toLong * vectorSize >= Int.MaxValue) {
      throw new RuntimeException("vocabSize.toLong * vectorSize >= Int.MaxValue, " +
        "Int.MaxValue: " + Int.MaxValue)
    }

    //初始化葉子節點，分詞向量隨機設定初始值
    val syn0Global = Array.fill[Float](vocabSize * vectorSize)((initRandom.nextFloat() - 0.5f) / vectorSize)
    //初始化非葉子結點，引數向量設定初始值為0
    val syn1Global = new Array[Float](vocabSize * vectorSize)
    var alpha = learningRate //學習率

    for (k <- 1 to numIterations){ //對整個語料開始迭代，總共完成numIterations次迭代
      val bcSyn0Global = sc.broadcast(syn0Global)
      val bcSyn1Global = sc.broadcast(syn1Global)

      //對每條句子進行向量計算：case中idx表示分詞的目錄，iter表示這條句子的起始地址
      val partial = newSentences.mapPartitionsWithIndex { case (idx, iter) =>
        val random = new XORShiftRandom(seed ^ ((idx + 1) << 16) ^ ((-k - 1) << 8))
        val syn0Modify = new Array[Int](vocabSize)
        val syn1Modify = new Array[Int](vocabSize)
        val model = iter.foldLeft((bcSyn0Global.value, bcSyn1Global.value, 0L, 0L)) {
          case ((syn0, syn1, lastWordCount, wordCount), sentence) =>
            var lwc = lastWordCount
            var wc = wordCount
            if (wordCount - lastWordCount > 10000) {
              lwc = wordCount
              // TODO: discount by iteration?
              alpha =
                learningRate * (1 - numPartitions * wordCount.toDouble / (trainWordsCount + 1))
              if (alpha < learningRate * 0.0001) alpha = learningRate * 0.0001
              //logInfo("wordCount = " + wordCount + ", alpha = " + alpha)
            }
            wc += sentence.length
            var pos = 0
            while (pos < sentence.length) {
              val word = sentence(pos) //這條句子中第pos個分詞
              //在window範圍內隨機取出一個詞b    window 表示中心詞w上下最大各window個詞。
              // 則最多一共2*window個詞，即Context(w)的長度最大為2*window
              val b = random.nextInt(window)
              // Train Skip-gram
              var a = b
              while (a < window * 2 + 1 - b) {//此處迴圈是以pos為中心的skip-gram，即Context(w)中分詞的向量計算
                if (a != window) {
                  val c = pos - window + a //c 是以 pos 為中心，所要表徵Context(w)中的一個分詞
                  if (c >= 0 && c < sentence.length) {
                    val lastWord = sentence(c) //c是通過pos詞得到的，即Huffman樹的葉子結點，也就是lastWord
                    val l1 = lastWord * vectorSize
                    val neu1e = new Array[Float](vectorSize) //用來儲存Context(w)中各分詞向量對分詞w的貢獻向量值

                    // Hierarchical softmax
                    var d = 0
                    //Huffman樹中到達單詞word，要經過結點數為 codeLen，這裡從根節點開始遍歷Huffman樹
                    while (d < bcVocab.value(word).codeLen) {
                      val inner = bcVocab.value(word).point(d) //經過第d步時的結點
                      val l2 = inner * vectorSize
                      // Propagate hidden -> output
                      var f = blas.sdot(vectorSize, syn0, l1, 1, syn1, l2, 1)//syn0 * syn1 兩向量相乘
                      if (f > -MAX_EXP && f < MAX_EXP) {
                        val ind = ((f + MAX_EXP) * (EXP_TABLE_SIZE / MAX_EXP / 2.0)).toInt
                        f = expTable.value(ind)
                        val g = ((1 - bcVocab.value(word).code(d) - f) * alpha).toFloat
                        blas.saxpy(vectorSize, g, syn1, l2, 1, neu1e, 0, 1) //neu1e = g * syn1 + neu1e
                        blas.saxpy(vectorSize, g, syn0, l1, 1, syn1, l2, 1) //syn1 = g * syn0 + syn1
                        syn1Modify(inner) += 1
                      }
                      d += 1
                    }
                    blas.saxpy(vectorSize, 1.0f, neu1e, 0, 1, syn0, l1, 1) //syn0 = 1.0f * neu1e + syn0
                    syn0Modify(lastWord) += 1
                  }
                }
                a += 1
              }
              pos += 1
            }
            (syn0, syn1, lwc, wc)
        }
        val syn0Local = model._1 //syn0 為葉子結點向量，即分詞向量
        val syn1Local = model._2 //syn1 為非葉子結點向量，即引數向量

        // Only output modified vectors.
        Iterator.tabulate(vocabSize) { index =>
          if (syn0Modify(index) > 0) {
            Some((index, syn0Local.slice(index * vectorSize, (index + 1) * vectorSize)))
          } else {
            None
          }
        }.flatten ++ Iterator.tabulate(vocabSize) { index =>
          if (syn1Modify(index) > 0) {
            Some((index + vocabSize, syn1Local.slice(index * vectorSize, (index + 1) * vectorSize)))
          } else {
            None
          }
        }.flatten
      }

      //處理完每條句子的向量後，對所有語句中相同分詞所對應的向量相加
      val synAgg = partial.reduceByKey { case (v1, v2) =>
        blas.saxpy(vectorSize, 1.0f, v2, 1, v1, 1) //v2 + v1
        v1
      }.collect()

      var i = 0
      while (i < synAgg.length) {
        val index = synAgg(i)._1
        if (index < vocabSize) {
          Array.copy(synAgg(i)._2, 0, syn0Global, index * vectorSize, vectorSize)
        } else {
          Array.copy(synAgg(i)._2, 0, syn1Global, (index - vocabSize) * vectorSize, vectorSize)
        }
        i += 1
      }
      bcSyn0Global.unpersist(false)
      bcSyn1Global.unpersist(false)
    }

    newSentences.unpersist()
    expTable.unpersist()
    bcVocab.unpersist()
    bcVocabHash.unpersist()

    val wordArray = vocab.map(_.word)
    new Word2VecModel(wordArray.zipWithIndex.toMap, syn0Global)
  }
}

class Word2VecModel  (
    val wordIndex: Map[String, Int],
    val wordVectors: Array[Float]) extends Serializable
{
  private val numWords = wordIndex.size
  private val vectorSize = wordVectors.length / numWords
  private val wordList: Array[String] = {
    val (wl, _) = wordIndex.toSeq.sortBy(_._2).unzip
    wl.toArray
  }
  private val wordVecNorms: Array[Double] = {
    val wordVecNorms = new Array[Double](numWords)
    var i = 0
    while (i < numWords) {
      val vec = wordVectors.slice(i * vectorSize, i * vectorSize + vectorSize)
      wordVecNorms(i) = blas.snrm2(vectorSize, vec, 1)
      i += 1
    }
    wordVecNorms
  }

  def transform(word: String): Vector = {
    wordIndex.get(word) match {
      case Some(ind) =>
        val vec = wordVectors.slice(ind * vectorSize, ind * vectorSize + vectorSize)
        Vectors.dense(vec.map(_.toDouble))
      case None =>
        throw new IllegalStateException(s"$word not in vocabulary")
    }
  }

  def findSynonyms(word: String, num: Int): Array[(String, Double)] = {
    val vector = transform(word)
    findSynonyms(vector, num)
  }

  def findSynonyms(vector: Vector, num: Int): Array[(String, Double)] = {
    require(num > 0, "Number of similar words should > 0")
    // TODO: optimize top-k
    val fVector = vector.toArray.map(_.toFloat)
    val cosineVec = Array.fill[Float](numWords)(0)
    val alpha: Float = 1
    val beta: Float = 0
    // Normalize input vector before blas.sgemv to avoid Inf value
    val vecNorm = blas.snrm2(vectorSize, fVector, 1)
    if (vecNorm != 0.0f) {
      blas.sscal(vectorSize, 1 / vecNorm, fVector, 0, 1)
    }
    blas.sgemv(
      "T", vectorSize, numWords, alpha, wordVectors, vectorSize, fVector, 1, beta, cosineVec, 1)

    val cosVec = cosineVec.map(_.toDouble)
    var ind = 0
    while (ind < numWords) {
      val norm = wordVecNorms(ind)
      if (norm == 0.0) {
        cosVec(ind) = 0.0
      } else {
        cosVec(ind) /= norm
      }
      ind += 1
    }

    wordList.zip(cosVec)
      .toSeq
      .sortBy(-_._2)
      .take(num + 1)
      .tail
      .toArray
  }
}

private class XORShiftRandom(init: Long) extends JavaRandom(init) {

  private var seed = hashSeed(init)

  private def hashSeed(seed: Long): Long = {
    val bytes = ByteBuffer.allocate(java.lang.Long.SIZE).putLong(seed).array()
    val lowBits = MurmurHash3.bytesHash(bytes)
    val highBits = MurmurHash3.bytesHash(bytes, lowBits)
    (highBits.toLong << 32) | (lowBits.toLong & 0xFFFFFFFFL)
  }
  // we need to just override next - this will be called by nextInt, nextDouble,
  // nextGaussian, nextLong, etc.
  override protected def next(bits: Int): Int = {
    var nextSeed = seed ^ (seed << 21)
    nextSeed ^= (nextSeed >>> 35)
    nextSeed ^= (nextSeed << 4)
    seed = nextSeed
    (nextSeed & ((1L << bits) -1)).asInstanceOf[Int]
  }
}

Spark MLlib原始碼分析—Word2Vec原始碼詳解

以下程式碼是我依據SparkMLlib(版本1.6)中Word2Vec原始碼改寫而來，基本算是照搬。此版Word2Vec是基於Hierarchical Softmax的Skip-gram模型的實現。在決定讀懂原始碼前，博主建議讀者先看一下《Word2Vec_

spark core原始碼分析15 Shuffle詳解－寫流程

Shuffle是一個比較複雜的過程，有必要詳細剖析一下內部寫的邏輯 ShuffleManager分為SortShuffleManager和HashShuffleManager 一、SortShu

Java定時任務Timer排程器【一】原始碼分析（圖文詳解版）

就以鬧鐘的例子開頭吧（後續小節皆以鬧鐘為例，所有原始碼只列關鍵部分）。 public class ScheduleDemo { public static void main(String[] args) throws InterruptedException {

【Java】HashMap原始碼分析——常用方法詳解

上一篇介紹了HashMap的基本概念，這一篇著重介紹HasHMap中的一些常用方法：put()get()**resize()** 首先介紹resize()這個方法，在我看來這是HashMap中一個非常重要的方法，是用來調整HashMap中table的容量的，在很多操作中多需要重新計算容量。原始碼如下： 1

Spark MLlib原始碼分析—TFIDF原始碼詳解

以下程式碼是我依據SparkMLlib(版本1.6) 1、HashingTF 是使用雜湊表來儲存分詞，並計算分詞頻數（TF），生成HashMap表。在Map中，K為分詞對應索引號，V為分詞的頻數。在宣告HashingTF 時，需要設定numFeatures，該

死磕Netty原始碼之記憶體分配詳解(二)PoolArena記憶體分配結構分析

前言在應用層通過設定PooledByteBufAllocator來執行ByteBuf的分配，但是最終的記憶體分配工作被委託給PoolArena。由於Netty通常用於高併發系統所以各個執行緒進行記憶體分配時競爭不可避免，這可能會極大的影響記憶體分配的效率，為

在Linux上進行原始碼編譯安裝程式詳解

文章轉載自：http://xuweitao.blog.51cto.com/11761672/1905357 1. 編譯安裝概述前面兩篇關於程式包管理器的文章談到，無論是使用rpm命令還是yum命令安裝的都是已編譯好的程式包，在整個安裝過程中使用者只需執行一條命令即可完成安裝。這樣帶

Linux從原始碼編譯安裝程式詳解

1.原始碼編譯概述 1.1 使用原始碼安裝軟體的優點：獲得最新的軟體版本，及時修復bug 根據使用者需要，靈活定製軟體功能 1.2 應用場合舉例安裝較新版本的應用程式時當前安裝的程式無法滿足需要時需要為應用程式新增新的功能時

RestTemplate原始碼解析及使用詳解

一、RestTemplate服務呼叫在前面Eureka的服務註冊與發現中，我們使用了一個非常有用的物件RestTemplate。該物件會使用Ribbon的自動化配置，同時通過配置@LoadBalanced還能開啟客戶端負載均衡。這裡我們詳細介紹RestTemplate針對不同請求型別和引數型別

Boost.ASIO原始碼：service_registry::use_service()詳解以及相關type_traits解析

這都是神仙寫的程式碼吧沒什麼，這個標題只是忍不住表達一下對ASIO的驚歎。曾經看《STL原始碼剖析》對裡面的type_traits的設計驚為天人，沒想到看ASIO庫的時候又看到了同樣的設計模式，雖然對於C++功底還不深的我來說看起來十分的費勁，但我還是決定好好的自己理解一遍，並把它記

死磕Netty原始碼之記憶體分配詳解(四)PoolArena全域性記憶體分配

記憶體分配全域性分配記憶體池的初始階段執行緒是沒有記憶體快取的，所以最開始的記憶體分配都需要在全域性分配區進行分配全域性分配區的記憶體構造和執行緒私有分配區的類似(包含Tiny、Small、Normal幾種規模計算索引的方式也都是一模一樣的

死磕Netty原始碼之記憶體分配詳解(三)PoolThreadCache執行緒快取記憶體分配

記憶體分配執行緒私有分配在介紹PoolArena記憶體分配結構分析的時候提到記憶體分配會先從執行緒快取裡分配，這個執行緒快取其實就是PoolThreadCache PoolThreadCache 成員變數 final PoolA

死磕Netty原始碼之記憶體分配詳解(一)(PooledByteBufAllocator)

前言為了避免頻繁的記憶體分配給系統帶來負擔以及GC對系統性能帶來波動，Netty4使用了記憶體池來管理記憶體的分配和回收，Netty記憶體池參考了Slab分配和Buddy分配思想。Slab分配是將記憶體分割成大小不等的記憶體塊，在使用者執行緒請求時根據請求的

FatFs原始碼剖析 FAT16圖文詳解 FatFs官網：http://www.elm-chan.org/fsw/ff/00index_e.html 本文文件形式檔案下載：

FatFsVersion0.01原始碼分析目錄一、API的函式功能簡述二、FATFS主要資料結構　　1、FAT32檔案系統的結構　　2、FATFS主要資

Android原始碼hardware目錄結構詳解

hardware 目錄（部分廠家開源的硬解適配層HAL程式碼） |-- broadcom （博通公司） | `-- wlan （無線網絡卡） |-

Linux rpm包、rpm原始碼包及tar原始碼包的安裝詳解

在使用linux系統的過程中，軟體包的安裝是避免不了的，在linux下，軟體安裝程式的種類很多，安裝方法也格式各樣，論安裝的舒適肯定比不上windows，windows安裝軟體基本就是用滑鼠點選下一步，如果學習linux的軟體包安裝，還像windows那樣點選滑鼠下一步安

變態礦工20app 全新版本原始碼開發的功能詳解

全新版本的變態礦工2.0都有哪些功能：進入遊戲系統自動贈送一個曠工+一座初級礦場，礦工體力維持72小時，屬性值隨機，找（魏經理1 5 5微1 7-1 2電7 1+2 8）贈送的礦工無代數關聯，不可交易，不可繁育，可以修煉，可以挖礦，後臺可設定，礦場有效期一直有效礦工僱傭：個人玩家擁有礦工數量不做限制

postgresql9.6主從高可用原始碼環境編譯配置詳解

系統版本：centos7 8核 32G記憶體主從伺服器IP： 192.168.125.33 postgreSQL master 192.168.125.34 postgreSQL slave 1、建立資料庫管理賬戶 # groupadd pggroup # useradd -g pggr

Spring IOC原理原始碼解析(@Autowired原理詳解：標識屬性與方法)（二）

原始碼推薦看這篇部落格的時候開啟Spring原始碼，一邊看原始碼，一邊看部落格上程式碼的關鍵處的註釋，這樣能更好的理解Spring IOC的流程及內部實現和使用方法。如果你對IOC的原理有些瞭解，則這些註釋能幫你更深入的理解其實現方式。 Spring容器在每個

amcl原始碼解析（完全詳解）

0. 寫在最前面這篇文章記錄下自己在閱讀amcl原始碼過程中的一些理解，如有不妥，歡迎評論或私信。本文中所有程式碼因為篇幅等問題，都只給出主要部分，詳細的自己下載下來對照著看。作者是在校研究生，會長期跟新自己學習ROS以及SLAM過程中的一些理解，喜歡的話歡迎

Spark MLlib原始碼分析—Word2Vec原始碼詳解

相關推薦