spark稀疏向量與稠密向量

阿新 • • 發佈：2021-01-18

舉個例子,某個向量,稠密向量如下

v=[0,0,0,0,1,0,3,0,0,0]

寫成稀疏向量就是

(10,[4,6],[1,3])

在這裡插入圖片描述

程式碼表示

import org.apache.spark.ml.linalg
import org.apache.spark.ml.linalg.Vectors

object VectorTest {
  def main(args: Array[String]): Unit = {
    // 建立一個稠密向量
    val dv: linalg.Vector = Vectors.dense(1.0, 0.0, 0.0, 3.0 
)
    println(s"dv = ${dv}") //dv = [1.0,0.0,0.0,3.0]
    //將此向量轉換為稀疏向量，並刪除所有顯式零。
    println(dv.toSparse) //(4,[0,3],[1.0,3.0])

    //建立一個稀疏向量
    //也就是說0位置是1，1位置是預設的0，2位置是3
    val sv1: linalg.Vector = Vectors.sparse(3, Array(0, 2), Array(1.0, 3.0))
    println(s"sv1 = ${sv1}") //sv1 = (3,[0,2],[1.0,3.0]) 


    //建立一個稀疏向量
    // Create a sparse vector (1.0, 0.0, 3.0)
    val sv2: linalg.Vector = Vectors.sparse(3, Seq((0, 1.0), (2, 3.0)))
    println(s"sv2 = ${sv2}") //sv2 = (3,[0,2],[1.0,3.0])
  }
}

總結

稀疏向量就是可以節約空間!

spark稀疏向量與稠密向量

技術標籤：sparkspark稀疏向量稠密向量舉個例子,某個向量,稠密向量如下 v=[0,0,0,0,1,0,3,0,0,0]

資料結構與演算法-向量

向量介面與實現 ADT介面資料結構 = 基於某種特定語言，實現ADT的一整套演算法

2020年李永樂線性代數強化筆記-特徵值、特徵向量與二次型

文章目錄特徵值、特徵向量1 特徵值、特徵向量2 相似3 實對稱矩陣二次型1 標準形、規範形2 正定3 合同

陣列與向量的比較向量/陣列相同元素去重

技術標籤：資料結構c++ 陣列的氣泡排序與向量vector的氣泡排序 #include <bits/stdc++.h>

向量與X軸的夾角

class vectorAngle():def __init__(self, vec):self.x, self.y = vec[0], vec[1]def vecAttr(self):# 判斷點所在的象限#N#WOE#Sref = 0.x, y = self.x, self.yif x == ref:if y == ref:res = \'OO\'elif y > ref:

面對物件程式設計(Java)實驗1—陣列、字串、向量與雜湊表

目錄實驗內容詞頻統計二維陣列字串查詢主要實驗：詞頻統計，二維陣列、雜湊表、字串

MatLab---邏輯向量與邏輯矩陣

v=rand(1,5) v = 0.3012 0.4709 0.2305 0.8443 0.1948 >> v>0.5 ans = 1×5 logical 陣列 0 0 0 1 0 v(u) ;顯示logical型別為真值的元素

Spark 系列（五）—— Spark 執行模式與作業提交

一、作業提交 1.1spark-submit Spark 所有模式均使用 spark-submit 命令提交作業，其格式如下：

從0開始學習大資料之java spark程式設計入門與專案實踐

本文例項講述了大資料java spark程式設計。分享給大家供大家參考，具體如下：

關於Numpy中的行向量和列向量詳解

行向量方式1 import numpy as np b=np.array([1,2,3]).reshape((1,-1)) print(b,b.shape) 結果： (array([[1,3]]),(1,3))

spark之Executor與初始化SparkSession

關於Executor：一個executor同時只能執行一個計算任務但一個worker(物理節點)上可以同時執行多個executor

Spark Sql 介紹與實戰

Spark Sql 介紹與實戰目錄Spark Sql 介紹與實戰Spark Sql介紹CatalystSQL CoreSQL實戰重點問題QA

Spark快取機制與檢查點機制

RDD的cache快取　　-如果一個RDD需要重複使用，那麼需要從頭再次執行來獲取資料

基於TensorFlow2.0，使用Bert模型生成詞向量和句向量

技術標籤：tensorflowpython人工智慧深度學習機器學習一、前言使用pytorch和TensorFlow呼叫的包是不一樣的，這裡只有TensorFlow的簡單教程

spark 廣播變數與累加器

如何理解廣播變數？適用場景：大變數，比如100M以上的大集合。運算元函式中使用到外部變數時，預設情況下，Spark會將該變數複製多個副本，通過網路傳輸到task中，此時每個task都有一個變數副本。如果變數本身比較

稀疏陣列與密集陣列

稀疏陣列稀疏陣列：索引不連續，陣列長度大於元素個數的陣列, 可以簡單理解為有empty的陣列，類似於empty元素代表這個位置沒有初始化，

Spark SQL知識點與實戰

Spark SQL概述 1、什麼是Spark SQL Spark SQL是Spark用於結構化資料(structured data)處理的Spark模組。

java陣列---稀疏陣列與陣列之間的相互轉化

public static void main(String[] args) {int[][]array1=new int[11][11];array1[1][2]=1;array1[2][3]=2;System.out.println(\"原始陣列\");for (int[] ints:array1) {for (int anInt :ints){System.out.print(anI

Spark排錯與優化

一. 運維 1. Master掛掉,standby重啟也失效 Master預設使用512M記憶體，當叢集中執行的任務特別多時，就會掛掉，原因是master會讀取每個task的event log日誌去生成Sparkui，記憶體不足自然會OOM，可以在master的執行

TensorFlow2.0矩陣與向量的加減乘例項

1、矩陣加法使用 a = np.random.random((3,3)) b = np.random.randint(0,9,(3,3)) ad = tf.add(a,b) 2、矩陣乘法注意

spark稀疏向量與稠密向量

程式碼表示

總結

相關推薦