scala篩選460億條記錄的hive表

阿新 • • 發佈：2019-01-13

背景：

接到任務，需要在一個一天資料量在460億條記錄的hive表中，篩選出某些host為特定的值時才解析該條記錄的http_content中的經緯度：

解析規則譬如：

1 2 3 4

需要解析host:
 api.map.baidu.com

需要解析的規則："result":{"location":{"lng":120.25088311933617,"lat":30.310684375444877}, "confidence":25

需要解析http_conent:renderReverse&&renderReverse({"status":0,"result":{"location":{"lng":120.25088311933617,"lat":30.310684375444877},"formatted_address":"???????????????????????????????????????","business":"","addressComponent":{"country":"??????","country_code":0,"province":"?????????","city":"?????????","district":"?????????","adcode":"330104","street":"????????????","street_number":"","direction":"","distance":""},"pois":[{"addr":"????????????5277???","cp":"
 ","direction":"???","distance":"68","name":"????????????????????????????????????","poiType":"????????????","point":{"x":120.25084961536486,"y":30.3112150

Scala程式碼實現“訪問hive，並儲存結果到hive表”的spark任務：

開發工具為IDEA16,開發語言為scala,開發包有了spark對應叢集版本下的很多個jar包，和對應叢集版本下的很多個jar包，引入jar包：

scala程式碼：

import java.sql.{Connection, DriverManager, PreparedStatement, Timestamp}

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.sql.hive.HiveContext
 
import java.util
import java.util.{UUID, Calendar, Properties}
import org.apache.spark.rdd.JdbcRDD
import org.apache.spark.sql.{Row, SaveMode, SQLContext}
import org.apache.spark.storage.StorageLevel
import org.apache.spark.{sql, SparkContext, SparkConf}
import org.apache.spark.sql.DataFrameHolder

 
/**
  * temp http_content
  **/
case class Temp_Http_Content_ParserResult(success: String, lnglatType: String, longitude: String, Latitude: String, radius: String)

/**
  * Created by Administrator on 2016/11/15.
  */
object ParserMain {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf() 
    //.setAppName("XXX_ParserHttp").setMaster("local[1]").setMaster("spark://172.21.7.10:7077").setJars(List("xxx.jar"))
        //.set("spark.executor.memory", "10g")
    val sc = new SparkContext(conf)
    val hiveContext = new HiveContext(sc)

    // use abc_hive_db;
    hiveContext.sql("use abc_hive_db")
    // error date format:2016-11-15，date format must be 20161115
    val rdd = hiveContext.sql("select host,http_content from default.http where hour>='20161115' and hour<'20161116'")

    // toDF() method need this line...
    import hiveContext.implicits._

    // (success, lnglatType, longitude, latitude, radius)
    val rdd2 = rdd.map(s => parse_http_context(s.getAs[String]("host"), s.getAs[String]("http_content"))).filter(s => s._1).map(s => Temp_Http_Content_ParserResult(s._1.toString(), s._2, s._3, s._4, s._5)).toDF()
    rdd2.registerTempTable("Temp_Http_Content_ParserResult_20161115")
    hiveContext.sql("create table Temp_Http_Content_ParserResult20161115 as select * from Temp_Http_Content_ParserResult_20161115")

    sc.stop()
  }

  /**
    * @ summary: 解析http_context欄位資訊
    * @ param http_context 引數資訊
    * @ result 1:是否匹配成功；
    * @ result 2:匹配出的是什麼經緯度的格式：
    * @ result 3:經度；
    * @ result 4:緯度,
    * @ result 5:radius
    **/
  def parse_http_context(host: String, http_context: String): (Boolean, String, String, String, String) = {
    if (host == null || http_context == null) {
      return (false, "", "", "", "")
    }

    //    val result2 = parse_http_context(“api.map.baidu.com”,"renderReverse&&renderReverse({\"status\":0,\"result\":{\"location\":{\"lng\":120.25088311933617,\"lat\":30.310684375444877},\"formatted_address\":\"???????????????????????????????????????\",\"business\":\"\",\"addressComponent\":{\"country\":\"??????\",\"country_code\":0,\"province\":\"?????????\",\"city\":\"?????????\",\"district\":\"?????????\",\"adcode\":\"330104\",\"street\":\"????????????\",\"street_number\":\"\",\"direction\":\"\",\"distance\":\"\"},\"pois\":[{\"addr\":\"????????????5277???\",\"cp\":\" \",\"direction\":\"???\",\"distance\":\"68\",\"name\":\"????????????????????????????????????\",\"poiType\":\"????????????\",\"point\":{\"x\":120.25084961536486,\"y\":30.3112150")
    //    println(result2._1 + ":" + result2._2 + ":" + result2._3 + ":" + result2._4 + ":" + result2._5)
   
    var success = false
    var lnglatType = ""
    var longitude = ""
    var latitude = ""
    var radius = ""
    var lowerCaseHost = host.toLowerCase().trim();
    val lowerCaseHttp_Content = http_context.toLowerCase()
    //    api.map.baidu.com
    //    "result":{"location":{"lng":120.25088311933617,"lat":30.310684375444877},
    //    "confidence":25
    //     --renderReverse&&renderReverse({"status":0,"result":{"location":{"lng":120.25088311933617,"lat":30.310684375444877},"formatted_address":"???????????????????????????????????????","business":"","addressComponent":{"country":"??????","country_code":0,"province":"?????????","city":"?????????","district":"?????????","adcode":"330104","street":"????????????","street_number":"","direction":"","distance":""},"pois":[{"addr":"????????????5277???","cp":" ","direction":"???","distance":"68","name":"????????????????????????????????????","poiType":"????????????","point":{"x":120.25084961536486,"y":30.3112150
    if (lowerCaseHost.equals("api.map.baidu.com")) {
      val indexLng = lowerCaseHttp_Content.indexOf("\"lng\"")
      val indexLat = lowerCaseHttp_Content.indexOf("\"lat\"")
      if (lowerCaseHttp_Content.indexOf("\"location\"") != -1 && indexLng != -1 && indexLat != -1) {
        var splitstr: String = "\\,|\\{|\\}"
        var uriItems: Array[String] = lowerCaseHttp_Content.split(splitstr)
        var tempItem: String = ""
        lnglatType = "BD"
        success = true
        for (uriItem <- uriItems) {
          tempItem = uriItem.trim()
          if (tempItem.startsWith("\"lng\":")) {
            longitude = tempItem.replace("\"lng\":", "").trim()
          } else if (tempItem.startsWith("\"lat\":")) {
            latitude = tempItem.replace("\"lat\":", "").trim()
          } else if (tempItem.startsWith("\"confidence\":")) {
            radius = tempItem.replace("\"confidence\":", "").trim()
          }
        }
      }
    }  
    else if (lowerCaseHost.equals("loc.map.baidu.com")) {
      。。。
    }

    longitude = longitude.replace("\"", "")
    latitude = latitude.replace("\"", "")
    radius = radius.replace("\"", "")

    (success, lnglatType, longitude, latitude, radius)
  }
}

打包，注意應為我們使用的hadoop&hive&spark on yarn的叢集，我們這裡並不需要想spark&hadoop一樣還需要在執行spark-submit時將spark-hadoop-xx.jar打包進來，也不需要在submit-spark指令碼.sh中制定jars引數，yarn會自動診斷我們需要哪些集群系統包；但是，如果你應用的是第三方的包，比如ab.jar，那打包時可以打包進來，也可以在spark-submit 引數jars後邊指定特定的包。

寫spark-submit提交指令碼.sh：

當執行spark-submit指令碼出現錯誤時，怎麼應對呢？

注意，我們這裡不是spark而是spark on yarn，當我們使用yarn-cluster方式提交時，介面是看不到任何日誌新的。我們需要藉助yarn管理系統來檢視日誌：

1、根據返回的任務id檢視歷史日誌：

yarn logs -applicationId  application_1475071482566_3329402

2、yarn頁面檢視日誌

https://xx.xx.xx.xx:xxxxx/Yarn/ResourceManager/xxxx/cluster 使用者名稱/密碼：user/password

3、yarn關閉application: 從yarn resourcemanger介面中，可以檢視到具體的applicationId，使用命令來殺掉該任務：更多命令可以參考：http://hadoop.apache.org/docs/stable/hadoop-yarn/hadoop-yarn-site/YarnCommands.html

yarn application -kill application_1475071482566_3807023

或者從介面進入spark作業進度管理介面，進行檢視作業具體執行進度，也可以kill application

參考資料： http://blog.csdn.net/sparkexpert/article/details/50964732

Spark On YARN記憶體分配:http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html?utm_source=tuicool

scala篩選460億條記錄的hive表

Spark On YARN記憶體分配:http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html?utm_source=tuicool

scala篩選460億條記錄的hive表

oracle上億條記錄大表delete

如何在十分鐘內插入1億條記錄到Oracle資料庫？

有一個擁有1億條資料的表，只需要保留其中的5條，其他刪除，如何做？

Sqoop分批匯入Mysql上億條資料的表到HDFS

用JAVA如何實現每天1億條記錄的資料儲存，資料庫方面怎麼設計？

PostgreSQL 規模參考：400G+容量，N億條記錄

表A中一條記錄的兩個字段都對應於表B的同一個字段如何查詢？SQL, thinkphp[5]

Hive分組取第一條記錄

取得left join的第二表中符合條件的第一條記錄

mybatis 關聯查詢時，從表只返回第一條記錄解決辦法

更新表中的最早一條記錄

從資料庫表中隨機獲取N條記錄的SQL語句

前端之路：sql語句，表中隨機獲取一條記錄（資料）。（或者獲取隨機獲取多條（記錄）資料）

給出n個學生的考試成績表，每條記錄由學號、姓名和分數和名次組成，設計演算法完成下列操作：（1）設計一個顯示對學生資訊操作的選單函式如下所示： *************************

UPDATE SET a.id = (select) 關聯多張表更新多條記錄

sql 刪除表中多餘的重複記錄（多個欄位），只保留一條記錄

如何查詢oracle資料庫一個表中的多條記錄是否有重複

從表中隨機取5條記錄

一個表單同時提交多條記錄

scala篩選460億條記錄的hive表

Spark On YARN記憶體分配:http://blog.javachen.com/2015/06/09/memory-in-spark-on-yarn.html?utm_source=tuicool

相關推薦