java，spark實現黑名單過濾

阿新 • • 發佈：2018-11-30

/**
 * java,spark實現黑名單過濾
 */
public class BlackListFilter {

    public static void main(String[] args){
        SparkConf conf = new SparkConf().setAppName("Simple Application").setMaster("local[2]");

        JavaSparkContext sc = new JavaSparkContext(conf);

        JavaRDD<String> javaRDD = sc.textFile("F: 
\\text\\url.txt");
        //黑名單
        List<Tuple2<String, Boolean>> blackList = Arrays.asList(new Tuple2<String, Boolean>("a", true),
                new Tuple2<String, Boolean>("b", true),
                new Tuple2<String, Boolean>("c", true));
        //list => JavaPairRDD
 
        JavaPairRDD<String, Boolean> blackListRDD = sc.parallelizePairs(blackList);
        //lines => words => (word, 1)
        JavaPairRDD<String, Integer> wordsAndCount = javaRDD
                .flatMap(new FlatMapFunction<String, String>() {
            @Override
             
public Iterator<String> call(String s) throws Exception {
                return Arrays.asList(s.split("\\s+")).iterator();
            }
        }).mapToPair(new PairFunction<String, String, Integer>() {
            @Override
            public Tuple2<String, Integer> call(String s) throws Exception {
                return new Tuple2<String, Integer>(s, 1);
            }
        });
        //(word, 1) leftOutJoin (word, true) => (word, (1, Option))
        JavaPairRDD<String, Tuple2<Integer, Optional<Boolean>>> leftOuterJoin =
                wordsAndCount.leftOuterJoin(blackListRDD);
        //(word, (1, Option)) => filter => (word, (1, option = false)) => map => word
        JavaRDD<String> whiteList = leftOuterJoin.filter(new Function<Tuple2<String, Tuple2<Integer, Optional<Boolean>>>, Boolean>() {
            @Override
            public Boolean call(Tuple2<String, Tuple2<Integer, Optional<Boolean>>> t) throws Exception {
                return t._2._2.orElse(false) ? false : true;
            }
        }).map(new Function<Tuple2<String, Tuple2<Integer, Optional<Boolean>>>, String>() {
            @Override
            public String call(Tuple2<String, Tuple2<Integer, Optional<Boolean>>> t) throws Exception {
                return t._1;
            }
        });

        System.out.println(whiteList.collect());
    }
}

java，spark實現黑名單過濾

/** * java,spark實現黑名單過濾 */ public class BlackListFilter { public static void main(String[] args){ SparkConf conf = new SparkConf().setA

Mac/Linux 配置多版本Java，並實現命令列快速切換

0. 目標使用簡單快捷的命令列，快速的切換本機的Java環境 1. 下載JDK 1.8：官網下載； 1.7：https://pan.baidu.com/s/1iCWtZhK_E-KYwZJcMqQ-mQ 2. 安裝JDK 一路next 安裝完成的路徑：

java，簡單實現cglib動態代理。

Cglib是動態代理的一種實現方式，用來代理普通的javaBean, /** * 實現MethodInterceptor * @author MyComputer * */ public class CGLibProxy implements MethodInt

雲棲社群2019年1月技術活動：PG， Java，Spark等30+場預告【持續更新】

應廣大開發者的需求，雲棲社群將技術活動，如技術直播、系列公開課、Meetup、峰會、釘群分享等進行了預告與整理。歡迎大家分享給小夥伴們！如有建議，歡迎聯絡我們，聯絡方式見下方二維碼。排期安排 PostgreSQL：時間：2019-1-2 【釘群直播】主題：PG系列課程直播（第9講）Postgre

ol3中妙用Arcgis Server Rest Export介面模擬WMS，並實現屬性過濾

概述在本文，講述如何妙用Arcgis Server的REST Export介面實現WMS服務的呼叫和圖層的屬性過濾。參考 1、巧用Arcgis Server的REST介面實現OL2中WMS新增過濾 2、OGC——WMS詳細介紹（arcgis server舉例）參

新詞發現及Java和spark實現

新詞發現並不是一個新的課題，但最有意思的一點是如果採用無監督的演算法，可以完全脫離人工的經驗由演算法自動找到有語意的“詞語”，而不是胡亂拼湊的漢字片段（歸因於演算法的有效性和語料本身是由有意義的詞語構成的）。本文參考了matrix67的一篇文章，網際網路時代的社

動手實戰聯合使用Spark Streaming、Broadcast、Accumulator計數器實現線上黑名單過濾和計數

本博文主要包括： 1、Spark Streaming與Broadcast、Accumulator聯合 2、線上黑名單過濾和計數實戰一、Spark Streaming與Broadcast、Accumulator聯合：在企業實戰中，廣播本身廣播到叢集的時

【轉載】對一致性Hash算法，Java代碼實現的深入研究

困難之前存在 itl ger 正常我不操作算法實現原文地址：http://www.cnblogs.com/xrq730/p/5186728.html 一致性Hash算法關於一致性Hash算法，在我之前的博文中已經有多次提到了，MemCache超詳細解讀一

對一致性Hash算法，Java代碼實現的深入研究

memcach 還原情況 () 實用 target 強人最壞情況一致性hash 一致性Hash算法關於一致性Hash算法，在我之前的博文中已經有多次提到了，MemCache超詳細解讀一文中"一致性Hash算法"部分，對於為什麽要使用一致性Hash算法、一致性Has

java在線聊天項目1.2版 ——開啟多個客戶端，分別實現數據庫註冊和登錄功能後，成功登陸則登錄框消失，好友列表窗出現

false als blog string def iat ets cat med 登錄框消失語句 dispose(); 好友列表窗出現使用new FriendsFrame(phone,s); 登陸對話框代碼修改如下： package com.swift.frame;

java處理大數據量任務時的可用思路--未驗證版，具體實現方法有待實踐

mapr 正向碰撞並且 aggregate pear 因此 mapreduce and 1.Bloom filter適用範圍：可以用來實現數據字典，進行數據的判重，或者集合求交集基本原理及要點：對於原理來說很簡單，位數組+k個獨立hash函數。將hash函數對應的值的

Kafka：ZK+Kafka+Spark Streaming集群環境搭建（二）VMW安裝四臺CentOS，並實現本機與它們能交互，虛擬機內部實現可以上網。

centos 失敗 sco pan html top n 而且 div href Centos7出現異常：Failed to start LSB: Bring up/down networking. 按照《Kafka：ZK+Kafka+Spark Streaming集群環

【Thumbnailator】java 使用Thumbnailator實現等比例縮放圖片，旋轉圖片等【轉載】

strong class chm eight load angle true api ins Thumbnailator概述： Thumbnailator是與Java界面流暢的縮略圖生成庫。它簡化了通過提供一個API允許精細的縮略圖生成調整生產從現有的圖

所謂的網頁爬蟲用java程式碼來實現，此程式碼適合在maven專案中使用中使用，因為，程式碼中的類所對應的依賴可以讓maven下載。

//獲得httpClient物件 CloseableHttpClient httpClient = HttpClients.createDefault(); //url公司域名隨便 String url = "https://www.baidu.co

大資料之Spark（五）--- Spark的SQL模組，Spark的JDBC實現，SparkSQL整合MySQL，SparkSQL整合Hive和Beeline

一、Spqrk的SQL模組 ---------------------------------------------------------- 1.該模組能在Spack上執行Sql語句 2.可以處理廣泛的資料來源 3.DataFrame --- RDD --- tabl

大資料之Spark（一）--- Spark簡介，模組，安裝，使用，一句話實現WorldCount，API，scala程式設計，提交作業到spark叢集，指令碼分析

一、Spark簡介 ---------------------------------------------------------- 1.快如閃電的叢集計算 2.大規模快速通用的計算引擎 3.速度: 比hadoop 100x,磁碟計算快10x 4.使用: java

java 中使用logback日誌，並實現日誌按天分類壓縮儲存。

以maven專案作為構建工具為例，首先引入使用logback需要的3個依賴，需要注意使用logback是需要引入slf4j-api的，因為logback是基於slf4j的  <dependency> <groupId>ch.qo

java不是分散式的兩個服務之間呼叫，如何實現事務回滾？

之前開發springCloud微服務，遇到微服務之間呼叫事務回滾問題，網上瀏覽存在多種解決方案。但是最後發現，實現服務回滾的多個服務必須要在同一個註冊中心下，也就是說，必須要有一個主服務管理者所有的分散式服務。 &

java實現計算器（最低版1.0，只能實現從左到右依次計算）——初學者入門

軟體:eclipse 才開始用java設計東西，我覺得這個程式適用於初步想設計計算器的同學用，雖然很簡單，但我會慢慢更新自己所寫計算器，實現更強的邏輯。例如：61-7*4=216（從左至右的簡單邏輯，還不完善）程式碼：（有詳細註釋） //大佬不適合看！ package l

linux上安裝redis資料庫，並實現 java連線redis一路遇到的錯誤

1. 問題：解壓完redis後進行make時，提示錯誤“gcc命令未找到”。原因：沒有安裝 gcc編譯器。解決方法：使用命令 yum install -y gcc g++ gcc-c++ make 安

java，spark實現黑名單過濾

相關推薦