記一次用Java Stream Api的經歷

阿新 • • 發佈：2019-02-15

最近有個專案需要用到推薦系統，弄了個簡單的相似度推薦演算法。

資料為：

化簡為：

public class Worker {
    /**
     * 使用者編號
     */
    private long userId;
    /**
     * 期望城市
     */
    private String expectedCity;
    /**
     * 現在狀態
     */
    private int status;
    /**
     * 最高學歷
     */
    private String education;
    /**
     * 工作經驗
     */
    private int experience;
    /**
     * 星座
     */
    private String constellation;
    /**
     * 年齡
     */
    private int age;
    /**
     * 籍貫
     */
    private String nativePlace;
    /**
     * 自我介紹
     */
    private String introduction;
    /**
     * 所在地區
     */
    private String location;
    /**省略get() set()**/
}

計算策略是：

1、數值越接近，值越大

2、數值相同，返回1，否則返回0

3、如果是與字串有關的，例如（做飯做衛生，輔帶寶寶，做飯好吃，做事麻利，為人乾淨利落，形象好。易溝通。有育嬰師證。），則計算餘弦距離，在這裡沒有做分詞，因此將此內容的比重下降

演算法如下：

public class ScoreCos {
    /**
     * 不分詞 純字串計算
     * @param text1
     * @param text2
     * @return
     */
    public static double similarScoreCos(String text1, String text2){
        if(text1 == null || text2 == null){
            //只要有一個文字為null，規定相似度分值為0，表示完全不相等
            return 0.0;
        }else if("".equals(text1)&&"".equals(text2)) return 1.0;
        Set<Integer> ASII=new TreeSet<>();
        Map<Integer, Integer> text1Map=new HashMap<>();
        Map<Integer, Integer> text2Map=new HashMap<>();
        for(int i=0;i<text1.length();i++){
            Integer temp1=new Integer(text1.charAt(i));
            if(text1Map.get(temp1)==null) text1Map.put(temp1,1);
            else text1Map.put(temp1,text1Map.get(temp1)+1);
            ASII.add(temp1);
        }
        for(int j=0;j<text2.length();j++){
            Integer temp2=new Integer(text2.charAt(j));
            if(text2Map.get(temp2)==null) text2Map.put(temp2,1);
            else text2Map.put(temp2,text2Map.get(temp2)+1);
            ASII.add(temp2);
        }
        double xy=0.0;
        double x=0.0;
        double y=0.0;
        //計算
        for (Integer it : ASII) {
            Integer t1=text1Map.get(it)==null?0:text1Map.get(it);
            Integer t2=text2Map.get(it)==null?0:text2Map.get(it);
            xy+=t1*t2;
            x+=Math.pow(t1, 2);
            y+=Math.pow(t2, 2);
        }
        if(x==0.0||y==0.0) return 0.0;
        return xy/Math.sqrt(x*y);
    }


    /**
     * 相同返回1，不同返回0
     * @param o1
     * @param o2
     * @return
     */
    public static double equal(Object o1,Object o2) {
        return (o1!=null && o2!=null)&&o1.equals(o2)?1:0;
    }

    /**
     * 值約接近，返回值越接近1
     * 演算法為 1-（大-小）/（最大-最小）
     * @param o1
     * @param o2
     * @return
     */
    public static double similarByNumber(int o1, int o2, int max) {
        return 1-Math.abs(o1-o2)/max;
    }
}

演算法大致如下：

1、先從excel獲取資料

2、用兩個for迴圈計算物品間的相似度

3、排序後取前10個最大的

4、儲存資料

第一次跑，以工作人員的自我介紹作為相似度判斷依據

        //資料結構

        //結果
        Map<Long,List<Node>> map = new HashMap<>();

        //結果的每一行
        Map<Long, Double> row = new HashMap<>();

        //檔案內容
        Map<Long, String> content = new HashMap<>();

        //讀取檔案
        File file = new File("d:/data7.xls");
        InputStream inputStream = new FileInputStream(file);
        Workbook workbook = ExcelUtil.getWorkbok(inputStream,file);
        Sheet sheet = workbook.getSheetAt(0);

        //跳過第一個
        for (int i = 1; i < sheet.getLastRowNum(); i++) {
            Row r = sheet.getRow(i);
            Cell id = r.getCell(9);
            Cell cont = r.getCell(5);
            content.put(Long.valueOf(id.getStringCellValue()), cont.getStringCellValue());
        }
//        System.out.println(content);

        //兩個for迴圈計算相似度，取前10個
        for (Map.Entry<Long,String> c1:content.entrySet()) {
            Map<Long, Double> m = new HashMap<>();
            for (Map.Entry<Long,String> c2:content.entrySet()) {
                if(c1.getKey().equals(c2.getKey())) continue;
                double r = ScoreCos.similarScoreCos(c1.getValue(), c2.getValue());
                m.put(c2.getKey(), r);
            }
            List<Map.Entry<Long,Double>> list = new ArrayList<Map.Entry<Long,Double>>(m.entrySet());
            Collections.sort(list,new MyComparator());
            List<Node> nodeList = new ArrayList<>();
            for(int i = 0; i< 10 && i < list.size(); i++){
                Map.Entry<Long, Double> entry = list.get(i);
                nodeList.add(new Node(entry.getKey(), entry.getValue()));
            }
            map.put(c1.getKey(), nodeList);
            log.info("key:{},value:{}",c1.getKey(),nodeList);
        }


        //儲存為檔案
        save(map);

結果跑了4個小時左右，資料大概有30000個。

推測大概有如下原因：

1、單執行緒

2、只要取前10個，用不著全排序

將單執行緒變成多執行緒有多種方法。其中較為簡便的可以用Java1.8提供的並行流處理（parallelStream）

同時，從多個方面進行判斷

    /**
     * 值越接近1表示越接近
     * @param o
     * @return
     */
    public double distinct(Worker o){
        double dis = 0;
        dis += (3d / 16) * equal(this.expectedCity, o.expectedCity);
        dis += (1d / 16) * equal(this.status, o.status) ;
        dis += (2d / 16) * similarByNumber(this.experience,o.experience,496);
        dis += (2d / 16) * equal(this.education, o.education);
        dis += (2d / 16) * equal(this.constellation, o.constellation);
        dis += (2d / 16) * similarByNumber(this.age,o.age,40);
        dis += (2d / 16) * equal(this.nativePlace, o.nativePlace);
        dis += (1d / 16) * similarScoreCos(this.introduction, o.introduction);
        dis += (1d / 16) * similarScoreCos(this.location, o.location);
        return dis;
    }

改進後：

    /**
     * 流處理
     * @throws IOException
     */
    private static void useStreamApi() throws IOException {
        List<Worker> data = getFromDB();

        Map<Long, List<Node>> map = new ConcurrentHashMap<>();
        AtomicInteger integer = new AtomicInteger();
        //併發執行
        data.parallelStream().forEach(x->{
            //相當於兩個for迴圈
            List<Node> nodes = data.stream()
                //如果userId相同，則置為0
                .map(y -> new Node(y.getUserId(), x.getUserId()==y.getUserId()?0:x.distinct(y)))
                //降序
                .sorted(Comparator.reverseOrder())
                //取前10個
                .limit(10)
                //.peek(System.out::println)
                .collect(Collectors.toList());
            map.put(x.getUserId(), nodes);
            //每隔100個輸出一次
            if(integer.getAndIncrement()%100==0)
                log.info("key:{} value:{}",x.getUserId(),nodes);
        });
        save(map);
    }

重新計算一遍後用了40分鐘左右便出來了，而且stream用的也很簡潔。

參考：

《寫給大忙人看的Java SE 8》第二章

記一次用Java Stream Api的經歷

最近有個專案需要用到推薦系統，弄了個簡單的相似度推薦演算法。資料為：化簡為： public class Worker { /** * 使用者編號 */ private long userId; /** * 期

記一次阿裏電面經歷

art 存儲空間自由結束 eas 大型特定 easy col 昨天下午（3/19）三點多鐘，接到了一個杭州的電話，是阿裏的。問我是否方便聊聊。我說我在上課，四點下課。然後他就四點多鐘的時候又打了一次過來。項目經歷上來就問我有無大型項目的經歷。不好意思，我說無。。。又

記一次對java對象在內存中的分析

數據 ots 字節對齊位數數據位 64位數組內存大小特殊 java 對象占內存大小計算方式及常用類型的占用 HotSpot的對齊方式為8字節對齊 ----計算公式：（對象頭 + 實例數據 + padding） % 8等於0且0 <= padding

記一次服務器Tomcat優化經歷

type tomcat優化 ext stream jpg 試用 ros index ctp 博主原創，轉載請註明。公司需要一臺測試服務器來做測試用，所以花了幾天時間把服務全部部署好，在部署好war包之後，發現Tomcat訪問超級慢。 1、進入Tomcat的bin目錄下，運

UWP 記一次WTS 和 UCT翻車經歷

ont too templates input 修改 gpo cnblogs pup dial 原文:UWP 記一次WTS 和 UCT翻車經歷這次翻車，真的，在網上絕對找不到回答的。只有在WTS的Issues討論中才找到，哈哈不過這個應該比較少遇到吧，據我所知，提出

記一次RAID陣列的遷移經歷

行遷移 abs 一次操作常開 tabs 重啟控制器型號 xu言：最近，某電信機房因為空調漏水問題導致了我司的Dell R430 服務器的主板及CPU不同程度受損。服務器已經不能正常開機。但是，又基於把服務器的數據需要最短時間進行恢復。抱著試試看的心裏進行了磁盤整體

記一次線上Java程序導致服務器CPU占用率過高的問題排除過程

tasks all lob jstat rip 進行 runable tails 分享圖片 https://blog.csdn.net/u013991521/article/details/52781423 1、故障現象客服同事反饋平臺系統運行緩慢，網頁卡頓嚴重，多次重啟

記一次用PXE+kickstart批量為20臺新服務器安裝centos7

根據命令行界面 exe user size linux c mman win8 windows 基於PXE+kickstart批量安裝centos7：本文是純文字，後續會補充圖片 1.環境： CentOS Linux release 7.4.1708 (Core)ker

記一次抓狂的亂碼經歷

win7 idt 參數崩潰 tex 讀取消失以及發生常年Eclipse的守舊派久聞IDEA大名，終於在dalao的安利下入了IDEA的坑（（才不是因為可以用翻譯插件入坑一段時間，因為在編碼方面了解的還算比較多，平時基本沒遇到過亂碼問題，並且在第一次使用ID

記一次驚險的檔案恢復經歷Eclipse saved my day

事情起因事情的起因是這樣的：為了替換掉程式碼中某個常量的值，我使用了sed命令，本來以前用得好好的，這次討巧嘗試了一種新的方法，結果因為對sed不夠了解，又沒有經過試驗，想當然地對程式碼檔案進行了處理，結果就悲劇了——所有被處理過的檔案內容都被清空了。峰迴路轉怎麼鬱悶，

記一次喪心病狂的找bug經歷

java.lang.IllegalAccessError: tried to access class javax.el.Util from class javax.el.ELManager 這個報錯我今天快看吐了，用了一下午加一晚上才解決。說它是bug又不是bug，說不是也算是。

記一次專案談判的失敗經歷，要拒絕免費開發！

程式設計師平時總難免要接個外包，幹個兼職啥的。下面給大家講講我這次經歷，給大家增長一點經驗。我這段時間由於自由創業，經濟上小有緊張。幻想是不是可以兼職接點活幹幹，幫補一下經濟。一次偶然的機會，得知某老闆有一個專案，正在找一個技術合夥人。當合夥人我倒不至於那麼想當，倒是很想看看有什麼活可以扒點乾乾，多掙個三

【LEDE】x86軟路由之路-08-記一次不能開機的經歷

在overlay中建立了/overlay/upper/var並添加了一個檔案，就開不開機了。。原因：核心中指明特性/var是/tmp的符號連線（預設配置下），再在upper中建立一上層資料夾，讓核心如何是好？？？怕是掛載overlay都掛在不了了。當然開機失敗了！刪了

記一次“大華”的面試經歷

如題，這是一篇關於大華面試的分享，之所以標題中的大華加上雙引號是因為這次的面試並不是大華直接發的面試邀請，而是通過外派的形式進入大華，由大華的技術負責人面試。寫這篇文章的目的有兩點： 1、梳理自己的面試過程，讓自己對知識點有更清晰的理解，將面試過程中沒答上的問題進行回顧

記一次用python selenium 通過chrome+chromedriver 實現公司內網上網自動登入認證、上班自動登入打卡python指令碼筆記

背景寫這個指令碼純屬是覺得好玩而已，一開始以為很簡單，看了大部分網上的程式碼確實很簡單就那麼幾行，自己也就想試試，後來發現由於這個還涉及了一些html的知識點發現還是沒那麼簡單的，從一開始獲取登入按鈕的input id到後面打卡按鈕無法使用發現還使用了ifr

記一次記憶體溢位的分析經歷——thrift帶給我的痛orz

說在前面的話朋友，你經歷過部署好的服務突然記憶體溢位嗎？你經歷過沒有看過Java虛擬機器，來解決記憶體溢位的痛苦嗎？你經歷過一個BUG，百思不得其解，頭髮一根一根脫落的煩惱嗎？我知道，你有過！但是我還是要來說說我的故事..................背景：有一個專案做一個

記一次入侵XP系統的經歷

這是一次真實的入侵例項，事情發生在2005年的九月的一天，我們單位被集團公司的另一個大單位兼併。被兼併的第二天，大單位的財務人員到了我們廠，對我們廠進行了全面的財務審查。雖然沒查出什麼問題，顯然這幫人是對我們不放心的，下午他們又開始拉區域網線到我們的辦公室，要和我們聯網，

記一次曲折的滲透測試經歷

昨天把jexboss指令碼整合到我的多執行緒框架裡，掃了一遍全國jboss，發現一千多個shell. 隨意拿了一個看似大廠商的，作本次入侵測試發現傳送門通過jexboss拿到shell，看到是centos的機器(IP已打碼)．看起來是r

記一次清除ddos肉雞的經歷

好了begin 。。。是這樣的，公司內網有一題臺伺服器，一個星期到某個時段公司所有機器斷網上不去網的情況，正是那是我們公司是做wifi相關產品，公司擺了很多路由器做測試，我們以為是裝置訊號干擾之類導致到家上不去網也就沒有太大關注。但是這種事情發生多了，而且還蠻有規律的，我就意識到是不是

記一次記憶體溢位的分析經歷

開發十年，就只剩下這套架構體系了！ >>>

記一次用Java Stream Api的經歷

相關推薦