雪花算法的實現

阿新 • • 發佈：2019-03-31

sequence toc back urn 機器 nds ner gethost second

核心思想：

SnowFlake的結構如下(每部分用-分開):<br>
* 0 - 0000000000 0000000000 0000000000 0000000000 0 - 00000 - 00000 - 000000000000 <br>
* 1位標識，由於long基本類型在Java中是帶符號的，最高位是符號位，正數是0，負數是1，所以id一般是正數，最高位是0<br>
* 41位時間截(毫秒級)，註意，41位時間截不是存儲當前時間的時間截，而是存儲時間截的差值（當前時間截 - 開始時間截)
* 得到的值），這裏的的開始時間截，一般是我們的id生成器開始使用的時間，由我們程序來指定的（如下下面程序IdWorker類的startTime屬性）。41位的時間截，可以使用69年，年T = (1L << 41) / (1000L * 60 * 60 * 24 * 365) = 69<br>
 
* 10位的數據機器位，可以部署在1024個節點，包括5位datacenterId和5位workerId<br>
* 12位序列，毫秒內的計數，12位的計數順序號支持每個節點每毫秒(同一機器，同一時間截)產生4096個ID序號<br>
* 加起來剛好64位，為一個Long型。<br>
* SnowFlake的優點是，整體上按照時間自增排序，並且整個分布式系統內不會產生ID碰撞(由數據中心ID和機器ID作區分)，並且效率較高，經測試，SnowFlake每秒能夠產生26萬ID左右。
*/

 網上的教程一般存在兩個問題：
* 1. 機器ID（5位）和數據中心ID（5位）配置沒有解決，分布式部署的時候會使用相同的配置，任然有ID重復的風險。
 
* 2. 使用的時候需要實例化對象，沒有形成開箱即用的工具類。
*
* 本文針對上面兩個問題進行解決，筆者的解決方案是，workId使用服務器hostName生成，
* dataCenterId使用IP生成，這樣可以最大限度防止10位機器碼重復，但是由於兩個ID都不能超過32，
* 只能取余數，還是難免產生重復，但是實際使用中，hostName和IP的配置一般連續或相近，
* 只要不是剛好相隔32位，就不會有問題，況且，hostName和IP同時相隔32的情況更加是幾乎不可能
* 的事，平時做的分布式部署，一般也不會超過10臺容器。使用上面的方法可以零配置使用雪花算法，
* 雪花算法10位機器碼的設定理論上可以有1024個節點，生產上使用docker配置一般是一次編譯，
 
* 然後分布式部署到不同容器，不會有不同的配置，這裏不知道其他公司是如何解決的，即使有方法
* 使用一套配置，然後運行時根據不同容器讀取不同的配置，但是給每個容器編配ID，1024個
* （大部分情況下沒有這麽多），似乎也不太可能，此問題留待日後解決後再行補充。
*/


現在通過配置文件配置 數據中心（機房）編碼 和 機器碼，如果沒有配置則通過機器IP個機器明取余生成這2個編碼

一創建生成器

package spring.cloud.common.util.id;

/**
 *
 * 來源：https://www.cnblogs.com/relucent/p/4955340.html
 * 作者：永夜微光
 * Twitter_Snowflake<br>
 * SnowFlake的結構如下(每部分用-分開):<br>
 * 0 - 0000000000 0000000000 0000000000 0000000000 0 - 00000 - 00000 - 000000000000 <br>
 * 1位標識，由於long基本類型在Java中是帶符號的，最高位是符號位，正數是0，負數是1，所以id一般是正數，最高位是0<br>
 * 41位時間截(毫秒級)，註意，41位時間截不是存儲當前時間的時間截，而是存儲時間截的差值（當前時間截 - 開始時間截)
 * 得到的值），這裏的的開始時間截，一般是我們的id生成器開始使用的時間，由我們程序來指定的（如下下面程序IdWorker類的startTime屬性）。41位的時間截，可以使用69年，年T = (1L << 41) / (1000L * 60 * 60 * 24 * 365) = 69<br>
 * 10位的數據機器位，可以部署在1024個節點，包括5位datacenterId和5位workerId<br>
 * 12位序列，毫秒內的計數，12位的計數順序號支持每個節點每毫秒(同一機器，同一時間截)產生4096個ID序號<br>
 * 加起來剛好64位，為一個Long型。<br>
 * SnowFlake的優點是，整體上按照時間自增排序，並且整個分布式系統內不會產生ID碰撞(由數據中心ID和機器ID作區分)，並且效率較高，經測試，SnowFlake每秒能夠產生26萬ID左右。
 */
public class SnowflakeIdWorker {

    // ==============================Fields===========================================
    /**
     * 開始時間截 (2019-02-01)
     */
    private final long twepoch = 1548950400000L;

    /**
     * 機器id所占的位數
     */
    private final long workerIdBits = 5L;

    /**
     * 數據標識id所占的位數
     */
    private final long datacenterIdBits = 5L;

    /**
     * 支持的最大機器id，結果是31 (這個移位算法可以很快的計算出幾位二進制數所能表示的最大十進制數)
     */
    private final long maxWorkerId = -1L ^ (-1L << workerIdBits);

    /**
     * 支持的最大數據標識id，結果是31
     */
    private final long maxDatacenterId = -1L ^ (-1L << datacenterIdBits);

    /**
     * 序列在id中占的位數
     */
    private final long sequenceBits = 12L;

    /**
     * 機器ID向左移12位
     */
    private final long workerIdShift = sequenceBits;

    /**
     * 數據標識id向左移17位(12+5)
     */
    private final long datacenterIdShift = sequenceBits + workerIdBits;

    /**
     * 時間截向左移22位(5+5+12)
     */
    private final long timestampLeftShift = sequenceBits + workerIdBits + datacenterIdBits;

    /**
     * 生成序列的掩碼，這裏為4095 (0b111111111111=0xfff=4095)
     */
    private final long sequenceMask = -1L ^ (-1L << sequenceBits);

    /**
     * 工作機器ID(0~31)
     */
    private long workerId;

    /**
     * 數據中心ID(0~31)
     */
    private long datacenterId;

    /**
     * 毫秒內序列(0~4095)
     */
    private long sequence = 0L;

    /**
     * 上次生成ID的時間截
     */
    private long lastTimestamp = -1L;

    //==============================Constructors=====================================

    /**
     * 構造函數
     *
     * @param workerId     工作ID (0~31)
     * @param datacenterId 數據中心ID (0~31)
     */
    public SnowflakeIdWorker(long workerId, long datacenterId) {
        if (workerId > maxWorkerId || workerId < 0) {
            throw new IllegalArgumentException(String.format("worker Id can‘t be greater than %d or less than 0", maxWorkerId));
        }
        if (datacenterId > maxDatacenterId || datacenterId < 0) {
            throw new IllegalArgumentException(String.format("datacenter Id can‘t be greater than %d or less than 0", maxDatacenterId));
        }
        this.workerId = workerId;
        this.datacenterId = datacenterId;
    }

    // ==============================Methods==========================================

    /**
     * 獲得下一個ID (該方法是線程安全的)
     *
     * @return SnowflakeId
     */
    public synchronized long nextId() {
        long timestamp = timeGen();

        //如果當前時間小於上一次ID生成的時間戳，說明系統時鐘回退過這個時候應當拋出異常
        if (timestamp < lastTimestamp) {
            throw new RuntimeException(
                    String.format("Clock moved backwards.  Refusing to generate id for %d milliseconds", lastTimestamp - timestamp));
        }

        //如果是同一時間生成的，則進行毫秒內序列
        if (lastTimestamp == timestamp) {
            sequence = (sequence + 1) & sequenceMask;
            //毫秒內序列溢出
            if (sequence == 0) {
                //阻塞到下一個毫秒,獲得新的時間戳
                timestamp = tilNextMillis(lastTimestamp);
            }
        }
        //時間戳改變，毫秒內序列重置
        else {
            sequence = 0L;
        }

        //上次生成ID的時間截
        lastTimestamp = timestamp;

        //移位並通過或運算拼到一起組成64位的ID
        return ((timestamp - twepoch) << timestampLeftShift) //
                | (datacenterId << datacenterIdShift) //
                | (workerId << workerIdShift) //
                | sequence;
    }

    /**
     * 阻塞到下一個毫秒，直到獲得新的時間戳
     *
     * @param lastTimestamp 上次生成ID的時間截
     * @return 當前時間戳
     */
    protected long tilNextMillis(long lastTimestamp) {
        long timestamp = timeGen();
        while (timestamp <= lastTimestamp) {
            timestamp = timeGen();
        }
        return timestamp;
    }

    /**
     * 返回以毫秒為單位的當前時間
     *
     * @return 當前時間(毫秒)
     */
    protected long timeGen() {
        return System.currentTimeMillis();
    }
}

二交給Ioc容器管理

package spring.cloud.common.config;

import org.apache.commons.lang3.RandomUtils;
import org.apache.commons.lang3.StringUtils;
import org.apache.commons.lang3.SystemUtils;
import org.apache.logging.log4j.Logger;
import org.apache.logging.log4j.LogManager;
import org.springframework.beans.factory.annotation.Value;
import org.springframework.context.annotation.Bean;
import org.springframework.context.annotation.Configuration;
import org.springframework.context.annotation.Primary;
import spring.cloud.common.util.id.SnowflakeIdWorker;
import java.net.Inet4Address;
import java.net.UnknownHostException;

/**
 * 網上的教程一般存在兩個問題：
 * 1. 機器ID（5位）和數據中心ID（5位）配置沒有解決，分布式部署的時候會使用相同的配置，任然有ID重復的風險。
 * 2. 使用的時候需要實例化對象，沒有形成開箱即用的工具類。
 *
 * 本文針對上面兩個問題進行解決，筆者的解決方案是，workId使用服務器hostName生成，
 * dataCenterId使用IP生成，這樣可以最大限度防止10位機器碼重復，但是由於兩個ID都不能超過32，
 * 只能取余數，還是難免產生重復，但是實際使用中，hostName和IP的配置一般連續或相近，
 * 只要不是剛好相隔32位，就不會有問題，況且，hostName和IP同時相隔32的情況更加是幾乎不可能
 * 的事，平時做的分布式部署，一般也不會超過10臺容器。使用上面的方法可以零配置使用雪花算法，
 * 雪花算法10位機器碼的設定理論上可以有1024個節點，生產上使用docker配置一般是一次編譯，
 * 然後分布式部署到不同容器，不會有不同的配置，這裏不知道其他公司是如何解決的，即使有方法
 * 使用一套配置，然後運行時根據不同容器讀取不同的配置，但是給每個容器編配ID，1024個
 * （大部分情況下沒有這麽多），似乎也不太可能，此問題留待日後解決後再行補充。
 */
@Configuration
public class IdWorkerConfiguration {
    Logger logger = LogManager.getLogger();

    @Value("${id.work:noWorkId}")
    private String workId;
    @Value("${id.dateSource:noDateSource}")
    private String dateSource;
    @Bean
    @Primary
    public SnowflakeIdWorker idWorker(){
        return new SnowflakeIdWorker(getWorkFromConfig(),getDateFromConfig());
    }

    private Long getWorkFromConfig() {
        if ("noWorkId".equals(workId)) {
            return getWorkId();
        } else {
            //將workId轉換為Long
            return 2L;
        }
    }

    private Long getDateFromConfig() {
        if ("noDateSource".equals(dateSource)) {
            return getDataCenterId();
        } else {
            //將workId轉換為Long
            return 2L;
        }
    }

    private Long getWorkId(){
        try {
            String hostAddress = Inet4Address.getLocalHost().getHostAddress();
            int[] ints = StringUtils.toCodePoints(hostAddress);
            int sums = 0;
            for(int b : ints){
                sums += b;
            }
            return (long)(sums % 32);
        } catch (UnknownHostException e) {
            // 如果獲取失敗，則使用隨機數備用
            return RandomUtils.nextLong(0,31);
        }
    }

    private Long getDataCenterId(){
        int[] ints = StringUtils.toCodePoints(SystemUtils.getHostName());
        int sums = 0;
        for (int i: ints) {
            sums += i;
        }
        return (long)(sums % 32);
    }

}

雪花算法的實現

sequence toc back urn 機器 nds ner gethost second 核心思想： SnowFlake的結構如下(每部分用-分開):<br>* 0 - 0000000000 0000000000 0000000000 000000000

貝葉斯算法的基本原理和算法實現

utf shape less 流程我們 def .sh 詞向量貝葉斯算法一. 貝葉斯公式推導　　樸素貝葉斯分類是一種十分簡單的分類算法，叫它樸素是因為其思想基礎的簡單性：就文本分類而言，它認為詞袋中的兩兩詞之間的關系是相互獨立的，即一個對象的特征向量

String 經常用法最優算法實現總結（二）

lean ... itl min empty turn system then 實現 1. String getOrderedString(boolean isDuplicated, String … str) 說明： Orders all characters in

Nginx+Memcache+一致性hash算法實現頁面分布式緩存（轉）

tps ons efi 策略可擴展性 master () list roo 網站響應速度優化包括集群架構中很多方面的瓶頸因素，這裏所說的將頁面靜態化、實現分布式高速緩存就是其中的一個很好的解決方案... 1）先來看看Nginx負載均衡 Nginx負載均衡依賴自帶的 ng

超長整數的基礎運算算法實現之乘、除篇

com class 處理二分 src 回收 data 表達式 table 筆算乘法：對於m位和n位的輸入。傳統的乘法須要m*n次主要的乘法，也即算法復雜度為O()。我們用紙和筆做乘法運算時，用乘數的每一位乘以被乘數的每一位並加上上一列的進位而產生一行適當移位的中間結

JavaScript算法實現排序

城市 emp aqi 廣州 ava api utf-8 append 顯示 <!DOCTYPE html> <html> <head> <meta charset="utf-8"> <title&g

spark算法實現——svm支持向量機

res 維度 mllib 數據集 txt 轉換函數 svm map 線性 svm是一種分類算法，一般先分為兩類，再向多類推廣一生二，二生三，三生。。。大致可分為：線性可分支持向量機? 硬間隔最大化hard margin maximization? 硬間隔支持向量機? 線

2048小遊戲主要算法實現

mes 方向時間限制上下左右 print ron weight color ges http://acm.tzc.edu.cn/acmhome/problemdetail.do?&method=showdetail&id=4681 4681: 2

標準庫算法實現一

emp dir ont sea true start urn find ssp 1.max(x,y) 2.find(b,e,t) 3.find_if(b,e,p) 4.search(b,e,b2,e2) 5.remove(b,e,t) 6.copy(b,e,d) 7.r

最簡單的DES加密算法實現

ava source bytes gen div this except vax odi Base64.java package com.mstf.des; import java.io.UnsupportedEncodingException; /*

C#算法實現獲取樹的高度

定義 brep 樹結構 nbsp 數據結構 view () rep 可能我們知道，樹類型作為數據結構中的重要一員，樹的很多實現都是來自遞歸。本文想要實現的就是在桌面客戶端項目開發中，經常用到的樹結構（.Net平臺下有個控件為TreeView）。事實上，我們可能因業務需求

Isolation Forest算法實現詳解

左右 clas 1.2 att bre 二叉最大值和最小值二叉樹代碼實現本文介紹的 Isolation Forest 算法原理請參看我的博客：Isolation Forest異常檢測算法原理詳解，本文中我們只介紹詳細的代碼實現過程。 1、ITree的設計與實現首先

(2)Java數據結構--二叉樹 -和排序算法實現

運行至少 exceptio 子節點註釋 heapsort borde 搜索樹選擇排序 === 註釋：此人博客對很多個數據結構類都有講解-並加以實例 Java API —— ArrayList類 & Vector類 & Link

mahout demo——本質上是基於Hadoop的分步式算法實現，比如多節點的數據合並，數據排序，網路通信的效率，節點宕機重算，數據分步式存儲

fin urn [] return uid content 3.0 stock blank 摘自：http://blog.fens.me/mahout-recommendation-api/ 測試程序：RecommenderTest.java 測試數據集：item.csv

算法-實現each遍歷多維數組(javascript)

算法# 實現each遍歷多維數組 <script type="text/javascript"> // var arr=[1,2,3,4,[1,2,3,4]] // arr.forEach(function(item,index,array)){} var arr=[12

HDU 2586 How far away ？（LCA在線算法實現）

計算 algo size vector tar urn target nbsp struct http://acm.hdu.edu.cn/showproblem.php?pid=2586 題意：給出一棵樹，求出樹上任意兩點之間的距離。思路：這道題可以利用LC

Andrew Ng機器學習筆記+Weka相關算法實現（四）SVM和原始對偶問題

優化問題坐標出了變量 addclass fun ber 找到線性這篇博客主要解說了Ng的課第六、七個視頻，涉及到的內容包含，函數間隔和幾何間隔、最優間隔分類器（ Optimal Margin Classifier）、原始/對偶問題（ Pr

DFA 算法實現關鍵詞匹配

== tail this word 允許 text children contain 源代碼起因: 從網頁中爬去的頁面。須要推斷是否跟預設的關鍵詞匹配(是否包括預設的關鍵詞)，並返回全部匹配到的關鍵詞。眼下pypi 上兩個實現 ahocoras

排序算法實現

時間 for blog partition () cnblogs oid main art 快速排序，平均時間復雜度O(nlogn)， #include<stdio.h> #include<iostream> using namespace

基於FPGA的RGB565_YCbCr_Gray算法實現

代碼 pro 三元組方便新的算法實現成功配置微博前面我們講了基於FPGA用VGA顯示一副靜態圖片，那麽接下來我們就接著前面的工程來實現我們圖像處理的基礎算法裏最簡單的一個那就是彩色圖像轉灰度的實現。將彩色圖像轉化為灰度的方法有兩種，一個是令

雪花算法的實現

相關推薦