1. 程式人生 > 實用技巧 >IP 庫的 8020 法則與那些高大上的名詞~

IP 庫的 8020 法則與那些高大上的名詞~

作為一個在這個很窄的領域裡踏踏實實做了七年(為了嚴謹,還差一天)的公司,我們從來不給客戶講一些看著高大上的名詞,顯得自己有多牛逼,是怎麼回事就是什麼回事,實事求是,也不會因為有些客戶喜歡高覆蓋率就把不應該標註的資料標註掉而顯得自己覆蓋率高,這個問題請參見之前寫過的《談如何正確理解 IP 資料的覆蓋率,兼談正確率~》。

我也始終認為產品質量會說話,也總會有人理解你的產品所代表的態度、質量和價值。你現在不需要沒關係,買不起沒關係,但是起碼你對這個資料的認識是正確的,而不是被我們的同行(以下的同行均指國內同行)所誤導。畢竟你是不是業界中的蘋果、華為不是你自己重複說一千遍就是了的。終究要靠資料質量、客戶口碑才行。

最近有人在問我這麼一個問題,說你們的同行出去演講時說了一大堆技術名詞,諸如實時處理 BGP 資料、UNDNS 解析、主被動網路測量技術等等,來標榜他們的資料如何的好,那你們如何來證明你們的資料質量比同行好呢?

我覺得單獨解釋,不如寫個文章出來明確說明一下比較好。

其實 IP 地理位置資料庫自 90 年代起就有公司在做,如果你去專利資料庫裡搜尋相關專利,很多的專利都是那個時代申請的,20 年的有效期,很多已經或者就快過期了。你要說這幾年有什麼新東西嗎?我認為基本上沒有,從大方向上看都是冷飯。最終拼的是誰能夠把這些基礎事情的工程化做到位,做到 99% 甚至 99.99% 的極致才是王道。

客戶們拿到的地理位置資料庫的質量實際上是看這些事情在背後的工程化是否到位,當然也要包括完整的工作方法論。你的資料來源是否覆蓋足夠,是否分析到位,任務如何分解合理,需要多少人手來研究分析、標註,工作量是否能夠滿足甚至超越這個網路一直快速變更的情況。整個資料系統和工作方法論也要隨著維護範圍的不斷擴大和質量要求的提高,能夠持續迭代支援,發現要快、判斷要快、更改要改、更新要快。這些都是需要耐心去一點點的琢磨,都是水磨工夫。

我們應該把事情做好做到位超出客戶預期,而不是堆砌高大上的名詞,搞一個看著玄乎乎的 ppt 公開忽悠,畢竟客戶需要的不是那些技術本身或者你所謂申請了多少個專利,最終需求就是你輸出的 IP 對應地理位置和相關資料是否足夠準確而已。

我們的觀點是,你的資料實際標註和解釋能力(注意,這個是抄襲不來的)跟實際網路情況相比之下有 80 分相像的,才算是將將及格,90 分才可能算是還不錯,95 分才能算是高分。而做到 99 分是我們目前在努力的目標。

從流行的 8020 法則來看,資料庫能做到實際網路情況的 80 分,也就算是 8020 法則裡說的 80%,其餘的那 20 分才是剩下的20%,而這最後的 20% 裡每提高 1%,可能所對應需要消耗的人力、精力、投入都是非線性增長的了。

可惜目前的客戶評估手段還是比較單一,基本上還是看覆蓋率,而不看正確率,這麼評估有什麼意義呢?如果這麼幹,我推薦你買我前面文章裡提到的公司的那個庫,因為他全庫的城市級覆蓋率 99.99% 了。這覆蓋率多好。:)

這些文字好像也很抽象,那麼自我證明一下吧。

我們在最初製作資料庫的時候,就製作了一個軟體,名字叫做 BestTrace,支援各個平臺,而這個工具想做好就需要前面那幾個高大上的名詞了。本來是給內部使用的,給一些早期客戶演示的時候都覺得不錯,所以就開放出來了。

簡單來說,這個軟體其實就是把原始的 Traceroute 命令列工具視覺化,可以更方便的檢視網路路徑情況,比如經過哪些國家以及城市,包括運營商情況。類似的軟體我所最早知道的一個軟體叫 VisualRoute,但是早就不再更新。類似的軟體或者網頁版可以說多如牛毛,但是對比下來,只有我們自己這個是質量達到要求的。

有圖有真相:

如果你作為一個相對熟悉網際網路絡的人,就應該可以理解,我們的輸出至少看著是非常符合邏輯的,當然我們也認為完全符合實際情況。畢竟用這個軟體的客戶群體,有很大一部分是大大小小運營商裡的技術人員,要麼是做相關網路維護的,還有很多網路愛好者,我相信他們有足夠的判斷力,口碑嘛,我不自誇了,自行搜尋吧。如果你是我們這個軟體的使用者,歡迎評論。

既然是視覺化,我們也配套了地圖路徑:

總覽

北美部分

歐洲部分

而我們的同行是什麼樣呢?無論軟體版本還是網頁版本,實際上要麼根本沒提供,要麼就是簡單粗暴沒有任何處理的,我希望我會被同行打臉,非常歡迎同行來評論裡給個地址讓我去品鑑一下。

從 IP 庫的角度看,這個軟體的最大價值是可以自證 IP 資料庫本身的質量。資料路徑應該要環環相扣,這是基本功底。如果網路路徑資料問題都很大,或者路徑只是顯示到了國家,你又如何相信末端結果顯示的那個城市是對的呢?

比如下圖,先不說目標 IP 的位置正確與否,問題是你上面路由器是英國,你憑什麼說下面是英格蘭呢?或者反過來說,目標 IP 應該是英格蘭的準確率會是多少呢?

而想做好這個軟體,既需要一個非常高質量的 IP 庫,也需要 BGP/ASN 資料,還需要所謂的 UNDNS 解析資料,試問同行的技術如此高大上,用於落地的資料在哪裡?哪裡可以用?還是以商業祕密的名義,實則根本沒有人搞呢?當然了,所謂的主動網路測量技術大概率指的不是 Ping 就是 Traceroute,要麼就是埠掃描。這讓我想起來了一個在過度包裝之後往往會被人想起的一個詞,請說人話。

如果你不想裝客戶端嘗試,我們也有類似的網頁版提供,請去 IPIP 官網首頁導航欄右側的工具專案裡找,第一個就是。

你也不用覺得我就是找了一個數據好看的給大家秀肌肉,都是公開的,你自己可以試,如果裡面有錯誤,歡迎反饋,用的好了,也希望推薦給周圍的人用。軟體下載地址也在官網首頁下方。

再者,我們不但提供了 BestTrace 這個客戶端軟體,我們網頁版 Traceroute 工具也提供了分佈在全球至少 600 個左右(總數在網頁上有顯示)的監測點供大家免費使用,作為一個從製作 IP 庫角度很基礎但是有非常非常非常之必要,而且數量越多越好的基礎設施,試問我們的同行們,你們有多少個?10 個?20 個?30 個?還是會拿運營商的 Looking Glass 來湊數呢?

而且還要說一下,我們為了不讓客戶覺得我們是忽悠人,專門製作了網頁(參見檢視原文)給大家看我們每天在 IP 資料庫上的工作量,那些說自己工作量很大的,也來晒晒如何?我們有 2015 年底到現在的所有資料更改歷史,不怕任何一個客戶提出審計的要求。而實際上客戶只要做了每日資料存檔,自行對比也是可以的。

最後,還是希望和同行們能在一個以資料質量為核心的事情上互相攀比,而不是要麼偷偷照著我們的資料抄,要麼十個員工八個銷售,又或者跑到 QQ 群裡臥底想撬我們的客戶,你們跟我們的員工屢次推銷你們產品的事情,我都是在旁邊看著的。下一次就不是發律師函了。

綜上,我認為同行們需要先做到以下幾項:

1、為了證明自己的資料標註邏輯,請同行基於自己的能力,公開提供真實可信的 Traceroute 地理路徑視覺化能力,無論軟體還是網頁版本;

2、為了證明有製作全球資料的能力,請同行公開提供覆蓋全球主流大城市的監測點,用於 Ping 或者 Traceroute 視覺化用途;

3、為了證明每天都有足夠的工作量在跟進網際網路絡變化,持續為客戶服務,請同行不但要做到給客戶的資料實現每日更新,而且要公開提供資料的每日變更情況,比如 BGP 和 IP 資料庫的。

這些能做到了, 再去跟客戶說可以對標我們的資料庫質量的事情吧。也希望已經購買或者想購買我們同行資料庫的客戶們督促他們去實現。畢竟它們也都漲價了。

來而不往非禮也,在這裡也歡迎各位同行們在資料質量角度提出更多的挑戰,我們一定奉陪到底。

最後問一個問題,假設現在有燈神可以許願,我一定許願那些現在還在或者曾經抄襲我們資料的同行們都灰飛煙滅,你覺得還會剩幾個?