1. 程式人生 > >大資料相關知識點收集

大資料相關知識點收集

1.FASTCGI--動態網頁技術
https://baike.baidu.com/item/fastcgi/10880685
2.uwsgi--Nginx中HttpUwsgiModule的作用是與uWSGI伺服器進行交換。WSGI是一種Web伺服器閘道器介面。
https://baike.baidu.com/item/uwsgi/673705?fr=aladdin
3.harpc--HARPC(High Availability RPC)是基於Thrift的跨語言、高可用的RPC框架。
https://blog.csdn.net/hrn1216/article/details/51383544
4.presto--Presto是一個分散式SQL查詢引擎,用於查詢分佈在一個或多個不同資料來源中的大資料集。
http://prestodb-china.com/docs/current/index.html
5.kudu--Kudu是Cloudera開源的新型列式儲存系統,是Apache Hadoop生態圈的新成員之一(incubating),專門為了對快速變化的資料進行快速的分析,填補了以往Hadoop儲存層的空缺
https://www.cnblogs.com/wuxian11/p/6478581.html
6.Parquet--Parquet是Hadoop上的一種支援列式儲存檔案格式。把巢狀結構儲存成扁平格式。
https://blog.csdn.net/zero__007/article/details/79673561
7.Ambari--Ambari是Hortonworks開源的Hadoop平臺的管理軟體,具備Hadoop元件的安裝、管理、運維等基本功能,提供Web UI進行視覺化的叢集管理,簡化了大資料平臺的安裝、使用難度。
https://blog.csdn.net/u012331758/article/details/78106714
8.tez--Apache Tez是一個針對Hadoop資料處理應用程式的新分散式執行框架。Tez是Apache最新的支援DAG作業的開源計算框架,它可以將多個有依賴的作業轉換為一個作業從而大幅提升DAG作業的效能。
https://blog.csdn.net/yamaxifeng_132/article/details/78828038
9.pig--Pig是一種資料流語言(data flow programming langage)。
https://blog.csdn.net/bingduanlbd/article/details/52049683
10.Falcon--Falcon是一個面向Hadoop的、資料處理和管理平臺。
https://blog.csdn.net/it_dx/article/details/57564628
11.ZeroMQ--ZeroMQ是一種基於訊息佇列的多執行緒網路庫,其對套接字型別、連線處理、幀、甚至路由的底層細節進行抽象,提供跨越多種傳輸協議的套接字。
https://blog.csdn.net/w174504744/article/details/73187697
12.Flume--實時日誌收集系統
https://www.cnblogs.com/zhangyinhua/p/7803486.html
13.velocity--velocity與freemaker、jstl並稱為java web開發三大標籤技術
https://blog.csdn.net/sunny243788557/article/details/52796734
14.zookeeper--ZooKeeper是一個分散式的,開放原始碼的分散式應用程式協調服務,是Google的Chubby一個開源的實現,它是叢集的管理者,監視著叢集中各個節點的狀態根據節點提交的反饋進行下一步合理操作。
https://www.cnblogs.com/felixzh/p/5869212.html
15.jdk linux安裝
https://www.cnblogs.com/Dylansuns/p/6974272.html
16.Logstash一個數據分析軟體,主要目的是分析log日誌
https://www.cnblogs.com/yincheng/p/logstash.html
17.Kibana一個針對Elasticsearch的開源分析及視覺化平臺,用來搜尋、檢視互動儲存在Elasticsearch索引中的資料。
https://www.cnblogs.com/zhangs1986/p/7325504.html
18.Filebeat一個日誌檔案託運工具,伺服器上安裝客戶端後,會監控日誌目錄或者指定的日誌檔案,追蹤讀取這些檔案(追蹤檔案的變化,不停的讀),並且轉發這些資訊到elasticsearch或者logstarsh中存放。
https://www.cnblogs.com/kerwinC/p/6227768.html
19.mariaDB-MariaDB資料庫管理系統是MySQL的一個分支,主要由開源社群在維護,採用GPL授權許可 MariaDB的目的是完全相容MySQL,包括API和命令列,使之能輕鬆成為MySQL的代替品。
https://www.w3cschool.cn/mariadb/
20.sqoop 是一款開源的工具,主要用於在Hadoop(Hive)與傳統的資料庫(mysql、postgresql...)間進行資料的傳遞,可以將一個關係型資料庫(例如 : MySQL ,Oracle ,Postgres等)中的資料導進到Hadoop的HDFS中,也可以將HDFS的資料導進到關係型資料庫中。
https://blog.csdn.net/jiangsanfeng1111/article/details/53332635
21.HDFS、MR、Kafka、Storm、Spark、Hbase、Redis原理圖
https://blog.csdn.net/qq_41455420/article/details/79787093
22.kylin主要是對hive中的資料進行預計算,利用hadoop的mapreduce框架實現
https://www.cnblogs.com/honey01/p/8351145.html
23.Zeppelin是一個基於Web的notebook,提供互動資料分析和視覺化。
https://www.cnblogs.com/shenh062326/p/6195064.html
24.TensorFlow 是一個採用資料流圖(data flow graphs),用於數值計算的開源軟體庫
http://www.tensorfly.cn/
25.Caffe是一個深度學習框架
http://hao.jobbole.com/caffe/?utm_source=blog.jobbole.com&utm_medium=sidebar-resources
26.PyTorch

https://www.leiphone.com/news/201708/Npflmddi8OGbnJHi.html

27.GlusterFS是Scale-Out儲存解決方案Gluster的核心,它是一個開源的分散式檔案系統
https://blog.csdn.net/zonelan/article/details/8468383
28.主流流計算框架
http://developer.51cto.com/art/201603/507444.htm