大資料雲端實驗室專案實戰-微博輿情大資料分析有感

阿新 • • 發佈：2019-01-06

　　大資料開發、只能硬體和圖形影象需求增長最快，需求人員最多。對微博資料分析平臺搭建，以及微博資料分析平臺數據儲存模組設計與實現。
　　最好有一定軟體開發方面的知識功底，比如瞭解網站開發、OA開發、Linux作業系統

引言、雲端實驗室環境

基於開源的ambari大資料平臺，部署了7個節點：
ambari

一、專案背景

企業可能對使用者在微博上的評價內容有監測需求，如活動效果、使用者對產品的評價，使用者關注於產品的價格還是功能等等。

本平臺用來獲取微博的資料（資料量大、非結構化資料），進行資料分析，儲存在雲平臺，將結果輸出給企業。

二、專案架構

專案架構
2.1. 資料來源
微博資料：

beCommentWeiboID 是否評論
beForwardWeiboId 是否轉發微博
catchTime 抓取時間
commentCount 評論次數
content 內容
createTime 建立時間
info1 資訊欄位1
info2 資訊欄位2
info3 資訊欄位3
melevel no sure
musicurl 音樂連結
pic_list 照片列表（最多有三個）
praiseCount 點贊人數
reportCount 轉發人數
source 資料來源
ueserId 使用者id
videourl 視訊連線
weiboId 微博id
weiboUrl 微博網址

2.2 資料層

本次資料層主要講主資料倉庫。
資料倉庫是為應用層提供資料服務的。

資料倉庫表設計

層次	庫名	表名
ODS	ODS	ODS_WEIBO_LOG
ODS	ODS	ODS_WEIBO_EMOTION
DW	DW	DW_USER_CLIENT
DW	DW	DW_USER_KOL
DW	DW	DW_EMOTION_ANA
DW	DW	DW_VIDEO_ANA
DW	DW	DW_WEIBO_VOL
DW	DW	DW_USER_ACITIVE
APP	APP	APP_CLIENT_COUNT_TOP10
APP	APP	APP_IPHONE_USER
APP	APP	APP_POS_PROPOTION_TOP10
APP	APP	APP_REPORT_COUNT_TOP10
APP	APP	APP_MAX_POS_POWER_USER
APP	APP	APP_WEIBO_VOL_TOP10

資料倉庫一般是離線資料分析使用，每天要跑的固化需求。如果是臨時需求（提數），就要讓大資料開發人員專門做一條資料報表出來。
2.3 平臺層

ODS層：資料是清洗後的

2.4. APP區
從資料倉庫區取資料分析展示

2.5 大資料分析與研發基本工作內容：
• 大資料平臺數據倉庫、ETL模組建模及設計開發
• 需求蒐集、資料分析並參與設計資料製作
• 排程及資料質量的檢測和監控，形成資料反饋優化
• 大資料平臺介面開發與維護
• Spark/Hadoop等大資料計算平臺的研發以及優化
• 大資料專案架構與規劃

三、平臺演示
3.1 運維人員一般使用Ambari，作為大資料的管理平臺，而給開發人員使用跳板機（或堡壘機）。

3.2 開發介面示例：

select count(*) from web_log_192g

progress-001

progress-002
3.3 公司開發時，運維一般給不同團隊分配不同佇列，不同佇列會有不同資源
progress-003
3.4 雖然Spark比較成熟，但大多數公司對離線分析還是用Hive多一些。

3.5 企業微博聲量號的分析：
統計微博最新狀態下被評論最多的Top10賬戶id，
注意：每個使用者的微博進行去重之後，篩選出同一條微博的最新狀態

3.6 開發有兩種方式，一種在Ambari web平臺寫指令碼。

3.7 實際中使用引入一個開發平臺。這裡使用Hue平臺
HUE

hue-001

3.8 每天都要跑的定時任務，一般用這樣的平臺設定一些許可權

hue-002
3.9 查詢頁面面寫經常用的SQL
hue-003

hue-004

3.10 儲存點選Save As
hue-005

3.11 平時開發的SQL都可以儲存下來
hue-006
3.12 如果要執行，那要設計一個執行器

3.13 企業中使用一般會針對這個介面進行二次開發
新建一個流程：
dashboard
3.14 然後新增流程：
Flow
Flow-002

para
3.15選擇資料：
dataselect

3.16 固定的報表一般會配置WorkFlow，這裡使用Oozie作為工作流平臺

workflow

大資料雲端實驗室專案實戰-微博輿情大資料分析有感

　　大資料開發、只能硬體和圖形影象需求增長最快，需求人員最多。對微博資料分析平臺搭建，以及微博資料分析平臺數據儲存模組設計與實現。　　最好有一定軟體開發方面的知識功底，比如瞭解網站開發、OA開發、Linux作業系統引言、雲端實驗室環境基於開源的amb

微博輿情之資料獲取

這篇主要講一下當時獲取微博內容時所採用的方法。由於我們選取的是新浪微博，本身提供了一系列的API供呼叫，包括粉絲服務、微博、評論、使用者、關係、賬號介面等服務。現在的V2版又增加了收藏、搜尋、提醒、位置服務、地理資訊、地圖引擎、支付等介面，並且採用Https

Python微博地點簽到大資料實戰微博API的使用

原文：http://blog.csdn.net/jackeriss/article/details/49009899 首先，你需要一個新浪開發者賬號，很容易註冊的，註冊完後建立一個應用，建立時型別選擇粉絲服務平臺就行了。然後進到剛才建立的應用的頁面，選擇應用資訊，

【備忘】大資料spark SQL專案實戰分析視訊

一. 大資料初識二. Spark以及生態圈概況三. 專案開發環境搭建四. Spark SQL概要五. 從Hive平滑過渡到Spark 六. DateFrame與Dataset 七. External Data Source 八. SparkSQL願景九. 大型網站日誌實戰十.

Spark 2.x企業級大資料專案實戰（實時統計、離線分析和實時ETL）

Spark 2.x企業級大資料專案實戰（實時統計、離線分析和實時ETL）全套課程下載：https://pan.baidu.com/s/1mje6bAoLLPrxUIrM-C2VMg 提取碼: 9n1x 本門課程來源於一線生產專案，所有程式碼都是在現網大資料叢集上穩定執行，拒絕Demo。課程涵蓋了離線分析

NODEJS實戰微博評論01_專案介紹+啟動服務

最終效果： 1.若資料庫中無評論時，顯示“暫無評論” 2.按照評論的逆序時間分頁顯示，每4條一頁，當多於4條時，自動增加頁數按鈕，提交評論時，會自動跳轉回第一頁 3.可對每條評論點贊或踩，將點贊，踩資料儲存到資料庫，重新整理不變接下里，一步一步開始構建我們的專案

（hadoop+Spark）基於大資料技術企業專案實戰-電視收視率

課程介紹本課程將通過一個電視收視率專案實戰驅動講解，專案案例是國內的一家廣電企業作為非洲國家的一個運營商，以使用者收視行為資料作為基礎資料，通過對頻道和節目的分析，採用多維度統計分析的方法挖掘使用者的收視行為特徵。" Z8 V5 H2 m' j; i9 s2 }( e通過此案

[js高手之路]設計模式系列課程-委托模式實戰微博發布功能

i++ 發布動態 use shee 內容標題 cnblogs 文件在實際開發中，經常需要為Dom元素綁定事件，如果頁面上有4個li元素，點擊對應的li，彈出對應的li內容，怎麽做呢？是不是很簡單？大多數人的做法都是：獲取元素，綁定事件 1 <ul&

新浪微博資深大牛全方位剖析 iOS 高階面試

第5章 Runtime相關面試問題這章主講Runtime相關的面試問題，Runtime是考察的重點、常考點，如訊息傳遞機制、訊息轉發流程、方法快取查詢過程，對Runtime系統資料結構的理解以及Method-Swizzling、動態方法解析、方法新增等等，基於這些面試題，從對Runtime原始碼分析

小程式生活類休閒類專案實戰（使用美團資料）

小程式專案實戰@[TOC] 小程式專案實戰（使用美團資料）這是生活小程式專案的實戰，只供學習和參考，不做任何商業用途託管地址[https://gitee.com/mycodegitxuewh/miniProgram_life] 先上圖不做互動邏輯也可以

泰坦尼克號資料探勘專案實戰——Task3 模型構建

參考：【1】https://github.com/AaronJny/simple_titanic 【2】 https://zhuanlan.zhihu.com/p/30538352 經過ta

泰坦尼克號資料探勘專案實戰——Task2 特徵工程

參考：【1】https://www.cnblogs.com/wxquare/p/5484636.html 【2】https://blog.csdn.net/weishiym/article/details/79

泰坦尼克號資料探勘專案實戰——Task1 資料分析

參考資料：https://www.bilibili.com/video/av27536643 https://blog.csdn.net/aaronjny/article/details/79735998 https://github.com/AaronJny/simple_titani

泰坦尼克號資料探勘專案實戰——Task7 模型融合

參考：【1】https://blog.csdn.net/qq_39422642/article/details/78566763 【2】https://blog.csdn.net/u014356002/article/details/54376138 【3】https://blog

泰坦尼克號資料探勘專案實戰——Task6 模型調優

任務6：使用網格搜尋法對5個模型進行調優（調參時採用五折交叉驗證的方式），並進行模型評估。參考：【1】https://blog.csdn.net/qfire/article/details/77601901 【2】https://blog.csdn.net/jasonding1354/

泰坦尼克號資料探勘專案實戰——Task5 模型評估

任務5：記錄5個模型（邏輯迴歸、SVM、決策樹、隨機森林、XGBoost）關於accuracy、precision，recall和F1-score、auc值的評分表格，並畫出ROC曲線。參考：【1】https://www.cnblogs.com/sddai/p/5696870.html

泰坦尼克號資料探勘專案實戰——Task4 模型構建之整合模型

參考：【1】https://cloud.tencent.com/developer/article/1064013 【2】https://blog.csdn.net/wxq_1993/article/details/85853808 【3】https://blog.csdn

新浪微博簽到POI資料

該資料在硬碟塵封了好久了，覺得應該開放一下，讓更多的人能夠使用它，無論是科研還是技術的層面希望它繼續發揮他的價值。樣例資料 poiid, title, address,lon, lat, city, c ategory_name, checkin_num, photo_numPOI序號，地點名

最新python爬蟲抓取新浪微博千萬級資料，scrapy思路+架構+原始碼

1.1 爬取目標爬取的目標是新浪微博使用者的公開基本資訊，如使用者暱稱、頭像、使用者的關注、粉絲列表以及釋出的微博等 1.2 準備工作代理池、 Cookies 池已經實現並可以正常執行，安裝 Scrap

微博數倉資料延時優化方案

# 前言本文以離線資料倉庫為背景，重點介紹因傳輸鏈路資料延時的不確定性，可能導致部分延遲檔案無法參與正常的排程計算或同步，導致資料缺失的問題成因、業務影響及相應的解決方案。 > 關於這類問題的處理，有這麼一種論調：我們認為正常情況下，**髒** 或 **缺失** 資料的比例是很小的，可以大致認為資