Alpha沖刺-第二天
阿新 • • 發佈:2018-06-19
常見 bubuko 技術分享 啟動 ins 操作 各類 src 發的
1.1 今日完成任務情況以及遇到的問題。
完成任務情況
杜世康:實現彈幕的異步,批量存儲,經測試,服務器的Jenkins服務,Tomcat服務啟動時,在單個任務的爬取下,阿裏雲服務器(CPU 1核 內存 2G 固態磁盤 40G)的CPU使用率維持在10%上下,數據庫寫操作維持1 Count/s,入網0.8kb/s。增強後的程序應該能夠完成彈幕文本的存儲,如下圖所示:
- 劉丹,李玉瑩:經過細致分析,最終確定了彈幕文本有價值的分析方向。即彈幕整體樣本的情感分析,詞頻分析,關鍵字分析等有價值的分析維度。
- 曹瑩雯,尹楠: 了解到目前中文分詞,比較權威的中科院開發的NLPIR/ICTCLAS分詞系統非常適合我們團隊的分析方向
王靜雅 :完成彈幕管理中的彈幕列表功能,如下圖,並撰寫Alpha沖刺博文
遇到的問題
在彈幕存儲後,對於彈幕的分詞前,垃圾彈幕如何有效的過濾是個問題,比較常見的垃圾彈幕主要如下兩種:
- 單個詞,但又不是褒貶類的詞匯:“的”、“一”等;各類標點符號或是特殊符號:“!!!!!!!!!!”、“。。。。。”、“◆△◇←〓☆”、“!@#$%”等;全部都是數字的詞匯:“6666666666”、“233333333333”
淫穢色情、不文明用語,如“臥槽”、“SB”、“草泥馬”等。
1.2 明天任務安排
- 杜世康:垃圾彈幕的過濾處理
- 劉丹,李玉瑩:平臺主播管理功能實現
- 曹瑩雯,尹楠: 研究NLPIR/ICTCLAS分詞系統的Java API如何調用
- 王靜雅:完成系統管理中的管理員管理,並撰寫明日Alpha沖刺博文
1.3 成員貢獻時間
任務 | 成員 | 任務量 | 完成時間 |
---|---|---|---|
彈幕的異步存儲 | 杜世康 | 30% | 4h |
彈幕文本的分析方向 | 劉丹 | 15% | 2h |
彈幕文本的分析方向 | 李玉瑩 | 15% | 2h |
NLPIR/ICTCLAS分詞系統 | 曹瑩雯 | 10% | 2h |
NLPIR/ICTCLAS分詞系統 | 尹楠 | 10% | 2h |
完成彈幕管理中的彈幕列表功能與博文撰寫 | 王靜雅 | 20% | 2h |
1.4 站立會議照片
Alpha沖刺-第二天