10組-Alpha衝刺-1/6
阿新 • • 發佈:2021-11-08
一、基本情況
- 隊名:要有格局才對
- 組長部落格:本部落格即組長部落格
- 小組人數:10
二、衝刺概況彙報
根據擬定的團隊分工
- 在充分尊重大家意願的前提下、團隊分工如下(用名字唯一識別符號標識):
- 前端組:萍、翁
- 後端組:石、林
- 資料組:碩、源、鬆、熙
- 管理組:蘇、唐
- alpha_1彙總:
組名 | 第一階段分工 | 第二階段 | 第三階段 | alpha_1階段 | 主任務 |
---|---|---|---|---|---|
前端組 | 原型設計、視訊 | 介面除錯 | 原型實現、UI優化 | 前端相關 | 前端相關 |
資料組 | 爬取可行性分析測試 | 資料收集 | 資料分析 | 資料相關 | 資料相關 |
後端組 | 資料庫搭建 | 後端構建、介面文件說明 | 後端完善 | 後端相關 | 後端相關 |
管理組(含測試組) | 部落格撰寫、規劃 | 各組協調 | 測試優化、部署 | 測試、端茶倒水 | 測試管理相關 |
姓名:蘇偉煌(組長)
- 過去兩天完成了哪些任務:
- 文字描述:
- 1.基本分工部署
- 2.GitHub部署
- 3.緩解組員緊張情緒
- 4.幫組測試組解決藥監局爬取攻堅
- 展示GitHub當日程式碼/文件簽入記錄:
- 接下來的計劃
- main:大家都有考試、成績很重要、暫不作過多計劃分工
- 繼續爬取
- 前端初步
- 還剩下哪些任務
- 同上
- 說點實際的:微機介面考試、圖形學考試、面向物件考試、人工智慧。
- 燃盡圖
- 遇到了哪些困難
- 藥監局攻堅爬取、最後用抓包手段解決
- 有哪些收穫和疑問
- 收穫:知道了用抓包的手段也可以在手機這種平臺爬取資料、很冷門的技巧,算是作為組長為數不多的小貢獻
- 疑問:藥監局這種官方網站也會百疏一漏嗎
姓名:翁敏(前端組)
過去兩天完成了哪些任務:
- 文字描述:
- 1.動手實戰了用網頁三件套(html,css,js)製作頁面,主要收穫了樣式佈置的相對位置和絕對位置,js語言相對容易上手,setinterval延時功能讓我明白可以用js程式碼控制頁面的更新。
- 2.學習了vue框架的大致使用,學習了一些元件(比如v-on,v-if,v-show,這些元件比傳統的js程式碼設計頁面來的省時省力
- 3.通過和同學的交談,收穫了很多優秀的第三方外掛或者框架的使用方法,使自己更容易使用搜索引擎尋找網路上的資源
- 4.對本次軟工課設前端頁面的佈局有了新的設計思路,主要佈局有了大致的設計想法。
- 展示GitHub當日程式碼/文件簽入記錄:
接下來的計劃
- 1.學習vue框架
- 2.學習一些更前言的網頁設計方法
- 3.學習一些資料儲存方法,特別是跨頁面儲存,之前用export模組儲存,但是瀏覽器會報錯,這個問題待解決。
還剩下哪些任務
- 1.因為我是擔任前端任務,所以我對自己設定的主要任務是學習使用vue框架設計頁面
- 2.學習頁面如何呼叫後臺資料庫
燃盡圖
遇到了哪些困難
- 1.在資料儲存這塊自己掌握的仍然不清晰,不知道頁面的儲存資訊模式是怎麼樣的,設定成全域性變數再頁面更新的時候就初始化掉,export模組也會報錯
- 2.對一些好用適用的框架了解太少了,vue知識也欠缺,以至於動手寫程式碼時候相關的知識不夠用,需要自己重新造輪子
有哪些收穫和疑問
- 1.(疑問上面已經描述了,這裡不早贅述)收穫了一些新的頁面設計思路,以前自己只會用網頁三件套設計頁面,但是那樣太繁雜了,而且都是重複造輪子。
- 2.學習瞭解了一些新的框架的使用,vue真是太方便了,當然肯定還有許多更好用的框架和元件等待著我去發現。
姓名:陳本源(資料組)
- 過去兩天完成了哪些任務:
- 文字描述:
- 1.爬蟲爬取淘寶(幾十萬條資料)
- 2.爬蟲爬取比價網(幾十萬條資料)
- 3.資料傳送至後端
- 展示GitHub當日程式碼/文件簽入記錄:
- 接下來的計劃
- 1.進行資料清洗
- 2.開始學習PyEcharts,對爬取到的資料,進行資料分析
- 還剩下哪些任務
- 1.對資料進行處理與分析
- 2.生成視覺化圖
- 燃盡圖
- (不用做)
- 遇到了哪些困難
- 1.再爬取淘寶的過程中,由於網站的反爬機制,設定了cookies,成功爬取到頁面的相關資訊,但是由於本次任務爬取的資料量實在太過龐大,頻繁的訪問淘寶的url,導致連線多次被主動中斷,甚至出現ip被封,針對此問題本來打算使用selenium,通過動態模擬使用者點選行為,對頁面進行渲染,從而繞過反爬機制,實現爬取,但是該方法耗時長,對於本次任務需要爬取的巨大資料量顯然不適合。後又發現設定time.sleep設定url訪問間隔,但也同樣浪費時間,最後採用python自帶的fake_useragent庫,通過設定隨機頭對url進行訪問,大大降低了伺服器對機器爬蟲的認定概率,從而實現爬取53w條
- 2.爬取比價網的過程中,同樣也是遇到了ip訪問限制,使用download_delay解決。
- 有哪些收穫和疑問
- 1.隨機頭方法在scrapy爬蟲框架中,似乎起不到什麼作用,導致爬取比價網的過程很煎熬,
- 2.瞭解了ip限制的解決方法。
姓名:石致彬
- 過去兩天完成了哪些任務:
- 文字描述:
- 1.學習資料庫的相關操作
- 2.學習用jdbc連線資料庫
- 3.初步設計了所需要的表
- 4.初步建立了資料庫
- 展示GitHub當日程式碼/文件簽入記錄:無
- (圖片直接發給我)
- 接下來的計劃
- 1.學習Web方面的知識
- 2.編寫介面供資料組使用向資料庫中新增資料
- 3.編寫介面供資料查詢使用
- 還剩下哪些任務
- 1.學習web知識
- 2.編寫介面
- 3.學習雲伺服器的使用
- 4.配置雲伺服器的環境
- 5.部署到雲伺服器
- 燃盡圖
- (不用做)
- 遇到了哪些困難
- 1.時間不夠考試太多
- 2.伺服器太貴了
- 有哪些收穫和疑問
- 1.學習了資料庫的相關知識
- 2.學習了用Java操作資料庫
- 3.疑問:我們真的做得完嗎
姓名:林志煌
- 過去兩天完成了哪些任務:
- 文字描述:
- 1.複習了前端三要素
- 2.寫了簡單的登入介面
- 展示GitHub當日程式碼/文件簽入記錄:
- 接下來的計劃
- 1.繼續完善介面
- 2.增加其他功能
- 還剩下哪些任務
- 1.完善
- 2.增加功能
- 燃盡圖
- 遇到了哪些困難
- 1.知識點大多都忘了,只能邊查邊做
- 2.模板幾乎都是要收費的
- 有哪些收穫和疑問
- 1.收穫:複習了以前的知識,算是小鞏固
- 2.疑問:暫時沒啥疑問
姓名:陳碩
- 過去兩天完成了哪些任務:
- 文字描述:
- 1.爬蟲爬取淘寶(幾十萬條資料)
- 2.爬蟲爬取藥房網
- 3.資料傳送至後端
- 展示GitHub當日程式碼/文件簽入記錄:
- 接下來的計劃
- 1.進行資料清洗
- 2.開始學習PyEcharts,對爬取到的資料,進行資料分析
- 還剩下哪些任務
- 1.對資料進行處理與分析
- 2.生成視覺化圖
- 燃盡圖
- (不用做)
- 遇到了哪些困難
- 1.爬蟲團隊在爬取淘寶的過程中,由於網站的反爬機制,設定了cookies,成功爬取到頁面的相關資訊,但是由於本次任務爬取的資料量實在太過龐大,頻繁的訪問淘寶的url,導致連線多次被主動中斷,甚至出現ip被封,針對此問題本來打算使用selenium,通過動態模擬使用者點選行為,對頁面進行渲染,從而繞過反爬機制,實現爬取,但是該方法耗時長,對於本次任務需要爬取的巨大資料量顯然不適合。後又發現設定time.sleep設定url訪問間隔,但也同樣浪費時間,最後採用python自帶的fake_useragent庫,通過設定隨機頭對url進行訪問,大大降低了伺服器對機器爬蟲的認定概率,從而實現爬取53w條
- 2.爬取比價網的過程中,同樣也是遇到了ip訪問限制,使用download_delay解決。
- 有哪些收穫和疑問
- 1.隨機頭方法在scrapy爬蟲框架中,似乎起不到什麼作用,導致爬取比價網的過程很煎熬,
- 2.瞭解了ip限制的解決方法。
姓名:林澤熙
- 過去兩天完成了哪些任務:
- 文字描述:
- 1.爬蟲爬取淘寶(幾十萬條資料)
- 2.資料傳送至後端
- 展示GitHub當日程式碼/文件簽入記錄:
- 接下來的計劃
- 1.進行資料清洗
- 2.開始學習Pyecharts
- 還剩下哪些任務
- 1.資料處理與分析
- 2.資料視覺化
- 燃盡圖
- (不用做)
- 遇到了哪些困難
- 1.爬蟲團隊在爬取淘寶的過程中,由於網站的反爬機制,設定了cookies,成功爬取到頁面的相關資訊,但是由於本次任務爬取的資料量實在太過龐大,頻繁的訪問淘寶的url,導致連線多次被主動中斷,甚至出現ip被封,針對此問題本來打算使用selenium,通過動態模擬使用者點選行為,對頁面進行渲染,從而繞過反爬機制,實現爬取,但是該方法耗時長,對於本次任務需要爬取的巨大資料量顯然不適合。後又發現設定time.sleep設定url訪問間隔,但也同樣浪費時間,最後採用python自帶的fake_useragent庫,通過設定隨機頭對url進行訪問,大大降低了伺服器對機器爬蟲的認定概率,從而實現爬取53w條
- 2.github使用不熟悉
- 3.復現了組長的抓包爬取藥監局手段,完善了json欄位
- 有哪些收穫和疑問
- 1.瞭解了ip限制的解決方法。
- 2.python第三方庫功能強大,需要自己多多瞭解和使用
PSP & 學習進度條(學習進度條每週追加)
PSP
PSP | Personal Software Process Stages | 預估耗時(分鐘 | 實際耗時(分鐘) |
---|---|---|---|
Planning | 計劃 | 30 | 72 |
· Estimate | · 估計這個任務需要多少時間 | 1200 | 1600 |
Development | 開發 | 700 | 700 |
· Analysis | · 需求分析 (包括學習新技術) | 5 | 55 |
· Design Spec | · 生成設計文件 | 5 | 55 |
· Design Review | · 設計複審 | 5 | 55 |
· Coding Standard | · 程式碼規範 (為目前的開發制定合適的規範) | 430 | 55 |
· Design | · 具體設計 | 120 | 120 |
· Coding | · 具體編碼 | 360 | 720 |
· Code Review | · 程式碼複審 | 50 | 50 |
· Test | · 測試(自我測試,修改程式碼,提交修改) | 30 | 50 |
Reporting | 報告 | 90 | 180 |
· Test Repor | · 測試報告 | 30 | 60 |
· Size Measurement | · 計算工作量 | 10 | 20 |
· Postmortem & Process Improvement Plan | · 事後總結, 並提出過程改進計劃 | 10 | 100 |
· 合計 | 1200 | 1800 |
學習進度條
-
組內最新成果展示
- 藥監局資料展示(這不是程式碼、看清了):
-
站立會議合照
-
會議耗時記錄(每次追加記錄)
|第N次會議| 耗時(分鐘)|
| -- | -- |
|4|8|
|5| |
|6| |
|7| |
|8| |