10組-Alpha衝刺-2/6
阿新 • • 發佈:2021-11-10
一、基本情況
- 隊名:要有格局才對
- 組長部落格
- 小組人數:10
二、衝刺概況彙報
根據擬定的團隊分工
- 在充分尊重大家意願的前提下、團隊分工如下(用名字唯一識別符號標識):
- 前端組:萍、翁
- 後端組:石、林
- 資料組:碩、源、鬆、熙
- 管理組:蘇、唐
- alpha_1彙總:
組名 | 第一階段分工 | 第二階段 | 第三階段 | alpha_1階段 | 主任務 |
---|---|---|---|---|---|
前端組 | 原型設計、視訊 | 介面除錯 | 原型實現、UI優化 | 前端相關 | 前端相關 |
資料組 | 爬取可行性分析測試 | 資料收集 | 資料分析 | 資料相關 | 資料相關 |
後端組 | 資料庫搭建 | 後端構建、介面文件說明 | 後端完善 | 後端相關 | 後端相關 |
管理組(含測試組) | 部落格撰寫、規劃 | 各組協調 | 測試優化、部署 | 測試、端茶倒水 | 測試管理相關 |
姓名:蘇偉煌(組長)
- 過去兩天完成了哪些任務:
- 文字描述:
- 1.基本分工部署
- 2.GitHub部署
- 3.緩解組員緊張情緒
- 4.幫組測試組解決藥監局爬取攻堅
- 展示GitHub當日程式碼/文件簽入記錄:
- 接下來的計劃
- main:大家都有考試、成績很重要、暫不作過多計劃分工
- 繼續爬取
- 前端初步
- 還剩下哪些任務
- 同上
- 說點實際的:微機介面考試、圖形學考試、面向物件考試、人工智慧。
- 燃盡圖
- 遇到了哪些困難
- 藥監局攻堅爬取、最後用抓包手段解決
- 有哪些收穫和疑問
- 收穫:知道了用抓包的手段也可以在手機這種平臺爬取資料、很冷門的技巧,算是作為組長為數不多的小貢獻
- 疑問:藥監局這種官方網站也會百疏一漏嗎
第N輪 | 新增程式碼(行) | 累計程式碼(行) | 本輪學習耗時(小時) | 累計學習耗時(小時) | 重要成長 |
---|---|---|---|---|---|
1 | 208 | 208 | 0 | 0 | 網頁的基本佈局以及路由跳轉 |
PSP | Personal Software Process Stages | 預估耗時(分鐘 | 實際耗時(分鐘) |
---|---|---|---|
Planning | 計劃 | 30 | 72 |
· Estimate | · 估計這個任務需要多少時間 | 1200 | 1600 |
Development | 開發 | 700 | 700 |
· Analysis | · 需求分析 (包括學習新技術) | 5 | 55 |
· Design Spec | · 生成設計文件 | 5 | 55 |
· Design Review | · 設計複審 | 5 | 55 |
· Coding Standard | · 程式碼規範 (為目前的開發制定合適的規範) | 430 | 55 |
· Design | · 具體設計 | 120 | 120 |
· Coding | · 具體編碼 | 360 | 720 |
· Code Review | · 程式碼複審 | 50 | 50 |
· Test | · 測試(自我測試,修改程式碼,提交修改) | 30 | 50 |
Reporting | 報告 | 90 | 180 |
· Test Repor | · 測試報告 | 30 | 60 |
· Size Measurement | · 計算工作量 | 10 | 20 |
· Postmortem & Process Improvement Plan | · 事後總結, 並提出過程改進計劃 | 10 | 100 |
· 合計 | 1200 | 1800 |
姓名:王毅萍
過去兩天完成了哪些任務:
- 文字描述:
- 1.無
接下來的計劃
- 1.完善UI
- 2.測試後端介面
- 3.
雲端部署還剩下哪些任務
- 1.同上
燃盡圖
遇到了哪些困難
- 1.沒有困難,編不出來
有哪些收穫和疑問
- 1.無
學習進度條
alpha輪次 | 新增程式碼(行) | 累計程式碼(行) | 本輪學習耗時(小時) | 累計學習耗時(小時) | 重要成長 |
---|---|---|---|---|---|
1/6 | 208 | 208 | 0 | 0 | 網頁的基本佈局以及路由跳轉 |
2/6 | 0 | 208 | 0 | 0 | 無 |
PSP
PSP | Personal Software Process Stages | 預估耗時(分鐘 | 實際耗時(分鐘) |
---|---|---|---|
Planning | 計劃 | 0 | 0 |
· Estimate | · 估計這個任務需要多少時間 | 0 | 0 |
Development | 開發 | ||
· Analysis | · 需求分析 (包括學習新技術) | ||
· Design Spec | · 生成設計文件 | ||
· Design Review | · 設計複審 | ||
· Coding Standard | · 程式碼規範 (為目前的開發制定合適的規範) | ||
· Design | · 具體設計 | 0 | 0 |
· Coding | · 具體編碼 | 0 | 0 |
· Code Review | · 程式碼複審 | ||
· Test | · 測試(自我測試,修改程式碼,提交修改) | ||
Reporting | 報告 | ||
· Test Repor | · 測試報告 | ||
· Size Measurement | · 計算工作量 | ||
· Postmortem & Process Improvement Plan | · 事後總結, 並提出過程改進計劃 | ||
· 合計 | 0 | 0 |
姓名:翁敏(前端組)
- 過去兩天完成了哪些任務:
- 文字描述:
- 1.完成了vue腳手架的安裝
- 2.看vue入門視訊,並跟著視訊做了一些demo
- 3.瞭解vue大致的框架,完成了基本的環境的配置。
- 4.再github上查找了一些別人網站設計的思路。
- 展示GitHub當日程式碼/文件簽入記錄:
- 接下來的計劃
- 1.找一些vue系列的相關視訊學習,儘早入門,可以將知識運用到專案開發
- 2.去vue官網看文件學習,查詢有沒有好用的外掛
- 3.我想複習下週的兩門考試,這個目前來說對我比較重要,如果時間允許還是會盡量多打程式碼構思如何儘快完成本組課題的專案開發
- 還剩下哪些任務
- 1.瞭解vue各個模組知識,能夠運用到本次專案中
- 2.還有很多考試和大作業還沒有完成,任重道遠
- 3.還沒有完全清楚瞭解如何使用vue完成網站開發。
- 燃盡圖
- 遇到了哪些困難
- 1.vue_cli安裝完成,再執行rpm run serve時,報錯,大概意思是config配置報錯(還是啥的),找了很多資料,還是無法解決,最終remake重灌了
- 2.對一些vue程式碼模組使用不明白,再沒有文件或者視訊的介紹情況下還是比較難以理解的。
- 有哪些收穫和疑問
- 1.重灌vue_cli時候,直接把nodejs也給刪了(因為我覺得我當初nodejs安裝的路徑也有問題)於是就小心翼翼對著文件安裝nj和vue,看了別人的優秀文件,自愧不如,自己確實跟著學習到了很多東西,以前不懂的那些命令列指令各個字母串接再一起是什麼意思,別人的文件都一一闡述了,得到很多收穫。
- 2.跟著視訊做了vue構建視訊的demo,vue確實很方便,以前用js進行頁面跳轉比較麻煩,vue內部自帶router模組方便快捷(不懂這樣描述是否正確)
學習進度條
alpha輪次 | 新增程式碼(行) | 累計程式碼(行) | 本輪學習耗時(小時) | 累計學習耗時(小時) | 重要成長 |
---|---|---|---|---|---|
1/6 | 462 | 462 | 11 | 11 | 對前端原型進行架構,介面除錯,以及安排分工前端組同學的任務 |
2/6 | 300 | 762 | 4 | 15 | 對前端原型進行架構分析與設計 |
PSP
PSP | Personal Software Process Stages | 預估耗時(分鐘 | 實際耗時(分鐘) |
---|---|---|---|
Planning | 計劃 | 30 | 30 |
· Estimate | · 估計這個任務需要多少時間 | 1020 | 1000 |
Development | 開發 | 300 | 250 |
· Analysis | · 需求分析 (包括學習新技術) | 200 | 100 |
· Design Spec | · 生成設計文件 | 10 | 10 |
· Design Review | · 設計複審 | 50 | 50 |
· Coding Standard | · 程式碼規範 (為目前的開發制定合適的規範) | 50 | 50 |
· Design | · 具體設計 | 100 | 200 |
· Coding | · 具體編碼 | 100 | 300 |
· Code Review | · 程式碼複審 | 50 | 20 |
· Test | · 測試(自我測試,修改程式碼,提交修改) | 50 | 50 |
Reporting | 報告 | 30 | 50 |
· Test Repor | · 測試報告 | 30 | 30 |
· Size Measurement | · 計算工作量 | 10 | 10 |
· Postmortem & Process Improvement Plan | · 事後總結, 並提出過程改進計劃 | 10 | 10 |
· 合計 | 1020 | 1160 |
姓名:陳本源(資料組)
- 過去兩天完成了哪些任務:
- 文字描述:
- 1.爬蟲爬取淘寶(幾十萬條資料)
- 2.爬蟲爬取比價網(幾十萬條資料)
- 3.資料傳送至後端
- 展示GitHub當日程式碼/文件簽入記錄:
- 接下來的計劃
- 1.進行資料清洗
- 2.開始學習PyEcharts,對爬取到的資料,進行資料分析
- 還剩下哪些任務
- 1.對資料進行處理與分析
- 2.生成視覺化圖
- 燃盡圖
- 遇到了哪些困難
- 1.再爬取淘寶的過程中,由於網站的反爬機制,設定了cookies,成功爬取到頁面的相關資訊,但是由於本次任務爬取的資料量實在太過龐大,頻繁的訪問淘寶的url,導致連線多次被主動中斷,甚至出現ip被封,針對此問題本來打算使用selenium,通過動態模擬使用者點選行為,對頁面進行渲染,從而繞過反爬機制,實現爬取,但是該方法耗時長,對於本次任務需要爬取的巨大資料量顯然不適合。後又發現設定time.sleep設定url訪問間隔,但也同樣浪費時間,最後採用python自帶的fake_useragent庫,通過設定隨機頭對url進行訪問,大大降低了伺服器對機器爬蟲的認定概率,從而實現爬取53w條
- 2.爬取比價網的過程中,同樣也是遇到了ip訪問限制,使用download_delay解決。
- 有哪些收穫和疑問
- 1.隨機頭方法在scrapy爬蟲框架中,似乎起不到什麼作用,導致爬取比價網的過程很煎熬,
- 2.瞭解了ip限制的解決方法。
Alpha衝刺 | 新增程式碼(行) | 累計程式碼(行) | 本次學習耗時(小時) | 累計學習耗時(小時) | 重要成長與任務進展 |
---|---|---|---|---|---|
1/6 | 442 | 442 | 10 | 10 | 和另一位組員一起對京東的藥品資訊資料進行爬取 |
PSP | Personal Software Process Stages | 預估耗時(分鐘 | 實際耗時(分鐘) |
---|---|---|---|
Planning | 計劃 | 30 | 72 |
· Estimate | · 估計這個任務需要多少時間 | 1200 | 1600 |
Development | 開發 | 700 | 700 |
· Analysis | · 需求分析 (包括學習新技術) | 5 | 55 |
· Design Spec | · 生成設計文件 | 5 | 55 |
· Design Review | · 設計複審 | 5 | 55 |
· Coding Standard | · 程式碼規範 (為目前的開發制定合適的規範) | 430 | 55 |
· Design | · 具體設計 | 120 | 120 |
· Coding | · 具體編碼 | 360 | 720 |
· Code Review | · 程式碼複審 | 50 | 50 |
· Test | · 測試(自我測試,修改程式碼,提交修改) | 30 | 50 |
Reporting | 報告 | 90 | 180 |
· Test Repor | · 測試報告 | 30 | 60 |
· Size Measurement | · 計算工作量 | 10 | 20 |
· Postmortem & Process Improvement Plan | · 事後總結, 並提出過程改進計劃 | 10 | 100 |
· 合計 | 1200 | 1800 |
姓名:石致彬
- 過去兩天完成了哪些任務:
- 文字描述:
- 1.學習資料庫的相關操作
- 2.學習用jdbc連線資料庫
- 3.初步設計了所需要的表
- 4.初步建立了資料庫
- 展示GitHub當日程式碼/文件簽入記錄:無
- 接下來的計劃
- 1.學習Web方面的知識
- 2.編寫介面供資料組使用向資料庫中新增資料
- 3.編寫介面供資料查詢使用
- 還剩下哪些任務
- 1.學習web知識
- 2.編寫介面
- 3.學習雲伺服器的使用
- 4.配置雲伺服器的環境
- 5.部署到雲伺服器
- 燃盡圖
- 遇到了哪些困難
- 1.時間不夠考試太多
- 2.伺服器太貴了
- 有哪些收穫和疑問
- 1.學習了資料庫的相關知識
- 2.學習了用Java操作資料庫
- 3.疑問:我們真的做得完嗎
Alpha衝刺 | 新增程式碼(行) | 累計程式碼(行) | 本次學習耗時(小時) | 累計學習耗時(小時) | 重要成長與任務進展 |
---|---|---|---|---|---|
1/6 | 563 | 563 | 14 | 14 | 和另一位組員合作對資料庫進行搭建,以及後端的搭建 |
PSP | Personal Software Process Stages | 預估耗時(分鐘 | 實際耗時(分鐘) |
---|---|---|---|
Planning | 計劃 | 30 | 72 |
· Estimate | · 估計這個任務需要多少時間 | 1200 | 1600 |
Development | 開發 | 700 | 700 |
· Analysis | · 需求分析 (包括學習新技術) | 5 | 55 |
· Design Spec | · 生成設計文件 | 5 | 55 |
· Design Review | · 設計複審 | 5 | 55 |
· Coding Standard | · 程式碼規範 (為目前的開發制定合適的規範) | 430 | 55 |
· Design | · 具體設計 | 120 | 120 |
· Coding | · 具體編碼 | 360 | 720 |
· Code Review | · 程式碼複審 | 50 | 50 |
· Test | · 測試(自我測試,修改程式碼,提交修改) | 30 | 50 |
Reporting | 報告 | 90 | 180 |
· Test Repor | · 測試報告 | 30 | 60 |
· Size Measurement | · 計算工作量 | 10 | 20 |
· Postmortem & Process Improvement Plan | · 事後總結, 並提出過程改進計劃 | 10 | 100 |
· 合計 | 1200 | 1800 |
姓名:黃艇淞(資料組)
- 過去兩天完成了哪些任務:
- 文字描述:
- 1.爬蟲爬取淘寶(幾十萬條資料)
- 2.爬蟲爬取比價網(幾十萬條資料)
- 3.資料傳送至後端
- 展示GitHub當日程式碼/文件簽入記錄:
- 接下來的計劃
- 1.進行資料清洗
- 2.開始學習PyEcharts,對爬取到的資料,進行資料分析
- 還剩下哪些任務
- 1.對資料進行處理與分析
- 2.生成視覺化圖
- 燃盡圖
- 遇到了哪些困難
- 1.再爬取淘寶的過程中,由於網站的反爬機制,設定了cookies,成功爬取到頁面的相關資訊,但是由於本次任務爬取的資料量實在太過龐大,頻繁的訪問淘寶的url,導致連線多次被主動中斷,甚至出現ip被封,針對此問題本來打算使用selenium,通過動態模擬使用者點選行為,對頁面進行渲染,從而繞過反爬機制,實現爬取,但是該方法耗時長,對於本次任務需要爬取的巨大資料量顯然不適合。後又發現設定time.sleep設定url訪問間隔,但也同樣浪費時間,最後採用python自帶的fake_useragent庫,通過設定隨機頭對url進行訪問,大大降低了伺服器對機器爬蟲的認定概率,從而實現爬取53w條
- 2.爬取比價網的過程中,同樣也是遇到了ip訪問限制,使用download_delay解決。
- 有哪些收穫和疑問
- 1.隨機頭方法在scrapy爬蟲框架中,似乎起不到什麼作用,導致爬取比價網的過程很煎熬,
- 2.瞭解了ip限制的解決方法。
Alpha衝刺 | 新增程式碼(行) | 累計程式碼(行) | 本次學習耗時(小時) | 累計學習耗時(小時) | 重要成長與任務進展 |
---|---|---|---|---|---|
1/6 | 352 | 352 | 7 | 7 | 和另一位組員一起對京東的藥品資訊資料進行爬取 |
PSP | Personal Software Process Stages | 預估耗時(分鐘 | 實際耗時(分鐘) |
---|---|---|---|
Planning | 計劃 | 30 | 72 |
· Estimate | · 估計這個任務需要多少時間 | 1200 | 1600 |
Development | 開發 | 700 | 700 |
· Analysis | · 需求分析 (包括學習新技術) | 5 | 55 |
· Design Spec | · 生成設計文件 | 5 | 55 |
· Design Review | · 設計複審 | 5 | 55 |
· Coding Standard | · 程式碼規範 (為目前的開發制定合適的規範) | 430 | 55 |
· Design | · 具體設計 | 120 | 120 |
· Coding | · 具體編碼 | 360 | 720 |
· Code Review | · 程式碼複審 | 50 | 50 |
· Test | · 測試(自我測試,修改程式碼,提交修改) | 30 | 50 |
Reporting | 報告 | 90 | 180 |
· Test Repor | · 測試報告 | 30 | 60 |
· Size Measurement | · 計算工作量 | 10 | 20 |
· Postmortem & Process Improvement Plan | · 事後總結, 並提出過程改進計劃 | 10 | 100 |
· 合計 | 1200 | 1800 |
姓名:唐勁霆
- 過去兩天完成了哪些任務:
- 文字描述:
- 1.協同部署
- 2.各個分工小組的問題彙總商討
- 3.部落格彙總整合
- 展示GitHub當日程式碼/文件簽入記錄:
- 接下來的計劃
- 同步測試
- 還剩下哪些任務
- 繼續協同分工,及測試功能
- 燃盡圖
- 遇到了哪些困難
- GitHub上傳檔案登入時密碼沒錯但是遇一直提示密碼錯誤,人麻了
- 有哪些收穫和疑問
- 收穫:跟著組長學了一些,以及GitHub的token申請
- 疑問:藥監局這種官方網站也會百疏一漏嗎
第N輪 | 新增程式碼(行) | 累計程式碼(行) | 本輪學習耗時(小時) | 累計學習耗時(小時) | 重要成長 |
---|---|---|---|---|---|
1 | 208 | 208 | 0 | 0 | 網頁的基本佈局以及路由跳轉 |
PSP | Personal Software Process Stages | 預估耗時(分鐘 | 實際耗時(分鐘) |
---|---|---|---|
Planning | 計劃 | 30 | 72 |
· Estimate | · 估計這個任務需要多少時間 | 1200 | 1600 |
Development | 開發 | 700 | 700 |
· Analysis | · 需求分析 (包括學習新技術) | 5 | 55 |
· Design Spec | · 生成設計文件 | 5 | 55 |
· Design Review | · 設計複審 | 5 | 55 |
· Coding Standard | · 程式碼規範 (為目前的開發制定合適的規範) | 430 | 55 |
· Design | · 具體設計 | 120 | 120 |
· Coding | · 具體編碼 | 360 | 720 |
· Code Review | · 程式碼複審 | 50 | 50 |
· Test | · 測試(自我測試,修改程式碼,提交修改) | 30 | 50 |
Reporting | 報告 | 90 | 180 |
· Test Repor | · 測試報告 | 30 | 60 |
· Size Measurement | · 計算工作量 | 10 | 20 |
· Postmortem & Process Improvement Plan | · 事後總結, 並提出過程改進計劃 | 10 | 100 |
· 合計 | 1200 | 1800 |
姓名:林志煌
- 過去兩天完成了哪些任務:
- 文字描述:
- 1.複習了前端三要素
- 2.寫了簡單的登入介面
- 展示GitHub當日程式碼/文件簽入記錄:
- 接下來的計劃
- 1.繼續完善介面
- 2.增加其他功能
- 還剩下哪些任務
- 1.完善
- 2.增加功能
- 燃盡圖
- 遇到了哪些困難
- 1.知識點大多都忘了,只能邊查邊做
- 2.模板幾乎都是要收費的
- 有哪些收穫和疑問
- 1.收穫:複習了以前的知識,算是小鞏固
- 2.疑問:暫時沒啥疑問
Alpha衝刺 | 新增程式碼(行) | 累計程式碼(行) | 本次學習耗時(小時) | 累計學習耗時(小時) | 重要成長與任務進展 |
---|---|---|---|---|---|
1/6 | 362 | 362 | 10 | 10 | 和另一位組員合作對資料庫進行搭建,以及後端的搭建 |
PSP | Personal Software Process Stages | 預估耗時(分鐘 | 實際耗時(分鐘) |
---|---|---|---|
Planning | 計劃 | 30 | 72 |
· Estimate | · 估計這個任務需要多少時間 | 1200 | 1600 |
Development | 開發 | 700 | 700 |
· Analysis | · 需求分析 (包括學習新技術) | 5 | 55 |
· Design Spec | · 生成設計文件 | 5 | 55 |
· Design Review | · 設計複審 | 5 | 55 |
· Coding Standard | · 程式碼規範 (為目前的開發制定合適的規範) | 430 | 55 |
· Design | · 具體設計 | 120 | 120 |
· Coding | · 具體編碼 | 360 | 720 |
· Code Review | · 程式碼複審 | 50 | 50 |
· Test | · 測試(自我測試,修改程式碼,提交修改) | 30 | 50 |
Reporting | 報告 | 90 | 180 |
· Test Repor | · 測試報告 | 30 | 60 |
· Size Measurement | · 計算工作量 | 10 | 20 |
· Postmortem & Process Improvement Plan | · 事後總結, 並提出過程改進計劃 | 10 | 100 |
· 合計 | 1200 | 1800 |
姓名:陳碩
- 過去兩天完成了哪些任務:
- 文字描述:
- 1.爬蟲爬取淘寶(幾十萬條資料)
- 2.爬蟲爬取藥房網
- 3.資料傳送至後端
- 展示GitHub當日程式碼/文件簽入記錄:
- 接下來的計劃
- 1.進行資料清洗
- 2.開始學習PyEcharts,對爬取到的資料,進行資料分析
- 還剩下哪些任務
- 1.對資料進行處理與分析
- 2.生成視覺化圖
- 燃盡圖
- 遇到了哪些困難
- 1.爬蟲團隊在爬取淘寶的過程中,由於網站的反爬機制,設定了cookies,成功爬取到頁面的相關資訊,但是由於本次任務爬取的資料量實在太過龐大,頻繁的訪問淘寶的url,導致連線多次被主動中斷,甚至出現ip被封,針對此問題本來打算使用selenium,通過動態模擬使用者點選行為,對頁面進行渲染,從而繞過反爬機制,實現爬取,但是該方法耗時長,對於本次任務需要爬取的巨大資料量顯然不適合。後又發現設定time.sleep設定url訪問間隔,但也同樣浪費時間,最後採用python自帶的fake_useragent庫,通過設定隨機頭對url進行訪問,大大降低了伺服器對機器爬蟲的認定概率,從而實現爬取53w條
- 2.爬取比價網的過程中,同樣也是遇到了ip訪問限制,使用download_delay解決。
- 有哪些收穫和疑問
- 1.隨機頭方法在scrapy爬蟲框架中,似乎起不到什麼作用,導致爬取比價網的過程很煎熬,
- 2.瞭解了ip限制的解決方法。
Alpha衝刺 | 新增程式碼(行) | 累計程式碼(行) | 本次學習耗時(小時) | 累計學習耗時(小時) | 重要成長與任務進展 |
---|---|---|---|---|---|
1/6 | 410 | 410 | 9 | 9 | 和另一位組員一起對淘寶的藥品資訊資料進行爬取 |
PSP | Personal Software Process Stages | 預估耗時(分鐘 | 實際耗時(分鐘) |
---|---|---|---|
Planning | 計劃 | 30 | 72 |
· Estimate | · 估計這個任務需要多少時間 | 1200 | 1600 |
Development | 開發 | 700 | 700 |
· Analysis | · 需求分析 (包括學習新技術) | 5 | 55 |
· Design Spec | · 生成設計文件 | 5 | 55 |
· Design Review | · 設計複審 | 5 | 55 |
· Coding Standard | · 程式碼規範 (為目前的開發制定合適的規範) | 430 | 55 |
· Design | · 具體設計 | 120 | 120 |
· Coding | · 具體編碼 | 360 | 720 |
· Code Review | · 程式碼複審 | 50 | 50 |
· Test | · 測試(自我測試,修改程式碼,提交修改) | 30 | 50 |
Reporting | 報告 | 90 | 180 |
· Test Repor | · 測試報告 | 30 | 60 |
· Size Measurement | · 計算工作量 | 10 | 20 |
· Postmortem & Process Improvement Plan | · 事後總結, 並提出過程改進計劃 | 10 | 100 |
· 合計 | 1200 | 1800 |
姓名:林澤熙
- 過去兩天完成了哪些任務:
- 文字描述:
- 1.爬蟲爬取淘寶(幾十萬條資料)
- 2.資料傳送至後端
- 展示GitHub當日程式碼/文件簽入記錄:
- 接下來的計劃
- 1.進行資料清洗
- 2.開始學習Pyecharts
- 還剩下哪些任務
- 1.資料處理與分析
- 2.資料視覺化
- 燃盡圖
- 遇到了哪些困難
- 1.爬蟲團隊在爬取淘寶的過程中,由於網站的反爬機制,設定了cookies,成功爬取到頁面的相關資訊,但是由於本次任務爬取的資料量實在太過龐大,頻繁的訪問淘寶的url,導致連線多次被主動中斷,甚至出現ip被封,針對此問題本來打算使用selenium,通過動態模擬使用者點選行為,對頁面進行渲染,從而繞過反爬機制,實現爬取,但是該方法耗時長,對於本次任務需要爬取的巨大資料量顯然不適合。後又發現設定time.sleep設定url訪問間隔,但也同樣浪費時間,最後採用python自帶的fake_useragent庫,通過設定隨機頭對url進行訪問,大大降低了伺服器對機器爬蟲的認定概率,從而實現爬取53w條
- 2.github使用不熟悉
- 3.復現了組長的抓包爬取藥監局手段,完善了json欄位
- 有哪些收穫和疑問
- 1.瞭解了ip限制的解決方法。
- 2.python第三方庫功能強大,需要自己多多瞭解和使用
Alpha衝刺 | 新增程式碼(行) | 累計程式碼(行) | 本次學習耗時(小時) | 累計學習耗時(小時) | 重要成長與任務進展 |
---|---|---|---|---|---|
1/6 | 411 | 411 | 10 | 10 | 和另一位組員一起對淘寶的藥品資訊資料進行爬取 |
PSP | Personal Software Process Stages | 預估耗時(分鐘 | 實際耗時(分鐘) |
---|---|---|---|
Planning | 計劃 | 30 | 72 |
· Estimate | · 估計這個任務需要多少時間 | 1200 | 1600 |
Development | 開發 | 700 | 700 |
· Analysis | · 需求分析 (包括學習新技術) | 5 | 55 |
· Design Spec | · 生成設計文件 | 5 | 55 |
· Design Review | · 設計複審 | 5 | 55 |
· Coding Standard | · 程式碼規範 (為目前的開發制定合適的規範) | 430 | 55 |
· Design | · 具體設計 | 120 | 120 |
· Coding | · 具體編碼 | 360 | 720 |
· Code Review | · 程式碼複審 | 50 | 50 |
· Test | · 測試(自我測試,修改程式碼,提交修改) | 30 | 50 |
Reporting | 報告 | 90 | 180 |
· Test Repor | · 測試報告 | 30 | 60 |
· Size Measurement | · 計算工作量 | 10 | 20 |
· Postmortem & Process Improvement Plan | · 事後總結, 並提出過程改進計劃 | 10 | 100 |
· 合計 | 1200 | 1800 |
PSP & 學習進度條(學習進度條每週追加)
PSP(全隊)
PSP | Personal Software Process Stages | 預估耗時(分鐘 | 實際耗時(分鐘) |
---|---|---|---|
Planning | 計劃 | 300 | 720 |
· Estimate | · 估計這個任務需要多少時間 | 12000 | 16000 |
Development | 開發 | 7000 | 7000 |
· Analysis | · 需求分析 (包括學習新技術) | 50 | 550 |
· Design Spec | · 生成設計文件 | 50 | 550 |
· Design Review | · 設計複審 | 50 | 550 |
· Coding Standard | · 程式碼規範 (為目前的開發制定合適的規範) | 4300 | 550 |
· Design | · 具體設計 | 1200 | 1200 |
· Coding | · 具體編碼 | 3600 | 7200 |
· Code Review | · 程式碼複審 | 500 | 500 |
· Test | · 測試(自我測試,修改程式碼,提交修改) | 300 | 500 |
Reporting | 報告 | 900 | 1800 |
· Test Repor | · 測試報告 | 30 0 | 600 |
· Size Measurement | · 計算工作量 | 100 | 200 |
· Postmortem & Process Improvement Plan | · 事後總結, 並提出過程改進計劃 | 10 | 100 |
· 合計 | 1200 | 18000 |
學習進度條
- 蘇偉煌:
Alpha衝刺 | 新增程式碼(行) | 累計程式碼(行) | 本次學習耗時(小時) | 累計學習耗時(小時) | 重要成長與任務進展 |
---|---|---|---|---|---|
1/6 | 506 | 506 | 15 | 15 | 各部分工作任務監督,對後端初步進行測試以及參與前端原型架構 |
- 陳碩:
Alpha衝刺 | 新增程式碼(行) | 累計程式碼(行) | 本次學習耗時(小時) | 累計學習耗時(小時) | 重要成長與任務進展 |
---|---|---|---|---|---|
1/6 | 410 | 410 | 9 | 9 | 和另一位組員一起對淘寶的藥品資訊資料進行爬取 |
- 陳本源:
Alpha衝刺 | 新增程式碼(行) | 累計程式碼(行) | 本次學習耗時(小時) | 累計學習耗時(小時) | 重要成長與任務進展 |
---|---|---|---|---|---|
1/6 | 442 | 442 | 10 | 10 | 和另一位組員一起對京東的藥品資訊資料進行爬取 |
- 黃艇淞:
Alpha衝刺 | 新增程式碼(行) | 累計程式碼(行) | 本次學習耗時(小時) | 累計學習耗時(小時) | 重要成長與任務進展 |
---|---|---|---|---|---|
1/6 | 352 | 352 | 7 | 7 | 和另一位組員一起對京東的藥品資訊資料進行爬取 |
- 林澤熙:
Alpha衝刺 | 新增程式碼(行) | 累計程式碼(行) | 本次學習耗時(小時) | 累計學習耗時(小時) | 重要成長與任務進展 |
---|---|---|---|---|---|
1/6 | 411 | 411 | 10 | 10 | 和另一位組員一起對淘寶的藥品資訊資料進行爬取 |
- 翁敏:
Alpha衝刺 | 新增程式碼(行) | 累計程式碼(行) | 本次學習耗時(小時) | 累計學習耗時(小時) | 重要成長與任務進展 |
---|---|---|---|---|---|
1/6 | 462 | 462 | 11 | 11 | 對前端原型進行架構,介面除錯,以及安排分工前端組同學的任務 |
- 林志煌:
Alpha衝刺 | 新增程式碼(行) | 累計程式碼(行) | 本次學習耗時(小時) | 累計學習耗時(小時) | 重要成長與任務進展 |
---|---|---|---|---|---|
1/6 | 362 | 362 | 10 | 10 | 和另一位組員合作對資料庫進行搭建,以及後端的搭建 |
- 石致彬:
Alpha衝刺 | 新增程式碼(行) | 累計程式碼(行) | 本次學習耗時(小時) | 累計學習耗時(小時) | 重要成長與任務進展 |
---|---|---|---|---|---|
1/6 | 563 | 563 | 14 | 14 | 和另一位組員合作對資料庫進行搭建,以及後端的搭建 |
- 唐勁霆:
Alpha衝刺 | 新增程式碼(行) | 累計程式碼(行) | 本次學習耗時(小時) | 累計學習耗時(小時) | 重要成長與任務進展 |
---|---|---|---|---|---|
1/6 | 369 | 369 | 10 | 10 | 各分工組反饋的問題商討解決,後端初步測試,部落格整合 |
- 王毅萍:
Alpha衝刺 | 新增程式碼(行) | 累計程式碼(行) | 本次學習耗時(小時) | 累計學習耗時(小時) | 重要成長與任務進展 |
---|---|---|---|---|---|
1/6 | 388 | 388 | 8 | 8 | 對前端原型進行架構,介面除錯 |
-
組內最新成果展示
- 以二甲雙胍為例的成本價指導價散點圖:
解析了圖中潛在的三個斜率的含義,有95.5以上的概率可以認為藥品的劑型與藥品價格相關(by資料組) - 前端組協助下,利用抓包工具爬取了藥監局的藥品名單:部分展示如下:
將近1.8萬條
- 以二甲雙胍為例的成本價指導價散點圖:
-
站立會議合照
-
會議耗時記錄(每次追加記錄)
第N次alpha會議 | 耗時(分鐘) |
---|---|
1/6 | 8 |
2/6 | |
3/6 | |
4/6 | |
5/6 | |
6/6 |