1. 程式人生 > 其它 >10組-Alpha衝刺-1/6

10組-Alpha衝刺-1/6

一、基本情況

  • 隊名:要有格局才對
  • 組長部落格:本部落格即組長部落格
  • 小組人數:10

二、衝刺概況彙報

根據擬定的團隊分工

  • 在充分尊重大家意願的前提下、團隊分工如下(用名字唯一識別符號標識):
  • 前端組:萍、翁
  • 後端組:石、林
  • 資料組:碩、源、鬆、熙
  • 管理組:蘇、唐
  • alpha_1彙總:
組名 第一階段分工 第二階段 第三階段 alpha_1階段 主任務
前端組 原型設計、視訊 介面除錯 原型實現、UI優化 前端相關 前端相關
資料組 爬取可行性分析測試 資料收集 資料分析 資料相關 資料相關
後端組 資料庫搭建 後端構建、介面文件說明 後端完善 後端相關 後端相關
管理組(含測試組) 部落格撰寫、規劃 各組協調 測試優化、部署 測試、端茶倒水 測試管理相關

姓名:蘇偉煌(組長)

  • 過去兩天完成了哪些任務:
    • 文字描述:
      • 1.基本分工部署
      • 2.GitHub部署
      • 3.緩解組員緊張情緒
      • 4.幫組測試組解決藥監局爬取攻堅
    • 展示GitHub當日程式碼/文件簽入記錄:
  • 接下來的計劃
    • main:大家都有考試、成績很重要、暫不作過多計劃分工
    • 繼續爬取
    • 前端初步
  • 還剩下哪些任務
    • 同上
    • 說點實際的:微機介面考試、圖形學考試、面向物件考試、人工智慧。
  • 燃盡圖
  • 遇到了哪些困難
    • 藥監局攻堅爬取、最後用抓包手段解決
  • 有哪些收穫和疑問
    • 收穫:知道了用抓包的手段也可以在手機這種平臺爬取資料、很冷門的技巧,算是作為組長為數不多的小貢獻
    • 疑問:藥監局這種官方網站也會百疏一漏嗎

姓名:翁敏(前端組)

  • 過去兩天完成了哪些任務:

    • 文字描述:
      • 1.動手實戰了用網頁三件套(html,css,js)製作頁面,主要收穫了樣式佈置的相對位置和絕對位置,js語言相對容易上手,setinterval延時功能讓我明白可以用js程式碼控制頁面的更新。
      • 2.學習了vue框架的大致使用,學習了一些元件(比如v-on,v-if,v-show,這些元件比傳統的js程式碼設計頁面來的省時省力
      • 3.通過和同學的交談,收穫了很多優秀的第三方外掛或者框架的使用方法,使自己更容易使用搜索引擎尋找網路上的資源
      • 4.對本次軟工課設前端頁面的佈局有了新的設計思路,主要佈局有了大致的設計想法。
    • 展示GitHub當日程式碼/文件簽入記錄:
  • 接下來的計劃

    • 1.學習vue框架
    • 2.學習一些更前言的網頁設計方法
    • 3.學習一些資料儲存方法,特別是跨頁面儲存,之前用export模組儲存,但是瀏覽器會報錯,這個問題待解決。
  • 還剩下哪些任務

    • 1.因為我是擔任前端任務,所以我對自己設定的主要任務是學習使用vue框架設計頁面
    • 2.學習頁面如何呼叫後臺資料庫
  • 燃盡圖

  • 遇到了哪些困難

    • 1.在資料儲存這塊自己掌握的仍然不清晰,不知道頁面的儲存資訊模式是怎麼樣的,設定成全域性變數再頁面更新的時候就初始化掉,export模組也會報錯
    • 2.對一些好用適用的框架了解太少了,vue知識也欠缺,以至於動手寫程式碼時候相關的知識不夠用,需要自己重新造輪子
  • 有哪些收穫和疑問

    • 1.(疑問上面已經描述了,這裡不早贅述)收穫了一些新的頁面設計思路,以前自己只會用網頁三件套設計頁面,但是那樣太繁雜了,而且都是重複造輪子。
    • 2.學習瞭解了一些新的框架的使用,vue真是太方便了,當然肯定還有許多更好用的框架和元件等待著我去發現。

姓名:陳本源(資料組)

  • 過去兩天完成了哪些任務:
    • 文字描述:
      • 1.爬蟲爬取淘寶(幾十萬條資料)
      • 2.爬蟲爬取比價網(幾十萬條資料)
      • 3.資料傳送至後端
    • 展示GitHub當日程式碼/文件簽入記錄:
  • 接下來的計劃
    • 1.進行資料清洗
    • 2.開始學習PyEcharts,對爬取到的資料,進行資料分析
  • 還剩下哪些任務
    • 1.對資料進行處理與分析
    • 2.生成視覺化圖
  • 燃盡圖
    • (不用做)
  • 遇到了哪些困難
    • 1.再爬取淘寶的過程中,由於網站的反爬機制,設定了cookies,成功爬取到頁面的相關資訊,但是由於本次任務爬取的資料量實在太過龐大,頻繁的訪問淘寶的url,導致連線多次被主動中斷,甚至出現ip被封,針對此問題本來打算使用selenium,通過動態模擬使用者點選行為,對頁面進行渲染,從而繞過反爬機制,實現爬取,但是該方法耗時長,對於本次任務需要爬取的巨大資料量顯然不適合。後又發現設定time.sleep設定url訪問間隔,但也同樣浪費時間,最後採用python自帶的fake_useragent庫,通過設定隨機頭對url進行訪問,大大降低了伺服器對機器爬蟲的認定概率,從而實現爬取53w條
    • 2.爬取比價網的過程中,同樣也是遇到了ip訪問限制,使用download_delay解決。
  • 有哪些收穫和疑問
    • 1.隨機頭方法在scrapy爬蟲框架中,似乎起不到什麼作用,導致爬取比價網的過程很煎熬,
    • 2.瞭解了ip限制的解決方法。

姓名:石致彬

  • 過去兩天完成了哪些任務:
    • 文字描述:
      • 1.學習資料庫的相關操作
      • 2.學習用jdbc連線資料庫
      • 3.初步設計了所需要的表
      • 4.初步建立了資料庫
    • 展示GitHub當日程式碼/文件簽入記錄:無
    • (圖片直接發給我)
  • 接下來的計劃
    • 1.學習Web方面的知識
    • 2.編寫介面供資料組使用向資料庫中新增資料
    • 3.編寫介面供資料查詢使用
  • 還剩下哪些任務
    • 1.學習web知識
    • 2.編寫介面
    • 3.學習雲伺服器的使用
    • 4.配置雲伺服器的環境
    • 5.部署到雲伺服器
  • 燃盡圖
    • (不用做)
  • 遇到了哪些困難
    • 1.時間不夠考試太多
    • 2.伺服器太貴了
  • 有哪些收穫和疑問
    • 1.學習了資料庫的相關知識
    • 2.學習了用Java操作資料庫
    • 3.疑問:我們真的做得完嗎

姓名:林志煌

  • 過去兩天完成了哪些任務:
    • 文字描述:
      • 1.複習了前端三要素
      • 2.寫了簡單的登入介面
    • 展示GitHub當日程式碼/文件簽入記錄:
  • 接下來的計劃
    • 1.繼續完善介面
    • 2.增加其他功能
  • 還剩下哪些任務
    • 1.完善
    • 2.增加功能
  • 燃盡圖
  • 遇到了哪些困難
    • 1.知識點大多都忘了,只能邊查邊做
    • 2.模板幾乎都是要收費的
  • 有哪些收穫和疑問
    • 1.收穫:複習了以前的知識,算是小鞏固
    • 2.疑問:暫時沒啥疑問

姓名:陳碩

  • 過去兩天完成了哪些任務:
    • 文字描述:
      • 1.爬蟲爬取淘寶(幾十萬條資料)
      • 2.爬蟲爬取藥房網
      • 3.資料傳送至後端
    • 展示GitHub當日程式碼/文件簽入記錄:
  • 接下來的計劃
    • 1.進行資料清洗
    • 2.開始學習PyEcharts,對爬取到的資料,進行資料分析
  • 還剩下哪些任務
    • 1.對資料進行處理與分析
    • 2.生成視覺化圖
  • 燃盡圖
    • (不用做)
  • 遇到了哪些困難
    • 1.爬蟲團隊在爬取淘寶的過程中,由於網站的反爬機制,設定了cookies,成功爬取到頁面的相關資訊,但是由於本次任務爬取的資料量實在太過龐大,頻繁的訪問淘寶的url,導致連線多次被主動中斷,甚至出現ip被封,針對此問題本來打算使用selenium,通過動態模擬使用者點選行為,對頁面進行渲染,從而繞過反爬機制,實現爬取,但是該方法耗時長,對於本次任務需要爬取的巨大資料量顯然不適合。後又發現設定time.sleep設定url訪問間隔,但也同樣浪費時間,最後採用python自帶的fake_useragent庫,通過設定隨機頭對url進行訪問,大大降低了伺服器對機器爬蟲的認定概率,從而實現爬取53w條
    • 2.爬取比價網的過程中,同樣也是遇到了ip訪問限制,使用download_delay解決。
  • 有哪些收穫和疑問
    • 1.隨機頭方法在scrapy爬蟲框架中,似乎起不到什麼作用,導致爬取比價網的過程很煎熬,
    • 2.瞭解了ip限制的解決方法。

姓名:林澤熙

  • 過去兩天完成了哪些任務:
    • 文字描述:
      • 1.爬蟲爬取淘寶(幾十萬條資料)
      • 2.資料傳送至後端
    • 展示GitHub當日程式碼/文件簽入記錄:
  • 接下來的計劃
    • 1.進行資料清洗
    • 2.開始學習Pyecharts
  • 還剩下哪些任務
    • 1.資料處理與分析
    • 2.資料視覺化
  • 燃盡圖
    • (不用做)
  • 遇到了哪些困難
    • 1.爬蟲團隊在爬取淘寶的過程中,由於網站的反爬機制,設定了cookies,成功爬取到頁面的相關資訊,但是由於本次任務爬取的資料量實在太過龐大,頻繁的訪問淘寶的url,導致連線多次被主動中斷,甚至出現ip被封,針對此問題本來打算使用selenium,通過動態模擬使用者點選行為,對頁面進行渲染,從而繞過反爬機制,實現爬取,但是該方法耗時長,對於本次任務需要爬取的巨大資料量顯然不適合。後又發現設定time.sleep設定url訪問間隔,但也同樣浪費時間,最後採用python自帶的fake_useragent庫,通過設定隨機頭對url進行訪問,大大降低了伺服器對機器爬蟲的認定概率,從而實現爬取53w條
    • 2.github使用不熟悉
    • 3.復現了組長的抓包爬取藥監局手段,完善了json欄位
  • 有哪些收穫和疑問
    • 1.瞭解了ip限制的解決方法。
    • 2.python第三方庫功能強大,需要自己多多瞭解和使用

PSP & 學習進度條(學習進度條每週追加)

PSP

PSP Personal Software Process Stages 預估耗時(分鐘 實際耗時(分鐘)
Planning 計劃 30 72
· Estimate · 估計這個任務需要多少時間 1200 1600
Development 開發 700 700
· Analysis · 需求分析 (包括學習新技術) 5 55
· Design Spec · 生成設計文件 5 55
· Design Review · 設計複審 5 55
· Coding Standard · 程式碼規範 (為目前的開發制定合適的規範) 430 55
· Design · 具體設計 120 120
· Coding · 具體編碼 360 720
· Code Review · 程式碼複審 50 50
· Test · 測試(自我測試,修改程式碼,提交修改) 30 50
Reporting 報告 90 180
· Test Repor · 測試報告 30 60
· Size Measurement · 計算工作量 10 20
· Postmortem & Process Improvement Plan · 事後總結, 並提出過程改進計劃 10 100
· 合計 1200 1800

學習進度條

  • 組內最新成果展示

    • 藥監局資料展示(這不是程式碼、看清了):
  • 站立會議合照

  • 會議耗時記錄(每次追加記錄)
    |第N次會議| 耗時(分鐘)|
    | -- | -- |
    |4|8|
    |5| |
    |6| |
    |7| |
    |8| |