“希希敬敬對”團隊作業——敏捷衝刺4

阿新 • • 發佈：2018-11-27

“希希敬敬對”百度貼吧小爬蟲任務計劃：

今天的團隊討論照片：

　　　龍江騰（隊長） 201810775001

　　　　　完成“爬取發帖主題人的主題回覆資料”程式碼review，明天完成程式碼，實現“把10個頁面的資料整合到一個數據組中，並進行排序”的功能。

　　　楊希 201810812008

　　　　　完成程式碼，實現“爬取發帖主題人的主題回覆資料”功能，明天完成“把10個頁面的資料整合到一個數據組中，並進行排序”的程式碼review。

　　　何敬上　　　　 201810812004

　　　　　完成“爬取發帖主題人的主題回覆資料”程式碼review，明天完成程式碼，實現“把10個頁面的資料整合到一個數據組中，並進行排序”的功能。

遇到的問題：

　　暫無

燃盡圖：

程式程式碼（基於昨天程式碼的基礎上的更新）：

# 找到資料對應的網頁，分析網頁結構找到資料所在的標籤位置
#模擬HTTP請求，向伺服器傳送這個請求，獲取到伺服器返回給我們的HTML

import re
from urllib import request

class BDTBCrawler():
    url = "http://tieba.baidu.com/f?kw=%E4%B8%9C%E5%8D%8E%E7%90%86%E5%B7%A5%E5%A4%A7%E5%AD%A6&ie=utf-8"
    Name_num_list = []

    def __init__(self, url):
        BDTBCrawler.url = url

    #匹配到包含了主題作者和帖子回覆數關鍵字的標籤
    root_pattern = '<span class="threadlist_rep_num center_text"([\s\S]*?)data-field='
    # 匹配到對應的帖子回覆數
    num_pattern = 'title="回覆">([\s\S]*?)</span>'
    # 匹配到主題作者
    name_pattern = 'title="主題作者: ([\s\S]*?)"'

    #模擬HTTP請求，向伺服器傳送請求，獲取到伺服器返回給我們的HTML
    def __fetch_content(self):
        r = request.urlopen(BDTBCrawler.url)
        htmls = r.read()
        # 將伺服器返回的位元組碼轉換成字串格式
        htmls = str(htmls, encoding='utf-8')
        return htmls

    def __analysis(self, htmls):
        #root_html獲取包含了主題作者和帖子回覆數關鍵字的標籤
        root_html = re.findall(BDTBCrawler.root_pattern, htmls)
        # 用anchors這個列表來存放提取出來的主題作者和帖子回覆陣列成的字典
        anchors = []
        for html in root_html:
            # 提取主題作者（列表型別）
            name = re.findall(BDTBCrawler.name_pattern, html)
            # #提取回複數（列表型別）
            number = re.findall(BDTBCrawler.num_pattern, html)
            anchor = {'name': name, 'number': number}
            anchors.append(anchor)
            # print(anchors)
        return anchors

    def go(self):
        #使用for迴圈爬取前10頁
        htmls = ''
        for i in range(0, 10):
            pn = i * 50
            #page記錄當前爬取頁面需要在URL上新增的字串
            page = '&pn=' + str(pn)
            BDTBCrawler.url += page
            htmls += self.__fetch_content()
        anchors = self.__analysis(htmls)
        for i in anchors:
            print(i)

crawler = BDTBCrawler(BDTBCrawler.url)
crawler.go()

程式執行結果部分截圖：

“希希敬敬對”百度貼吧小爬蟲任務計劃：

今天的團隊討論照片：

　　　龍江騰（隊長） 201810775001

　　　　　完成“爬取發帖主題人的主題回覆資料”程式碼review，明天完成程式碼，實現“把10個頁面的資料整合到一個數據組中，並進行排序”的功能。

　　　楊希 201810812008

　　　　　完成程式碼，實現“爬取發帖主題人的主題回覆資料”功能，明天完成“把10個頁面的資料整合到一個數據組中，並進行排序”的程式碼review。

　　　何敬上　　　　 201810812004

　　　　　完成“爬取發帖主題人的主題回覆資料”程式碼review，明天完成程式碼，實現“把10個頁面的資料整合到一個數據組中，並進行排序”的功能。

遇到的問題：

　　暫無

燃盡圖：

程式程式碼（基於昨天程式碼的基礎上的更新）：

# 找到資料對應的網頁，分析網頁結構找到資料所在的標籤位置
#模擬HTTP請求，向伺服器傳送這個請求，獲取到伺服器返回給我們的HTML

import re
from urllib import request

class BDTBCrawler():
    url = "http://tieba.baidu.com/f?kw=%E4%B8%9C%E5%8D%8E%E7%90%86%E5%B7%A5%E5%A4%A7%E5%AD%A6&ie=utf-8"
    Name_num_list = []

    def __init__(self, url):
        BDTBCrawler.url = url

    #匹配到包含了主題作者和帖子回覆數關鍵字的標籤
    root_pattern = '<span class="threadlist_rep_num center_text"([\s\S]*?)data-field='
    # 匹配到對應的帖子回覆數
    num_pattern = 'title="回覆">([\s\S]*?)</span>'
    # 匹配到主題作者
    name_pattern = 'title="主題作者: ([\s\S]*?)"'

    #模擬HTTP請求，向伺服器傳送請求，獲取到伺服器返回給我們的HTML
    def __fetch_content(self):
        r = request.urlopen(BDTBCrawler.url)
        htmls = r.read()
        # 將伺服器返回的位元組碼轉換成字串格式
        htmls = str(htmls, encoding='utf-8')
        return htmls

    def __analysis(self, htmls):
        #root_html獲取包含了主題作者和帖子回覆數關鍵字的標籤
        root_html = re.findall(BDTBCrawler.root_pattern, htmls)
        # 用anchors這個列表來存放提取出來的主題作者和帖子回覆陣列成的字典
        anchors = []
        for html in root_html:
            # 提取主題作者（列表型別）
            name = re.findall(BDTBCrawler.name_pattern, html)
            # #提取回複數（列表型別）
            number = re.findall(BDTBCrawler.num_pattern, html)
            anchor = {'name': name, 'number': number}
            anchors.append(anchor)
            # print(anchors)
        return anchors

    def go(self):
        #使用for迴圈爬取前10頁
        htmls = ''
        for i in range(0, 10):
            pn = i * 50
            #page記錄當前爬取頁面需要在URL上新增的字串
            page = '&pn=' + str(pn)
            BDTBCrawler.url += page
            htmls += self.__fetch_content()
        anchors = self.__analysis(htmls)
        for i in anchors:
            print(i)

crawler = BDTBCrawler(BDTBCrawler.url)
crawler.go()

程式執行結果部分截圖：

“希希敬敬對”團隊作業——敏捷衝刺4

“希希敬敬對”百度貼吧小爬蟲任務計劃：今天的團隊討論照片：　　　龍江騰（隊長） 201810775001 　　　　　完成“爬取發帖主題人的主題回覆資料”程式碼review，明天完成程式碼，實現“把10個頁面的資料整合到一個數據組中，並進行排序”的功能。　　　楊希

“希希敬敬對”團隊作業-敏捷衝刺-3

“希希敬敬對”百度貼吧小爬蟲任務計劃：今天的團隊討論照片：　　　龍江騰（隊長） 201810775001 　　　　　完成任務“對貼吧前10頁進行爬取任務”，明天將完成“爬取發帖主題人的主題回覆資料”程式碼review。　　　楊希

“希希敬敬對”團隊作業——敏捷衝刺7

1“希希敬敬對”百度貼吧小爬蟲任務計劃：龍江騰（隊長） 201810775001 程式生成exe檔案遇到了些問題，程式生成apk檔案的review，程式貼吧推廣使用的review。楊希 &nbs

兩隻小熊隊高階軟體工程第九次作業敏捷衝刺4

團隊的作業：學生資訊管理系統隊員學號：　　　　周菲（隊長） 201810812007 　　　　孔繁燕　　201810812001 Alpha敏捷衝刺： 1、站立式會議照片： 2、每個人的工作：周菲：今天已完成：系統架構優化遇到的問題：

高階軟體工程第五次作業：“希希敬敬對”團隊作業-2

我們團隊的作業是：百度貼吧小爬蟲隊員學號：　　　　龍江騰（隊長） 201810775001 　　　　楊希 201810812008 　　　　何敬上　　　

高階軟體工程第六次作業：“希希敬敬對”團隊作業-3

我們團隊的作業是：百度貼吧小爬蟲隊員學號：　　　　龍江騰（隊長） 201810775001 　　　　楊希 201810812008 　　　　何敬上　　　

兩隻小熊隊高階軟體工程第七次作業敏捷衝刺3

團隊的作業：學生資訊管理系統隊員學號：　　　　周菲（隊長） 201810812007 　　　　孔繁燕　　201810812001 Alpha敏捷衝刺： 1、站立式會議照片： 2、每個人的工作：周菲：今天已完成：1、完成登陸介面響應窗體，登陸成功即出現主窗體

高階軟體工程第七次作業：LLS戰隊Alpha敏捷衝刺4

召開迭代會議照片：會議內容：總結前三天衝刺做的不足的地方，討論如何將系統資料庫表做的更為詳細，完善。對系統進一步進行功能完善化，具體化。對系統的一些活動行為進行程式碼編寫。任務分配：宋非隊長：201810812006 ActivityAction程式碼編寫　　　　羅建彪

兩隻小熊隊高階軟體工程第七次作業敏捷衝刺7

團隊的作業：學生資訊管理系統隊員學號：　　　　周菲（隊長） 201810812007 　　　　孔繁燕　　201810812001 Alpha敏捷衝刺： 1、站立式會議照片： 2、每個人的工作：周菲：今天已完成：實現修改班級資訊功能遇到的問題：修改後的班

兩隻小熊隊高階軟體工程第九次作業敏捷衝刺1

團隊的作業：學生資訊管理系統隊員學號：　　　　周菲（隊長） 201810812007 　　　　孔繁燕　　201810812001 Alpha敏捷衝刺： 1、站立式會議照片： 2、每個人的工作：周菲：今天已完成：開會討論了專案需要增加的幾個小功

兩隻小熊隊高階軟體工程第九次作業敏捷衝刺3

團隊的作業：學生資訊管理系統隊員學號：　　　　周菲（隊長） 201810812007 　　　　孔繁燕　　201810812001 Alpha敏捷衝刺： 1、站立式會議照片： 2、每個人的工作：周菲：今天已完成：使用者非法資訊錄入輸入提示框功能測

兩隻小熊隊高階軟體工程第九次作業敏捷衝刺5

團隊的作業：學生資訊管理系統隊員學號：　　　　周菲（隊長） 201810812007 　　　　孔繁燕　　201810812001 Alpha敏捷衝刺： 1、站立式會議照片： 2、每個人的工作：周菲：今天已完成：學生資訊管理介面和成績管理介面增

兩隻小熊隊高階軟體工程第九次作業敏捷衝刺6

團隊的作業：學生資訊管理系統隊員學號：　　　　周菲（隊長） 201810812007 　　　　孔繁燕　　201810812001 1、站立式會議照片： 2、每個人的工作：周菲：今天已完成：設定所有視窗介面為單介面模式遇到的問題：暫無明

LLS戰隊高階軟體工程第九次作業敏捷衝刺6

1、召開衝刺會議 2、會議內容：討論增加排名管理功能及任務分配任務分配：宋非隊長：201810812006 定義介面以及實現方式　　　　羅建彪隊員：201810812005 程式碼實現　　　　羅遠雲隊員：

《團隊作業第三、第四周》五小福團隊作業--Scrum 衝刺階段--Day4

《團隊作業第三、第四周》五小福團隊作業--Scrum 衝刺階段--Day4 一、專案燃盡圖二、專案進展 [20172301郭愷第四天的進展] 第四天完成的任務：繪製遊戲介面尚未解決的問題解析度的適配問題。我們都知道，不同的手機有不

《團隊作業第三、第四周》五小福團隊作業--Scrum 衝刺階段--Day5

《團隊作業第三、第四周》五小福團隊作業--Scrum 衝刺階段--Day5 一、專案燃盡圖☈ 二、專案進展 [20172301郭愷第五天的進展] 第五天完成的任務：開始介面的圖形設計和完善和優諾執行的程式碼相結合。因為，我們一開始在IDEA上實

兩隻小熊隊高階軟體工程第九次作業敏捷衝刺7

團隊的作業：學生資訊管理系統隊員學號：　　　　周菲（隊長） 201810812007 　　　　孔繁燕　　201810812001 1、站立式會議照片： 2、每個人的工作：周菲：今天已完成：介面優化，增加了一些小圖示明日計劃： SQLyog表

《團隊作業第三、第四周》五小福團隊作業--Scrum 衝刺階段--Day6

《團隊作業第三、第四周》五小福團隊作業--Scrum 衝刺階段--Day6 一、專案燃盡圖二、專案進展 [20172301郭愷第六天的進展] 第五天完成的任務：點選牌會擡起。選中牌的圖形介面繪製。我們原本以為，觸碰點選牌會是一個動畫，你點一張牌會呼叫動畫。但

《團隊作業第三、第四周》五小福團隊作業--Scrum 衝刺階段--Day7

《團隊作業第三、第四周》五小福團隊作業--Scrum 衝刺階段--Day7 一、專案燃盡圖二、專案進展 [20172301郭愷第七天的進展] 第七天完成的任務：程式碼整合，介面調整為相對佈局。前面說過了，在不同解析度的手機上，絕對佈局有可能會導致介面混亂。

“希希敬敬對”團隊--‘百度貼吧小爬蟲’Alpha版本展示部落格

“希希敬敬對”團隊成員簡介　　　　龍江騰（隊長）團隊PM 精通C語言，熟悉微控制器開發，嵌入式軟體開發。熟悉軟體專案的一般開發流程，有良好的程式設計風格，程式碼模組化思想。電子基礎紮實，能看懂原理圖，熟悉數位電路和類比電路知識。良好的團隊精神，性格開朗，善於溝通，有強烈的責任感，工作積極主動。

“希希敬敬對”團隊作業——敏捷衝刺4

相關推薦