基於網路爬蟲的負面資訊蒐集系統

阿新 • • 發佈：2019-02-08

這篇應該早就寫的，該程式已實際運行了一段時間。

主要模組（網路爬蟲+微信互動）

1、網路爬蟲毫無疑問是本專案的核心，由於定位蒐集p2p的負面資訊，我們嘗試了三個目標源（百度、網貸之家、網貸天眼）

核心策略平臺名稱+負面關鍵字

負面關鍵字可以後臺實施維護，平臺名稱需要使用者在微信公眾號內輸入

（1）爬蟲頭資訊的偽裝

_send_headers = {
    'Host':'www.wdzj.com',
    'User-Agent':'Mozilla/5.0 (Windows NT 6.2; rv:16.0) Gecko/20100101 Firefox/16.0',
    'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
    'Connection':'keep-alive'

（2）BeautifulSoup解析返回的頁面

request = urllib2.Request(_PREFIX_START+platformName,headers=_send_headers)
response = urllib2.urlopen(request)
soup = BeautifulSoup(response.read(), "lxml")

（3）定時任務方式無限爬取和定時更新微信的token(2小時實效)

threads = []
#以子執行緒方式啟動定時獲取access_token的任務。2小時一次
t1 = threading.Thread(target=getAccessToken)
threads.append(t1)

t2 = threading.Thread(target 
=ZhijiaScanner)
threads.append(t2)

t3 = threading.Thread(target=SkyeyeScanner)
threads.append(t3)

for t in threads:

    #t.setDaemon(True)
    t.start()

2、微信公眾號部分

（1）微信訊息的獲取

@app.route('/wx',methods=['get','post'])
def wx():

該介面拿到微信的所有回撥資訊，分類處理即可

（2）微信回撥資訊的分類處理

if request.method == 'POST':

    #print 'post'
    #print request.data
    #獲取使用者傳送的訊息
    xml_recv = ET.fromstring(request.data)

    #先分析訊息型別
    MsgType=xml_recv.find("MsgType").text

    if  
MsgType == "text":

        return TextMsgDealer.dealTextMsg(xml_recv)

    elif MsgType == "event":#收到點選時間

這些在微信的介面文件可以容易閱讀

3、過程中的問題

flask自帶server並不穩定，顯而易見，tomcat不能省

及時處理髮給微信平臺的訊息，接受到響應後及時打標記；

elif  Event=="TEMPLATESENDJOBFINISH":#接收到一條模版資訊回覆

    MsgId=xml_recv.find("MsgID").text
    config.myLogger.info("接收到編號為: '%s' 的模版資訊回覆" % MsgId)
    #根據msgID將對應的傳送記錄狀態置為1成功
    dao.updatePushStatus(MsgId)

基於網路爬蟲的負面資訊蒐集系統

這篇應該早就寫的，該程式已實際運行了一段時間。主要模組（網路爬蟲+微信互動） 1、網路爬蟲毫無疑問是本專案的核心，由於定位蒐集p2p的負面資訊，我們嘗試了三個目標源（百度、網貸之家、網貸天眼）核心策略平臺名稱+負面關鍵字負面關鍵字可以後臺實施維護，平臺名稱需要使用者

基於網路爬蟲的小湖知識圖譜系統測試心得

組名：SE真香隊專案：基於網路爬蟲的小湖知識圖譜系統組：軟體1602班第6組在這個學期，我們組做了基於網路爬蟲的小湖知識圖譜系統，在做專案的過程中，團隊成員都覺的很完美，然而，最後一個周進行測試的時候（雖然是手動測試）發現我們的這個系統仍然存在很多bug，有些bug及時

基於網路爬蟲的小湖知識圖譜系統測試心得

和很多組比起來，我們組的功能可能算是比較少的，當然裡面是涉及到了網路爬蟲和知識圖譜這種比較高深的技術問題，但是可能整體來說功能沒有那麼多花裡胡哨的東西。這可能也和我們總的定位有關，我們做的是小湖聊天機器人的二期專案，這次並不是對於整個專案進行推進，而是著重於聊天機器人的知識庫的構建，也由此，本學期我們小組

文獻綜述三：基於JSP的商品資訊管理系統設計與開發

一、基本資訊　　標題：基於JSP的商品資訊管理系統設計與開發　　時間：2015 　　出版源：Computer Knowledge and Technology 　　檔案分類：jsp技術的系統開發二、研究背景　　通過了解公司產品人工現狀的一些管理方面的現狀和要求，運用計算機技術開發的商品資訊管理系統，能

Python網路爬蟲與資訊提取Day2

Python網路爬蟲與資訊提取一、導學掌握定向網路資料爬取和網頁解析的基本能力 1、Requests庫：自動爬取HTML頁面，自動向網路提交請求 2、robots.txt：網路爬蟲排除標準 3、Beautiful Soup庫：解析HTML頁面 4、Projects：實戰專案A/B 5、Re庫：正

Python網路爬蟲與資訊提取Day1

Python 爬蟲基礎學習--網路爬蟲與資訊提取

Python 爬蟲基礎學習 Requests庫的安裝 Win平臺: “以管理員身份執行”cmd，執行 pip install requests Requests庫的7個主要的方法 Requests庫中2個重要的物件：Request和Response Response物件

基於express的學生資訊管理系統

基於express的學生資訊管理系統專案地址專案簡介簡單的學生資訊管理系統，後臺基於express，資料庫mysql，前端用到了一點vue，這次的團隊專案我主要是負責後端的部分，所以這裡對於前端程式碼不再贅述，只介紹後端部分以及一點點前端的js程式碼。後端部分 //server.js var

嵩天教授的Python網路爬蟲與資訊提取課程筆記——單元1. requests庫入門

本文目錄 Requests庫介紹 requests.get(url, params, **kwargs)方法及其他請求方法介紹 Response類屬性簡介 Reponse類中的encoding與app

Python網路爬蟲與資訊提取_爬蟲例項（學習筆記）

慕課課程學習筆記 1. 京東商品頁面的爬取 1.採用get()方法，獲取Response物件； import requests url = 'https://item.jd.com/100000947807.html' r = requests.get(url)

網路爬蟲_資訊標記與提取（學習筆記）

慕課課程筆記目錄 2.1 方法 2.2 例項 4. 小結 1. 資訊標記 1.1 資訊標記標記後的資訊可形成資訊組織結構，增加了資訊維度標記的結構與資訊一樣具有重要價值標記後

[原始碼和文件分享]基於JSP的停車場資訊管理系統設計與實現

1.1 專案背景軟體系統的名稱是停車場管理系統。我們開發的系統將幫助停車場管理員和物業公司更加智慧化的管理停車場，省去很多的人力物力。方便隨時查詢停車場的情況，也有助於車主方便隨時查詢附近可以停車的停車場。 1.1.1使用者基本情況介紹角色1：停車場管理員檢視剩餘車位數量，

【MOOC】Python網路爬蟲與資訊提取-北京理工大學-part 4

網路爬蟲之框架 1.scrapy爬蟲框架介紹 1.1.scrapy爬蟲框架介紹安裝方法：簡要地說，Scrapy不是一個函式功能庫，而是一個快速功能強大的網路爬蟲框架。（爬蟲框架是實現爬蟲功能的一個軟體結構和功能元件集合，是一個半成品，

Python網路爬蟲與資訊提取（三）bs4入門

Python的requests庫可以幫助我們獲取到大量的資訊，而如果想對這些資訊進行提取與分析，則經常使用beautifulsoup這個用來解析HTML和XML格式的功能庫。 beautifulsoup庫的安裝和requests的流方法一樣，可直接在cmd中輸入pip

Python網路爬蟲與資訊提取（中國大學mooc）

目錄 Python網路爬蟲與資訊提取淘寶商品比價定向爬蟲股票資料定向爬蟲 1. 淘寶商品比價定向爬蟲功能描述目標：獲取淘寶搜尋頁面的資訊理解：淘寶的搜尋介面翻頁的處理技術路線：requests

Python網路爬蟲與資訊提取-Day14-（例項）股票資料定向爬蟲

功能描述目標：獲取上交所和深交所所有股票的名稱和交易資訊股票資料是進行量化交易的基礎型資料，此爬蟲也能為量化交易提供獲得基礎資料的方法輸出：儲存到檔案中技術路線：requests‐bs4‐re 候選資料網站的選擇百度股票：https://gupiao.baidu

Python網路爬蟲與資訊提取-Day5-Requests庫網路爬取實戰

一、京東商品頁面的爬取先選取一個商品頁面直接利用之前的程式碼框架即可 import requests url = "https://item.jd.com/12186192.html" try: r = requests.get(url) r.raise_for

Python網路爬蟲與資訊提取-Day9-資訊標記與提取方法

一、資訊標記的三種形式我們需要對資訊進行表記，使得我們能夠理解資訊所反饋的真實含義。標記後的資訊可形成資訊組織結構，增加了資訊維度標記的結構與資訊一樣具有重要價值標記後的資訊可用於通訊、儲存或

基於WEB的教師資訊管理系統，畢業設計java

**基於WEB的教師資訊管理系統，畢業設計java** 基於WEB的教師資訊管理系統mysql資料庫建立語句基於WEB的教師資訊管理系統oracle資料庫建立語句基於WEB的教師資訊管理系統sqlserver資料庫建立語句基於WEB的教師資訊管理系統sprin

【MOOC】Python網路爬蟲與資訊提取-北京理工大學-part 1

【第〇周】網路爬蟲之前奏網路爬蟲”課程內容導學【第一週】網路爬蟲之規則 1.Requests庫入門注意：中文文件的內容要稍微比英文文件的更新得慢一些，參考時需要關注兩種文件對應的Requests庫版本。（對於比較簡單的使

基於網路爬蟲的負面資訊蒐集系統

相關推薦