QQ群資訊爬取

阿新 • • 發佈：2019-02-19

需要安裝谷歌瀏覽器，下載chrome.exe放到python的安裝路徑下

#coding=utf-8
from lxml import etree
import time
from selenium import webdriver

class qqGroupSpider():
    '''
    Q群爬蟲類
    '''
    def __init__(self, driver,qq,passwd,qqgroup,writefile):
        '''
        初始化根據使用者資訊登入到Q群管理介面
        :param driver:
        :param qq:
        :param passwd:
        :param qqgroup:
        :param writefile:
        ''' 

        url = "https://qun.qq.com/member.html#gid=" + str(qqgroup)
        self.writefile=writefile
        self.driver=driver
        driver.delete_all_cookies()
        driver.get(url)
        time.sleep(1)
        driver.switch_to.frame("login_frame")  # 進入登入iframe
        time.sleep(1)
        change = 
 driver.find_element_by_id("switcher_plogin")
        change.click()
        driver.find_element_by_id('u').clear()  # 選擇使用者名稱框
        driver.find_element_by_id('u').send_keys(qq)
        driver.find_element_by_id('p').clear()
        driver.find_element_by_id('p').send_keys(passwd)
        driver. 
find_element_by_class_name("login_button").click()
        time.sleep(1)

    def scroll_foot(self,driver):
        '''
        控制螢幕向下滾動一下
        :param driver:
        :return:
        '''
        js = "var q=document.documentElement.scrollTop=100000"
        return driver.execute_script(js)

    def getTbodyList(self, driver):
        return driver.find_elements_by_xpath('//div[@class="group-memeber"]//tbody[contains(@class,"list")]')

    def parseMember(self, mb):
        '''
        解析每個人各項描述，以逗號隔開，返回一個成員的基本情況
        :param mb:
        :return:
        '''
        master = mb.getchildren()[2].getchildren()[0].get('class')
        if master == None:
            master = '0'
        else:
            master = '1'
        qId = mb.getchildren()[1].text.strip()
        nickName = mb.getchildren()[2].getchildren()[2].text.strip()
        card = mb.getchildren()[3].getchildren()[0].text.strip()
        qq = mb.getchildren()[4].text.strip()
        sex = mb.getchildren()[5].text.strip()
        qqAge = mb.getchildren()[6].text.strip()
        joinTime = mb.getchildren()[7].text.strip()
        lastTime = mb.getchildren()[8].text.strip()
        return (
        master + "," + qq + "," + nickName + "," + card + "," + sex + "," + qqAge + "," + joinTime + "," + lastTime).encode(
            'utf-8')

    def parseTbody(self, html):
        '''
        解析tbody裡面的內容，一個tbody裡面有多個成員，
        解析完成後，返回成員基本情況的列表
        :param html:
        :return:
        '''
        selector = etree.HTML(html)
        mbs = selector.xpath('//tr[contains(@class,"mb mb")]')
        memberList = map(self.parseMember, mbs)
        return memberList

    def parseAndWrite(self, tbody):
        '''
        解析HTML中的tbody，解析完成後寫入到本地檔案
        :param tbody:
        :return:
        '''
        html = tbody.get_attribute('innerHTML')
        memberList = self.parseTbody(html)
        map(lambda x: self.writefile.write(x + '\n'), memberList)



def main():
    # filename = driver.find_element_by_xpath('//*[@id="groupTit"]').text.encode('utf-8').strip()
    # file = open(unicode('qq/' + filename.replace('/', '').replace('\\', '') + '.txt', 'utf-8'), 'w')
    qq = str(raw_input("請輸入你的QQ:"))
    passwd = str(raw_input("請輸入你的QQ密碼:"))
    qqgroup = raw_input("請輸入QQ群號:")
    filename = str(raw_input("請輸入儲存的檔名:"))
    # 儲存在qq目錄下，沒有需要先建立
    file = open(unicode('qq/' + filename+ '.txt', 'utf-8'), 'w')
    driver = webdriver.Chrome()
    spider=qqGroupSpider(driver,qq,passwd,qqgroup,file)
    # 找到QQ群的人數
    qqNum = int(driver.find_element_by_xpath('//*[@id="groupMemberNum"]').text.strip())
    curren_qq_num=0
    count=0
    prelen=0
    while curren_qq_num != qqNum:
        # 不停的向下滾動螢幕，直到底部，一邊抽取資料
        count = count+1
        print count
        spider.scroll_foot(driver)
        time.sleep(1)
        curren_qq_num=len(driver.find_elements_by_xpath('//*[@id="groupMember"]//td[contains(@class,"td-no")]'))
        tlist = spider.getTbodyList(driver)
        map(spider.parseAndWrite, tlist[prelen:])
        prelen = len(tlist)#更新tbody列表的長度
    driver.quit()
    file.close()

if __name__ == '__main__':
    main()

執行如下：
在這裡插入圖片描述

爬取出的資料儲存成文字檔案，格式：是否群管理，暱稱，群名片，QQ號，性別，q齡，入群時間，等級，最後發言

我的郵箱：[email protected]
我的GitHub賬號:https://github.com/LoyalWilliams
我建了一個大資料的學習交流群
QQ：2541692705
Q群：882855741
微信公眾號:程式國度
在這裡插入圖片描述

QQ群資訊爬取-------抓包破解介面(2)

QQ群資訊爬取-------使用模擬登陸(1) 這個比之前的爬取效率更高，爬取的網站https://qun.qq.com/member.html，簡單說一下思路首先首先使用模擬登陸獲取cookie 經過抓包，我發現了Q群的資料介面為https://qun.qq.com

QQ群資訊爬取

需要安裝谷歌瀏覽器，下載chrome.exe放到python的安裝路徑下 #coding=utf-8 from lxml import etree import time from selenium import webdriver class qqGroup

Python3實現QQ機器人自動爬取百度文庫的搜索結果並發送給好友（主要是爬蟲）

OS __main__ end aid 機器 https code __name__ gbk 一、效果如下：二、運行環境： win10系統；python3；PyCharm 三、QQ機器人用的是qqbot模塊用pip安裝命令是： pip

[Python] [爬蟲] 1.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲概要——脫離Scrapy框架

目錄 1.Intro 2.Details 3.Theory 4.Environment and Configuration 5.Automation 6.Conclusion 1.Intro 作為Python的擁蹩，開源支持者，深信Python大

[Python] [爬蟲] 10.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——排程引擎

目錄 1.Intro 2.Source 1.Intro 檔名：scheduleEngine.py 模組名：排程引擎引用庫： random time gc os sys date

[Python] [爬蟲] 9.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——爬蟲日誌

目錄 1.Intro 2.Source 1.Intro 檔名：spiderLog.py 模組名：爬蟲日誌引用庫： logging 功能：日誌寫入到文字，包含普通訊息、警告、錯誤、異常等，可以跟蹤爬蟲執行過程。 &nb

[Python] [爬蟲] 8.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——資料推送模組

目錄 1.Intro 2.Source (1)dataPusher (2)dataPusher_HTML 1.Intro 檔名：dataPusher.py、dataPusher_HTML.py 模組名：資料推送模組引用庫： smtpl

[Python] [爬蟲] 7.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——資料處理器

目錄 1.Intro 2.Source 1.Intro 檔名：dataDisposer.py 模組名：資料處理器引用庫： pymongo datetime time sys

[Python] [爬蟲] 6.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——網頁解析器

目錄 1.Intro 2.Source 1.Intro 檔名：pageResolver.py 模組名：網頁解析器引用庫： re lxml datetime sys retry

[Python] [爬蟲] 5.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——網頁下載器

目錄 1.Intro 2.Source 1.Intro 檔名：pageDownloader.py 模組名：網頁下載器引用庫： selenium random sys socket tim

[Python] [爬蟲] 4.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——配置管理器

目錄 1.Intro 2.Source 1.Intro 檔名：configManager.py 模組名：配置管理器引用庫：None 功能：儲存爬蟲相關配置資訊，如資料庫配置、資料表名、網站URL、報頭等。 2.Source #!/usr/bin/env Py

[Python] [爬蟲] 3.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——代理池

目錄 1.Intro 2.Source 1.Intro 檔名：proxyPool.py 模組名：代理池引用庫： requests urllib2 lxml scrapy pymongo

[Python] [爬蟲] 2.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——驗證模組

目錄 1.Intro 2.Source 1.Intro 檔名：authentication.py 模組名：驗證模組引用庫： urllib2 requests pymongo socket

python 跨知乎app發私信以及Python專欄30萬用戶資訊爬取

import requests class SendMsg: def __init__(self): self.url='https://www.zhihu.com/api/v4/messages' #要傳送的資訊 self.data={'co

爬蟲-抖音app網紅資訊爬取

#本篇抓取的是一個挑戰集裡的所有使用者的資料資訊，可以後續跟進需求進行更改難點： 1，用的是模擬器+fiddler 2，視訊集和個人資料頁的處理方法視訊集是有對應的api介面，json資料每個連結裡有15條資料，並且每個連結裡cursor值有20倍數的變化，從中取出author_user

信用百度公司商標資訊爬取

信用百度公司商標資訊和圖片爬取，ip代理和動態header沒做，這只是個測試小指令碼，可以在這個基礎上繼續修改，小改動後再選擇自己的儲存方式直接儲存就好。希望對大家有幫助。直接複製貼上即可使用 import re import time import requests from lxm

（原創）新增QQ好友日期爬取02——模擬登陸拿Cookies

def Login(UserName,PassWd): ''' return browser ''' browser = webdriver.Chrome() browser.get(login_url) browser.switch_to.frame(browser.find_element_b

BOSS直聘網站資料分析崗位資訊爬取

感謝BOSS直聘上比較可靠的招聘資訊，讓我們有機會對資料分析崗位進行簡單的爬取與分析。語言：Python3 目錄一、資訊爬取二、資料分析 2.1 資料解析 2.2 資料分析 2.2.1 資料清洗

中國大學MOOC課程資訊爬取與資料儲存

寫在前面暑假沒事玩玩爬蟲，看到中國大學MOOC便想爬取它所有課程資訊。無奈，它不是靜態網頁，課程資料都是動態載入的。而爬取動態頁面目前來說有兩種方法：分析頁面Ajax請求 selenium模擬瀏覽器行為可能方

[Python] [爬蟲] 11.批量政府網站的招投標、中標資訊爬取和推送的自動化爬蟲——日誌監控

目錄 1.Intro 檔名：log_record.py 模組名：日誌監控引用庫： pymongo 功能：爬蟲執行結果寫入到資料庫的日誌表中，便於檢視每天執行情況，執行失敗時再追溯日誌。 2.Source #!/usr/bin/env pytho

QQ群資訊爬取

相關推薦