Python爬取qq空間說說

阿新 • • 發佈：2019-02-11

#coding:utf-8
#!/usr/bin/python3
from selenium import webdriver
import time
import re
import importlib2
import sys
importlib2.reload(sys)

def startSpider():
    driver = webdriver.Chrome('/Users/zachary/zachary/chromedriver.exe') #這個是chormedriver的地址
    driver.get('https://qzone.qq.com/')

    driver.switch_to.frame('login_frame')
    driver.find_element_by_id('switcher_plogin').click()

    driver.find_element_by_id('u').clear()
    driver.find_element_by_id('u').send_keys('QQ號')  #這裡填寫你的QQ號
    driver.find_element_by_id('p').clear()
    driver.find_element_by_id('p').send_keys('QQ密碼')  #這裡填寫你的QQ密碼

    driver.find_element_by_id('login_button').click()
    time.sleep(2)

    #設定爬取內容儲存路徑
    f = open('/Users/zachary/Documents/shuoshuo.txt','w')

    #---------------獲得g_qzonetoken 和 gtk
    html = driver.page_source

    '''g_qzonetoken=re.search('window\.g_qzonetoken = \(function\(\)\{ try\{return (.*?);\} catch\(e\)',html)#從網頁原始碼中提取g_qzonetoken'''
    g_qzonetoken = "e794139a284d6ea9e0b26826e541b55df37d0667a3544f534de25aebdb64628d3ab75e1d7104bbb22a"

    cookie = {}#初始化cookie字典
    for elem in driver.get_cookies():#取cookies
        cookie[elem['name']] = elem['value']

    gtk=getGTK(cookie)#通過getGTK函式計算gtk
    #print(g_qzonetoken)
    #print(gtk)

    #--------------獲得好友列表   注意下面的連結
    driver.get('https://user.qzone.qq.com/proxy/domain/r.qzone.qq.com/cgi-bin/tfriend/friend_hat_get.cgi?hat_seed=1&uin=你的QQ號fupdate=1&g_tk='+str(gtk)+'&qzonetoken='+str(g_qzonetoken)+'&g_tk='+str(gtk))
    friend_list = driver.page_source
    friend_list = str( friend_list )
    abtract_pattern  =  re.compile('\"(.\d*)\":\{\\n"realname":"(.*?)"}',re.S)
    QQ_name_list = re.findall(abtract_pattern,str(friend_list)) #陣列
    print(QQ_name_list)
    numList=dict()# numList => (QQnum:QQname)  #列表
    for i in QQ_name_list:
        numList[str(i[0])]=str(i[1])
    begin = 0
    last_source = ""
    tag = 1
    first = 0
    firstTime=""

    #如果要爬取自己的說說，手動新增自己的qq號
    #numList['你的qq號']='你的名字'
    #print(numList)

    for key in numList.keys():
        QQnum = key
        QQname = numList[QQnum]

        if QQnum == "好友qq號":  #根據qq號查詢指定好友說說
            count = 1
            begin = 0
            while tag==1 :
                #-------------進入好友說說頁面                                                                       #'+QQnum+'              '+str(begin)+'
                #print("Begin:"+str(begin))
                driver.get('https://user.qzone.qq.com/proxy/domain/taotao.qq.com/cgi-bin/emotion_cgi_msglist_v6?uin='+QQnum+'&ftype=0&sort=0&pos='+str(begin)+'&num=40&replynum=200&g_tk='+str(gtk)+'&callback=_preloadCallback&code_version=1&format=jsonp&need_private_comment=1&qzonetoken='+str(g_qzonetoken)+'&g_tk='+str(gtk))

                try:
                    msg_list_json = driver.page_source
                except:
                    begin = begin + 40
                    continue


                msg_list_json = str(msg_list_json)
                if last_source==msg_list_json :
                    break
                else:
                    last_source=msg_list_json

                #檢測是否沒有許可權訪問
                abtract_pattern  =  re.compile(',"message":"(.*?)","name":',re.S)
                message = re.findall(abtract_pattern,str(msg_list_json))
                if message!=[]:
                    if str(message[0])=='對不起,主人設定了保密,您沒有許可權檢視':#對不起,主人設定了保密,您沒有許可權檢視
                        break

                #print(msg_list_json)
                #解析JSON
                #webDriver沒有現成的JSON解析器，所以採用獲取原始碼的方式，然後使用正則表示式獲取具體細節
                msg_list_json =  msg_list_json.split("msglist")[1]#拆分json，縮小範圍，也能加快解析速度
                msg_list_json =  msg_list_json.split("smoothpolicy")[0]
                msg_list_json =  msg_list_json.split("commentlist")[1:]

                #說說動態分4種：1、文字說說（或帶有配圖的文字說說）
                #              2、只有圖片的說說
                #              3、轉發，並配有文字
                #              4、轉發，不配文字

                for text in msg_list_json:
                    # 1、先檢查說說，使用者是否傳送了文字，如果沒有文字，正則表示式匹配無效
                    abtract_pattern  =  re.compile('\}\],"content":"(.*?)","createTime":"(.*?)","created_time":(.*?),"',re.S)
                    msg_time = re.findall(abtract_pattern,str(text))

                    if msg_time!=[]:
                        # 2、如果作者說說有文字，那麼檢查是否有轉發內容
                        msg = str(msg_time[0][0])
                        sendTime = str(msg_time[0][1])

                        abtract_pattern  = re.compile('\}\],"content":"(.*?)"},"rt_createTime":"(.*?)","',re.S)
                        text = text.split("created_time")[1]
                        msg_time2 = re.findall(abtract_pattern,str(text))

                        #合併傳送內容 格式：評論+轉發內容
                        if msg_time2!=[]:
                            msg = msg +"  轉發內容:"+str(msg_time2[0][0])

                    else:
                        # 3、說說內容為空，檢查是否為 =>只有圖片的說說 or 轉發，不配文字
                        #獲取正文傳送時間 （傳送時間分為：正文傳送時間 or 轉發時間）
                        abtract_pattern  =  re.compile('"conlist":null,"content":"","createTime":"(.*?)",',re.S)
                        msgNull_time = re.findall(abtract_pattern,str(text))

                        if msgNull_time!=[]:
                            #如果有正文傳送時間，那麼就是這條說說僅含有圖片  =>只有圖片的說說
                            msg = "圖片"
                            sendTime = str(msgNull_time[0])
                        else:
                            #如果沒有正文傳送時間，那麼就是說這條說為 =>轉發，不配文字
                            abtract_pattern  =  re.compile('\}\],"content":"(.*?)"},"rt_createTime":"(.*?)","',re.S)
                            msg_time = re.findall(abtract_pattern,str(text))
                            msg ="  轉發內容:"+str(msg_time[0][0])
                            sendTime = str(msg_time[0][1])

                    #寫入本地檔案
                    #f.write('{},{},{},{}\n'.format(str(QQname),str(QQnum),sendTime,msg))


                    print(str(count)+" : "+str(QQname)+" : "+str(QQnum)+" : "+sendTime+" : "+msg)
                    count = count + 1

                begin =  begin + 40

def getGTK(cookie):
    hashes = 5381
    for letter in cookie['p_skey']:
        hashes += (hashes << 5) + ord(letter)
    return hashes & 0x7fffffff
startSpider()
print("爬取結束")

Python爬取QQ空間好友說說並生成詞雲(超詳細)

near 當前面數據請求 range 頁面 blank sleep 點擊前言先看效果圖: 思路 1.確認訪問的URL 2.模擬登錄你的QQ號 3.判斷好友空間是否加了權限，切換到說說的frame，爬取當前頁面數據，下拉滾動條，翻頁繼續獲取爬取的內容寫

Python爬取qq空間說說

#coding:utf-8 #!/usr/bin/python3 from selenium import webdriver import time import re import importlib2 import sys importlib2.reload(sys)

python selenium爬取QQ空間方法

class text 空間方法 ram () end cli bdr from selenium import webdriver import time # 打開瀏覽器 dr = webdriver.Chrome() # 打開某個網址 dr.get(‘https://

python爬蟲實戰筆記---selenium爬取QQ空間說說並存至本地

from selenium import webdriver import time from bs4 import BeautifulSoup browser = webdriver.Chrome() browser.get('https://user.qzone.qq.com') user ='241

利用Python爬取QQ好友空間資料

程式思路構造請求連結先獲取所有的好友獲取說說獲取留言獲取個人資訊把資料存到資料庫以上就是整個過程中的大思路，然後在逐步把大思路化解成小的具體的問題去解決。本人對於Python學習建立了一個小小的學習圈子，為各位提供了一個平臺，大家一起來討論學習

Python爬蟲實戰(6)-爬取QQ空間好友說說並生成詞雲(超詳細)

前言先看效果圖: TXT檔案：如果想生成特定圖片樣式的詞雲圖，可以直接訪問下面這篇文章學一下： https://mp.weixin.qq.com/s/FUwQ4jZu6KMkjRvEG3UfGw 前幾天我們陸陸續續的講了Python如何生成

python3.7 爬取QQ空間好友

cgi urlencode version == tab pan ont 訪問權限 host 使用selenium庫自動登錄，記錄登錄的Cookie。以下URL分別代表不同的動作，雖然沒有全用。留言：https://user.qzone.qq.com/proxy/dom

python 爬取QQ音樂

python 爬蟲import requestsimport jsonimport osimport threading#發送請求獲取信息def get_response(url): headers = { 'User-Agent': 'Mozilla/5.0 (M

selenium爬取QQ空間（上）

這幾天在看《從零開始學python網路爬蟲》中的模擬瀏覽器篇，對其中的爬取好友說說比較感興趣，不過書中只是爬取每個好友第一頁說說，因此我稍微改進了下（發書名是尊重作者，不過個人認為這本書講得比較淺，不求甚解）。先大致說一下我遇到的坑。首先，如果想要看別人的說說，是必須要登入的（使用cookie

爬取QQ空間3000萬用戶，玩玩大資料分析

這是我近期使用C#寫的一個QQ空間蜘蛛網爬蟲程式。程式斷斷續續的運行了兩週，目前總共爬了3000萬QQ資料，其中有300萬包含使用者（QQ號，暱稱，空間名稱，頭像，最新一條說說內容，最新說說的發表時間，空間簡介，性別，生日，所在省份，城市）的詳細資料。目前已經爬到

Python爬取qq音樂的過程例項

一、前言　qq music上的音樂還是不少的，有些時候想要下載好聽的音樂，但有每次在網頁下載都是煩人的登入什麼的。於是，來了個qqmusic的爬蟲。至少我覺得for迴圈爬蟲，最核心的應該就是找到待爬元素所在url吧。二、Python爬取QQ音樂單曲

教你用Python爬取QQ音樂上的付費專輯

Hello,there!好久沒寫爬蟲的部落格啦，今天來寫一下怎麼爬取QQ音樂上的付費專輯（理論上所有專輯都可以）。想爬QQ音樂是因為實在沒錢買那些專輯，太多想聽的了！！附上執行結果截圖：先說一下需要的環境：系統是：基於Linux的DeepinOS桌面版15

python爬蟲爬取QQ說說並且生成詞雲圖，回憶滿滿！

運維開發網絡分析 matplot 容易 jieba 編程語言提示框然而 Python（發音：英[?pa?θ?n]，美[?pa?θɑ:n]），是一種面向對象、直譯式電腦編程語言，也是一種功能強大的通用型語言，已經具有近二十年的發展歷史，成熟且穩定。它包含了一組完善而且

python3爬取qq音樂並下載 Python 爬取qqmusic音樂url並批量下載

本文參考Python 爬取qqmusic音樂url並批量下載同學找我爬取一下qq音樂播放連結，包括歌詞等資訊打包成json，試了一下可以爬取。一、找到qq音樂播放的url 1.找到搜尋頁面返回的資料包歌曲最終的播放連結時經過多次拼接的，首先找到qq音樂搜尋歌曲介面，https://y.qq.

利用python爬蟲技術動態爬取地理空間資料雲中的元資料（selenium）

python爬取地理空間資料雲selenium動態點選爬取的網址秀一下：爬取的資訊是什麼呢？這個資訊的爬取涉及到右邊按鈕的點選，這屬於動態爬取的範疇，需要用到selenium 好了，那麼開始寫程式碼吧首先匯入selenium from seleni

利用cookie爬取QQ郵箱的python指令碼

目標郵箱的cookie和sid儲存同一目錄下的txt檔案中。以下是全部程式碼 # -*- coding: utf-8 -*- import requests import time from bs4 import BeautifulSoup impor

python使用scrapy爬取qq音樂（二）

聽一首還不錯的歌曲 1.有點累？那麼好，來歇息一下，聽一首歌。突然看到tf男孩的歌曲，你說啥？e_e,這個不要緊，來，點進去聽一下，（事實是我聽了一下下就換了首自己喜歡的歌）。就是這麼任性。點選，播放。就這麼神奇，你一點選，它就播放了，熟悉js

Python爬蟲視訊教程：教你爬取QQ音樂資料（實戰處理+資料視覺化）-劉宇宙-專題視訊課程...

Python爬蟲視訊教程：教你爬取QQ音樂資料（實戰處理+資料視覺化）—704人已學習課程介紹本視訊課程主要培訓Python爬蟲入門，資料分析及資料視覺化實戰內容，通過本課的學習，您可以在2小時左右掌握Python基礎程式設計的核心內容，實現Python在爬

Python爬蟲實戰：使用Selenium抓取QQ空間好友說說

前面我們接觸到的，都是使用requests+BeautifulSoup組合對靜態網頁進行請求和資料解析，若是JS生成的內容，也介紹了通過尋找API藉口來獲取資料。但是有的時候，網頁資料由JS生成，API藉口又死活找不著或者是API藉口地址隨機變換，時間不等人

python爬取網易雲音樂歌單音樂

string attrs default textarea bsp color read contents dom 在網易雲音樂中第一頁歌單的url：http://music.163.com/#/discover/playlist/ 依次第二頁：http://music.1

Python爬取qq空間說說

相關推薦