python 爬取微博信息

阿新 • • 發佈：2017-08-08

微博爬蟲 python cookie

新浪微博爬取的話需要設計到登錄，這裏我沒有模擬登錄，而是使用cookie進行爬取。

獲取cookie：

技術分享

代碼：

#-*-coding:utf8-*-

from bs4 import BeautifulSoup
import requests
import time
import os
import sys
import random
reload(sys) 
sys.setdefaultencoding(‘utf-8‘)
user_id = 用戶id
cookie = {"Cookie": "_T_WM=f3a2assae4335dfdf38fdc7a25a88; SCF=ApMI3mluv9yH6yKz4i7-HMlHojzPtQULc5G0xlrri-NeO3Xn1FRWI5W1HElZWG1bMkX4mV_OhKDtNV2IhxJQGLs.; SUB=_2A250jET_DeRhGeNN7FsX9CrIzzqIHXVXj2y3rDV6PUJbkdBeLUrnkW1AtfoOlrd_kyd1Izu7Q1uKaFvRDQ..; SUHB=0k1ySJSrJVBDGD; SSOLoginState=1502098607"}

for page in range(100):
    url = ‘https://weibo.cn/573550093?page=%d‘ % page
    response = requests.get(url, cookies = cookie)
    html = response.text 
    soup = BeautifulSoup(html, ‘lxml‘) 
    username = soup.title.string
    cttlist = []
    for ctt in  soup.find_all(‘span‘,class_="ctt"):
        cttlist.append(ctt.get_text())
    ctlist = []
    for ct in  soup.find_all(‘span‘,class_="ct"): 
        ctlist.append(ct.get_text())
    if page == 0:
        print "微博用戶資料：" + cttlist[0]
        print "微博用戶個性簽名：" + cttlist[1]
        print "用戶的微博動態:\n"
    imgurllist = []
    for img in  soup.find_all(‘a‘):
        if img.find(‘img‘) is not None :
            if ‘http://tva3.‘ not in  img.find(‘img‘)[‘src‘] and ‘https://h5‘ not in img.find(‘img‘)[‘src‘]:
                imgurllist.append(img.find(‘img‘)[‘src‘])
    #imgname = soup.title.string + ‘_‘ + str(page) + str(time.time()) +str(random.randrange(0, 1000, 3))  +‘.jpg‘
    if not os.path.exists(str(soup.title.string)):
        os.mkdir(str(soup.title.string)) 
    #imgname =‘./‘+ str(soup.title.string) + ‘/‘+ soup.title.string + ‘_‘ + str(time.time()) +‘.jpg‘
    for imgurl in imgurllist:
        imgname = ‘./‘+ str(soup.title.string) + ‘/‘+soup.title.string + ‘_‘ + str(page) + str(time.time()) +str(random.randrange(0, 1000, 3))  +‘.jpg‘
        response = requests.get(‘%s‘ % imgurl)
        dirw = str(soup.title.string)
        open(imgname, ‘wb‘).write(response.content)
        time.sleep(1.5)
    try:
        for i in range(len(ctlist)):
            print cttlist[2+i]
            print ctlist[i]
            print "\n"
    except:
        for i in range(len(ctlist)):
            print cttlist[i]
            print ctlist[i]
            print "\n"
    if "下頁" not  in  soup.select(‘div[id="pagelist"]‘)[0].get_text():
        break
    time.sleep(random.randint(1,3))

效果展示：

技術分享

本文出自 “付煒超” 博客，請務必保留此出處http://9399369.blog.51cto.com/9389369/1954433

python 爬取微博信息

微博爬蟲 python cookie 新浪微博爬取的話需要設計到登錄，這裏我沒有模擬登錄，而是使用cookie進行爬取。獲取cookie：代碼：#-*-coding:utf8-*- from bs4 import BeautifulSoup import requests impor

用python爬取微博數據並生成詞雲

font 意思 extra 很多返回 json 自己技術分享 pre 很早之前寫過一篇怎麽利用微博數據制作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的數據，現在重新整理了一下，任何的微博數據都可以制作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默

python爬取微博圖片數據存到Mysql中遇到的各種坑python Mysql存儲圖片

字符轉義 process 程序 zha 有一個 utf-8 get ctime python3 本人長期出售超大量微博數據，並提供特定微博數據打包，Message to [email protected] 前言由於硬件等各種原因需要把大概

python爬取北京租房信息

python 爬蟲租房助手發現官網的篩選方式不能滿足自己的需求，所以爬取相關網站制作出現在的東西來效果預覽-> <a href="https://virzc.com/2018/05/17/beijingrent/#more" target="_blan

python爬取微博配圖

平時沒事就喜歡刷刷微博，追追星，關注關注娛樂圈動態順便看看老婆們的最新動態，每次看到老婆們發的新圖就很幸福，於是就想寫個爬蟲把老婆們的微博配圖給爬下來，一般爬到的不是自拍就是表情包，還是收穫滿滿的。因為最近學到了一句話:不要重複造輪子。所以第一當然是去看一看有沒有別的寫出來的成品，然

用Python爬取微博資料生成詞雲圖片

很早之前寫過一篇怎麼利用微博資料製作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的資料，現在重新整理了一下，任何的微博資料都可以製作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默默吃狗糧還是主動出擊告別單身汪加入散狗糧的行列就看你啦，七夕送什麼才有心意，程式猿可以試試用

Python爬取微博APP

全文簡介本文是用Python爬取微博移動端的資料。可以看一下Robots協議。另外儘量不要爬取太快。如果你毫無節制的去爬取別人資料，別人網站當然會反爬越來越嚴厲。所以，不要難為別人，到最後其實是在難為你自己。至於為什麼不爬PC端，原因是移動端較簡單，很適合爬蟲新手入門。有

Python爬取微博資料生成詞雲圖片

很早之前寫過一篇怎麼利用微博資料製作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的資料，現在重新整理了一下，任何人的微博資料都可以製作出來，即使是Python小白也能分分鐘做出來。準備工作本環境基於Python3，理論上Python2.7也是可行的，先安裝必要的第三方依賴包： #

向娛樂圈看齊，Python爬取微博評論並製作酷炫的詞雲！

2019年伊始，祝願各位多吃不胖，身體倍兒棒！回顧剛剛過去的2018，還有哪些新聞在你心底留有印象？怎奈年紀增長，記憶減退，逝去的爆炸新聞也逐漸褪色變得索然無味，畢竟一直以來我的心裡只有學習。 &nbs

Python爬取微博評論並製作酷炫的詞雲！

2019年伊始，祝願各位多吃不胖，身體倍兒棒！回顧剛剛過去的2018，還有哪些新聞在你心底留有印象？進群960410445 即可獲取數十套PDF！：怎奈年紀增長，記憶減退，逝去的爆炸新聞也逐漸褪色變得索然無味，畢竟一直以來我的心裡只有

Python爬取微博的評論人的微博網址

這次爬取微博以手機客戶端為主。開啟手機客戶端的微博連結為 https://m.weibo.cn 進入微博後，隨機找到評論多的為例。比如搜尋鹿晗。爬取評論鹿晗的評論人的微博網址開啟F12控制檯，點選網路，重新整理頁面往下滑，在控制檯出現一些資料，找到資料型別為jso

python爬取主播信息

site 評論 ror sco 信息 __init__ ima href 成功之前學過python的爬蟲技術，現在回顧一下看看還會不會，果然有坑。先爬取了微博評論網友的id代碼如下 import requestsurl = ‘https://m.weibo.cn/ap

團隊-張文然-需求分析-python爬蟲分類爬取豆瓣電影信息

工具新的翻頁需求使用 html 頁面應該一個首先要明白爬網頁實際上就是：找到包含我們需要的信息的網址（URL）列表通過 HTTP 協議把頁面下載回來從頁面的 HTML 中解析出需要的信息找到更多這個的 URL，回到 2 繼續其次還要明白：一個好的列表應該：包含

Python爬蟲小實踐：尋找失蹤人口，爬取失蹤兒童信息並寫成csv文件，方便存入數據庫

python tor enc mini 執行 gem view 獲取但是前兩天有人私信我，讓我爬這個網站，http://bbs.baobeihuijia.com/forum-191-1.html上的失蹤兒童信息，準備根據失蹤兒童的失蹤時的地理位置來更好的尋找失蹤兒童，這

Python爬蟲入門 | 爬取豆瓣電影信息

Python 編程語言 web開發這是一個適用於小白的Python爬蟲免費教學課程，只有7節，讓零基礎的你初步了解爬蟲，跟著課程內容能自己爬取資源。看著文章，打開電腦動手實踐，平均45分鐘就能學完一節，如果你願意，今天內你就可以邁入爬蟲的大門啦~好啦，正式開始我們的第二節課《爬取豆瓣電影信息》吧！啦啦哩啦啦，

我用 Python 爬取微信好友，最後發現一個大秘密

代碼我們同學 strong 分享簽名 ast ron tps 前言你身處的環境是什麽樣，你就會成為什麽樣的人。現在人們日常生活基本上離不開微信，但微信不單單是一個即時通訊軟件，微信更像是虛擬的現實世界。你所處的朋友圈是怎麽樣，慢慢你的思想也會變的怎麽樣。最近在學習

python小白也可以分分鐘爬取微博數據，並生成有個性的詞雲，你get到了嗎？

python 爬蟲 web開發編程Python（發音：英[?pa?θ?n]，美[?pa?θɑ:n]），是一種面向對象、直譯式電腦編程語言，也是一種功能強大的通用型語言，已經具有近二十年的發展歷史，成熟且穩定。它包含了一組完善而且容易理解的標準庫，能夠輕松完成很多常見的任務。它的語法非常簡捷和清晰，與其它大多

微信PK10平臺開發與用python爬取微信公眾號文章

網址谷歌瀏覽器 pytho google http 開發微信安裝python rom 本文通過微信提供微信PK10平臺開發[q-21528-76294] 網址diguaym.com 的公眾號文章調用接口，實現爬取公眾號文章的功能。註意事項 1.需要安裝python s

Python爬取微信公眾號歷史文章進行資料分析

思路： 1. 安裝代理AnProxy，在手機端安裝CA證書，啟動代理，設定手機代理； 2. 獲取目標微信公眾號的__biz; 3. 進入微信公眾號的歷史頁面； 4. 使用Monkeyrunner控制滑屏；獲取更多的歷史訊息； 5. 記錄文章標題，摘要，建立時間，創作型別，地

Python 非同步爬取微博資料練習

PHP交流群:294088839, Python交流群:652376983 # js 資料爬取 from urllib.parse import urlencode import requests base_url ='https://m.weibo.cn/api/container/getI

python 爬取微博信息

相關推薦