python爬微博

阿新 • • 發佈：2018-01-25

2.x nor request 設置代理 post eat 正在 create 內容

# -*- coding: utf-8 -*-

import urllib.request
import json

#定義要爬取的微博大V的微博ID
id=‘3924739974‘

#設置代理IP
proxy_addr="122.241.72.191:808"

#定義頁面打開函數
def use_proxy(url,proxy_addr):
    req=urllib.request.Request(url)
    req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/49.0.2623.221 Safari/537.36 SE 2.X MetaSr 1.0 
")
    proxy=urllib.request.ProxyHandler({‘http‘:proxy_addr})
    opener=urllib.request.build_opener(proxy,urllib.request.HTTPHandler)
    urllib.request.install_opener(opener)
    data=urllib.request.urlopen(req).read().decode(‘utf-8‘,‘ignore‘)
    return data

#獲取微博主頁的containerid，爬取微博內容時需要此id
def get_containerid(url):
    data 
=use_proxy(url,proxy_addr)
    content=json.loads(data).get(‘data‘)
    for data in content.get(‘tabsInfo‘).get(‘tabs‘):
        if(data.get(‘tab_type‘)==‘weibo‘):
            containerid=data.get(‘containerid‘)
    return containerid

#獲取微博大V賬號的用戶基本信息，如：微博昵稱、微博地址、微博頭像、關註人數、粉絲數、性別、等級等
def get_userInfo(id):
    url 
=‘https://m.weibo.cn/api/container/getIndex?type=uid&value=‘+id
    data=use_proxy(url,proxy_addr)
    content=json.loads(data).get(‘data‘)
    profile_image_url=content.get(‘userInfo‘).get(‘profile_image_url‘)
    description=content.get(‘userInfo‘).get(‘description‘)
    profile_url=content.get(‘userInfo‘).get(‘profile_url‘)
    verified=content.get(‘userInfo‘).get(‘verified‘)
    guanzhu=content.get(‘userInfo‘).get(‘follow_count‘)
    name=content.get(‘userInfo‘).get(‘screen_name‘)
    fensi=content.get(‘userInfo‘).get(‘followers_count‘)
    gender=content.get(‘userInfo‘).get(‘gender‘)
    urank=content.get(‘userInfo‘).get(‘urank‘)
    print("微博昵稱："+name+"\n"+"微博主頁地址："+profile_url+"\n"+"微博頭像地址："+profile_image_url+"\n"+"是否認證："+str(verified)+"\n"+"微博說明："+description+"\n"+"關註人數："+str(guanzhu)+"\n"+"粉絲數："+str(fensi)+"\n"+"性別："+gender+"\n"+"微博等級："+str(urank)+"\n")


#獲取微博內容信息,並保存到文本中，內容包括：每條微博的內容、微博詳情頁面地址、點贊數、評論數、轉發數等
def get_weibo(id,file):
    i=1

    url = ‘https://m.weibo.cn/api/container/getIndex?type=uid&value=‘ + id
    weibo_url = ‘https://m.weibo.cn/api/container/getIndex?type=uid&value=‘ + id + ‘&containerid=‘ + get_containerid(
        url) + ‘&page=‘ + str(i)
    try:
        data = use_proxy(weibo_url, proxy_addr)
        content = json.loads(data).get(‘data‘)
        cards = content.get(‘cards‘)
        print(content)
        ‘‘‘
        if(len(cards)>0):
            for j in range(len(cards)):
                print("-----正在爬取第"+str(i)+"頁，第"+str(j)+"條微博------")
                card_type=cards[j].get(‘card_type‘)
                if(card_type==9):
                    mblog=cards[j].get(‘mblog‘)
                    attitudes_count=mblog.get(‘attitudes_count‘)
                    comments_count=mblog.get(‘comments_count‘)
                    created_at=mblog.get(‘created_at‘)
                    reposts_count=mblog.get(‘reposts_count‘)
                    scheme=cards[j].get(‘scheme‘)
                    text=mblog.get(‘text‘)
                    with open(file,‘a‘,encoding=‘utf-8‘) as fh:
                        fh.write("----第"+str(i)+"頁，第"+str(j)+"條微博----"+"\n")
                        fh.write("微博地址："+str(scheme)+"\n"+"發布時間："+str(created_at)+"\n"+"微博內容："+text+"\n"+"點贊數："+str(attitudes_count)+"\n"+"評論數："+str(comments_count)+"\n"+"轉發數："+str(reposts_count)+"\n")
            i+=1
        else:
            break
        ‘‘‘
    except Exception as e:
        print(e)
        pass

    ‘‘‘
    while True:
        url=‘https://m.weibo.cn/api/container/getIndex?type=uid&value=‘+id
        weibo_url=‘https://m.weibo.cn/api/container/getIndex?type=uid&value=‘+id+‘&containerid=‘+get_containerid(url)+‘&page=‘+str(i)
        try:
            data=use_proxy(weibo_url,proxy_addr)
            content=json.loads(data).get(‘data‘)
            cards=content.get(‘cards‘)
            print(content)

            if(len(cards)>0):
                for j in range(len(cards)):
                    print("-----正在爬取第"+str(i)+"頁，第"+str(j)+"條微博------")
                    card_type=cards[j].get(‘card_type‘)
                    if(card_type==9):
                        mblog=cards[j].get(‘mblog‘)
                        attitudes_count=mblog.get(‘attitudes_count‘)
                        comments_count=mblog.get(‘comments_count‘)
                        created_at=mblog.get(‘created_at‘)
                        reposts_count=mblog.get(‘reposts_count‘)
                        scheme=cards[j].get(‘scheme‘)
                        text=mblog.get(‘text‘)
                        with open(file,‘a‘,encoding=‘utf-8‘) as fh:
                            fh.write("----第"+str(i)+"頁，第"+str(j)+"條微博----"+"\n")
                            fh.write("微博地址："+str(scheme)+"\n"+"發布時間："+str(created_at)+"\n"+"微博內容："+text+"\n"+"點贊數："+str(attitudes_count)+"\n"+"評論數："+str(comments_count)+"\n"+"轉發數："+str(reposts_count)+"\n")
                i+=1
            else:
                break

        except Exception as e:
            print(e)
            pass
    ‘‘‘
if __name__=="__main__":
    file=id+".txt"
    get_userInfo(id)
    get_weibo(id,file)

python爬微博

2.x nor request 設置代理 post eat 正在 create 內容 # -*- coding: utf-8 -*- import urllib.request import json #定義要爬取的微博大V的微博ID id=‘3924739974‘

【python爬蟲-爬微博】爬取王思聰所有微博資料

1. 準備：代理IP 。網上有很多免費代理ip，如西刺免費代理IP http://www.xicidaili.com/，自己可找一個可以使用的進行測試；抓包分析。通過抓包獲取微博內容地址。當然web下的api地址可以通過瀏覽器獲得。以下是通過瀏覽器除錯獲得

【Python】微博自動搶紅包

cep group web asc ror 如果 script 4.0 linu # -*- coding: utf-8 -*- import requests import js2xml from lxml import etree headers =

利用python基於微博數據打造一顆“心”

ges mage 藝術 iter 大小什麽基本 join 還要一年一度的虐狗節將至，朋友圈各種曬，曬自拍，曬娃，曬美食，秀恩愛的。程序員在曬什麽，程序員在加班。但是禮物還是少不了的，送什麽好？作為程序員，我準備了一份特別的禮物，用以往發的微博數據打造一顆“愛心”，我想

python爬微信公眾號前10篇歷史文章（2）

als end val response ret blank 生成 sea 歷史如何拼接想要的url http://weixin.sogou.com/weixin?type=1&page=1&ie=utf8&query=%E5%A4%A7%

python爬微信公眾號前10篇歷史文章（3）-lxml&xpath初探

操作其他正則串操作容器 pan 對象 tail 創建理解lxml以及xpath 什麽是lxml？ python中用來處理XML和HTML的library。與其他相比，它能提供很好的性能，並且它支持XPath。具體可以查看官方文檔->http://

python爬微信公眾號前10篇歷史文章（5）-JSON相關內容小結

字符串轉換但是字符串 cname 例子 row none literal nco json — JSON encoder and decoder JSON: JavaScript object notation，是一種輕量級的數據交換格式。JSON 是 JS 對

Python 統計微博文字的單詞數

import os import xlrd import numpy as np import matplotlib.pyplot as plt import re from numpy.ma import log xpath = "/Volumes/DISK1/微博總語料庫/" xty

Python模擬微博抽獎機制！中獎十個九個半女生？自動統計男女比例

今天來寫一個自動計算微博抽獎男女比例的程式碼，很早就應該發這篇了，只是不想蹭熱點（才不是拖更）。整個的過程大概分為三步： S1：從抽獎公示頁獲取所有中獎者的微博ID S2：由每個中獎者的微博ID進入其相應主頁，獲得需要的個人資訊（性別、粉絲數、微博數等） S3：對收集到的資訊進行相

新浪微博PC端登陸js分析及Python實現微博post登陸

新浪微博的安全級別還是比較高，前端的資訊採用RSA非對稱加密方式，加密的內容處理過，不僅僅是使用者輸入的密碼，加密公鑰是實時請求而來。首選抓個包瞧瞧： entry:weibogateway:1from:savestate:7qrcode_flag:falseuseticke

Python 模擬微博登陸，親測有效！

今天想做一個微博爬個人頁面的工具，滿足一些不可告人的祕密。那麼首先就要做那件必做之事！模擬登陸…… 程式碼是參考了：https://www.douban.com/note/201767245/，我對程式碼進行了優化，重構成了Python 3.6 版本，並且加入了大

使用python做微博爬蟲遇到的問題（1）

使用的是python 2.7 python裝不了requests：百度上的大致意思是我的電腦的使用者名稱是中文，python不支援中文解決辦法是在python檔案路徑下（我的是C:\Python27）的Lib\site-packages內新

爬微博

import requests import json import codecs import time import random import csv from fake_useragent import UserAgent import p

python 呼叫微博API批量回復微博評論

標頭檔案 import urllib import urllib.request import http.cookiejar import urllib.parse import sys import re import base64 import json import

Python模擬微博登陸，親測有效

開發十年，就只剩下這套架構體系了！ >>>

超詳細的Python實現微博模擬登陸,小白都能懂

原文來自:公眾號"速學Python" 前言最近由於需要一直在研究微博的爬蟲，第一步便是模擬登陸，從開始摸索到走通模擬登陸這條

python 爬取微博信息

微博爬蟲 python cookie 新浪微博爬取的話需要設計到登錄，這裏我沒有模擬登錄，而是使用cookie進行爬取。獲取cookie：代碼：#-*-coding:utf8-*- from bs4 import BeautifulSoup import requests impor

23個Python爬蟲開源項目代碼：爬取微信、淘寶、豆瓣、知乎、微博等

公眾 mon 成交個人標簽 req 不同數據存儲百度雲盤來源：全球人工智能作者：SFLYQ 今天為大家整理了23個Python爬蟲項目。整理的原因是，爬蟲入門簡單快速，也非常適合新入門的小夥伴培養信心。所有鏈接指向GitHub，祝大家玩的

Python爬蟲開源項目代碼，爬取微信、淘寶、豆瓣、知乎、新浪微博、QQ、去哪網等代碼整理

http server 以及 pro 模擬登錄取數存在漏洞搜狗作者：SFLYQ 今天為大家整理了32個Python爬蟲項目。整理的原因是，爬蟲入門簡單快速，也非常適合新入門的小夥伴培養信心。所有鏈接指向GitHub，祝大家玩的愉快~ 1、WechatSogou

用python爬取微博數據並生成詞雲

font 意思 extra 很多返回 json 自己技術分享 pre 很早之前寫過一篇怎麽利用微博數據制作詞雲圖片出來，之前的寫得不完整，而且只能使用自己的數據，現在重新整理了一下，任何的微博數據都可以制作出來，放在今天應該比較應景。一年一度的虐汪節，是繼續蹲在角落默

python爬微博

相關推薦