微博帶cookie訪問抓取熱搜

阿新 • • 發佈：2018-11-26

# -*- coding: utf-8 -*-
'''
@author: Yalei Meng    E-mail: [email protected]
@license: (C) Copyright 2017, HUST Corporation Limited.
@desc:獲取新浪熱門微博內容。儲存為txt檔案
@DateTime: Created on 2017/10/3，at 15:48   '''
from bs4 import BeautifulSoup as bs
import requests as rq
import  time
import random
import json
import csv
cookie = ？
def request_page(Page):
    head = {'Accept': 'application / json, text / plain, * / *',
            'Cookie':cookie,   #將登陸後自己的cookie貼上在這裡即可。
            'Referer':'https://m.weibo.cn/p/index?containerid=102803',
            'User-Agent':'Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) '
                         'Version/9.0 Mobile/13B143 Safari/601.1',
            'X-Requested-With':'XMLHttpRequest'                     }
    r = rq.get(Page,headers = head,timeout = 5)
    return r.json()
#11353296
def get_text_from(page):
    js = request_page(page)
    cards = js.get('data').get('cards')
    print(len(cards))
    t_list = []
    if not cards:
        return t_list
    for a in range(len(js['data']['cards'])):
        try:
            a_txt = js['data']['cards'][a]['mblog']['text'].split('<')[0]
            # pub_time = js['cards'][a]['mblog']['created_at']
            # a_pic = js['cards'][a]['mblog'].get('original_pic')
            t_list.append(a_txt)
        except Exception as ex:
            print(ex)
    return t_list

#延遲重新整理訪問，可能存在微博內容重複的問題。需要注意去重。
url_list = ['https://m.weibo.cn/api/container/getIndex?containerid=102803&since_id={}'.format(str(i))
            for i in range(0,1000)]
#url_list=['https://weibo.cn/search/mblog?hideSearchFrame=&keyword=%E5%8F%B0%E9%A3%8E%E5%B1%B1%E7%AB%B9&page={}'.format(str(i))
#          for i in range(0,100)]
url="https://weibo.cn/search/?tf=5_012"
#如果要批量訪問，迴圈訪問列表的url即可。注意訪問間隔不能太短。小心被封號
for i, url in enumerate(url_list,1):
    mylist = get_text_from(url)
    print('當前第%d頁'%i,mylist)
    with open('E:/weibo1010.txt', 'a',encoding= 'utf-8')as f:
        for my in mylist:
            f.write(my)
            f.write('\n')
    time.sleep(random.uniform(1.2,3.0))
print('恭喜，程式執行完畢！')

引用了github 某位程式設計師的程式碼，等修改完成後（抓取某熱點的話題）再整理上傳。

微博帶cookie訪問抓取熱搜

爬蟲—新浪微博（登陸訪問、cookie訪問）

一、思路：登入 ====>進入指定頁面 ====>獲取cookie ====> 帶cookie訪問相關頁面。注：貌似微博頁面稍微改了一下：現在通過登入直接進入個人中心的過程中所獲取的cookie不能用於訪問其他頁面，因此，才會在登陸後加一層進

微信運動數據抓取(PHP)

auth 4.4 3.4 nco con stat images chat urn “微信運動”能夠向朋友分享一個包含有運動數據的網頁，網頁中就有我們需要的數據。url類似於：https://open.weixin.qq.com/connect/oauth2/authori

微信運動數據抓取(Python)

webp 抓包微信瀏覽器 win elf 有用 ans bject 顯示 “微信運動”能夠向朋友分享一個包含有運動數據的網頁，網頁中就有我們需要的數據。url類似於：http://hw.weixin.qq.com/steprank/step/personal?openi

微信文章抓取：微信公眾號文章抓取常識之臨時連結、永久連結

未經允許請勿轉載曾經嘗試過抓取微信文章的小夥伴，一定很熟悉搜狗微信。搜狗微信是騰訊官方提供的搜尋引擎，專門用來搜尋微信公眾號發表的文章（不包含服務號）。對於想要獲取微信文章進行研究學習的小夥伴，首先探索的途徑通常是搜狗微信。那麼關於搜狗微信以及微信相關的抓取，需

Scrapy實現對新浪微博某關鍵詞的爬取以及不同url中重複內容的過濾

工作原因需要爬取微博上相關微博內容以及評論。直接scrapy上手，發現有部分重複的內容出現。（標題重複，內容重複，但是url不重複） 1.scrapy爬取微博內容為了降低爬取難度，直接爬取微博的移動端：（電腦訪問到移動版本微博，之後F12調出控制檯來操作）點選

PHP 實現新浪微博自動評論及爬取微博id

public function jiaoben(){ $code = $this->request->param('code'); $access_token = session('access'); echo $access_token; if(

關於微信公眾號文章抓取

今天公司要我抓取微信公眾號文章，我百度了半天得到的方法有三種：具體內容我就不復制了請去下面這個連結去看，寫的挺好微信公眾號文章採集方案在三者中我選擇了比較穩妥的第二種：對手機微信進行中間人攻擊因為之前被封過小號，所以感覺解封微信太麻煩而關於如何中間人攻擊請參考下面的連結

微博社交內容資訊爬取（selenium和equests請求介面兩種方法）

總體目標：抓取微博內容資訊；給一個入口，抓分佈抓取關注list，然後給到具體連結去爬取具體個人的微博資訊 #我這現在有兩種方式，selenium模擬登陸和下拉，二是分析介面獲取具體微博資訊，這邊暫時沒有完全放開安裝list關注再分別一次抓取每個關注的微博，後面會更新一，requests

httpclient 面https認證，帶cookie訪問

cookie通過firebug獲取import java.io.IOException; import java.net.InetAddress; import java.net.InetSocketAddress; import java.net.Socket; imp

帶cookie訪問伺服器實現模擬登入

當我們需要抓取需要登入的網站的資訊或者實現模擬登入時，我們需要得到第一次登入網站的cookie,以便於下次登入可以不用post引數實現登入，只要將cookie放入標頭檔案就好，這是之前寫的模擬登入學校教務的程式碼，記錄以便查閱。 public String

charles抓取微信小程式資料(抓取http和https資料)

本文中使用的是mac上的抓包工具charles進行抓包，手機是華為榮耀8，安卓版本7.0（其實跟版本沒啥關係）要想抓取到微信小程式的資料首先要解決的第一個問題件就是如何通過charles抓取手機上的資料（HTTP) 具體配置過程如下：第一步，charles上通過

【python 新浪微博爬蟲】python 爬取新浪微博24小時熱門話題top500

一、需求分析模擬登陸新浪微博,爬取新浪微博的熱門話題版塊的24小時內的前TOP500的話題名稱、該話題的閱讀數、討論數、粉絲數、話題主持人，以及對應話題主持人的關注數、粉絲數和微博數。二、開發語言 python2.7 三、需要匯入模組 import

搜狗微信公眾號文章抓取

機器能做的事就別讓人來做！目標：抓取特定微信公眾號文章思路：利用selenium模擬瀏覽器行為，進行抓取（理由：搜狗已將文章連結進行處理，且頁面為動態生成）框架：　　步驟： 1、登入搜狗　　a、找到登入按鈕並點選　　self.browser.

跨域抓取360搜索結果

分析 utf 其他 app btn tex 分享 ima callback 先來看效果，在搜索框中輸入想要搜索的內容，信息就會顯示在下方。如何把360搜索到的信息放入自己的網頁，涉及到了跨域請求。代碼分析： 1.創建script元素.document.create

抓取微博資料,如何防護爬蟲被牆

大資料時代下，資料採集推動著資料分析，資料分析推動發展。但是在這個過程中會出現很多問題。拿最簡單最基礎的爬蟲採集資料為例，過程中就會面臨，IP被封，爬取受限、違法操作等多種問題，所以在爬去資料之前，一定要了解好預爬網站是否涉及違法操作，找到合適的代理IP訪問網站等一系列問題。下面分享一些爬取微博資料時，防太陽

抓取微博數據,如何防護爬蟲被墻

很多代理換ip setting 最簡 cookies 麻煩獲取ip 客戶大數據時代下，數據采集推動著數據分析，數據分析推動發展。但是在這個過程中會出現很多問題。拿最簡單最基礎的爬蟲采集數據為例，過程中就會面臨，IP被封，爬取受限、違法操作等多種問題，所以在爬去數據之

抓取微博熱點後繪製詞雲

python簡單粗暴爬取微博評論區熱評配圖

本人爬蟲萌新，程式碼是網上搜了很多示例（很多看不懂，有些也跑不了了），摸摸索索了兩天才扒拉下來的，文中程式碼也非常簡單甚至沒有設定headers ,如有問題請指正，非常感謝！瀏覽完整程式碼請直接拖動到底部。工具：Jupyter notebook,

基於scrapy的分散式爬蟲抓取新浪微博個人資訊和微博內容存入MySQL

為了學習機器學習深度學習和文字挖掘方面的知識，需要獲取一定的資料，新浪微博的大量資料可以作為此次研究歷程的物件一、環境準備 python 2.7 scrapy框架的部署（可以檢視上一篇部落格的簡要操作，傳送門：點選開啟連結） mysql的部署（需要的資源

微博帶cookie訪問抓取熱搜

相關推薦