Python爬蟲__微博某個話題的內容資料

阿新 • • 發佈：2020-08-18

  1 # -*- coding: utf-8 -*-
  2 # @Time : 2020/8/18 15:39
  3 # @Author : Chunfang
  4 # @Email : [email protected]
  5 # @File : Weibo_content.py
  6 # @Software: PyCharm
  7 
  8 from urllib.parse import urlencode
  9 import requests
 10 from pyquery import PyQuery as pq
 11 import time
 12 import os
 13 
 import csv
 14 import json
 15 
 16 base_url = 'https://m.weibo.cn/api/container/getIndex?'
 17 
 18 headers = {
 19     'Host': 'm.weibo.cn',
 20     'Referer': 'https://m.weibo.cn/u/2830678474',
 21     'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 
',
 22     'X-Requested-With': 'XMLHttpRequest',
 23 }
 24 class SaveCSV(object):
 25 
 26     def save(self, keyword_list,path, item):
 27         """
 28         儲存csv方法
 29         :param keyword_list: 儲存檔案的欄位或者說是表頭
 30         :param path: 儲存檔案路徑和名字
 31         :param item: 要儲存的字典物件
 32         :return:
 
 33         """
 34         try:
 35             # 第一次開啟檔案時，第一行寫入表頭
 36             if not os.path.exists(path):
 37                 with open(path, "w", newline='', encoding='utf-8-sig') as csvfile:  # newline='' 去除空白行
 38                     writer = csv.DictWriter(csvfile, fieldnames=keyword_list)  # 寫字典的方法
 39                     writer.writeheader()  # 寫表頭的方法
 40 
 41             # 接下來追加寫入內容
 42             with open(path, "a", newline='', encoding='utf-8-sig') as csvfile:  # newline='' 一定要寫，否則寫入資料有空白行
 43                 writer = csv.DictWriter(csvfile, fieldnames=keyword_list)
 44                 writer.writerow(item)  # 按行寫入資料
 45                 print("^_^ write success")
 46 
 47         except Exception as e:
 48             print("write error==>", e)
 49             # 記錄錯誤資料
 50             with open("error.txt", "w") as f:
 51                 f.write(json.dumps(item) + ",\n")
 52             pass
 53 
 54 def get_page(page,title): #得到頁面的請求，params是我們要根據網頁填的，就是下圖中的Query String裡的引數
 55     params = {
 56         'containerid': '100103type=1&q='+title,
 57         'page': page,#page是就是當前處於第幾頁，是我們要實現翻頁必須修改的內容。
 58         'type':'all',
 59         'queryVal':title,
 60         'featurecode':'20000320',
 61         'luicode':'10000011',
 62         'lfid':'106003type=1',
 63         'title':title
 64     }
 65     url = base_url + urlencode(params)
 66     print(url)
 67     try:
 68         response = requests.get(url, headers=headers)
 69         if response.status_code == 200:
 70             print(page)
 71             return response.json()
 72     except requests.ConnectionError as e:
 73         print('Error', e.args)
 74 
 75 # 解析介面返回的json字串
 76 def parse_page(json , label):
 77     res = []
 78     if json:
 79         items = json.get('data').get('cards')
 80         for i in items:
 81             if i == None:
 82                 continue
 83             item = i.get('mblog')
 84             if item == None:
 85                 continue
 86             weibo = {}
 87             weibo['id'] = item.get('id')
 88             weibo['label'] = label
 89             weibo['text'] = pq(item.get('text')).text().replace(" ", "").replace("\n" , "")
 90             res.append(weibo)
 91     return res
 92 
 93 if __name__ == '__main__':
 94 
 95     title = input("請輸入搜尋關鍵詞：")
 96     path = "article.csv"
 97     item_list = ['id','text', 'label']
 98     s = SaveCSV()
 99     for page in range(10,20):#迴圈頁面
100         try:
101             time.sleep(1)         #設定睡眠時間，防止被封號
102             json = get_page(page , title )
103             results = parse_page(json , title)
104             if requests == None:
105                 continue
106             for result in results:
107                 if result == None:
108                     continue
109                 print(result)
110                 s.save(item_list, path , result)
111         except TypeError:
112             print("完成")
113             continue

Python爬蟲__微博某個話題的內容資料

1 # -*- coding: utf-8 -*- 2 # @Time : 2020/8/18 15:39 3 # @Author : Chunfang 4 # @Email : [email protected]

python爬蟲-模擬微博登入功能

微博模擬登入這是本次爬取的網址：https://weibo.com/ 一、請求分析找到登入的位置，填寫使用者名稱密碼進行登入操作

python爬取微博評論的例項講解

python爬蟲是程式設計師們一定會掌握的知識，練習python爬蟲時，很多人會選擇爬取微博練手。python爬蟲微博根據微博存在於不同媒介上，所爬取的難度有差異，無論是python新入手的小白，還是已經熟練掌握的程式設計師

Python爬取微博熱搜榜，將資料存入資料庫

#-*-coding:utf-8-*- import urllib, pymysql, requests, re # 配置資料庫 config = { \'host\': \'127.0.0.1\',

[Python]爬蟲獲取知乎某個問題下所有圖片並去除水印

獲取URL 進入某個知乎問題的主頁下，按F12開啟開發者工具後檢視network面板。 network面板可以檢視頁面向伺服器請求的資源、資源的大小、載入資源花費的時間以及哪些資源載入失敗等資訊。還可以檢視HTTP的請求頭，

Python爬蟲例項——爬取美團美食資料

1.分析美團美食網頁的url引數構成 1）搜尋要點美團美食，地址：北京，搜尋關鍵詞：火鍋

Python爬蟲爬取百度翻譯之資料提取方法

本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理

Python爬蟲實戰案例：取喜馬拉雅音訊資料詳解

前言喜馬拉雅是專業的音訊分享平臺，彙集了有聲小說,有聲讀物,有聲書,FM電臺,兒童睡前故事,相聲小品,鬼故事等數億條音訊，我最喜歡聽民間故事和德雲社相聲集，你呢？

【Python爬蟲】拉鉤網招聘資訊資料採集

本文要點：爬蟲的基本流程 requests模組的使用儲存csv 視覺化分析展示環境介紹

Python爬蟲scrapy框架Cookie池(微博Cookie池)的使用

下載程式碼Cookie池（這裡主要是微博登入，也可以自己配置置其他的站點網址）

如何科學地蹭熱點：用python爬蟲獲取熱門微博評論並進行情感分析

甩鍋の宣告 1.本資料節選自新浪熱門微博評論，不代表本人任何觀點 2.本人不接受任何非技術交流類批評指責(誇我可以)

Python爬蟲實現“盜取”微信好友資訊的方法分析

本文例項講述了Python爬蟲實現“盜取”微信好友資訊的方法。分享給大家供大家參考，具體如下：

Python爬蟲庫requests獲取響應內容、響應狀態碼、響應頭

首先在程式中引入Requests模組 import requests 一、獲取不同型別的響應內容在傳送請求後，伺服器會返回一個響應內容，而且requests通常會自動解碼響應內容

Python爬蟲庫BeautifulSoup獲取物件(標籤)名,屬性,內容,註釋

一、Tag(標籤)物件 1.Tag物件與XML或HTML原生文件中的tag相同。 from bs4 import BeautifulSoup

python爬蟲開發之使用python爬蟲庫requests，urllib與今日頭條搜尋功能爬取搜尋內容例項

使用python爬蟲庫requests，urllib爬取今日頭條街拍美圖程式碼均有註釋 import re,json,requests,os

Python selenium爬取微博資料程式碼例項

爬取某人的微博資料，把某人所有時間段的微博資料都爬下來。具體思路：建立driver-----get網頁----找到並提取資訊-----儲存csv----翻頁----get網頁（開始迴圈）----...----沒有“下一頁”就結束，

Python爬蟲爬取百度搜索內容程式碼例項

這篇文章主要介紹了Python爬蟲爬取百度搜索內容程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

對微博進行爬蟲的時候，一定要注意一下訪問頻率

基本測試指令碼（python）： import time,requests def test_ip_freq(freq): if freq==0: return #測試1分鐘

Python3爬蟲裡關於識別微博宮格驗證碼的知識點詳解

本節我們來介紹一下新浪微博宮格驗證碼的識別，此驗證碼是一種新型互動式驗證碼，每個宮格之間會有一條指示連線，指示了我們應該的滑動軌跡，我們需要按照滑動軌跡依次從起始宮格一直滑動到終止宮格才可以完成驗證，

Python爬蟲爬取微信朋友圈

接下來，我們將實現微信朋友圈的爬取。如果直接用 Charles 或 mitmproxy 來監聽微信朋友圈的介面資料，這是無法實現爬取的，因為資料都是被加密的。而 Appium 不同，Appium 作為一個自動化測試工具可以直接模擬 App

Python爬蟲__微博某個話題的內容資料

相關推薦