Python知乎熱門話題爬取

阿新 • • 發佈：2018-12-11

本例子是參考崔老師的Python3網路爬蟲開發實戰寫的

看網頁介面：

熱門話題都在 explore-feed feed-item的div裡面

原始碼如下：

import requests
from pyquery import PyQuery as pq

url='https://www.zhihu.com/explore'   #今日最熱
#url='https://www.zhihu.com/explore#monthly-hot'   #本月最熱
headers={
    'User-Agent':"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5 
",
}
html=requests.get(url,headers=headers).text
doc=pq(html)
#print(doc)
items=doc('.explore-feed.feed-item').items()
for item in items:
    question=item.find('h2').text()
    #獲取問題
    print(question)
    author=item.find('.author-link').text()
    #獲取作者
    print(author)
    answer=pq(item.find(' 
.content').html()).text()
    #獲取答案（老師寫的沒看懂，可能需要jquery知識）
    print(answer)
    print('===='*10)
    answer1=item.find('.zh-summary').text()
    #自己寫的獲取答案。。。
    print(answer1)

    #第一種寫入方法
    file=open('知乎.txt','a',encoding='utf-8')
    file.write('\n'.join([question,author,answer]))
    file.write( 
'\n'+'****'*50+'\n')
    file.close()

    #第二種寫入方法 不需要寫關閉方法
    with open('知乎.txt','a',encoding='utf-8') as fp:
        fp.write('\n'.join([question, author, answer]))
        fp.write('\n' + '****' * 50 + '\n')

執行結果如下：

不過比較奇怪的地方是 url為今日最熱和本月最熱所爬取的結果一模一樣。。而且都只能爬下五個div裡面的東西，可能是因為知乎是動態介面。需要用到selenium吧

還有就是

answer=pq(item.find('.content').html()).text()
#獲取答案（老師寫的沒看懂，可能需要jquery知識）

這行程式碼沒有看懂。。。。

還得學習jQuery

Python知乎熱門話題爬取

本例子是參考崔老師的Python3網路爬蟲開發實戰寫的看網頁介面：熱門話題都在 explore-feed feed-item的div裡面原始碼如下： import requests from pyquery import PyQuery as pq url='https://www.

Python爬蟲新手教程：知乎文章圖片爬取器

1. 知乎文章圖片爬取器之二部落格背景昨天寫了知乎文章圖片爬取器的一部分程式碼，針對知乎問題的答案json進行了資料抓取，部落格

PHP爬蟲：百萬級別知乎使用者資料爬取與分析

這次抓取了110萬的使用者資料，資料分析結果如下：開發前的準備安裝Linux系統（Ubuntu14.04），在VMWare虛擬機器下安裝一個Ubuntu；安裝PHP5.6或以上版本；安裝MySQL5.5或以上版本；安裝curl、pcntl擴充套件。使

知乎爬蟲之爬取專欄資訊

接著昨天的模擬登陸，今天來爬取一下專欄資訊我們將對專欄https://zhuanlan.zhihu.com/Entertainmentlaw進行抓取首先還是進行抓包分析，可以發現這裡有我們想要的專欄的名稱，作者，關注人數等資訊然後我們看一下訊息頭

Python爬知乎妹子都愛取啥名

imread gen fancybox pda port fun dmi mage panda 閑來無事上知乎，看到好多妹子，於是抓取一波。有沒有興趣？？目標網址https://www.zhihu.com/collection/78172986 抓取分析爬取分析

python爬蟲如何爬知乎的話題？

write targe connect 問題 brush img fetchone new text 因為要做觀點，觀點的屋子類似於知乎的話題，所以得想辦法把他給爬下來，搞了半天最終還是妥妥的搞定了，代碼是python寫的，不懂得麻煩自學哈！懂得直接看代碼，絕對可用 #c

python3爬取知乎某話題下的若干個問題及其回答

思路：通過selenium的webdriver實現頁面的點選、下來等操作。頁面完全載入後通beautifulsoup來查詢相應的標籤。將資料放到列表中，然後通過xlwt建立excel，並把資料存進去。缺點：容易遇到效能問題。可能一個話題有很多的回覆，而對於往excel中插

用於爬取知乎某個話題下的精華問題中所有回答的爬蟲

思路我的整個演算法的思路還是很簡單的，文字版步驟如下：1、通過話題廣場進入某個話題的頁面，避免了登陸註冊頁面的驗證，查詢到對應要爬取的話題，從 url 中得到話題id2、該頁面的所有資源採用了延遲載入，如果採用模擬瀏覽器進行載入的話還是很麻煩，經研究後發現知乎有前後端資料傳輸的api，所以獲取資料方面

Python爬蟲設定代理IP爬取知乎圖片

本文接著前面兩文中提到的內容來繼續完善我們的Python爬蟲。上文地址：通過Python爬蟲爬取知乎某個問題下的圖片設定代理的方式很簡單，可以看看這裡Requests的官方文件，這裡也有對應的中文版介紹，點選開啟連結先簡單說下requests代理的使用，摘自上述提到的文

python知乎內容抓取（redis存儲）

sorted mat param 爬取 Nid odi 請求 quest 一個　　因為平時喜歡上知乎，發現其話題是一個有向無環圖（自己介紹說得），一級一級往上最後到根話題，所以我就想嘗試從根話題一級一級往下將其全部內容爬取。最後實踐過程中發現自己想多了..有以下三個問題：

Java開發月薪2W的知乎討論記錄截取

我認 csdn truct 最好控制垃圾高級自己面試官 1. 推薦看作者：匿名用戶鏈接：https://www.zhihu.com/question/39890405/answer/83676977 來源：知乎著作權歸作者所有。商業轉載請聯系作者獲得授

Python爬蟲之利用BeautifulSoup爬取豆瓣小說（三）——將小說信息寫入文件

設置 one 行為 blog 應該 += html uil rate 1 #-*-coding:utf-8-*- 2 import urllib2 3 from bs4 import BeautifulSoup 4 5 class dbxs: 6 7

Python 正則練習(一) 爬取國內代理ip

取代替代 use -a int 5.0 tdi col 則表達式簡單的正則表達式練習，爬取代理 ip。僅爬取前三頁，用正則匹配過濾出 ip 地址和端口，分別作為key、value 存入 validip 字典。如果要確定代理 ip 是否真的可用，還需要再對代理

Python敏感地址掃描和爬取工具

thread 測評 DC 並排 BE enc url 3D www 0×01 說明: 為了方便信息安全測評工作，及時收集敏感地址(初衷是爬取api地址)，所以寫了這麽個小工具。兩個簡單的功能（目錄掃描和url地址爬取）。 0×02 使用參數: python spider.p

python獲取網頁精準爬取數據

imp url pil 簡單 vid req pen pro utf import reimport urllib.requeststring=‘<div class="name">(.*?)</div>‘huo=urllib.request.url

python 多線程方法爬取微信公眾號文章

微信爬蟲多線程爬蟲本文在上一篇基礎上增加多線程處理（http://blog.51cto.com/superleedo/2124494 ）執行思路：1，規劃好執行流程，建立兩個執行線程，一個控制線程2，線程1用於獲取url，並寫入urlqueue隊列3，線程2，通過線程1的url獲取文章內容，並保

python偽代碼之爬取完美誌願全國歷年文理分數線運行代碼持續更新

Python 爬蟲高考項目最近好多小夥伴說想搞個項目實戰類的，我就花了一點時間做了一個爬蟲項目（在代碼復制的時候可能會有點問題，縮格一下就沒有問題了）想要獲取更多源碼或者答疑或者或者交流學習可以加群：725479218 # -*- coding:utf-8 -*- from funct

Python爬蟲之使用Fiddler+Postman+Python的requests模塊爬取各國國旗

urlencode Coding 5.0 思路想要得到 RM lib 微信公眾號介紹 ??本篇博客將會介紹一個Python爬蟲，用來爬取各個國家的國旗，主要的目標是為了展示如何在Python的requests模塊中使用POST方法來爬取網頁內容。 ??為了知道POST

Python網絡爬蟲：爬取古詩文中的某個制定詩句來實現搜索

它的參考文獻 lis 實現 word self 適合 odi 級別 python編譯練習，為了將自己學習過的知識用上，自己找了很多資料。所以想做一個簡單的爬蟲，代碼不會超過60行。主要用於爬取的古詩文網站沒有什麽限制而且網頁排布很規律，沒有什麽特別的東西，適合入門級別的

python實戰之原生爬蟲(爬取熊貓主播排行榜)

ref png ret spider find end mod int tps """ this is a module,多行註釋 """ import re from urllib import request # BeautifulSoup:解析數據結構推薦庫

Python知乎熱門話題爬取

相關推薦