爬取知乎熱榜標題和連接（python，requests，xpath）

阿新 • • 發佈：2019-01-21

app 分享圖片 dea -a mar margin 瀏覽器判斷 agen

用python爬取知乎的熱榜，獲取標題和鏈接。

環境和方法：ubantu16.04、python3、requests、xpath

1.用瀏覽器打開知乎，並登錄

技術分享圖片

2.獲取cookie和User—Agent

技術分享圖片

3.上代碼

 1 import requests
 2 from lxml import etree
 3 
 4 def get_html(url):
 5     headers={
 6             ‘Cookie‘:‘‘,
 7             #‘Host‘:‘www.zhihu.com‘,
 8             ‘User-Agent 
‘:‘Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36‘
 9             }
10 
11     r=requests.get(url,headers=headers)
12 
13     if r.status_code==200:
14         deal_content(r.text)
15 
16 def deal_content(r):
17     html = etree.HTML(r)
18     title_list = html.xpath(‘ 
//*[@id="TopstoryContent"]/div/section/div[2]/a/h2‘)
19     link_list = html.xpath(‘//*[@id="TopstoryContent"]/div/section/div[2]/a/@href‘)
20     for i in range(0,len(title_list)):
21         print(title_list[i].text)
22         print(link_list[i])
23         with open("zhihu.txt",‘a‘) as f:
24             f.write(title_list[i].text+‘ 
\n‘)
25             f.write(‘\t鏈接為：‘+link_list[i]+‘\n‘)
26             f.write(‘*‘*50+‘\n‘)
27 
28 def main():
29     url=‘https://www.zhihu.com/hot‘
30     get_html(url)
31 
32 main()
33 
34 import requests  #用requests方式獲取
35 from lxml import etree
36 
37 def get_html(url):
38     ‘‘‘get_html獲取源代碼
39     ‘‘‘url：為知乎的網址
40     headers={
41             ‘Cookie‘:‘tgw_l7_route=73af20938a97f63d9b695ad561c4c10c; _zap=f99d7200-6422-498f-8df0-39844d1abd7c; _xsrf=iDbABkOnhb6jA1wvKWFdPqjSeEMav66V; d_c0="ADBhKiaX2Q6PToVYr9fc-9UzlLt0E9RBAEs=|1547900414"; capsion_ticket="2|1:0|10:1547900418|14:capsion_ticket|44:NGVlNTI5Mzk4YTEzNDhlZTk4ZjkxZDg1YTg1OTMxMDg=|cbfda19dac16d7fd90188a21abc0001da68faa88f2013a59b36d497528e922e1"; z_c0="2|1:0|10:1547900438|4:z_c0|92:Mi4xckloRUF3QUFBQUFBOE9FaEpwZlpEaWNBQUFDRUFsVk5GcU5xWEFES2t0M2dVR2lXbWpLVUZHTGp0RDhaU0o1bzln|cc0ba8245e1572aac608d462e9aaabf1b817cb9bd16cbcc819d6f148a8cb009e"; tst=r; q_c1=ca06c3e96ec442179a3409aec6f974dc|1547900440000|1547900440000‘,
42             #‘Host‘:‘www.zhihu.com‘,
43             ‘User-Agent‘:‘Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 Safari/537.36‘
44             }
45 
46     r=requests.get(url,headers=headers) #獲取網頁源碼
47 
48     if r.status_code==200: #判斷狀態碼是否為200，即判斷是否成功獲取原網頁
49         deal_content(r.text) #調用函數處理網頁內容
50 
51 def deal_content(r):
52     ‘‘‘
53     deal_content()處理網頁內容，並寫入txt文件中
54         r為傳入參數，是網頁內容
55     相關內容寫入zhihu.txt中
56     ‘‘‘
57     html = etree.HTML(r) #將網頁內容轉換為lxml格式
58     title_list = html.xpath(‘//*[@id="TopstoryContent"]/div/section/div[2]/a/h2‘) #獲取標題
59     link_list = html.xpath(‘//*[@id="TopstoryContent"]/div/section/div[2]/a/@href‘) #獲取連接
60     for i in range(0,len(title_list)):
61         #print(title_list[i].text)
62         #print(link_list[i])
63         with open("zhihu.txt",‘a‘) as f:
64             f.write(title_list[i].text+‘\n‘)
65             f.write(‘\t鏈接為：‘+link_list[i]+‘\n‘)
66             f.write(‘*‘*50+‘\n‘)
67 
68 def main():
69     url=‘https://www.zhihu.com/hot‘ 
70     get_html(url)
71 
72 main()

4.爬取結果

技術分享圖片

爬取知乎熱榜標題和連接（python，requests，xpath）

app 分享圖片 dea -a mar margin 瀏覽器判斷 agen 用python爬取知乎的熱榜，獲取標題和鏈接。環境和方法：ubantu16.04、python3、requests、xpath 1.用瀏覽器打開知乎，並登錄 2.獲取cookie

python爬取知乎專欄文章標題及URL

# -*- coding:utf-8 -*- from selenium import webdriver import time # 執行程式要安裝selenium模組，並下載Chrome瀏覽器驅動

python scrapy爬取知乎問題和收藏夾下所有答案的內容和圖片

上文介紹了爬取知乎問題資訊的整個過程,這裡介紹下爬取問題下所有答案的內容和圖片,大致過程相同,部分核心程式碼不同. 爬取一個問題的所有內容流程大致如下: 一個問題url 請求url,獲取問題下的答案個數(我不需要,因為之前獲取問題資訊的時候儲存了問題的回答個數) 通過答案的介面去獲取答案(如果一次獲取5

Python爬蟲之爬取知乎帖子並儲存到mysql（以及遇到問題和解決方法）

爬取問題標題並儲存到資料庫：程式碼： # coding=utf-8 import urllib import urllib2 import re import MySQLdb #co

使用scrapy爬取知乎問題和答案的相關欄位完整程式碼

目前程式健壯性有待提高。尤其是對question的各類異常處理還不夠。但是程式碼已經可用，附上程式碼執行後爬取到的資料。在爬取到101條quetion時已經爬取到2671條answer欄位了。。。。這差距好大。一方面是因為answer有知乎提供的API，更方便爬取，另一個方面

爬取知乎某個問題下所有的圖片

user count view default os.chdir make selenium pytho use 最近在逛知乎時，看到這麽一個問題最高贊的答案寫了個爬蟲，把所有的照片都爬下來了。嘿嘿嘿，技術的力量正好自己也在學習，加上答主的答案是很久之前的，知乎

Scrapy分布式爬蟲打造搜索引擎（慕課網）--爬取知乎（二）

false pat 模塊 text 文件的服務協議 .py execute 通過Scrapy模擬登陸知乎通過命令讓系統自動新建zhihu.py文件首先進入工程目錄下再進入虛擬環境通過genspider命令新建zhihu.py scrap

用PHP爬取知乎的100萬用戶

nbsp 維修知乎發現 body class 直接 blog 爬蟲 http://blog.jobbole.com/88788/ 突然發現大數據 Python的爬蟲能力很強爬取到的數據直接可以用於維修QQ營銷精準營銷用PHP爬取知乎的100萬用戶

利用 Scrapy 爬取知乎用戶信息

oauth fault urn family add token post mod lock 　　思路：通過獲取知乎某個大V的關註列表和被關註列表，查看該大V和其關註用戶和被關註用戶的詳細信息，然後通過層層遞歸調用，實現獲取關註用戶和被關註用戶的關註列表和被關註列表，最終實

爬取知乎Python中文社區信息

urlencode RR amp AD pos LV off In encoding 爬取知乎Python中文社區信息，https://zhuanlan.zhihu.com/zimei 1 import requests 2 from urllib.parse

爬取知乎話題async使用協程

ret header tps mob ans print __name__ next and import requests import json import time from pyquery import PyQuery import pandas as pd f

scrapy爬取知乎問答

登陸參考 https://github.com/zkqiang/Zhihu-Login # -*- coding: utf-8 -*- import scrapy import time import re import base64 import hmac import hashlib impor

教程+資源,python scrapy實戰爬取知乎最性感妹子的爆照合集(12G)!

一.出發點：之前在知乎看到一位大牛（二胖）寫的一篇文章：python爬取知乎最受歡迎的妹子（大概題目是這個，具體記不清了），但是這位二胖哥沒有給出原始碼，而我也沒用過python,正好順便學一學,所以我決定自己動手搞一搞. 爬取已經完成,文末有 python的原始碼和妹子圖片的百度雲地址二.準備：

python爬取知乎專欄使用者評論資訊

工具：python3，pycharm，火狐瀏覽器模組：json，requests，time 登入知乎，進入專欄。進入後隨便選擇一個專欄，我們選擇一個粉絲比較多的。點選進去。其實，我們可以爬取這個專欄的所有文章，開啟開發者工具F12，點選重新整理找

爬蟲爬取知乎登陸後首頁

package zhihu; import java.io.IOException; import java.util.HashMap; import java.util.Map; import org.jsoup.Connection; import org.

用python爬取知乎中的圖片

首先，我們檢視一下知乎的robots協議。 User-agent: * Disallow: / 知乎是不允許爬取其根目錄的。但是，我們只是用於實驗，而且訪問頻率和正常訪問差距不大，所以可以爬取。先明確目的：對手動輸入的網址進行解析把爬取到的圖片儲存到指定目

超簡易Scrapy爬取知乎問題，標籤的爬蟲

上課的作業，備份一下，以免不時之需。知乎的問題的網頁都是 https://www.zhihu.com/question/ 帶8位神祕數字，我們只需要依次遍歷就解決問題啦，遇到404的情況就直接跳過。用scrapy框架快速開發。獲取知乎問題標題的程式碼 ti

python3爬取知乎某話題下的若干個問題及其回答

思路：通過selenium的webdriver實現頁面的點選、下來等操作。頁面完全載入後通beautifulsoup來查詢相應的標籤。將資料放到列表中，然後通過xlwt建立excel，並把資料存進去。缺點：容易遇到效能問題。可能一個話題有很多的回覆，而對於往excel中插

用於爬取知乎某個話題下的精華問題中所有回答的爬蟲

思路我的整個演算法的思路還是很簡單的，文字版步驟如下：1、通過話題廣場進入某個話題的頁面，避免了登陸註冊頁面的驗證，查詢到對應要爬取的話題，從 url 中得到話題id2、該頁面的所有資源採用了延遲載入，如果採用模擬瀏覽器進行載入的話還是很麻煩，經研究後發現知乎有前後端資料傳輸的api，所以獲取資料方面

用JAVA實現一個爬蟲，爬取知乎的上的內容（程式碼已無法使用）

在學習JAVA的過程中寫的一個程式，處理上還是有許多問題，爬簡單的頁面還行，複雜的就要跪. 爬取內容主要使用URLConnection請求獲得頁面內容，使用正則匹配頁面內容獲得所需的資訊存入檔案，使用正則尋找這個頁面中可訪問的URL，使用佇列儲存未訪問的URL

爬取知乎熱榜標題和連接 （python，requests，xpath）

相關推薦

爬取知乎熱榜標題和連接（python，requests，xpath）