python抓取知乎首頁文字資訊的簡單實現

阿新 • • 發佈：2019-02-02

利用requests提供的方法得到網頁中的html檔案，然後用beautifulsoup提供的方法解析網頁資訊。

find_all('a',{"class":"question_link"}):找出網頁a標籤中class為question_link的標籤。

get_text():得到裡面的文字資訊。

本程式中先將所有的問題列印到控制檯，然後將所有的答案列印在控制檯。

原始碼如下所示：

#encoding:utf-8
#爬的知乎首頁
import urllib.request
from bs4 import BeautifulSoup
url="http://www.zhihu.com/topic/19570752/top-answers"
data=urllib.request.urlopen(url).read().decode('utf-8')
bs=BeautifulSoup(data)
questions=bs.find_all('a',{"class":"question_link"})
for question in questions:
    print(question.get_text())
answers=bs.find_all('div',{"class":"zh-summary summary clearfix"})
for answer in answers:
    print(answer.get_text())

python抓取知乎首頁文字資訊的簡單實現

利用requests提供的方法得到網頁中的html檔案，然後用beautifulsoup提供的方法解析網頁資訊。 find_all('a',{"class":"question_link"}):找出網頁a標籤中class為question_link的標籤。 get_text

用 python 抓取知乎指定回答下的視訊

前言現在知乎允許上傳視訊，奈何不能下載視訊，好氣哦，無奈之下研究一下了，然後擼了程式碼，方便下載視訊儲存。接下來以貓為什麼一點也不怕蛇？回答為例，分享一下整個下載過程。除錯一下開啟 F12, 找到游標，如下圖：然後將游標移動到視訊上。如下圖：咦這是什麼？視野中出現了一條神祕

Scrapy學習筆記（3）爬取知乎首頁問題及答案

目標：爬取知乎首頁前x個問題的詳情及問題指定範圍內的答案的摘要 power by: Python 3.6 Scrapy 1.4 json pymysql Step 1——相關簡介 Step 2——模擬登入知乎如果不登入

python爬取知乎專欄使用者評論資訊

工具：python3，pycharm，火狐瀏覽器模組：json，requests，time 登入知乎，進入專欄。進入後隨便選擇一個專欄，我們選擇一個粉絲比較多的。點選進去。其實，我們可以爬取這個專欄的所有文章，開啟開發者工具F12，點選重新整理找

Python練手爬蟲系列No.2 抓取知乎問題下所有回答中的圖片（待續）

接著上一篇Python練手爬蟲系列No.1 知乎福利收藏夾圖片批量下載，今天我們來按照知乎問題抓圖片！比起收藏夾，更加直接精準。為什麼先抓收藏夾後抓取問題呢，其實是因為知乎的一點限制。那就是！知乎問題下方的回答是通過動態載入的……普通的靜態網站抓取的辦法是沒

幾行代碼抓取百度首頁

python 百度python中源碼位置(以urllib為例): python中自帶的模塊: /usr/lib/python3.5/urllib/request.py(python3) /usr/lib/python2.7/urllib2.py(python2) py

scrapy——抓取知乎

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

用python爬取知乎中的圖片

首先，我們檢視一下知乎的robots協議。 User-agent: * Disallow: / 知乎是不允許爬取其根目錄的。但是，我們只是用於實驗，而且訪問頻率和正常訪問差距不大，所以可以爬取。先明確目的：對手動輸入的網址進行解析把爬取到的圖片儲存到指定目

python爬取知乎專欄文章標題及URL

# -*- coding:utf-8 -*- from selenium import webdriver import time # 執行程式要安裝selenium模組，並下載Chrome瀏覽器驅動

抓取知乎評論下小姐姐圖片（更新於1.28）

這次的程式碼主要來源於某天在py交流群倆看到有大佬在寫了個關於爬取知乎評論下的小姐姐美照的，原文如下：有了知乎還要什麼福利？python抓取長腿小姐姐。自己看了下也覺得挺不錯的，就參考著改動了一下，用pool程序池開了8個程序，一小會爬下來2000多個圖片，這2000多個圖

Python爬取知乎日報，推送到kindle

最近刷知乎上癮，剛好手頭有一臺kindle，搞一波事情。 1.分析頁面知乎日報的網頁端結果比較清晰，每篇的文章的連結都在 link-button 這個 a 標籤中。用requests + BeautifulSoup 庫可以比較輕鬆的解析。 i

仿知乎首頁學習CoordinateLayout

前言最近一段時間經常上知乎APP看各種神回覆，發現其內部的滑動動畫挺有意思，就研究了一下。並使用CoordinateLayout模仿了一下，效果如下。這裡用到圖片及IOCN均來自於網路搜尋。手機擷取gif貌似永遠都是這樣模糊不

知乎首頁實戰之下載知乎App模組

下載知乎App模組這個模組只有一個按鈕，寬度與上方主模組 rectangle 相同，邊角如上一篇提到的方法，用 CSS3 border-radius 屬性向 div 元素新增圓角邊框

python爬取知乎話題的精華問題下的使用者資訊

今天試著用自己的爬蟲程式碼爬取了知乎【同性戀】話題下的所有精華問題的使用者位置資訊程式碼： __author__ = 'yang' # -*- coding: utf-8 -*- import configparser import requests

Python爬取知乎“神回覆”，笑得根本停不下來（附程式碼）

def get_answers_by_page(topic_id, page_no): offset = page_no * 10 url = <topic_url> # topic_url是這個話題對應的url headers = { "User-Agent":

python爬取知乎回答

1. 安裝庫 htmlparser用來解析html。 Beautiful Soup 是一個可以從 HTML 或 XML 檔案中提取資料的 Python 庫。 pip install beautifulsoup4 Selenium 是瀏覽器自動化測

爬蟲爬取知乎登陸後首頁

package zhihu; import java.io.IOException; import java.util.HashMap; import java.util.Map; import org.jsoup.Connection; import org.

Python爬蟲（入門+進階）學習筆記 1-6 瀏覽器抓包及headers設定（案例一：爬取知乎）

爬蟲的一般思路：抓取網頁、分析請求解析網頁、尋找資料儲存資料、多頁處理本節課主要講授如何通過谷歌瀏覽器開發者工具分析真實請求的方法。尋找真實請求的三個步驟分析：使用谷歌瀏覽器開發者工具分析網頁的請求測試：測試URL請求中每個引數的作用，找出控制翻頁等功能的引數重複：多次重複

爬取知乎Python中文社區信息

urlencode RR amp AD pos LV off In encoding 爬取知乎Python中文社區信息，https://zhuanlan.zhihu.com/zimei 1 import requests 2 from urllib.parse

python抓取新浪新聞的分頁連結

第一步：先找到新聞資訊存在的那個非同步存取的連結，該連結一般位在js那個分類下。然後把這個連結給requests 讓它存取內部的資料。取到之後你會發現，這個內容前後兩邊有保護層，即一個“(”和 “);”,這個時候可以用lstrip和rstrip去截掉這些多餘的字串。最後返回的就是

python抓取知乎首頁文字資訊的簡單實現

相關推薦