怎麼在知乎上爬取那些有趣並且有營養的問題?

阿新 • • 發佈：2018-12-18

我是個知乎粉，簡直超級迷這款APP,在上面花費了好多時間，可以看好多有趣的問題，也能從中學習到好多有用的東西。

但有時候還是不過癮，所以突發奇想，我想把我喜歡的問題的答案爬下來。

下面我把我的探索過程分享給大家,侵權即刪！:

1.首先我是登陸的PC 端，仔細分析了頁面，然後我發現了個 url很像返回的資料介面，我選取得是這個

url='https://www.zhihu.com/api/v4/questions/295553454/answers'

引數是:

'include':'data[*].is_normal,admin_closed_comment,reward_info,is_collapsed,annotation_action,annotation_detail,collapse_reason,is_sticky,collapsed_by,suggest_edit,comment_count,can_comment,content,editable_content,voteup_count,reshipment_settings,comment_permission,created_time,updated_time,review_info,relevant_info,question,excerpt,relationship.is_authorized,is_author,voting,is_thanked,is_nothelp;data[*].mark_infos[*].url;data[*].author.follower_count,badge[*].topics',

'limit':5,

'offset':5,

'sort_by':'default'

請求方式是 get

我用了 python3 的 requests 庫來幫助我作這件事，然後再把它轉換成字典型別

注意因為知乎返回的東西里面有的不是 gbk 格式的，直接用open 函式會報錯UnicodeEncodeError

我用的是另一個 codec.open函式，

另外每次請求我都會讓執行緒睡了3秒

下面這個是原始碼的地址，我把它放在碼雲下面了

怎麼在知乎上爬取那些有趣並且有營養的問題?

我是個知乎粉，簡直超級迷這款APP,在上面花費了好多時間，可以看好多有趣的問題，也能從中學習到好多有用的東西。但有時候還是不過癮，所以突發奇想，我想把我喜歡的問題的答案爬下來。下面我把我的探索過程分享給大家,侵權即刪！: 1.首先我是登陸的PC 端，仔細分析了頁面，

python爬蟲——爬取知乎上自己關注的問題

與之前爬的網站圖片的不同的是，現在爬取的是要自己個人的關注的東西，所以需要做到模擬登入。模擬登入的原理是登入網站後，在瀏覽器上獲取儲存的cookies資訊，填充之後與請求一起傳送。如果前面的爬取圖片的會爬取了，對於這個解析字串的也沒有多大問題了。一直看著知乎上很多程式設計師把

用Python3爬取知乎上好看的桌布

一、開發環境Windows10 + PyCharm Community 2018.1.4二、開整先交代下，本人平時比較喜歡看知乎，因為知乎上乾貨多，這不最近迷上了給手機換桌布，恰巧知乎上這個問題下https://www.zhihu.com/question/64252714/

Python爬去知乎上問題下所有圖片

sts dal b- log email token db4 trie fin from zhihu_oauth import ZhihuClient from zhihu_oauth.exception import NeedCaptchaException cli

scrapy框架項目：抓取全部知乎用戶信息，並且保存至mongodb

-- resp 用戶信息 ces filter name object api .com import scrapyimport json,time,refrom zhihuinfo.items import ZhihuinfoItemclass ZhihuSpider(s

知乎上關於機器人的熱門有趣的問答分享與機器人探索之路的點點滴滴

知乎上關於機器人的熱門有趣的問答------------下文轉載(Top的知乎專欄)世界很大，一起改變！-----致一起戰鬥過的ROS開發者的一封信各位星火機友：大家好！我是ROS星火計劃發起人，楊帆。想跟大家聊聊星火的來龍去脈，為什麼要辦星火？接下來怎麼燎原？小夥伴們怎麼科

知乎上對理解阻塞非阻塞與同步非同步的有趣解釋

今天逛知乎的時候看到了一篇關於阻塞非阻塞和同步非同步的一個有趣解釋，把它copy了下來，為以後迷糊的時候看看。老張愛喝茶，廢話不說，煮開水。出場人物：老張，水壺兩把（普通水壺，簡稱水壺；會響的水壺，簡稱響水壺）。 1 老張把水壺放到火上，立等水開。（同步阻塞）

知乎上的關於作用域的捆綁問題

spa on() bsp code pan span turn pre func var add; var f1 = function() { var a = 1; add = function() { a++; } f

Kubernetes 在知乎上的應用

依賴 load pic 接口被占用做的定時詳細信息相對從 Mesos 到 Kubernetes 之前的調度框架是基於 Mesos 自研的。采用的語言是 Python。運行了大概兩年多的時間了，也一直比較穩定。但隨著業務的增長，現有的框架的問題逐漸暴露。調度速

知乎上的一個對自制力的回答（轉）

做什麽大眾你知道掌握驅動學生而不是自己 quest 原文鏈接：https://www.zhihu.com/question/38554523 作者：鳳紅邪鏈接：https://www.zhihu.com/question/38554523/answer/7

python爬蟲爬取QQ說說並且生成詞雲圖，回憶滿滿！

運維開發網絡分析 matplot 容易 jieba 編程語言提示框然而 Python（發音：英[?pa?θ?n]，美[?pa?θɑ:n]），是一種面向對象、直譯式電腦編程語言，也是一種功能強大的通用型語言，已經具有近二十年的發展歷史，成熟且穩定。它包含了一組完善而且

知乎上一些有用的回答

amp source .com http 有用 soc tps 激勵 mem 1、當自己頹廢的時候怎麽激勵自己？知乎上一些有用的回答

python知乎內容抓取（redis存儲）

sorted mat param 爬取 Nid odi 請求 quest 一個　　因為平時喜歡上知乎，發現其話題是一個有向無環圖（自己介紹說得），一級一級往上最後到根話題，所以我就想嘗試從根話題一級一級往下將其全部內容爬取。最後實踐過程中發現自己想多了..有以下三個問題：

知乎內容抓取二（內含百度知道、百度熱點和代理ip抓取）

sts 精華可用其他添加 get word 登錄 rar 代碼路徑：https://github.com/prophetss/zhihu-crawl 　　接上一篇，知乎的抓取主要是獲取所有話題id進而可以得到所有話題url地址然後就可以抓取具體內容了。之前通過根話

知乎上看到的一個回答

1.停止那些明知對身體有害的行為，例如熬夜，喝快樂水等。三餐要吃，去掉珍珠奶茶，垃圾食品。 11點半就睡下，讓書籍和思考為你的生活服務。你也不用因為打了幾局遊戲而覺得自己頹廢，只是遊戲再好也不要貪杯。這樣在生活上，你就已經成為了更好的人。 2.每天都汲取新的知識。你不需要

知乎上的IT人員狀態

很多人不懂自己究竟在做什麼；不是很懂那些人究竟在做什麼；為什麼女生都不喜歡我；為什麼自己有一種讓別人不想接近的氣場；我感覺我情商好高，甚至能猜到他們在想什麼，但是我不會去拆穿；我剛才是不是犯二了，對的，一定是，好懊悔（然而啥事沒有）；特別注重細節

知乎上一位朋友總結的特別好的spark的文章，很不錯以轉載！

private def addPendingTask(index: Int, readding: Boolean = false) { // Utility method that adds `index` to a list only if readding=false or it's not alr

深入淺出回撥函式（知乎上看到最好的回答）

回撥方法介紹之中國好室友篇（Java示例）前言在Java社群的各種開源工具中，回撥方法的使用俯拾即是。所以熟悉回撥方法無疑能加速自己對開源輪子的掌握。網上搜了一些文章，奈何對回撥方法的介紹大多隻停留在什麼是回撥方法的程度上。本篇文章嘗試從回撥方法怎麼來的、為什麼要使用回撥方法以及在實際專案中如何使用等方面來介

為什麼知乎上大多數人不推薦C語言入門?

計劃中，其實今天是要發五子棋專案附帶原始碼的推文。但是看了知乎… 知乎並非程式設計師社群，很多這方面話題的參與者僅僅是工作涉及程式設計，並沒有多少是程式設計師。所以主流輿論對C充滿了恐懼和……厭惡。對他們來說，C簡直是必須立刻馬上當即淘汰掉的、恐怖的老不死。以至於大言不慚的“C只能做底層

Kubernetes 在知乎上的應用_Kubernetes中文社群

知乎在 2014 年開始使用容器技術，至今為止幾乎所有的業務都執行在容器平臺上。知乎最初使用 Mesos 來管理容器叢集，現在正處於向 Kubernetes 遷移的過程中。本次分享主要介紹知乎應用 Kubernetes 管理容器叢集的一些經驗。從 Mesos 到 Kubernetes 之前的

怎麼在知乎上爬取那些有趣並且有營養的問題?

相關推薦