網路爬蟲-問答對練習

阿新 • • 發佈：2019-02-12

弄了一陣網路爬蟲，使用requests，re，BeautifulSoup，這些包。暫放一段時間，怕忘了，就記下來吧。

按照mu zhi醫生的網站佈局，只要有一個醫生的ID就可以把屬於這位醫生的問答對全部爬下來。所以，思路是先把所有醫生的ID拿下來儲存到一個檔案，以後按照這個進行爬取。問答網頁使用動態js，需要注意下吧。這是程式碼。

import requests
import re
import time
from bs4 import BeautifulSoup

doc_num = []
"""
Save_docs = open('SaveDoc.txt','w')
for i in range(222):
    url = 'http://muzhi.baidu.com/doctor/list/doctoronline?pn={}&rn=5&cid1=127'.format(i)
    request = requests.get(url).json()
    for item in request['data']['list']:
        Save_docs.write(item['uid']+'\n')
        doc_num.append(item['uid'])
        print('Get doc:',item['realname'],'  Company:',item['company'],'   uid:',item['uid'])
Save_docs.close()
""" 

#第一次執行這段程式碼會爬下所有醫生的ID
Save_docs = open('SaveDoc.txt','r')
doc_num=[line.rstrip() for line in Save_docs]
Save_docs.close()

docs_file = open('docsSeen.txt','w')
ques_file = open('quesSeen.txt','w',encoding='utf-8')
for docNum in doc_num:
    seed_doc_url = 'http://muzhi.baidu.com/home/{}'.format(docNum)
    print('Downloading from doc:' 
,docNum)
    docs_file.write(docNum+'\n')
    #把已經爬取得醫生的ID放到檔案記錄
    request = requests.get(seed_doc_url)
    #訪問醫生頁面
    #request.encoding='GB2312'
    #可能是編碼問題，這句用來解決中文亂碼問題
    html = request.text
    soup = BeautifulSoup(html,'html.parser')
    #使用BeautifulSoup物件對網頁HTML進行分析
    target = soup.find_all('script' 
,type="text/javascript")[2].text
    uid_regex = "'id':'(\d*)'"
    cid_regex ="'cid1':'(\d*)'"
    #這裡利用了正則表示式，使用了Python re庫的函式，非常方便。
    uid = re.search(uid_regex,target).groups()[0]
    cid = re.search(cid_regex,target).groups()[0]
    for i in range(76):
        questions_page = 'http://muzhi.baidu.com/doctor/list/answer?pn={0}&rn=10&uid={1}'.format(i*10,uid)
        time.sleep(3)
        #避免網站封鎖IP
        request = requests.get(questions_page).json()['data']['list']
        #處理辦法，利用Shell，試驗出來的。
        for item in request:
            que_url = 'http://muzhi.baidu.com/question/{}'.format(item['qid'])
            print('Downloading from:',que_url,'   uid:',uid,'    page',i+1)
            QandA = []
            time.sleep(1)
            request = requests.get(que_url)
            request.encoding='GB2312'
            html = request.text
            soup = BeautifulSoup(html,'html.parser')
            try:
                question = soup.find_all('div','ask-txt')[0].contents[1].contents[2].strip()
                QandA.append(question)
            except IndexError:
                pass
            try:
                answer = soup.find_all('div','pgc-rich line q-content')[0].contents[1].contents[2].strip()
                QandA.append(answer)
            except IndexError:
                pass
            while QandA == []:
            #這個問題有待解決，當爬了幾次後，百度便提示驗證碼，阻礙爬蟲。
            #這個迴圈體會每5秒重試一次，直到解決驗證碼。（顯然這是個嚴重問題）
                print('Under control!  Waiting...Waiting....')
                time.sleep(5)
                request = requests.get(que_url)
                request.encoding='GB2312'
                html = request.text
                soup = BeautifulSoup(html,'html.parser')
                try:
                    question = soup.find_all('div','ask-txt')[0].contents[1].contents[2].strip()
                    QandA.append(question)
                except IndexError:
                    pass
                try:
                    answer = soup.find_all('div','pgc-rich line q-content')[0].contents[1].contents[2].strip()
                    QandA.append(answer)
                except IndexError:
                    pass

            print(QandA)
            strQandA = '|'.join(QandA)
            ques_file.write(strQandA+'\n')

網路爬蟲-問答對練習

弄了一陣網路爬蟲，使用requests，re，BeautifulSoup，這些包。暫放一段時間，怕忘了，就記下來吧。按照mu zhi醫生的網站佈局，只要有一個醫生的ID就可以把屬於這位醫生的問答對全部爬下來。所以，思路是先把所有醫生的ID拿下來儲存到一

利用Python網路爬蟲實現對網易雲音樂歌詞爬取

今天小編給大家分享網易雲音樂歌詞爬取方法。本文的總體思路如下：找到正確的URL，獲取原始碼；利用bs4解析原始碼，獲取歌曲名和歌曲ID；呼叫網易雲歌曲API，獲取歌詞；將歌詞寫入檔案，並存入本地。本文的目的是獲取網易雲音樂的歌詞，並將歌詞存入到本地檔案。整

網路爬蟲系列之二：對下載頁面進行連結解析

在我的上一篇部落格中，通過URL就已經成功下載了第一個頁面。然後我第二步的工作就是要通過這個已經下載好的頁面得到更多的URL。在這篇部落格中主要完成了對頁面中的連結進行解析，並將它們拼成可以訪問的樣子。更多細緻的工作需要在後面進行完善。

網路爬蟲對對方伺服器造成的壓力到底有多大(彙總整理)

一些大型的網站都會有robot.txt，這算是與爬蟲者的一個協議。只要在robot.txt允許的範圍內爬蟲就不存在道德和法律風險，只不過實際上的爬蟲者一般都不看這個。控制採集速度。過快的採集會對網站伺服器造成不小的壓力，如果是效能差的小站可能就會被這麼搞垮了。因此放慢採

Python網路爬蟲練習

1. 豆瓣top250電影 1.1 檢視網頁目標網址：https://movie.douban.com/top250?start=0&filter= start=後面的數字從0，25，50一直到225，共10頁，每頁25條資訊頁面截圖：由此主頁面獲取各個電影的連結，然後分別跳轉至對應對應的連結

學習爬蟲前對網頁進行認識

關系一次 cal -c 原始的 CA 標簽高亮爬蟲前言　　首先我們提到爬蟲，我們不得不說網頁，因為我們使用python編寫的爬蟲實際上是針對於網頁進行設計的，解析網頁以及抓取這些數據是爬蟲需要做的事情，日常中我們看到這些網頁，可以看到很多圖片，很多的標題以及很多的

Python爬蟲(二)——對開封市58同城出租房數據進行分析

boxplot bsp des das png fig 分析 set 技術出租房面積(area) 　　　　　　　　　出租房價格(price) 　　　　　　

網路爬蟲筆記（Day6）——妹子圖

利用多程序爬取妹子圖：http://www.mzitu.com 完整程式碼如下：程序，參看博文程序和執行緒——Python中的實現 import requests from lxml import etree import os import mul

網路爬蟲筆記（Day5）——騰訊社招&拉勾網

分析過程與鏈家是一樣的。騰訊社招完整程式碼如下： import requests from lxml import etree from mysql_class import Mysql # 自己封裝好的Mysql類 def txshezhao(keywords, page):

網路爬蟲筆記（Day5）——鏈家

注意：請不要爬取過多資訊，僅供學習。分析：業務需求分析......（此例為住房資訊...）查詢相關網頁資訊（以鏈家為例）分析URL，查詢我們需要的內容，建立連線定位資料儲存資料首先進入鏈家網首頁，點選租房，F12檢查網頁，查詢我們需要的資訊

網路爬蟲筆記（Day4）

爬取今日頭條圖集進入今日頭條首頁：https://www.toutiao.com/ 步驟：1、檢視網頁，查詢我們需要的URL，分析URL

網路爬蟲筆記（Day3）

首先分析雪球網 https://xueqiu.com/#/property 第一次進去後，第一次Ajax請求得到的是若下圖所示的 max_id=-1, count=10。然後往下拉，第二次Ajax請求，如下圖；發現URL裡面就max_id 和count不同，

網路爬蟲筆記（Day8）——IP代理

可以去某寶或其他渠道購買，具體使用看自己購買商家的API文件，檢視使用方法。 ip_proxy.py import requests class ip_getter(object): def __init__(self): self.ip_proxy_str =

網路爬蟲筆記（Day8）——BeautifulSoup

BeautifulSoup 我們到網站上爬取資料，需要知道什麼樣的資料是我們想要爬取的，什麼樣的資料是網頁上不會變化的。 Beautiful Soup提供一些簡單的、python式的函式用來處理導航、搜尋、修改分析樹等功能。它是一個工具箱，通過解析文件為使用者提供需要抓取的資料，因為

網路爬蟲筆記（Day7）——Selenium

首先下載chromedriver 將其放入Python執行環境下，然後再去pip安裝selenium。最簡單的結構程式碼如下： from selenium import webdriver # ----------------------不開啟瀏覽器視窗-------------

網路爬蟲原理（概要了解）

一、網路爬蟲原理 1.1 等同於瀏覽器訪問網頁的原理（1）真人行為驅動（2）瀏覽器自動執行人為的動作，即將動作自動程式化。 1.2 網路爬蟲就是將瀏覽器訪問網頁的過程，再次抽像成程式。二、網路爬蟲分類 2.1 按連結的訪問層次的先後來分寬度優先和深度優先。寬度優先

Python網路資料爬取----網路爬蟲基礎（一）

The website is the API......(未來的資料都是通過網路來提供的，website本身對爬蟲來講就是自動獲取資料的API)。掌握定向網路資料爬取和網頁解析的基本能力。 ##Requests 庫的使用，此庫是Python公認的優秀的第三方網路爬蟲庫。能夠自動的爬取HTML頁面；自動的

神經網路的輸入對迭代次數的影響

如果一個神經網路只有一個輸入值，當這個輸入值大小發生變化的時候對網路的收斂的迭代次數是否有影響。比如如上的網路輸入的x值從1e-16到45 權重的初始化方式是 Random rand1 =new Random(); int ti1=rand1.nextInt(98)+1;

編寫第一個網路爬蟲

3 種爬取網站的常見方法：下載網頁首先需要把網頁下載下來，使用Python 的urllib 2 模組下載URL。不過這樣子的無法處理一些異常情況，如網頁不存在，可以加入異常處理機制。有時候伺服器過載返回503 Service Unavailable

《用Python寫網路爬蟲》第一章踩坑

教程使用環境為pyhon2.x，使用python3.x進行學習時遇到一些坑，記錄下解決辦法。由於python2.x中的urllib2模組在3.x中被整合到了urllib模組中，教程中涉及urllib2的部分的程式碼需調整 p.p1 { margin: 0.0px 0.0px 0.0px 0.0px; f

網路爬蟲-問答對練習

弄了一陣網路爬蟲，使用requests，re，BeautifulSoup，這些包。暫放一段時間，怕忘了，就記下來吧。

相關推薦