百度網頁貼吧批量爬取

阿新 • • 發佈：2019-02-08

from urllib import parse
import urllib.request
import threading
#使用多執行緒爬取

def loadPage(url,filename):
    '''
        作用：根據url傳送請求，獲取伺服器響應檔案
        url:需要爬取的url地址
        filename:檔名
    '''
    print('正在下載',filename)

    ua_headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
    }
    #構建請求物件
    request = urllib.request.Request(url,headers=ua_headers)
    respond = urllib.request.urlopen(request) #返回類檔案物件
    print(respond.getcode())
    html = respond.read()

    print('正在儲存', filename)
    with open(filename, 'w') as f:
        f.write(html)

def writePage(html,filename):
    '''
        作用：將html頁面寫入本地磁碟中
        html：所爬取的網頁
        filename:儲存的檔名
    '''
    print('正在儲存',filename)
    with open(filename,'w') as f:
        f.write(html)


def webSpider(url,begin_page,end_page):
    '''
        作用: 負責處理url，分配每個url去傳送請求
        url:需要去處理的第一個url
        begin_page:起始頁
        end_page:終止頁
    '''
    for page in range(begin_page,end_page+1):
        pn = (page-1)*50

        filename = '第' + str(page) + '頁.html'

        full_url = url+'&pn='+str(pn) #組合完整的url
        #print(full_url)
        t = threading.Thread(target=loadPage,args=(full_url,filename))
        t.start()

if __name__ == '__main__':
    while True:
        kw =  input('請輸入你要爬取的貼吧關鍵字:').strip()
        beginPage = input('起始頁：').strip()
        endPage = input('終止頁：').strip()

        if (kw and beginPage and endPage):
            word = parse.urlencode({'kw':kw}) #轉換為url編碼
            url = 'http://tieba.baidu.com/f?'
            new_url = url+word #組合後的url，示例;http://tieba.baidu.com/f?kw=lol

            webSpider(new_url,int(beginPage),int(endPage))
            break

from urllib import parse
import urllib.request
from multiprocessing import Pool
#使用程序池爬取

def loadPage(url,filename):
    '''
        作用：根據url傳送請求，獲取伺服器響應檔案
        url:需要爬取的url地址
        filename:檔名
    '''
    print('正在下載',filename)

    ua_headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
    }
    #構建請求物件
    request = urllib.request.Request(url,headers=ua_headers)
    respond = urllib.request.urlopen(request) #返回類檔案物件
    print(respond.getcode())
    html = respond.read()

    '''儲存檔案到本地磁碟中'''
    print('正在儲存', filename)
    with open(filename, 'wb') as f:
        f.write(html)

def webSpider(url,begin_page,end_page):
    '''
        作用: 負責處理url，分配每個url去傳送請求
        url:需要去處理的第一個url
        begin_page:起始頁
        end_page:終止頁
    '''
    pool = Pool(4)
    for page in range(begin_page,end_page+1):
        pn = (page-1)*50

        filename = '第' + str(page) + '頁.html'

        full_url = url+'&pn='+str(pn) #組合完整的url
        #print(full_url)
        pool.apply_async(func=loadPage,args=(full_url,filename))
    pool.close()
    pool.join()
    print('下載全部完成')
if __name__ == '__main__':
    while True:
        kw =  input('請輸入你要爬取的貼吧關鍵字:').strip()
        beginPage = input('起始頁：').strip()
        endPage = input('終止頁：').strip()

        if (kw and beginPage and endPage):
            word = parse.urlencode({'kw':kw}) #轉換為url編碼
            url = 'http://tieba.baidu.com/f?'
            new_url = url+word #組合後的url，示例;http://tieba.baidu.com/f?kw=lol

            webSpider(new_url,int(beginPage),int(endPage))
            break

from urllib import parse
import urllib.request
import gevent
from gevent import monkey
monkey.patch_all()

def loadPage(url,filename):
    '''
        作用：根據url傳送請求，獲取伺服器響應檔案
        url:需要爬取的url地址
        filename:檔名
    '''
    print('正在下載',filename)

    ua_headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
    }
    #構建請求物件
    request = urllib.request.Request(url,headers=ua_headers)
    respond = urllib.request.urlopen(request) #返回類檔案物件
    print(respond.getcode())
    html = respond.read()

    '''儲存檔案到本地磁碟中'''
    print('正在儲存', filename)
    with open(filename, 'wb') as f:
        f.write(html)

def webSpider(url,begin_page,end_page):
    '''
        作用: 負責處理url，分配每個url去傳送請求
        url:需要去處理的第一個url
        begin_page:起始頁
        end_page:終止頁
    '''
    jobs = []
    for page in range(begin_page,end_page+1):
        pn = (page-1)*50

        filename = '第' + str(page) + '頁.html'

        full_url = url+'&pn='+str(pn) #組合完整的url
        #print(full_url)
        g = gevent.spawn(loadPage,full_url,filename)
        jobs.append(g)
    gevent.joinall(jobs)

if __name__ == '__main__':
    while True:
        kw =  input('請輸入你要爬取的貼吧關鍵字:').strip()
        beginPage = input('起始頁：').strip()
        endPage = input('終止頁：').strip()

        if (kw and beginPage and endPage):
            word = parse.urlencode({'kw':kw}) #轉換為url編碼
            url = 'http://tieba.baidu.com/f?'
            new_url = url+word #組合後的url，示例;http://tieba.baidu.com/f?kw=lol

            webSpider(new_url,int(beginPage),int(endPage))
            break

百度網頁貼吧批量爬取

from urllib import parse import urllib.request import threading #使用多執行緒爬取 def loadPage(url,filename): ''' 作用：根據url傳送請求，獲取伺服器響應檔案 url:需

百度貼吧圖片爬取

直接上程式碼： # -*- coding:utf-8 -*- from lxml import etree import requests class TiebaSpider(object): def __init__(self, tieba_name, begin_page, e

python-貼吧圖片爬取的一個小指令碼

學了點python，寫了個爬取貼吧圖片的小指令碼，記錄一下，其中遇到了一個坑，就是下載下來的html，百度不知道怎麼做了特殊處理，加上了註釋，結果一開始怎麼都提取不到圖片地址，最後仔細比較才發現，然後批量把註釋取消了才成功獲得url。真坑！程式碼如下：#!/usr/bin/e

百度地圖POI數據爬取，突破百度地圖API爬取數目“400條“的限制11。

XML response city 代碼實現 append api json highlight inf 1.POI爬取方法說明 1.1AK申請　　登錄百度賬號，在百度地圖開發者平臺的API控制臺申請一個服務端的ak,主要用到的是Place API.檢校方式可設置成I

python3爬取指定百度貼吧頁面並儲存成本地文件（批量爬取貼吧頁面資料）

首先我們建立一個python檔案, tieba.py，我們要完成的是，輸入指定百度貼吧名字與指定頁面範圍之後爬取頁面html程式碼，我們首先觀察貼吧url的規律，比如：發現規律了吧，貼吧中每個頁面不同之處，就是url最後的pn的值，其餘的都是一樣的，我們

python3 requets+re 批量爬取千千(原百度)音樂

以前實驗室同學需要文章和音樂，需要用爬蟲爬.....要做東西參加比賽，表示好久都沒寫爬蟲了....正如今天的正題，批量爬取千千音樂（原百度音樂）...博主會寫下爬取的過程和心得（採坑記錄），批量下載的音樂的有效程式碼雖然才50多行，但是採坑會花費大量時間和精力... 老規矩

爬蟲任務二：爬取(用到htmlunit和jsoup)通過百度搜索引擎關鍵字搜取到的新聞標題和url，並保存在本地文件中（主體借鑒了網上的資料）

標題 code rgs aps snap one reader url 預處理采用maven工程，免著到處找依賴jar包 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:

Python(15)_爬區百度網頁並儲存

import urllib.request url ='http://www.baidu.com' response = urllib.request.urlopen(url=url) #print(response) # 列印物件 #print(type(response)) '''獲取返回的內容

python獲取網頁page數，同時按照href批量爬取網頁（requests+BeautifulSoup）

本篇部落格是上篇部落格（http://blog.csdn.net/trisyp/article/details/78732630）的傳參版，即通過html元素獲取頁面的所有href，然後逐個爬取完整程式碼如下： import requests from bs4 impo

使用 Chrome 瀏覽器插件 Web Scraper 10分鐘輕松實現網頁數據的爬取

tle 中文 host avi true bre 註冊分屏 idt 本文標簽： WebScraper Chrome瀏覽器插件網頁數據的爬取使用 Chrome 瀏覽器插件 Web Scraper 可以輕松實現網頁數據的爬取，不寫代碼，鼠標操作，點哪爬哪，還不用考慮爬蟲中

百度網頁分享js代碼

fonts art bds tee content ext lis 好友人人 1、小圖標 <div class="bdsharebuttonbox"> <a href="#" class="bds_qzone" data-cmd="qzone">

網絡爬蟲——針對任意主題批量爬取PDF

open 代碼針對得到搜索結果 pre ner tps -c |本文為博主原創，轉載請說明出處任務需求：要求通過Google針對任意關鍵字爬取大量PDF文檔，如K-means，KNN，SVM等。環境：Anaconda3——Windows7-64位——Python3

百度地圖熱力圖--批量地址轉換應用（基於百度api）

ldp item keyvalue 使用創建地圖 ebr efault amp ont 需求：把外賣訂餐地址做個用戶分布熱力圖思路分析：第一步去百度地圖api開放平臺找例子 http://lbsyun.baidu.com/jsdemo.htm#c1_15 首

知乎內容抓取二（內含百度知道、百度熱點和代理ip抓取）

sts 精華可用其他添加 get word 登錄 rar 代碼路徑：https://github.com/prophetss/zhihu-crawl 　　接上一篇，知乎的抓取主要是獲取所有話題id進而可以得到所有話題url地址然後就可以抓取具體內容了。之前通過根話

批量爬取某圖片網站的圖片

批量爬取某圖片網站的圖片宣告：僅用於爬蟲學習，禁止用於商業用途謀取利益 1、網頁解析（1）開啟veer首頁，F12(谷歌瀏覽器)，輸入關鍵字，點選搜尋，點選檢視如圖畫圈位置（2）檢視search中的Headers，找到請求的URL和請求的paylo

利用Python批量爬取XKCD動漫圖片，並批量儲存

import requests, os, bs4 url = 'https://xkcd.com' os.makedirs('xkcd',exist_ok = True) while not url.endswith('#'): # download the page

【轉】寫一個簡單的爬蟲來批量爬取新浪網的新聞

工具：Anaconda 先進入該頁，新浪新聞：http://news.sina.com.cn/china/ 往下翻，找到這樣的最新訊息先爬取單個頁面的資訊：（隨便點一個進去），該新聞網址：http://news.sina.com.cn/c/nd/2018-06-08/doc-ihcscwxa1

使用python-requests+Fiddler4+appium爬蟲,批量爬取抖音小視訊

抖音很火，大家都知道，樓主決定使用python爬取抖音小視訊，人家都說天下沒有爬不到的資料，so，樓主決定試試水，純屬技術愛好，分享給大家。。 1.樓主首先使用Fiddler4來抓取手機抖音app這個包，具體配置的操作，網上有很多教程供大家參考。上面得出抖音的視訊的url，這些url均能在網頁中

Node 批量爬取頭條視訊並儲存

目標網站：西瓜視訊專案功能：下載頭條號【維辰財經】下的最新20個視訊專案地址：Github 地址姊妹專案：批量下載美女圖集簡介一般批量爬取視訊或者圖片的套路是，使用爬蟲獲得檔案連結集合，然後通過 writeFile 等方法逐個儲存檔案。然而，頭條的視

python+selenium批量爬取IEEExplore論文

原文出處：https://blog.csdn.net/qq_25072387/article/details/78588173 一、環境搭建首先下載安裝selenium包，推薦直接使用pip 之後還要下載對應瀏覽器的驅動（driver)，這裡使用的是chrome瀏覽器

百度網頁貼吧批量爬取

相關推薦