百度貼吧爬蟲

阿新 • • 發佈：2022-04-09

簡單版

package main

import (
	"fmt"
	"io"
	"net/http"
	"os"
	"strconv"
)


func HttpGet(url string) (result string, err error) {
	resp, err1 := http.Get(url)
	if err1 != nil {
		err = err1 //將封裝函式內部的錯誤,傳出給呼叫者。
		return
	}
	defer resp.Body.Close()
	//迴圈讀取網頁資料,傳出給呼叫者
	buf := make([]byte, 4096)
	for {
		n, err2 := resp.Body.Read(buf)
		if n == 0 {
			fmt.Println("讀取網頁完成")
			break
		}
		if err2 != nil && err2 != io.EOF {
			err = err2
			return
		}
		// 累加每一次迴圈讀到的buf資料,存入result 一次性返回.
		result += string(buf[:n])
	}
	return
}

//爬取頁面操作。
func working(start, end int) {
	fmt.Printf("正在爬取第%d頁到%d頁.... \n", start, end)
	//迴圈爬取每一頁資料
	for i := start; i <= end; i++ {
		url := "https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=" + strconv.Itoa((i-1)*50)
		result, err := HttpGet(url)
		if err != nil {
			fmt.Println("HttpGet err:", err)
			continue
		}
		// fmt.Println("result=",result) //將讀到的整網頁資料,儲存成一個檔案
		f, err := os.Create("第" + strconv.Itoa(i) + "頁" + ".html")
		if err != nil {
			fmt.Println("Create err:", err)
			continue
		}
		f.WriteString(result)
		f.Close() // 儲存好一個檔案,關閉一個檔案
		//defer f.Close()
	}

}
func main() {
	//指定爬取起始、終止頁
	var start, end int
	fmt.Print("請輸入爬取的起始頁(i>=1): ")
	fmt.Scan(&start)
	fmt.Print("請輸入爬取的終止頁(>=start): ")
	fmt.Scan(&end)
	working(start, end)
}

升級版併發爬蟲

package main

import (
	"fmt"
	"io"
	"net/http"
	"os"
	"strconv"
)

func HttpGet(url string) (result string, err error) {
	resp, err1 := http.Get(url)
	if err1 != nil {
		err = err1 //將封裝函式內部的錯誤,傳出給呼叫者。
		return
	}
	defer resp.Body.Close()
	//迴圈讀取網頁資料,傳出給呼叫者
	buf := make([]byte, 4096)
	for {
		n, err2 := resp.Body.Read(buf)
		if n == 0 {
			fmt.Println("讀取網頁完成")
			break
		}
		if err2 != nil && err2 != io.EOF {
			err = err2
			return
		}
		// 累加每一次迴圈讀到的buf資料,存入result 一次性返回.
		result += string(buf[:n])
	}
	return
}



func SpiderPage(i int, page chan int){
	url := "https://tieba.baidu.com/f?kw=%E7%BB%9D%E5%9C%B0%E6%B1%82%E7%94%9F&ie=utf-8&pn=" + strconv.Itoa((i-1)*50)
	result, err := HttpGet(url)
	if err != nil {
		fmt.Println("HttpGet err:", err)
		return
	}
	// fmt.Println("result=",result) //將讀到的整網頁資料,儲存成一個檔案
	f, err := os.Create("第" + strconv.Itoa(i) + "頁" + ".html")
	if err != nil {
		fmt.Println("Create err:", err)
		return
	}
	f.WriteString(result)
	f.Close() // 儲存好一個檔案,關閉一個檔案
    page <- i     // 與主go程完成同步
}


//爬取頁面操作。
func working2(start, end int) {
	fmt.Printf("正在爬取第%d頁到%d頁.... \n", start, end)

	page := make(chan int)

	//迴圈爬取每一頁資料
	for i := start; i <= end; i++ {
		go SpiderPage(i,page)
	}
	for i := start; i <= end; i++ {
		fmt.Printf("第%d個頁面爬取完成\n",<-page)
	}

}
func main() {
	//指定爬取起始、終止頁
	var start, end int
	fmt.Print("請輸入爬取的起始頁(i>=1): ")
	fmt.Scan(&start)
	fmt.Print("請輸入爬取的終止頁(>=start): ")
	fmt.Scan(&end)
	working2(start, end)
}

案例3 百度貼吧爬蟲

import requests class TiebaSpider: \"\"\"貼吧爬蟲\"\"\" def __init__(self, keywords): # 貼吧名稱 self.kw = keywords

百度貼吧爬蟲

簡單版 package main import ( \"fmt\" \"io\" \"net/http\" \"os\" \"strconv\" ) func HttpGet(url string) (result string, err error) {

【Python】百度貼吧爬蟲

# -*- coding: utf-8 -*- \"\"\" 爬取百度貼吧中指定帖子中的所有圖片——————requests-bs4-re路線

python網路爬蟲案例：批量爬取百度貼吧頁面資料

⾸先我們建立⼀個 python⽂件, tiebaSpider.py，我們要完成的是，輸⼊⼀個百度貼吧的地址，⽐如：

百度貼吧的一段語法糖程式碼分析

function r(){var i=\"\\u5176\\u4ed6\";return\"1\"==t.is_zone_forum&&(i=\"\\u6838\\u5fc3\\u533a\"),$(\"#tab_forumname\").parent(\".j_tbnav_tab\").hasClass(\"focus\")?i=\"\\u770b\\u5e16\":$(\"#

15-python爬取百度貼吧-excel儲存

讓我們爬取百度貼吧旅遊資訊，看看哪些地方是大家旅遊關注的熱點。不要問我這個十一去哪兒旅遊了，我還在家沒日沒夜的碼程式碼。

Python實現百度貼吧自動頂貼機

開發這款小工具，我們需要做一些準備： url.txt：多個需要頂起的帖子地址。 reply：多條隨機回覆的內容。

百度貼吧、百家號移動端網頁已支援不跳轉 App 檢視全文和評論，百家號預設展開全文

感謝網友官萬提醒的線索投遞！

python爬取百度貼吧文字內容

爬取百度貼吧文字內容方法1: 點選檢視程式碼**匯入urllib庫** from urllib import request

案例4 百度搜索爬蟲

import requests import os # 偽造請求頭 headers = { \"User-Agent\": \"請求頭\", } def baidu_spider(kw):

3DM速報：《FIFA 22》Steam國區再鎖百度“胡桃吧”遭搶佔引不滿

歡迎來到今日的三大媽速報三分鐘帶你瞭解遊戲業最新資訊大家好，我是米瑟

1.（2021-01-12）python爬蟲下載百度小說貼吧圖片

技術標籤：python爬蟲 import requests from bs4 import BeautifulSoup import os,stat import urllib.request

為當貼吧吧主，男子向百度員工行賄一輛寶馬 X5 被判刑

為當上百度貼吧吧主，北京男子張某向時任百度貼吧事業部資深產品運營師、產品運營經理薛某，行賄了 3 萬元人民幣，和一輛價值超 70 萬元的寶馬 X5 系列汽車。

python 爬蟲百度地圖的資訊介面的實現方法

在爬蟲百度地圖的期間，就為它做了一個介面，運用的是PyQt5。得到意想不到的結果：

Python爬蟲實現百度翻譯功能過程詳解

首先，需要簡單的瞭解一下爬蟲，儘可能簡單快速的上手，其次，需要了解的是百度的API的介面，搞定這個之後，最後，按照官方給出的demo，然後寫自己的一個小程式

Python爬蟲爬取百度搜索內容程式碼例項

這篇文章主要介紹了Python爬蟲爬取百度搜索內容程式碼例項,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

詳解用Python爬蟲獲取百度企業信用中企業基本資訊

一、背景希望根據企業名稱查詢其經緯度，所在的省份、城市等資訊。直接將企業名稱傳給百度地圖提供的API，得到的經緯度是非常不準確的，因此希望獲取企業完整的地理位置，這樣傳給API後結果會更加準確。

python爬蟲-爬取百度圖片

python爬蟲-爬取百度圖片（轉） #!/usr/bin/python# coding=utf-8# 作者:Y0010026# 建立時間:2018/12/16 16:16# 檔案:spider_04.py# IDE:PyCharm# 爬取百度圖片（GET方式爬取Ajax資料）import urllib2url = \'http:/

爬蟲學習進階：獲取百度指數歷史資料！準備好小本本了嗎？

前幾天前室友yy詢問筆者是否做過百度指數的爬蟲，筆者沒有嘗試過，隨即開啟百度指數的網站做了一些分析，發現呈現資料的canvas畫布上的資料都被加密了（Figure 1）

【SEO網站優化】— 百度爬蟲的作用以及優化策略

百度爬蟲它是一個自動的程式，對內容的抓取路徑與蜘蛛絲類似，通過網頁的錨文字連結進行爬行抓取，所以我們也稱為百度蜘蛛，它抓取網頁中的內容、圖片、文字等，抓取後對其分類和整理，所以網站必需有蜘蛛來

百度貼吧爬蟲

簡單版

升級版 併發爬蟲

相關推薦

升級版併發爬蟲