用go語言爬取珍愛網 | 第一回

我們來用go語言爬取“珍愛網”使用者資訊。

首先分析到請求url為：

http://www.zhenai.com/zhenghun

接下來用go請求該url，程式碼如下：

package main

import (
 "fmt"
 "io/ioutil"
 "net/http"
)

func main() {

 //返送請求獲取返回結果
 resp, err := http.Get("http://www.zhenai.com/zhenghun")

 if err != nil {
   panic(fmt.Errorf("Error: http Get, err is %v\n", err))
 }

 //關閉response body
 defer resp.Body.Close()

 if resp.StatusCode != http.StatusOK {
   fmt.Println("Error: statuscode is ", resp.StatusCode)
   return
 }

 body, err := ioutil.ReadAll(resp.Body)

 if err != nil {
   fmt.Println("Error read body, error is ", err)
 }

 //列印返回值
 fmt.Println("body is ", string(body))
}

執行後會發現返回體裡有很多亂碼：

在返回體裡可以找到即編碼為gbk，而go預設編碼為utf-8，所以就會出現亂碼。接下來用第三方庫將其編碼格式轉為utf-8。

由於訪問golang.org/x/text需要梯子，不然報錯：

所以在github上下載：

mkdir -p $GOPATH/src/golang.org/x
cd $GOPATH/src/golang.org/x
git clone https://github.com/golang/text.git

然後將gbk編碼轉換為utf-8，需要修改程式碼如下：

utf8Reader := transform.NewReader(resp.Body, simplifiedchinese.GBK.NewDecoder())
body, err := ioutil.ReadAll(utf8Reader)

考慮到通用性，返回的編碼格式不一定是gbk，所以需要對實際編碼做判斷，然後將判斷結果轉為utf-8，需要用到第三方庫golang.org/x/net/html，同樣的在github上下載：

mkdir -p $GOPATH/src/golang.org/x
cd $GOPATH/src/golang.org/x
git clone https://github.com/golang/net

那麼程式碼就變成這樣：

package main

import (
 "fmt"
 "io/ioutil"
 "net/http"
 "golang.org/x/text/transform"
 //"golang.org/x/text/encoding/simplifiedchinese"
 "io"
 "golang.org/x/text/encoding"
 "bufio"
 "golang.org/x/net/html/charset"
)

func main() {

 //返送請求獲取返回結果
 resp, err := http.Get("http://www.zhenai.com/zhenghun")

 if err != nil {
   panic(fmt.Errorf("Error: http Get, err is %v\n", err))
 }

 //關閉response body
 defer resp.Body.Close()

 if resp.StatusCode != http.StatusOK {
   fmt.Println("Error: statuscode is ", resp.StatusCode)
   return
 }

 //utf8Reader := transform.NewReader(resp.Body, simplifiedchinese.GBK.NewDecoder())
 utf8Reader := transform.NewReader(resp.Body, determinEncoding(resp.Body).NewDecoder())
 body, err := ioutil.ReadAll(utf8Reader)

 if err != nil {
   fmt.Println("Error read body, error is ", err)
 }

 //列印返回值
 fmt.Println("body is ", string(body))
}

func determinEncoding(r io.Reader) encoding.Encoding {

 //這裡的r讀取完得保證resp.Body還可讀
 body, err := bufio.NewReader(r).Peek(1024)

 if err != nil {
   fmt.Println("Error: peek 1024 byte of body err is ", err)
 }

 //這裡簡化,不取是否確認
 e, _, _ := charset.DetermineEncoding(body, "")
 return e
}

執行後就看不到亂碼了：

今天先爬到這裡，明天將提取返回體中的地址URL和城市，下一節見。

本公眾號免費提供csdn下載服務，海量IT學習資源，如果你準備入IT坑，勵志成為優秀的程式猿，那麼這些資源很適合你，包括但不限於java、go、python、springcloud、elk、嵌入式、大資料、面試資料、前端等資源。同時我們組建了一個技術交流群，裡面有很多大佬，會不定時分享技術文章，如果你想來一起學習提高，可以公眾號後臺回覆【2】，免費邀請加技術交流群互相學習提高，會不定期分享程式設計IT相關資源。

掃碼關注，精彩內容第一時間推給你

用go語言爬取珍愛網 | 第一回

用go語言爬取珍愛網 | 第一回

用go語言爬取珍愛網 | 第二回

用go語言爬取珍愛網 | 第三回

爬取珍愛網後用戶資訊展示

go語言爬取椎名真白

go 語言爬取百度貼吧中的內容

【go語言爬蟲】go語言爬取豆瓣電影top250

用crawl spider爬取起點網小說信息

用Python爬蟲爬取廣州大學教務系統的成績（內網訪問）

python之爬蟲的入門05------實戰：爬取貝殼網（用re匹配需要的資料）

R語言爬取前程無憂網招聘職位

用python來爬取中國天氣網北京，上海，成都8-15天的天氣

go語言，取linux系統網絡卡MAC和硬碟序列號

用python爬蟲爬取網頁桌布圖片（彼岸桌面網唯美圖片）

R語言爬取中國天氣網單個城市實時天氣預報資料

用接口爬取今日頭條圖片

scrapy實戰1分布式爬取有緣網：

多線程版爬取故事網

結對-爬取大麥網演唱會信息-設計文檔

結對-爬取大麥網近期演唱會信息-開發過程

用go語言爬取珍愛網 | 第一回

相關推薦