關於golang專案之爬蟲單機版

阿新 • • 發佈：2018-12-26

爬蟲專案的應用範圍很廣泛

最近總結了一下爬蟲的專案並記錄下來

爬蟲的最終版為分散式併發處理爬蟲但是我們分為三部分記錄首先是單任務版的爬蟲記錄

此次我們爬取的是珍愛網的公開內容由於其他網址有可能涉及私密資訊所以選擇相親網站

宣告本人爬取的內容只供自己練習爬蟲使用不會以此牟利

首先看一下我們要爬取的網頁介面

我們先從最終版本捋順出單任務版本爬蟲需要實現的功能

.獲取並列印所有城市第一頁使用者的詳細資訊

這是我們需要或許的內容之一各個城市的名稱

先打印出網頁的所有原始碼

func main(){
	//試探網頁能否正常開啟 若能則將網頁內容以結構體指標方式返回
	resp , err :=http.Get("http://www.zhenai.com/zhenghun")
	if err != nil{
		panic(err)
	}
	//程式結束時實現結構體指標關閉
	defer resp.Body.Close()
	//判斷頭部內容是否正確
	if resp.StatusCode != http.StatusOK{
		fmt.Println("Error StatusCode:", resp.StatusCode)
		return
	}
    //獲取字串
	s, err := ioutil.ReadAll(resp.Body)
	if err != nil{
		panic(err)
	}
	fmt.Printf("%s", s)
}

列印內容後我們的結果上面中文都是亂碼我們解決一下

func main(){
	//試探網頁能否正常開啟 若能則將網頁內容以結構體指標方式返回
	resp , err :=http.Get("http://www.zhenai.com/zhenghun")
	if err != nil{
		panic(err)
	}
	//程式結束時實現結構體指標關閉
	defer resp.Body.Close()
	//判斷頭部內容是否正確
	if resp.StatusCode != http.StatusOK{
		fmt.Println("Error StatusCode:", resp.StatusCode)
		return
	}
	//自動判斷字元格式函式 詳細講解在函式體內
	e := DetermineEncoding(resp.Body)
	//將從網頁中獲取的結構體放入函式並告訴函式結構體內的字元格式 返回utf8格式
	utf8Reader := transform.NewReader(resp.Body,e.NewDecoder())
	//將結構體內容返回為byte
	s, err := ioutil.ReadAll(utf8Reader)
	if err != nil{
		panic(err)
	}
	//列印utf8格式字元
	fmt.Printf("%s", s)
}
//判斷字元格式並返回
func DetermineEncoding(r io.Reader)  encoding.Encoding{
	//提取結構體內的前1024個字元
	byte , err := bufio.NewReader(r).Peek(1024)
	if err != nil{
		panic(err)
	}
	//比較提取出來的字元進行判斷
	e, _, _:= charset.DetermineEncoding(byte,"")
	//返回盤短值
	return e
}

需要注意的是如果沒有安裝指定庫上面程式碼可能有的無法實現我們安裝庫

一共是安裝兩個庫

gopm get -g -v golang.org/x/text 是進行字元格式轉換

gopm get -g -v golang.org/x/net/html 是字元型別自動判斷

安裝完成後指定路徑會出現庫檔案gbk.go

現在我們來列印結果

現在我們正確的打印出網頁原始碼了

有了原始碼之後我們要篩選出對自己有用的資訊

獲取城市名稱和連線的方法有

.使用css選擇器

.使用xpath （與css類似）

.使用正則表示式

這裡我用到的是正則表示式在正式進行專案之前我們回顧一下正則表示式

const text = `
My email is [email protected]
email1 is [email protected]
email2 is    [email protected]
email3 is [email protected]
`
func main() {
	//確定要尋找的目標及返回需要的字元段
	re  := regexp.MustCompile(`([a-zA-Z0-9]+)@([a-zA-Z0-9]+)(\.[a-zA-Z0-9.]+)`)
	//返回二維陣列 函式的作用是得到字元段並按要求返回需要的單個字串
	match := re.FindAllStringSubmatch(text,-1)
	//迴圈列印每一段字元
	for _, m := range match{
		fmt.Println(m)
	}
}

列印結果如下

regexp.MustCompile函式內的引數含義為 要用什麼條件進行查詢

[a-zA-Z0-9]括號內代表要查詢的內容 大小寫字母及數字 都是我們要查詢的內容

（[a-zA-Z0-9]） 中括號外面一層小括號代表被小括號包括的所有內容都重新分配一段內容作為返回值

.*為查詢全部內容包括空字元

.+為查詢全部內容不包括空字元字元為空則不列印

\.為轉義字元需要注意

回顧結束下面我們在專案中使用

func main(){
	//試探網頁能否正常開啟 若能則將網頁內容以結構體指標方式返回
	resp , err :=http.Get("http://www.zhenai.com/zhenghun")
	if err != nil{
		panic(err)
	}
	//程式結束時實現結構體指標關閉
	defer resp.Body.Close()
	//判斷頭部內容是否正確
	if resp.StatusCode != http.StatusOK{
		fmt.Println("Error StatusCode:", resp.StatusCode)
		return
	}
	//自動判斷字元格式函式 詳細講解在函式體內
	e := DetermineEncoding(resp.Body)
	//將從網頁中獲取的結構體放入函式並告訴函式結構體內的字元格式 返回utf8格式
	utf8Reader := transform.NewReader(resp.Body,e.NewDecoder())
	//將結構體內容返回為byte
	s, err := ioutil.ReadAll(utf8Reader)
	if err != nil{
		panic(err)
	}
//----------------------------------------------------------------------------------
    //獲取所需內容函式                                                               |
	printCityList(s)                                                               |
//----------------------------------------------------------------------------------
}
//判斷字元格式並返回
func DetermineEncoding(r io.Reader)  encoding.Encoding{
	//提取結構體內的前1024個字元
	byte , err := bufio.NewReader(r).Peek(1024)
	if err != nil{
		panic(err)
	}
	//比較提取出來的字元進行判斷
	e, _, _:= charset.DetermineEncoding(byte,"")
	//返回盤短值
	return e
}
//----------------------------------------------------------------------------------
//提取所需內容 如網頁地址 城市名稱                                                    |
func printCityList(contents []byte){                                               |
	//設定被提取者所需要的條件                                                       |
	re :=regexp.MustCompile(`<a href="(http://www.zhenai.com/zhenghun/[a-z0-9]+)"[^>]*>([^<]+)</a>`)                                                                      |
	//從網頁檔案中提取所需檔案                                                       |
	matches := re.FindAllSubmatch(contents, -1)                                    |
	//列印所需內容                                                                  |
	for _, m := range  matches{                                                    |
		fmt.Printf("City: %s URL: %s \n", m[2], m[1])                              |
	}
	//列印總城市數量                                                                |
	fmt.Printf("Matches found: %d\n", len(matches))
}                                                                                  |
//----------------------------------------------------------------------------------

增加及改變的位置被我標記出來了

增加一個小技巧知識點 [^>] 在不知道具體內容是字母陣列還是符號是我們可以用 ^加上停止點其中>為停止點是第一次遇到>

由於我們需要找的是帶有地址及城市名稱的欄位

所以我們的格式是

<a href="http://www.zhenai.com/zhenghun/anqing"
									class="">安慶</a>

列印結果如下

這裡我們需要注意的是

re.FindAllSubmatch(contents, -1) 返回值是 [][][]tybe

這裡我們可以把[]tybe當做是string

剩下的可以理解為[][]string 這樣二維陣列好理解多了吧

然後我們用range把二維陣列分割成一維陣列

每個一維陣列是有三個內容塊類似於 var a []int = {1,2,3}

然後我們列印真正需要的內容 “"a[2] a[1]"” a[0]為不需要值

城市和網址篩選成功後我們就可以從每一個城市中爬取第一頁的資料了

下面我們來看單任務版爬蟲的架構

既然架構確定了我們按照架構圖把程式碼敲出來註釋都在程式碼的每一行

先看我們的引擎部分

package engine

import (
	"awesomeProject1/crawler/fetcher"
	"log"
	"fmt"
)
//引擎 控制整個程式的流程
func Run(seeds ...Request){
	var requests []Request
	//接收main函式傳過來的值
	for _, r := range seeds{
		requests = append(requests,r)
	}
	//利用傳過來的值進行 解析 及 提取
	for len(requests) > 0 {
		//獲取第一個值
		r := requests[0]
		//進行切片 把已經提取的內容篩選出去
		requests = requests[1:]
		//第一次列印為main函式傳入地址 然後每次列印是從r.ParserFunc函式中提取出的城市地址
		log.Printf("Fetching %s\n", r.Url)
		//將不同URL傳輸進去 返回不同的頁面原始碼
		body, err := fetcher.Fetch(r.Url)
		//判斷URL是否正確 如果不正確 跳過此次迴圈
		if err != nil{
			log.Printf("Fetcher: error fetching url %s:%v",r.Url,err)
			continue
		}
		//注意關鍵的地方 r為Request結構體變數 在main函式中 我們設定Request結構體變數中的ParserFunc值為parser.PrintCityList
		//所以當第一次迴圈時r.ParserFunc(body)相當於parser.PrintCityList(body) 再一次體會到go語言的函數語言程式設計魅力
		//r.ParserFunc(body)得到的結構體組分為城市名稱及要執行的函式 仔細揣摩結構體Request的ParserFunc值
		//第一次迴圈成功後 parser.PrintCityList(body)被我們的engine.Nilparser代替 當然現在engine.Nilparser為空沒有任何返回值
		ParseResult := r.ParserFunc(body)
		//requests被填滿 requests又得到新的URL和運算函式 被抓取資訊只要足夠就可以一直執行下去
		requests = append(requests,ParseResult.Requests...)
		//列印所有在PrintCityList函式返回的Item值 Item值是任何型別可以使城市名也可以是使用者資訊
		for _, item := range ParseResult.Items{
			fmt.Printf("Got item %v\n", item)
		}
	}
}

引擎部分不容易理解的地方在於r.ParserFunc(body) 我已經著重註釋出來了

這段程式碼最重要的是函數語言程式設計基本功紮實

下面我們看提取

package fetcher

import (
	"net/http"
	"fmt"
	"golang.org/x/text/transform"
	"io/ioutil"
	"io"
	"golang.org/x/text/encoding"
	"bufio"
	"golang.org/x/net/html/charset"
)

func Fetch(url string)([]byte, error){
	//試探網頁能否正常開啟 若能則將網頁內容以結構體指標方式返回
	resp , err :=http.Get(url)
	if err != nil{
		return nil, err
	}
	//程式結束時實現結構體指標關閉
	defer resp.Body.Close()
	//判斷頭部內容是否正確
	if resp.StatusCode != http.StatusOK{
		return nil, fmt.Errorf("Error Statuscode: %d", resp.StatusCode)
	}
	//自動判斷字元格式函式 詳細講解在函式體內
	e := DetermineEncoding(resp.Body)
	//將從網頁中獲取的結構體放入函式並告訴函式結構體內的字元格式 返回utf8格式
	utf8Reader := transform.NewReader(resp.Body,e.NewDecoder())
	//將結構體內容返回
	return  ioutil.ReadAll(utf8Reader)
}
//判斷字元格式並返回
func DetermineEncoding(r io.Reader)  encoding.Encoding{
	//提取結構體內的前1024個字元
	byte , err := bufio.NewReader(r).Peek(1024)
	if err != nil{
		panic(err)
	}
	//比較提取出來的字元進行判斷
	e, _, _:= charset.DetermineEncoding(byte,"")
	//返回判斷值
	return e
}

由於提取基本上就是拷貝貼上過來的就不多講了唯一需要注意的是返回值型別

我們再看返回型別

package engine
//資訊存放位置 每一個資訊具有單獨不連續的記憶體
type Request struct {
	Url string   //存放地址
	ParserFunc func([]byte) ParseResult  // 存放函式型別
}
//資訊大的集合 注意結構體中的型別都為陣列 這是一個很關鍵的設定
type ParseResult struct{
	Requests []Request   //存放一個或多個Request供程式使用
	Items []interface{} //存放多個引數 基本列印就靠他
}
//暫時設定為空讓程式跑起來 開始收集使用者資訊時  它會被替換掉
func Nilparser([] byte) ParseResult {
	return ParseResult{}
}

返回型別是一個類似於樹的方式一個節點套幾個節點搞明白他們的轉換方式很重要

下面我們繼續看解析器

package parser

import (
	"regexp"
	"awesomeProject1/crawler/engine"
)
const citylistRe = `<a href="(http://www.zhenai.com/zhenghun/[a-z0-9]+)"[^>]*>([^<]+)</a>`

//提取所需內容 如網頁地址 城市名稱
func PrintCityList(contents []byte)engine.ParseResult{
	//設定被提取者所需要的條件
	re :=regexp.MustCompile(citylistRe)
	//從網頁檔案中提取所需檔案
	matches := re.FindAllSubmatch(contents, -1)
	//提取出來的內容需要一個接受者 result定義型別
	result := engine.ParseResult{}
	for _, m := range  matches{
		//將提取出來的資訊按照順序放入變數result中
		result.Items = append(result.Items,string(m[2]))
		result.Requests = append(result.Requests,engine.Request{
			string(m[1]),
			engine.Nilparser,
		})
	}
	//返回result result內部是陣列
	return result
}

解析器也是我們之前接觸的這裡需要注意的點也是返回值

最後看一下main函式

package main

import (
	"awesomeProject1/crawler/engine"
	"awesomeProject1/crawler/zhenai/parser"
)

func main() {
	//執行爬蟲的起始條件 當內部迴圈一次結束後 裡面資訊屬於無效
	engine.Run(engine.Request{
		"http://www.zhenai.com/zhenghun",
		parser.PrintCityList,
	})
}

整個單任務版爬蟲的架構就出來了

下面我們再看一下列印結果

架構很成功

下面我們要測試一下citylist函式對不對

這裡的測試不需要太複雜

package parser

import (
	"testing"
	"io/ioutil"
)

func TestParseCityList(t *testing.T){
	//原本應該是開啟網頁的 不過測試有可能主機不能聯網 網頁原始碼放到html檔案中 然後開啟html檔案
	contents, err :=ioutil.ReadFile("citylist_test_data.html")
	if err != nil{
		panic(err)
	}
	//提取目標元素
	result := PrintCityList(contents)
	//之前獲取資訊 測試是否正確
	const resultSize = 470
	//之前獲取資訊 測試是否正確
	expectedUrls := []string{
		"http://www.zhenai.com/zhenghun/aba",
		"http://www.zhenai.com/zhenghun/akesu",
		"http://www.zhenai.com/zhenghun/alashanmeng",
	}
	//之前獲取資訊 測試是否正確
	expectedCities := []string{
		"阿壩","阿克蘇","阿拉善盟",
	}
	//正常測試
	if len(result.Requests) != resultSize{
		t.Errorf("result should have %d requests; but had %d", resultSize, len(result.Requests))
	}
	for i, url := range expectedUrls{
		if result.Requests[i].Url != url{
			t.Errorf("expected url #%d: %s ; but was %s \n",i, url, result.Requests[i].Url)
		}
	}
	for i, city := range expectedCities{
		if result.Items[i].(string) != city{
			t.Errorf("expected url #%d: %s ; but was %s \n",i, city, result.Items[i].(string))
		}
	}
	if len(result.Items) != resultSize{
		t.Errorf("result should have %d requests; but had %d", resultSize, len(result.Items))
	}
}

測試結果完全正確

既然我們獲得了城市名稱及每個城市的地址

那我們接下來獲取每個城市的第一頁使用者

既然需要獲取使用者資訊我們先建立一個結構體用來儲存使用者資訊

package model

type Profile struct{
	Name string   //暱稱
	Gender string  //性別
	Age int       //年齡
	Height int    //身高
	Weight int    //體重
	Income string //收入
	Marriage string  //婚姻
	Education string //教育
	Occupation string //職業
	Hokou string //戶口
	Xingzuo string  //星座
	House string  //房子
	Car string  //車子
}

既然要獲取使用者的資訊我們需要先找出使用者的URL 下面的函式幫助我們尋找使用者的URL

package parser

import (
	"awesomeProject1/crawler/engine"
	"regexp"
)
//獲取使用者資訊格式
const cityRe  = `<a href="(http://album.zhenai.com/u/[0-9]+)" [^>]*>([^<]+)</a>`
//contents為城市頁面地址 從每個城市第一頁中篩選資訊
func ParseCity(contents []byte) engine.ParseResult{
	//確定要查詢的格式
	re := regexp.MustCompile(cityRe)
	//搜尋全部與格式相同的資訊
	matches := re.FindAllSubmatch(contents, -1)
	//建立結構體進行存放
	result := engine.ParseResult{}
	//把第一張頁面中的使用者名稱及地址取出
	for _, m := range matches{
		//m[2]為使用者名稱
		name := string(m[2])
		//在結構體中存入所有暱稱名字 並標識為User
		result.Items = append(result.Items, "User "+name)
		//這個函式中最關鍵的點
		//將函式ParseProfile作為返回值 即確定了暱稱 由沒有改動結構體
		result.Requests = append(result.Requests, engine.Request{
			string(m[1]), //使用者頁面地址
			func(c []byte) engine.ParseResult{ //使用者資訊
				return ParseProfile(c, name)
			},
		})
	}
	return result
}

將爬取使用者詳細資訊的函式ParseProfile作為結構體返回值返回

package parser

import (
	"awesomeProject1/crawler/engine"
	"regexp"
	"strconv"
	"awesomeProject1/crawler/model"
)
//獲取正則表示式條件 並且在全域性變數中定義
var Gender = regexp.MustCompile(`<td><span class="label">性別：</span><span field="">([^<]+)</span></td>`)
var ageRe = regexp.MustCompile(`<td><span class="label">年齡：</span>([\d]+)歲</td>`)
var Height = regexp.MustCompile(`<td><span class="label">身高：</span>([\d]+)CM</td>`)
var Weight = regexp.MustCompile(`<td><span class="label">體重：</span><span field="">([\d]+)KG</span></td>`)
var Income = regexp.MustCompile(`<td><span class="label">月收入：</span>([^<]+)</td>`)
var Marriage = regexp.MustCompile(`<td><span class="label">婚況：</span><span field=""> ([^<]+)</span></td>`)
var Education = regexp.MustCompile(`<td><span class="label">學歷：</span>([^<]+)</td>`)
var Occupation = regexp.MustCompile(`<td><span class="label">職業： </span>([^<]+)</td>`)
var Hokou = regexp.MustCompile(`<td><span class="label">籍貫：</span>([^<]+)</td>`)
var Xingzuo = regexp.MustCompile(`<td><span class="label">星座：</span><span field="">([^<]+)</span></td>`)
var House = regexp.MustCompile(`<td><span class="label">住房條件：</span><span field="">([^<]+)</span></td>`)
var Car = regexp.MustCompile(`<td><span class="label">是否購車：</span><span field="">([^<]+)</span></td>`)
//執行每一個條件 獲取每一個內容
func ParseProfile(contents []byte,name string) engine.ParseResult{
	profile := model.Profile{}
	age, _ := strconv.Atoi(extractString(contents,ageRe))
	profile.Age = age
	height, _ := strconv.Atoi(extractString(contents,Height))
	profile.Height = height
	weight, _ := strconv.Atoi(extractString(contents,Weight))
	profile.Weight = weight
	profile.Name = name
	profile.Gender = extractString(contents,Gender)
	profile.Income = extractString(contents,Income)
	profile.Marriage = extractString(contents,Marriage)
	profile.Education = extractString(contents,Education)
	profile.Occupation = extractString(contents,Occupation)
	profile.Hokou = extractString(contents,Hokou)
	profile.Xingzuo = extractString(contents,Xingzuo)
	profile.House = extractString(contents,House)
	profile.Car = extractString(contents,Car)
	//只需要傳入內容
	result := engine.ParseResult{
		Items: []interface{}{profile},
	}
	return result
}
//將正則表示式的篩選值輸出
func extractString(contents []byte, re *regexp.Regexp) string{
	match := re.FindSubmatch(contents)
	if len(match) >= 2{
		return string(match[1])
	}else{
		return ""
	}
}

正則表示式在使用者頁面中找到並複製下來修改

獲得使用者詳細資訊

先看我們單任務版的最終結構

我們再看執行結果

結果正確至此我們的單任務版爬蟲成功

貼一下整段程式碼可以複製下來自己測試

package main

import (
	"awesomeProject1/crawler/engine"
	"awesomeProject1/crawler/zhenai/parser"
)

func main() {
	//執行爬蟲的起始條件 當內部迴圈一次結束後 裡面資訊屬於無效
	engine.Run(engine.Request{
		"http://www.zhenai.com/zhenghun",
		parser.PrintCityList,
	})
}

package engine

import (
	"awesomeProject1/crawler/fetcher"
	"log"
	"fmt"
	"time"
)
//引擎 控制整個程式的流程
func Run(seeds ...Request){
	var requests []Request
	//接收main函式傳過來的值
	for _, r := range seeds{
		requests = append(requests,r)
	}
	//利用傳過來的值進行 解析 及 提取
	for len(requests) > 0 {
		//獲取第一個值
		r := requests[0]
		//進行切片 把已經提取的內容篩選出去
		requests = requests[1:]
		//第一次列印為main函式傳入地址 然後每次列印是從r.ParserFunc函式中提取出的城市地址
		log.Printf("Fetching %s\n", r.Url)
		//將不同URL傳輸進去 返回不同的頁面原始碼
		body, err:= fetcher.Fetch(r.Url)
		//判斷URL是否正確 如果不正確 跳過此次迴圈
		if err != nil{
			log.Printf("Fetcher: error fetching url %s:%v",r.Url,err)
			continue
		}
		//注意關鍵的地方 r為Request結構體變數 在main函式中 我們設定Request結構體變數中的ParserFunc值為parser.PrintCityList
		//所以當第一次迴圈時r.ParserFunc(body)相當於parser.PrintCityList(body) 再一次體會到go語言的函數語言程式設計魅力
		//r.ParserFunc(body)得到的結構體組分為城市名稱及要執行的函式 仔細揣摩結構體Request的ParserFunc值
		//第一次迴圈成功後 parser.PrintCityList(body)被我們的engine.Nilparser代替 當然現在engine.Nilparser為空沒有任何返回值
		ParseResult := r.ParserFunc(body)
		//requests被填滿 requests又得到新的URL和運算函式 被抓取資訊只要足夠就可以一直執行下去
		requests = append(requests,ParseResult.Requests...)
		//列印所有在PrintCityList函式返回的Item值 Item值是任何型別可以使城市名也可以是使用者資訊
		for _, item := range ParseResult.Items{
			fmt.Printf("Got item %v\n", item)
		}
		time.Sleep(time.Millisecond)
	}
}

package engine
//資訊存放位置 每一個資訊具有單獨不連續的記憶體
type Request struct {
	Url string   //存放地址
	ParserFunc func([]byte) ParseResult  // 存放函式型別
}
//資訊大的集合 注意結構體中的型別都為陣列 這是一個很關鍵的設定
type ParseResult struct{
	Requests []Request   //存放一個或多個Request供程式使用
	Items []interface{} //存放多個引數 基本列印就靠他
}
//暫時設定為空讓程式跑起來 開始收集使用者資訊時  它會被替換掉
func Nilparser([] byte) ParseResult {
	return ParseResult{}
}

package fetcher

import (
	"net/http"
	"fmt"
	"golang.org/x/text/transform"
	"io/ioutil"
	"golang.org/x/text/encoding"
	"bufio"
	"golang.org/x/net/html/charset"
)

func Fetch(url string)([]byte, error){
	//試探網頁能否正常開啟 若能則將網頁內容以結構體指標方式返回
	resp , err :=http.Get(url)
	if err != nil{
		return nil, err
	}
	//程式結束時實現結構體指標關閉
	defer resp.Body.Close()
	//判斷頭部內容是否正確
	if resp.StatusCode != http.StatusOK{
		return nil, fmt.Errorf("Error Statuscode: %d", resp.StatusCode)
	}
	//自動判斷字元格式函式 詳細講解在函式體內
	bodyReader := bufio.NewReader(resp.Body)
	e := DetermineEncoding(bodyReader)
	//將從網頁中獲取的結構體放入函式並告訴函式結構體內的字元格式 返回utf8格式
	utf8Reader := transform.NewReader(bodyReader,e.NewDecoder())
	//將結構體內容返回
	return  ioutil.ReadAll(utf8Reader)
}
//判斷字元格式並返回
func DetermineEncoding(r *bufio.Reader)  encoding.Encoding{
	//提取結構體內的前1024個字元
	byte , err := r.Peek(1024)
	if err != nil{
		panic(err)
	}
	//比較提取出來的字元進行判斷
	e, _, _:= charset.DetermineEncoding(byte,"")
	//返回判斷值
	return e
}

package model

type Profile struct{
	Name string   //暱稱
	Gender string  //性別
	Age int       //年齡
	Height int    //身高
	Weight int    //體重
	Income string //收入
	Marriage string  //婚姻
	Education string //教育
	Occupation string //職業
	Hokou string //戶口
	Xingzuo string  //星座
	House string  //房子
	Car string  //車子
}

package parser

import (
	"awesomeProject1/crawler/engine"
	"regexp"
)
//獲取使用者資訊格式
const cityRe  = `<a href="(http://album.zhenai.com/u/[0-9]+)" [^>]*>([^<]+)</a>`
//contents為城市頁面地址 從每個城市第一頁中篩選資訊
func ParseCity(contents []byte) engine.ParseResult{
	//確定要查詢的格式
	re := regexp.MustCompile(cityRe)
	//搜尋全部與格式相同的資訊
	matches := re.FindAllSubmatch(contents, -1)
	//建立結構體進行存放
	result := engine.ParseResult{}
	//把第一張頁面中的使用者名稱及地址取出
	for _, m := range matches{
		//m[2]為使用者名稱
		name := string(m[2])
		//在結構體中存入所有暱稱名字 並標識為User
		result.Items = append(result.Items, "User "+name)
		//這個函式中最關鍵的點
		//將函式ParseProfile作為返回值 即確定了暱稱 由沒有改動結構體
		result.Requests = append(result.Requests, engine.Request{
			string(m[1]), //使用者頁面地址
			func(c []byte) engine.ParseResult{ //使用者資訊
				return ParseProfile(c, name)
			},
		})
	}
	return result
}

package parser

import (
	"regexp"
	"awesomeProject1/crawler/engine"
)
const citylistRe = `<a href="(http://www.zhenai.com/zhenghun/[a-z0-9]+)"[^>]*>([^<]+)</a>`

//提取所需內容 如網頁地址 城市名稱
func PrintCityList(contents []byte)engine.ParseResult{
	//設定被提取者所需要的條件
	re :=regexp.MustCompile(citylistRe)
	//從網頁檔案中提取所需檔案
	matches := re.FindAllSubmatch(contents, -1)
	//提取出來的內容需要一個接受者 result定義型別
	result := engine.ParseResult{}
	limit := 10
	for _, m := range  matches{
		//將提取出來的資訊按照順序放入變數result中
		result.Items = append(result.Items,"City" + string(m[2]))
		result.Requests = append(result.Requests,engine.Request{
			string(m[1]),
			ParseCity,
		})
		limit--
		if limit == 0 {
			break
		}
	}
	//返回result result內部是陣列
	return result
}

package parser

import (
	"testing"
	"io/ioutil"
)

func TestParseCityList(t *testing.T){
	//原本應該是開啟網頁的 不過測試有可能主機不能聯網 網頁原始碼放到html檔案中 然後開啟html檔案
	contents, err :=ioutil.ReadFile("citylist_test_data.html")
	if err != nil{
		panic(err)
	}
	//提取目標元素
	result := PrintCityList(contents)
	//之前獲取資訊 測試是否正確
	const resultSize = 470
	//之前獲取資訊 測試是否正確
	expectedUrls := []string{
		"http://www.zhenai.com/zhenghun/aba",
		"http://www.zhenai.com/zhenghun/akesu",
		"http://www.zhenai.com/zhenghun/alashanmeng",
	}
	//之前獲取資訊 測試是否正確
	expectedCities := []string{
		"City阿壩","City阿克蘇","City阿拉善盟",
	}
	//正常測試
	if len(result.Requests) != resultSize{
		t.Errorf("result should have %d requests; but had %d", resultSize, len(result.Requests))
	}
	for i, url := range expectedUrls{
		if result.Requests[i].Url != url{
			t.Errorf("expected url #%d: %s ; but was %s \n",i, url, result.Requests[i].Url)
		}
	}
	for i, city := range expectedCities{
		if result.Items[i].(string) != city{
			t.Errorf("expected url #%d: %s ; but was %s \n",i, city, result.Items[i].(string))
		}
	}
	if len(result.Items) != resultSize{
		t.Errorf("result should have %d requests; but had %d", resultSize, len(result.Items))
	}
}

package parser

import (
	"awesomeProject1/crawler/engine"
	"regexp"
	"strconv"
	"awesomeProject1/crawler/model"
)
//獲取正則表示式條件 並且在全域性變數中定義
var Gender = regexp.MustCompile(`<td><span class="label">性別：</span><span field="">([^<]+)</span></td>`)
var ageRe = regexp.MustCompile(`<td><span class="label">年齡：</span>([\d]+)歲</td>`)
var Height = regexp.MustCompile(`<td><span class="label">身高：</span>([\d]+)CM</td>`)
var Weight = regexp.MustCompile(`<td><span class="label">體重：</span><span field="">([\d]+)KG</span></td>`)
var Income = regexp.MustCompile(`<td><span class="label">月收入：</span>([^<]+)</td>`)
var Marriage = regexp.MustCompile(`<td><span class="label">婚況：</span><span field=""> ([^<]+)</span></td>`)
var Education = regexp.MustCompile(`<td><span class="label">學歷：</span>([^<]+)</td>`)
var Occupation = regexp.MustCompile(`<td><span class="label">職業： </span>([^<]+)</td>`)
var Hokou = regexp.MustCompile(`<td><span class="label">籍貫：</span>([^<]+)</td>`)
var Xingzuo = regexp.MustCompile(`<td><span class="label">星座：</span><span field="">([^<]+)</span></td>`)
var House = regexp.MustCompile(`<td><span class="label">住房條件：</span><span field="">([^<]+)</span></td>`)
var Car = regexp.MustCompile(`<td><span class="label">是否購車：</span><span field="">([^<]+)</span></td>`)
//執行每一個條件 獲取每一個內容
func ParseProfile(contents []byte,name string) engine.ParseResult{
	profile := model.Profile{}
	age, _ := strconv.Atoi(extractString(contents,ageRe))
	profile.Age = age
	height, _ := strconv.Atoi(extractString(contents,Height))
	profile.Height = height
	weight, _ := strconv.Atoi(extractString(contents,Weight))
	profile.Weight = weight
	profile.Name = name
	profile.Gender = extractString(contents,Gender)
	profile.Income = extractString(contents,Income)
	profile.Marriage = extractString(contents,Marriage)
	profile.Education = extractString(contents,Education)
	profile.Occupation = extractString(contents,Occupation)
	profile.Hokou = extractString(contents,Hokou)
	profile.Xingzuo = extractString(contents,Xingzuo)
	profile.House = extractString(contents,House)
	profile.Car = extractString(contents,Car)
	//只需要傳入內容
	result := engine.ParseResult{
		Items: []interface{}{profile},
	}
	return result
}
//將正則表示式的篩選值輸出
func extractString(contents []byte, re *regexp.Regexp) string{
	match := re.FindSubmatch(contents)
	if len(match) >= 2{
		return string(match[1])
	}else{
		return ""
	}
}

好了完整單任務版程式碼都實現了最後我們總結一下都用到了什麼

獲取網頁內容

.使用http.Get獲取內容

.使用Encoding來轉碼 :gbk->utf8

.使用charset.DetermineEncoding來判斷編碼

獲取城市資訊及連結

.使用css選擇器

.使用xpath （與css類似）

.使用正則表示式

爬蟲總體演算法

城市列表城市列表解析器

城市城市城市解析器

使用者使用者使用者使用者使用者解析器

解析器Parser

輸入：utf-8編碼的文字

輸出：Request{URL，對應的Parser}列表， Item列表其中Item就是我們存取的有價值的資料

單任務版爬蟲結束

關於golang專案之爬蟲單機版

爬蟲專案的應用範圍很廣泛最近總結了一下爬蟲的專案並記錄下來爬蟲的最終版為分散式併發處理爬蟲但是我們分為三部分記錄首先是單任務版的爬蟲記錄此次我們爬取的是珍愛網的公開內容由於其他網址有可能涉及私密資訊所以選擇相親網站宣告本人爬取的內容只供自己練習

redis學習筆記之linux單機版redis安裝

info 目錄 tar daemon exit 單機技術分享 gre shutdown Redis安裝　　下載最新穩定版本：官網： https://redis.io/ 　　　　第一步：將redis.tar.gz解壓：tar -zxvf redis-4.0.10.ta

Golang 專案之配置檔案

相信對於很多gopher 而言，我這篇文章，算比較初級，我是一個一年多經驗的golang程式設計師，有著5年左右的程式設計經驗。 golang 對於初學者還算友好，寫程式碼很好入門，但業界對於golang工程與專案的BP卻比較缺少，或者是有很多方為此爭論不休，就比依賴管理工具就搞出了許多個，如知名的有

初識Hadoop之Hadoop單機版搭建

最近閒來無事，和朋友志聲大神一起想學習Hadoop，最晚弄機器的弄到兩點多，今天動手和志聲一起安裝Hadoop的環境，剛開始也是一頭霧水啊，Hadoop官網的教程我也是醉了，說的牛頭不對馬嘴，最後只能通過各種百度解決了問題，最後把安裝的一些操作都記錄下來，希望

搭建RabbitMQ叢集之Windows單機版

Note：單機版叢集僅作為學習使用，生產環境務必使用多伺服器叢集。 1、配置Host節點、環境變數 127.0.0.1 node1 127.0.0.1 node2 127.0.0.1 node3 在E:\study\rabbitmq下解壓2個RabbitMQ資料夾，路徑分

大資料之hadoop單機版虛擬機器Vmware安裝教程

為深入學習hadoop，需要在個人電腦中安裝cloudera_centos虛擬機器。本篇文件介紹的就是關於cloudera_centos虛擬機器的安裝教程。（推薦使用virtualbox

運維學python之爬蟲中級篇（五）數據存儲（無數據庫版）

就是 erro mage name 打印反序 lis object Circul 本篇主要介紹，爬取html數據後，將html的正文內容存儲為json或csv格式。 1 json格式存儲選定要爬取的網站後，我們利用之前學過的內容，如：Beautiful Soup、xpa

大數據測試之hadoop單機環境搭建(超級詳細版)

com jvm 末尾內容取數搭建 cluster replicat specific 友情提示：本文超級長，請備好瓜子 Hadoop的運行模式單機模式是Hadoop的默認模式，在該模式下無需任何守護進程，所有程序都在單個JVM上運行，該模式主要用於開發和調試map

個人python練手專案之微報命令列版V1.0開源

前言還記得不久之前，寫過一篇關於團隊管理工具的調研文章傳送門，當時調研了一大圈發現對於管理層來說最大的痛點就是沒有一個現成的工具支援word週報的匯出，傳統企業還是比較偏向紙質檔案的。再加上想練練python說動手就動手，於是就有了這個專案。專案定位算是練練手+解決自身痛點。現

【倩女幽魂妖魔道】聊齋妖魔道之倩女幽魂單機版一鍵端原始碼分享

測試，測試架設前請關閉防毒軟體、衛士、防火牆，防止誤刪重要程式檔案或攔截造成架設失敗。第1步: 開啟下載好的檔案qnyh.exe，直接點解壓就可以了，修改解壓路徑會造成架設失敗。全部解壓好視窗會自己關閉，中途不要進行其他操作。倩女幽魂啟動器可以放任意位置，建議放在遊戲資料夾內

Java 爬蟲專案實戰之爬蟲簡介

Java 爬蟲專案實戰之爬蟲簡介 0. 前言今年三四月份學習Hbase，瞭解到openTSDB的底層儲存使用到了Hbase，於是乎，學習openTSDB，在閱讀openTSDB原始碼【其原始碼使用java編寫】的過程中，發現裡面全是I/O，多執行緒，httpclient等。

Java連線單機版solr測試程式碼之solrJ的運用

1、首先確保solr伺服器已開啟，本地通過http://ip:埠號/solr可以訪問到 2、pom.xml中引用solrJ.jar包 <properties> <solrj.version>4.10.3</solrj.version&

Spark專案之環境搭建（單機）一 hadoop 2.8.5安裝

我用的hadoop2.8.5 + apache-hive-2.3.3 +sqoop-1.4.7 + jdk1.8 + mysql 5.7 + scala-2.12.7 + spark-2.3.2-bin-hadoop2.7 第一步上傳所需的包：我把所有的包都放在了hom

Spark專案之環境搭建（單機）三 scala-2.12.7+ spark-2.3.2-bin-hadoop2.7安裝

上傳scala和spark架包解壓然後重新命名 tar -zxf scala-2.12.7.tgz mv scala-2.12.7 scala tar -zxf spark-2.3.2-bin-hadoop2.7.tgz mv spark-2.3.

專案之路-敏捷開發菜鳥版

一晃就又是一個月過去了，到了管理端，心裡想的就是如何把亂七八糟的事情有序排列，讓團隊持續地的產出。雖說基本不用敲程式碼，但同時參與3個專案，感覺略累，這是一場馬拉松，要麼走過終點吐口氣，要麼走火入魔。經過大概一個月的準備，8月份一個正式的創業專案終於確定下來，

redis單機版安裝+測試+專案運用

【簡介】 Redis是一個開源的使用ANSI C語言編寫、支援網路、可基於記憶體亦可持久化的日誌型、Key-Value資料庫，並提供多種語言的API。應用場景：前臺有一部分內容經常被大量多次的訪問的情況下就有必要使用redis了優點：減少了對資料的訪問，

專案中使用redis單機版和叢集版

redis搭建請看上一篇文章新增jedis依賴：  <dependency> <groupId>redis.clients</groupId> &l

Spark專案之環境搭建（單機）五配置eclipse的scala環境，並建立spark專案

先安裝scala 環境： eclipse版：spring-tool-suite-3.9.1.RELEASE-e4.7.1a-win32-x86_64 下載地址：https://www.scala-lang.org/download/ 然後配置環境變數，參考以下地址：

Spark專案之環境搭建（單機）四 sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz 安裝

上傳解壓 sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz，重新命名 tar -zxf sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz mv sqoop-1.4.7.bin__hadoop-2.6.0 sqoop 進入sqoop

Spark專案之環境搭建（單機）二 hive-2.3.3安裝

上傳hive架包，然後解壓： tar -zxf apache-hive-2.3.3-bin.tar.gz hive 重新命名 mv apache-hive-2.3.3-bin hive 將mysql的驅動包加入hive的lib檔案下面進入hive目錄下的c

關於golang專案之爬蟲 單機版

相關推薦

關於golang專案之爬蟲單機版