Golang 爬蟲-廣度優先（獲取html文件中的超連結）

阿新 • • 發佈：2018-12-31

package main

import(
    "fmt"
    "net/http"
    "io/ioutil"
    "regexp"
    "strings"
)

var href_reg *regexp.Regexp

var hrefs_been_found map[string]int

var hrefs_undone []string

func get_all_href(url string)([]string){
    var ret [] string
    resp,err := http.Get(url)
    if err!=nil {
        fmt.Println(err)
        return ret
    }
    defer resp.Body.Close()
    body,_ := ioutil.ReadAll(resp.Body)
    

    hrefs := href_reg.FindAllString(string(body),-1)
    
    for _,v := range hrefs{
        str := strings.Split(v,"\"")[1]
        
        if len(str)<1{
            continue
        }

        switch str[0]{
        case 'h':
            ret = append(ret,str)   
        case '/':
            if len(str)!=1 && str[1]=='/'{
                ret = append(ret,"http:"+str)   
            }
            
            if len(str)!=1 && str[1]!='/'{
                ret = append(ret,url+str[1:])
            }
        default:
            ret = append(ret,url+str)
            
        }
        
    }

    return ret
}

func init_global_var(){
    href_pattern :=   "href=\"(.+?)\""
    href_reg = regexp.MustCompile(href_pattern)

    hrefs_been_found = make(map[string]int)
}

func is_href_been_found(href string)bool{
    _,ok := hrefs_been_found[href]
    return ok
}

func add_hrefs_to_undone_list(hrefs []string){
    for _,value := range hrefs {
        ok := is_href_been_found(value)
        if !ok {
            fmt.Printf("new url:(%s)\n",value);
            hrefs_undone = append(hrefs_undone,value)
            hrefs_been_found[value]=1
        }else{
            hrefs_been_found[value]++
        }
        
    }
}

func main(){
    init_global_var()

    var pos = 0
    var urls = []string{"http://www.baidu.com"}
    add_hrefs_to_undone_list(urls)
    
    for {
        if pos >= len(hrefs_undone) {
            break
        }
        url:= hrefs_undone[0]
        hrefs_undone = hrefs_undone[1:]

        hrefs := get_all_href(url)
        add_hrefs_to_undone_list(hrefs)
    }
}

Golang 爬蟲-廣度優先（獲取html文件中的超連結）

package main import( "fmt" "net/http" "io/ioutil" "regexp" "strings" ) var href_reg *regexp.Regexp var hrefs_been_found map[string]i

使用Python中的HTMLParser、cookielib抓取和解析網頁、從HTML文件中提取連結、影象、文字、Cookies .

對搜尋引擎、檔案索引、文件轉換、資料檢索、站點備份或遷移等應用程式來說，經常用到對網頁(即HTML檔案)的解析處理。事實上，通過 Python語言提供的各種模組，我們無需藉助Web伺服器或者Web瀏覽器就能夠解析和處理HTML文件。本文上篇中，我們介紹了一個可以幫助簡化開啟

WebSphere V8.5 靜默安裝升級（二）-使用響應文件靜默安裝軟件包（生成相應文件，不安裝）以及managesdk管理SDK

cep 檢查 linu 要點 pps erb platform uri 命令使用響應文件靜默安裝軟件包（生成相應文件，不安裝）：./IBMIM -record /response_files/install_product.xml -skipInstall skipIns

通過反射獲取class文件中的構造方法,運行構造方法

對象 rgs span for instance .... urn his col /* * 通過反射獲取class文件中的構造方法,運行構造方法 * 運行構造方法,創建對象 * 1、獲取class文件對象 * 2、從class文件對象中,獲取需要

html文件中引入html文件

load() blog 方式 height div query gpo 文件 () 一般用於網站提取公共部分的導航欄等第一種方式：<iframe>標簽在body標簽第一行加<iframe>標簽 <body> <ifram

Spring獲取properties文件中的屬性

https lac 整理 rop spring配置 bar BE adp snippet 1.前言本文主要是對這兩篇blog的整理，感謝作者的分享 Spring使用程序方式讀取properties文件 Spring通過@Value註解註入屬性的幾種方式 2.配

springboot入門_獲取屬性文件中的值

too type @property color 接收 tools sta version ring 在上一篇文章中，記錄了用springboot實現輸出一個hello world到前臺的程序，本文記錄學習springboot讀取屬性文件中配置信息。框架屬性文件(appl

Java學習不走彎路教程（3.從文件內容查詢開始）

輔助 pass 多說 font sys sta case index exe 一. 前言在前兩章教程中，分別介紹了DOS環境搭建和Eclipse環境搭建。本章將帶大家實現用簡單SQL語句查詢文件。註：1.本文針對初學Java的同學訓練學習思路，請不要太糾結於細節問題。2.本

在HTML文件中class名以及id名的命名規則

注意：命名不要以數字開始瞭解class與id區別及用法命名寫法： 1. 每個單詞中間以“_”隔開 #main_left_box{} 2. 駝峰命名從第二個單詞開始每個單詞的首字母大寫 #mainLeftBox{} 3. 用包含選擇器，定義元素時候能找到這個元素並且不

在HTMl文件中使用CSS

內聯樣式 <!DOCTYPE html> <html> <!-- CSS建立(讓CSS樣式表作用於文件) 外部樣式表：當樣式需要應用於

nodejs將word文件轉為html檔案（指令碼）--獲取word文件內容

本來是想寫用nodejs 或者 js 將word文件轉為html的指令碼， js在IE瀏覽器下有 new ActiveApplication 物件可以獲取文件 nodejs 獲取文件看這篇http://www.jianshu.com/p/68a420a6

Html中嵌套其他HTML文件的幾種方法（轉）

java mar net rip gin bsp ace wid style 給大家整理了3個方法，一個是HTML的iframe標簽，別兩個是JS引用。比如要在arr.html文件裏引用index.html文件，方法如下。 HTML引用方法： <iframe na

爬蟲任務二：爬取(用到htmlunit和jsoup)通過百度搜索引擎關鍵字搜取到的新聞標題和url，並保存在本地文件中（主體借鑒了網上的資料）

標題 code rgs aps snap one reader url 預處理采用maven工程，免著到處找依賴jar包 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http:

C#獲取某一路徑下的所有文件名信息（包括子文件夾）

txt 技術 ont getc des lena ssa rect cati 貼代碼了，這裏使用的是C#控制臺輸出文件名到記事本中，文件名使用逗號隔開： using System; using System.IO; namespace ConsoleApplicatio

html文件可以獲取數據，但返回碼500

val web nature 對比 mis tin lock ecc 網站目錄 Apache網站，php訪問正常，返回碼正常，html文件可以獲取數據，但返回碼500 問題環境：Apache（2.4.10），php4網站目錄下有.php以及.html 解決思路：1.重啟服務

JSP中的include（靜態包含文件）在包含html文件時，亂碼問題的解決方法。

通過 url 添加 jsp 我們 fig 推薦 ont pat 第一種辦法：就是不要include html頁面，改成include jsp頁面第二種辦法：為被包含的html文件也在第一行添加如jsp一樣的指令<%@ page lanage="java" pageE

Web開發——HTML基礎（文件和網站結構）

情況擁有 navig extern 主動 value 基本 query 搜索引擎優化　　參考：https://developer.mozilla.org/en-US/docs/Learn/HTML/Introduction_to_HTML/Document_and_we

微信小程式（看文件寫例項五）微信小程式課堂寶APP實現獲取簽到列表

根據上篇博文，這篇主要實現獲取簽到列表邏輯。獲得簽到列表主要有以下步驟：（1）查詢老師的ID （2）查詢老師的簽到記錄（3）如果當前使用者是老師，直接顯示所有記錄，因為簽到記錄都是老師發起的，肯定每次都簽到（4）如果當前使用者是學生，以老師的簽到列表作為長度，然後以ite

python3爬蟲例子02（獲取個人部落格園的文章資訊）

#!/usr/bin/env python# -*- coding:UTF-8 -*-import requestsfrom bs4 import BeautifulSoupres=requests.get("https://www.cnblogs.com/NiceTime/")# c=res.content

MFC多文件（二）：文件中獲取檢視指標

多文件系列 MFC多文件（一）：檢視中獲取文件指標 MFC多文件（二）：文件中獲取檢視指標 MFC多文件（三）：文件與檢視繫結問題文件與檢視繫結後，在文件中如何獲取檢視指標？解決方法 1、NaviMarkDo

Golang 爬蟲-廣度優先（獲取html文件中的超連結）

相關推薦