Python3 實現爬取網站下所有URL方式

阿新 • • 發佈：2020-01-17

獲取首頁元素資訊：

目標 test_URL：http://www.xxx.com.cn/

首先檢查元素，a 標籤下是我們需要爬取得連結，通過獲取連結路徑，定位出我們需要的資訊

soup = Bs4(reaponse.text,"lxml")
urls_li = soup.select("#mainmenu_top > div > div > ul > li")

首頁的URL連結獲取：

完成首頁的URL連結獲取，具體程式碼如下：

'''
遇到不懂的問題？Python學習交流群：821460695滿足你的需求，資料都已經上傳群檔案，可以自行下載！
'''
def get_first_url():
  list_href = []
  reaponse = requests.get("http://www.xxx.com.cn",headers=headers)
  soup = Bs4(reaponse.text,"lxml")
  urls_li = soup.select("#mainmenu_top > div > div > ul > li")
  for url_li in urls_li:
    urls = url_li.select("a")
    for url in urls:
      url_href = url.get("href")
      list_href.append(head_url+url_href)
      out_url = list(set(list_href))
  for reg in out_url:
    print(reg)

遍歷第一次返回的結果：

從第二步獲取URL的基礎上，遍歷請求每個頁面，獲取頁面中的URL連結，過濾掉不需要的資訊

具體程式碼如下：

def get_next_url(urllist):
  url_list = []
  for url in urllist:
    response = requests.get(url,headers=headers)
    soup = Bs4(response.text,"lxml")
    urls = soup.find_all("a")
    if urls:
      for url2 in urls:
        url2_1 = url2.get("href")
        if url2_1:
          if url2_1[0] == "/":
            url2_1 = head_url + url2_1
            url_list.append(url2_1)
            if url2_1[0:24] == "http://www.xxx.com.cn":
              url2_1 = url2_1
              url_list.append(url2_1)
            else:
              pass
          else:
            pass
        else:
          pass
    else:
      pass
  url_list2 = set(url_list)
  for url_ in url_list2:
    res = requests.get(url_)
    if res.status_code ==200:
      print(url_)
  print(len(url_list2))

遞迴迴圈遍歷：

遞迴實現爬取所有url，在get_next_url()函式中呼叫自身，程式碼如下：

get_next_url(url_list2)

全部程式碼如下：

import requests
from bs4 import BeautifulSoup as Bs4

head_url = "http://www.xxx.com.cn"
headers = {
  "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML,like Gecko) Chrome/72.0.3626.121 Safari/537.36"
}
def get_first_url():
  list_href = []
  reaponse = requests.get(head_url,"lxml")
  urls_li = soup.select("#mainmenu_top > div > div > ul > li")
  for url_li in urls_li:
    urls = url_li.select("a")
    for url in urls:
      url_href = url.get("href")
      list_href.append(head_url+url_href)
      out_url = list(set(list_href))
  return out_url


def get_next_url(urllist):
  url_list = []
  for url in urllist:
    response = requests.get(url,"lxml")
    urls = soup.find_all("a")
    if urls:
      for url2 in urls:
        url2_1 = url2.get("href")
        if url2_1:
          if url2_1[0] == "/":
            url2_1 = head_url + url2_1
            url_list.append(url2_1)
            if url2_1[0:24] == "http://www.xxx.com.cn":
              url2_1 = url2_1
              url_list.append(url2_1)
            else:
              pass
          else:
            pass
        else:
          pass
    else:
      pass
  url_list2 = set(url_list)
  for url_ in url_list2:
    res = requests.get(url_)
    if res.status_code ==200:
      print(url_)
  print(len(url_list2))
  get_next_url(url_list2)


if __name__ == "__main__":
  urllist = get_first_url()
  get_next_url(urllist)

以上這篇Python3 實現爬取網站下所有URL方式就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支援我們。

Python3 實現爬取網站下所有URL方式

獲取首頁元素資訊：目標 test_URL：http://www.xxx.com.cn/ 首先檢查元素，a 標籤下是我們需要爬取得連結，通過獲取連結路徑，定位出我們需要的資訊

python3 實現爬取TOP500的音樂資訊並存儲到mongoDB資料庫中

爬取TOP500的音樂資訊，包括排名情況、歌曲名、歌曲時間。網頁版酷狗不能手動翻頁進行下一步的瀏覽，仔細觀察第一頁的URL：

Excel操作-用excel實現爬取網站上表格資料

Excel下，資料-獲取資料-自網站輸入網站，即可選擇想要抓取的資料。抓取資料要定期更新，可以找到重新整理-連結屬性，設定重新整理頻率。

Python3直接爬取圖片URL並儲存示例

有時候我們會需要從網路上爬取一些圖片，來滿足我們形形色色直至不可描述的需求。

python爬蟲使用正則爬取網站的實現

本文章的所有程式碼和相關文章，僅用於經驗技術交流分享，禁止將相關技術應用到不正當途徑，濫用技術產生的風險與本人無關。

python繞過圖片滑動驗證碼實現爬取PTA所有題目功能附原始碼

最近學了python爬蟲，本著學以致用的態度去應用在生活中。突然發現演算法的考試要來了，範圍就是PTA刷過的題。讓我一個個複製貼上？不可能，必須爬它！

python爬蟲實現爬取同一個網站的多頁資料的例項講解

對於一個網站的圖片、文字音視訊等，如果我們一個個的下載，不僅浪費時間，而且很容易出錯。Python爬蟲幫助我們獲取需要的資料，這個資料是可以快速批量的獲取。本文小編帶領大家通過python爬蟲獲取獲取總頁數並更改

Python用正則表示式實現爬取古詩文網站資訊

目錄分析古詩文1. 用正則表示式獲取總頁數2. 提取詩的標題3. 提取作者和朝代4. 提取詩的內容整理程式碼完整原始碼總結分析古詩文網站

python實現爬取小說網站文字

簡單記錄一次python爬取某小說網站小說的操作 #!/usr/bin/python # -*- coding:utf-8 -*- import urllib.request

Java爬取網站原始碼和連結程式碼例項

1. 網路爬蟲是一個自動提取網頁的程式，它為搜尋引擎從全球資訊網上下載網頁，是搜尋引擎的重要組成。傳統爬蟲從一個或若干初始網頁的URL開始，獲得初始網頁上的URL，在抓取網頁的過程中，不斷從當前頁面上抽取新的U

Python基於requests庫爬取網站資訊

requests庫是一個簡介且簡單的處理HTTP請求的第三方庫 get()是獲取網頁最常用的方式，其基本使用方式如下

Python如何實現爬取B站視訊

5月3日晚，央視在《新聞聯播》前播放了B站青年宣言片《後浪》，這是B站首次登陸央視黃金時段，今天在朋友圈陸續看到相關的視訊。最早用B站的同學都知道，B站是和A站以異曲同工的鬼畜視訊及動漫，進入到大眾視野的非主

SpringBoot中使用Jsoup爬取網站資料的方法

爬取資料匯入jar包 <properties> <java.version>1.8</java.version> <elasticsearch.version>7.6.1</elasticsearch.version>

Python實現爬取並分析電商評論

　　現如今各種APP、微信訂閱號、微博、購物網站等網站都允許使用者發表一些個人看法、意見、態度、評價、立場等資訊。針對這些資料，我們可以利用情感分析技術對其進行分析，總結出大量的有價值資訊。例如對商品評論

Python3.8爬天氣網站資訊，並儲存為CSV(11)

import requests import csv import random import time import socket import http.client from bs4 import BeautifulSoup

scrapy爬取網站案例

scrapy爬取網站案例爬取抽屜網資料，存到Redis和MySQL中，實現持久化 Mysql實現 # settings.py

python 爬取頁面所有的url

#coding=utf-8 import openpyxl # -*- coding: GBK -*- from selenium import webdriver import urllib.request import re

Java使用WebMagic 爬取網站

安裝這裡使用maven進行安裝。根據maven下載相關的包 <dependency> <groupId>us.codecraft</groupId>

Python實現爬取網頁中動態載入的資料

在使用python爬蟲技術採集資料資訊時，經常會遇到在返回的網頁資訊中，無法抓取動態載入的可用資料。例如，獲取某網頁中，商品價格時就會出現此類現象。如下圖所示。本文將實現爬取網頁中類似的動態載入的資料。

python3爬蟲爬取網頁圖片簡單示例

2019獨角獸企業重金招聘Python工程師標準>>> 本人也是剛剛開始學習python的爬蟲技術，然後本來想在網上找點教程來看看，誰知道一搜索，大部分的都是用python2來寫的，新手嘛，一般都喜歡裝新版

Python3 實現爬取網站下所有URL方式

相關推薦