Python如何使用BeautifulSoup爬取網頁資訊

阿新 • • 發佈：2020-01-09

這篇文章主要介紹了Python如何使用BeautifulSoup爬取網頁資訊,文中通過示例程式碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

簡單爬取網頁資訊的思路一般是

1、檢視網頁原始碼

2、抓取網頁資訊

3、解析網頁內容

4、儲存到檔案

現在使用BeautifulSoup解析庫來爬取刺蝟實習Python崗位薪資情況

一、檢視網頁原始碼

這部分是我們需要的內容，對應的原始碼為：

分析原始碼，可以得知：

1、崗位資訊列表在<section class="widget-job-list">中

2、每條資訊在<article class="widget item">中

3、對於每條資訊，我們需要提取出的內容是公司名稱，職位，薪資

二、抓取網頁資訊

使用request.get()抓取，返回的soup是網頁的文字資訊

def get_one_page(url):
  response = requests.get(url)
  soup = BeautifulSoup(response.text,"html.parser")
  return soup

三、解析網頁內容

1、找到起始位置<section>

2、在<article>中匹配到各項資訊

3、返回資訊列表用以儲存

def parse_page(soup):
  #待儲存的資訊列表
  return_list = []
  #起始位置
  grid = soup.find('section',attrs={"class": "widget-job-list"})
  if grid:
    #找到所有的崗位列表
    job_list = soup.find_all('article',attrs={"class": "widget item"})

    #匹配各項內容
    for job in job_list:
      #find()是尋找第一個符合的標籤
      company = job.find('a',attrs={"class": "crop"}).get_text().strip()#返回型別為string，用strip（）可以去除空白符，換行符
      title = job.find('code').get_text()
      salary = job.find('span',attrs={"class": "color-3"}).get_text()
      #將資訊存到列表中並返回
      return_list.append(company + " " + title + " " + salary)
  return return_list

四、儲存到檔案

將列表資訊儲存到shixi.csv檔案中

def write_to_file(content):
  #以追加的方式開啟，設定編碼格式防止亂碼
  with open("shixi.csv","a",encoding="gb18030")as f:
    f.write("\n".join(content))

五、爬取多頁資訊

在網頁url中可以看到最後的page代表的是頁數資訊

所以在main方法中傳入一個page，然後迴圈執行main(page)就可以爬取多頁資訊了

def main(page):
  url = 'https://www.ciweishixi.com/search?key=python&page=' + str(page)
  soup = get_one_page(url)
  return_list = parse_page(soup)
  write_to_file(return_list)
if __name__ == "__main__":
  for i in range(4):
    main(i)

六、執行結果

七、完整程式碼

import requests
import re
from bs4 import BeautifulSoup

def get_one_page(url):
  response = requests.get(url)
  soup = BeautifulSoup(response.text,"html.parser")
  return soup

def parse_page(soup):
  #待儲存的資訊列表
  return_list = []
  #起始位置
  grid = soup.find('section',attrs={"class": "color-3"}).get_text()
      #將資訊存到列表中並返回
      return_list.append(company + " " + title + " " + salary)
  return return_list

def write_to_file(content):
  #以追加的方式開啟，設定編碼格式防止亂碼
  with open("shixi.csv",encoding="gb18030")as f:
    f.write("\n".join(content))
def main(page):
  url = 'https://www.ciweishixi.com/search?key=python&page=' + str(page)
  soup = get_one_page(url)
  return_list = parse_page(soup)
  write_to_file(return_list)
if __name__ == "__main__":
  for i in range(4):
    main(i)

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支援我們。

Python如何使用BeautifulSoup爬取網頁資訊

Python爬取網頁資訊的示例

Python爬取網頁資訊的步驟以爬取英文名字網站（https://nameberry.com/）中每個名字的評論內容，包括英文名，使用者名稱，評論的時間和評論的內容為例。

python爬蟲實現爬取網頁主頁資訊（html程式碼）

技術標籤：pythonweb python爬蟲實現爬取網頁主頁資訊（html程式碼） 1.爬取網站原始碼

Python3爬蟲學習之MySQL資料庫儲存爬取的資訊詳解

本文例項講述了Python3爬蟲學習之MySQL資料庫儲存爬取的資訊。分享給大家供大家參考，具體如下：

Python基於requests庫爬取網站資訊

requests庫是一個簡介且簡單的處理HTTP請求的第三方庫 get()是獲取網頁最常用的方式，其基本使用方式如下

Python基於pandas爬取網頁表格資料

以網頁表格為例：https://www.kuaidaili.com/free/ 該網站資料存在table標籤，直接用requests，需要結合bs4解析正則/xpath/lxml等，沒有幾行程式碼是搞不定的。

Python爬蟲爬取新聞資訊案例詳解

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,版權歸原作者所有,如有問題請及時聯絡我們以作處理。

只要30行程式碼！7步教會你Python爬取網頁抖音熱門視訊

前言抖音短視訊相信大家都聽過，也不陌生對吧！可以看到海量的短視訊，涵蓋了各大行業。個人覺得抖音有毒，刷著刷著根本停不下來，一看時間就是凌晨3、4點。今天帶大家爬取抖音網頁版的視訊資料！一睹為快吧

利用python爬取網頁圖片

\"\"\"利用python爬取網頁圖片\"\"\" import requests import urllib from bs4 import BeautifulSoup import json

python如何爬取網頁中的文字

用Python進行爬取網頁文字的程式碼： #!/usr/bin/python # -*- coding: UTF-8 -*- import requests

java.net.*爬取網頁，Jsoup解析網頁內容

java.net.* 建立網路連線 Jsoup解析網頁內容 package com.sun.util; import java.io.BufferedReader;

PHP爬取網頁的主要方法，你掌握了嗎

這篇文章講的是PHP爬取網頁的主要方法，主要流程就是獲取整個網頁，然後正則匹配（關鍵的）。

爬取網頁資料例項

爬取拉勾網招聘的職位拉勾網，網址：https://www.lagou.com/ 比如我們要搜尋python的職位

Python實現爬取網頁中動態載入的資料

在使用python爬蟲技術採集資料資訊時，經常會遇到在返回的網頁資訊中，無法抓取動態載入的可用資料。例如，獲取某網頁中，商品價格時就會出現此類現象。如下圖所示。本文將實現爬取網頁中類似的動態載入的資料。

python 爬取網頁天天基金

# encoding=utf-8 import pandas as pd import requests from lxml import etree import re import collections def fund_code_name():

python Selenium 和 PyAutoGUI合璧爬取網頁攻略

前一段時間在做關於美國請願網站的研究，需要爬取change.org這個請願網站上每個請願的資訊。大致爬蟲順序是：先爬取每個標籤下所有請願的名字和具體網址，訪問每個具體網址爬取請願的發起時間、內容等資訊。這裡就需

使用Java Jsoup爬取網頁內容（存入本地並從本地讀取）

GetPageInfo獲取資料、存入本地、從本地讀取資料 import lombok.SneakyThrows; import org.jsoup.Connection;

另類Python爬蟲，利用pandas庫的read_html()方法爬取網頁表格型資料

文章目錄一、簡介二、原理三、爬取實戰例項1 例項2 一、簡介很多人學習python，不知道從何學起。很多人學習python，掌握了基本語法過後，不知道在哪裡尋找案例上手。很多已經做案例的人，卻不知道

爬蟲爬取網頁圖片（分頁）

爬蟲爬取網頁圖片（分頁）不分頁原始碼： import requests import re url = \'https://www.qiushibaike.com/imgrank/\'

python爬蟲爬取網頁資料並解析資料

1.網路爬蟲的基本概念網路爬蟲（又稱網路蜘蛛，機器人），就是模擬客戶端傳送網路請求，接收請求響應，一種按照一定的規則，自動地抓取網際網路資訊的程式。

Python如何使用BeautifulSoup爬取網頁資訊

相關推薦