python3 爬取網頁表格例子

阿新 • • 發佈：2018-11-11

很簡潔明瞭的爬蟲例子，分享給大家

#網址如下：http://www.maigoo.com/news/463071.html
from bs4 import BeautifulSoup  

import requests  
import csv  
import bs4  
  
#檢查url地址  
def check_link(url):  
    try:  
          
        r = requests.get(url)  
        r.raise_for_status()  
        r.encoding = r.apparent_encoding  
        return r.text  
    except:  
        print('無法連結伺服器！！！')  
   
#爬取資源  
def get_contents(ulist,rurl):  
    soup = BeautifulSoup(rurl,'lxml')  
    trs = soup.find_all('tr')  
    for tr in trs:  
        ui = []  
        for td in tr:  
            ui.append(td.string)  
        ulist.append(ui) 
      
#儲存資源  
def save_contents(urlist):
    try:  
        with open("資料.csv",'w') as f:  
            writer = csv.writer(f)  
            writer.writerow(['2016年中國企業500強排行榜'])  
            for i in range(len(urlist)):  
                writer.writerow([urlist[i][1],urlist[i][3],urlist[i][5]]) 
    except:
        pass 
 
def main():  
    urli = []  
    url = "http://www.maigoo.com/news/463071.html"  
    rs = check_link(url)  
    get_contents(urli,rs)  
    save_contents(urli)  
  

main()

結果如下：

2016年中國企業500強排行榜
名次 , 企業名稱 , 營業收入(萬元)
1 , 國家電網公司 , 207134945
2 , 中國石油天然氣集團公司 , 188073616
3 , 中國石油化工集團公司 , 184977795
4 , 中國工商銀行股份有限公司 , 107983800
5 , 中國建設銀行股份有限公司 , 92587800

原文連結：https://blog.csdn.net/weixin_41059146/article/details/78605081

python3 爬取網頁表格例子

很簡潔明瞭的爬蟲例子，分享給大家

Selenium學習三——利用Python爬取網頁表格資料並存到excel

利用Python爬取網頁表格資料並存到excel 1、具體要求：讀取教務系統上自己的成績單，並儲存到本地的excel中 2、技術要求：利用Selenium+Python獲取網頁，自動登陸並操作到成績單頁面通過xlwt模組，將表格儲存到本地excel （其中xlwt

python3 爬取網頁的異常處理

有時候python爬取的網頁會出現異常，我們需要新增異常處理我們主要說明一下URLError和HTTPError URLError 首先解釋下URLError可能產生的原因：網路無連線，即

Jsoup簡單例子——爬取網頁內的郵箱

一、前言 Jsoup 是一款Java 的HTML解析器，可直接解析某個URL地址、HTML文字內容。它提供了一套非常省力的API，可通過DOM，CSS以及類似於jQuery的操作方法來取出和操作資料。主要功能： 1）從一個URL，檔案或字串中解析HTM

Jsoup簡單例子2.0——多執行緒爬取網頁內的郵箱

上一篇文章講了利用Jsoup爬取貼吧帖子裡的郵箱，雖然爬取成功了，但我對效率有所追求。10頁的帖子爬取了兩百多個郵箱，最快用時8秒，一般需要9秒。在思考了一下怎麼提升效率後，決定採用多執行緒的方式爬取網頁內的郵箱。廢話不多說，直接上程式碼。引入Jsoup的jar包此處省略，沒有的可以檢視上篇文

爬蟲——爬取網頁資料存入表格

最近由於個人需要，從相關書籍以及網上資料進行爬蟲自學，目標網址為http://mzj.beijing.gov.cn，對其內容進行整理篩選，存入excel格式。首先是對錶格的內容進行設定，編碼格式定義為utf-8，新增一個sheet的表格，其中head為表頭的內容，定義之後，利用sheet.wr

Python爬取網頁資料並匯入表格

import requests import time import random import socket import http.client from bs4 import BeautifulSoup import csv def getContent(url

python3爬蟲爬取網頁圖片簡單示例

本人也是剛剛開始學習python的爬蟲技術，然後本來想在網上找點教程來看看，誰知道一搜索，大部分的都是用python2來寫的，新手嘛，一般都喜歡裝新版本。於是我也就寫一個python3簡單的爬蟲，爬蟲一下貼吧的圖片吧。話不多說，我們開始。首先簡單來說說一下知識。一

python爬取網頁中文亂碼。解決方案。python3

``` r = requests.get('http://www.xxxxxxxxxxxxxxx.html') print(r.text) ``` 初次試寫python爬蟲爬取網頁小說，在第一個網站的時候沒問題第二個網站竟然中文亂碼很是尷尬多方求助

python3定向爬取網頁內容

import requests import bs4 from bs4 import BeautifulSoup def getHTMLText(url): # 獲取網頁內容 try: r = requests.get(url, timeout=30) r.ra

Python3~爬取某翻譯網頁的單詞與解釋

from urllib import request from bs4 import BeautifulSoup import ssl ssl._create_default_https_context=ssl._create_unverified_context #一、

爬取網頁的兩種方法（python3）

'''一''' import urllib.request response=urllib.request.urlopen("http://www.baidu.com/") html=response.read() print(html.decode("utf8")) '''二''' import urlli

Selenium學習四——利用Python爬取網頁多個頁面的表格資料並存到已有的excel中

利用Python爬取網頁多個頁面的表格資料並存到已有的excel中 1、具體要求獲取牛客網->題庫->線上程式設計->劍指Offer網頁，獲取表格中的全部題目，儲存到本地excel中 2、技術要求利用Selenium+Python獲取網頁，操

一個鹹魚的Python爬蟲之路（三）：爬取網頁圖片

you os.path odin 路徑生成存在 parent lose exist 學完Requests庫與Beautifulsoup庫我們今天來實戰一波，爬取網頁圖片。依照現在所學只能爬取圖片在html頁面的而不能爬取由JavaScript生成的圖。所以我找了這個網站

常用正則表達式爬取網頁信息及HTML分析總結

logfile mpi 開始 order 標題 ear 爬取網頁常用 enter Python爬取網頁信息時，經常使用的正則表達式及方法。 1.獲取<tr></tr>標簽之間內容 2.獲取<a href..></a>超鏈接

python+selenium+PhantomJS爬取網頁動態加載內容

use for ive comm 自動化測試 mac os x page 影響 blank 一般我們使用python的第三方庫requests及框架scrapy來爬取網上的資源，但是設計javascript渲染的頁面卻不能抓取，此時，我們使用web自動化測試化工具Selen

python爬取網頁圖片

ima com col list https pytho 表達式 images 5% 在Python中使用正則表達式，一個小小的爬蟲，抓取百科詞條網頁的jpg圖片。下面就是我的代碼，作為參考： #coding=utf-8 # __author__ = ‘Hinfa‘ im

使用Post方法模擬登陸爬取網頁(轉)

source tin -m quest exc agen false buffered void 使用Post方法模擬登陸爬取網頁最近弄爬蟲，遇到的一個問題就是如何使用post方法模擬登陸爬取網頁。下面是極簡版的代碼： import java

python3 爬取圖片

.com ret reg eve code Coding aid quest fin #coding=utf-8import urllib.requestimport redef getHtml(url): page = urllib.request.urlopen(

簡單的爬取網頁圖片

baidu alt idt ima 修改利用表達輸入 html import reimport urllib.request# ------ 獲取網頁源代碼的方法 ---def getHtml(url): page = urllib.request.urlope

python3 爬取網頁表格例子

很簡潔明瞭的爬蟲例子，分享給大家

相關推薦