2020年《財富》中國500強排行榜資料爬取，看看都有哪些

阿新 • • 發佈：2020-11-12

前言

一個簡單的demo，python爬蟲，其實是以前的存貨，很久很久沒有寫爬蟲了，渣渣更渣了啊！

爬取財富中文網，2020年《財富》中國500強排行榜相關資料，資料都在網頁原始碼裡，結構也比較清晰，基本上一個請求頁面可以搞定所有資料，一個老哥要的資料，用來做資料分析！

新人可以用來練手的網站，這裡給出參考demo，僅供參考和學習使用！

fake_useragent庫本地使用

來自於吾愛破解網站（ID：jxt441621944）上的分享，fake_useragent庫也是本渣渣比較喜歡使用的一個庫，比較方便吧，好用倒也說不上，看著用吧，fake_useragent庫本地使用方法，這裡給大家整理和打包了一下！

UserAgent就是使用者代{過}{濾}理，是一串字串，相當於是瀏覽器的身份證明，在寫爬蟲的時候頻繁更換請求頭中的UserAgent可以避免觸發反爬機制（配合代{過}{濾}理IP食用更佳）。

fake_useragent就是可以獲得一個隨機的使用者代{過}{濾}理的庫。

fake_useragent庫總共250條UA!

UA庫檔案：fake_ua.txt

py呼叫檔案：fakeua.py

import random

with open('fake_ua.txt', 'r') as f:
    fake_ua = [fua.strip() for fua in f.readlines()]

 
print(random.choice(fake_ua))

python爬蟲2020年《財富》中國500強排行榜資料爬取demo

import requests,random
from lxml import etree
import xlsxwriter


class Httprequest(object):
    ua_list = [
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1',
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.103 Safari/537.36Chrome 17.0 
',
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11',
        'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:6.0) Gecko/20100101 Firefox/6.0Firefox 4.0.1',
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1',
        'Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
        'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
        'Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11',
    ]
    @property  #把方法變成屬性的裝飾器
    def random_headers(self):
        return {
            'User-Agent': random.choice(self.ua_list)
        }


class Get_data(Httprequest):
    def __init__(self):
        self.url="http://www.fortunechina.com/fortune500/c/2020-07/27/content_369925.htm"
        self.murl="http://www.fortunechina.com/fortune500/c/2020-05/18/content_365275.htm"

    def get_data(self):
        html=requests.get(self.url,headers=self.random_headers,timeout=5).content.decode('utf-8')
        #print(html)
        req = etree.HTML(html)
        rankings=req.xpath('//table[@class="wt-table"]/tbody/tr/td[1]/text()')
        last_rankings=req.xpath('//table[@class="wt-table"]/tbody/tr/td[2]/text()')
        companys=req.xpath('//table[@class="wt-table"]/tbody/tr/td[3]/a/text()')
        incomes=req.xpath('//table[@class="wt-table"]/tbody/tr/td[4]/text()')
        profits=req.xpath('//table[@class="wt-table"]/tbody/tr/td[5]/text()')
        # print(ranking)
        # print(last_ranking)
        # print(company)
        # print(income)
        # print(profit)
        data_list=[]
        for ranking,last_ranking,company,income,profit in zip(
                rankings, last_rankings, companys, incomes, profits
        ):
            data = [
                ranking,last_ranking,company,income,profit
            ]

            print(data)
            data_list.append(data)
        print('\n')

        self.write_to_xlsx(data_list)



    def write_to_xlsx(self, data_list):
        workbook = xlsxwriter.Workbook('{}_search_results.xlsx'.format("2020年《財富》中國500強排行榜"))  # 建立一個Excel檔案
        worksheet = workbook.add_worksheet("2020年《財富》中國500強排行榜")
        title = ['排名', '上年排名', '公司名稱（中文）', '營業收入（百萬元）', '利潤（百萬元）']  # 表格title
        worksheet.write_row('A1', title)
        for index, data in enumerate(data_list):
            # content = content.rstrip()
            # keyword, rank, include_num, chart_url, title, game_id, company_num, long_words_num = data
            num0 = str(index + 2)
            row = 'A' + num0
            # data = [name, size, game_id]
            worksheet.write_row(row, data)
        workbook.close()


    def get_mdata(self):
        html=requests.get(self.murl,headers=self.random_headers,timeout=5).content.decode('utf-8')
        #print(html)
        req = etree.HTML(html)
        rankings=req.xpath('//table[@class="wt-table"]/tbody/tr/td[1]/text()')
        companys=req.xpath('//table[@class="wt-table"]/tbody/tr/td[2]/a/text()')
        incomes=req.xpath('//table[@class="wt-table"]/tbody/tr/td[3]/text()')
        profits=req.xpath('//table[@class="wt-table"]/tbody/tr/td[4]/text()')
        data_list=[]
        for ranking,company,income,profit in zip(
                rankings,companys, incomes, profits
        ):
            data = [
                ranking,company,income,profit
            ]

            print(data)
            data_list.append(data)
        print('\n')

        self.write_to_mxlsx(data_list)


    def write_to_mxlsx(self, data_list):
        workbook = xlsxwriter.Workbook('{}_search_results.xlsx'.format("2020年《財富》美國500強排行榜"))  # 建立一個Excel檔案
        worksheet = workbook.add_worksheet("2020年《財富》美國500強排行榜")
        title = ['排名', '公司名稱（中文）', '營業收入（百萬美元）', '利潤（百萬美元）']  # 表格title
        worksheet.write_row('A1', title)
        for index, data in enumerate(data_list):
            # content = content.rstrip()
            # keyword, rank, include_num, chart_url, title, game_id, company_num, long_words_num = data
            num0 = str(index + 2)
            row = 'A' + num0
            # data = [name, size, game_id]
            worksheet.write_row(row, data)
        workbook.close()


if __name__=="__main__":
    spider=Get_data()
    #spider.get_data()
    spider.get_mdata()

2020年《財富》中國500強排行榜資料爬取，看看都有哪些

前言一個簡單的demo，python爬蟲，其實是以前的存貨，很久很久沒有寫爬蟲了，渣渣更渣了啊！

世界品牌實驗室釋出 2021 年世界品牌 500 強：騰訊位列中國第二，華為第五

12 月 8 日訊息，由世界品牌實驗室 (World Brand Lab) 獨家編制的 2021 年度 (第十八屆)《世界品牌 500 強》排行榜於 12 月 7 日在美國紐約揭曉。谷歌、亞馬遜、微軟、蘋果排前四。美國入選最多，佔據 500 強中的 1

2020年電工（高階）考試資料及電工（高階）模擬試題

題庫來源：安全生產模擬考試一點通公眾號小程式 2020年電工（高階）考試資料及電工（高階）模擬試題，包含電工（高階）考試資料答案和解析及電工（高階）模擬試題練習。由安全生產模擬考試一點通公眾號結合

2020年10月程式語言排行榜（TIOBE Index for October 2020）

October Headline: Python is getting closer to the second position Python conquered the third position in the TIOBE index last year, but its popularity is still rising. This month it has reac

2020年10月程式語言排行榜：C 語言居首，Python 將超過 Java

Tiobe 本週釋出了 2020 年 10 月份的分析報告，結果顯示，榜單前十位沒有大的變化，C 語言連續第三個月蟬聯第一，Java 和 Python 仍緊隨其後。

2020年電工（初級）考試資料及電工（初級）找答案

題庫來源：安全生產模擬考試一點通公眾號小程式 2020年電工（初級）考試資料及電工（初級）找答案，包含電工（初級）考試資料答案和解析及電工（初級）找答案練習。由安全生產模擬考試一點通公眾號結合國家

2020年10月程式語言排行榜出爐！python進步神速

7日TIOBE公佈了2020年10月程式語言排行榜。官方標題為：Python正接近第二名。其中Python的受歡迎程度已經十分逼近排在第二位的Java，本月排名率為11.28%，達到歷史新高。

2020年10月程式語言排行榜：C語言穩居第一，Python或即將超Java

TIOBE已公佈2020年10月的程式語言排行榜。C語言依然排行第一了，隨後分別是Java、Python、C++、C#。前20名排行如下：

2020年G3鍋爐水處理考試資料及G3鍋爐水處理證考試

題庫來源：安全生產模擬考試一點通公眾號小程式 2020年G3鍋爐水處理考試資料及G3鍋爐水處理證考試，包含G3鍋爐水處理考試資料答案和解析及G3鍋爐水處理證考試練習。由安全生產模擬考試一點通公眾號結合國家

任天堂釋出2020年日服Switch下載排行榜動森奪冠

任天堂近日在日本官方網站公佈了2020年該地區eShop下載遊戲排行榜，在公佈的30款遊戲當中，《集合啦！動物森友會》拔得頭籌，成為日本地區去年下載量最高的Switch遊戲。具體排名如下：

2020 年 Q4 中國可穿戴裝置市場份額排行：華為、小米、蘋果、OPPO、步步高前五

3月12日訊息今日，IDC 釋出了 2020 年第四季度中國可穿戴裝置市場季度跟蹤報告。

2020 年上半年中國公有云市場收入達 416 億美元，阿里、騰訊、華為位列前三

3月12日訊息據 IDC 釋出的《中國公有云服務市場（2020 上半年）跟蹤》顯示，2020 年上半年，中國公有云市場收入達到 416 億美元，同比增長 58.4%。中國公有云服務整體市場規模（IaaS/PaaS/SaaS）達到 84 億美元，同比

2020 年出貨量近 1.1 億臺，中國可穿戴市場的三個發展機遇

3 月 12 日，IDC 釋出《中國可穿戴裝置市場季度跟蹤報告，2020 年第四季度》。報告顯示，2020 年中國可穿戴裝置市場出貨量接近 1.1 億臺，同比增長 7.5%。

IDC：2020 年 Q4 中國智慧家居裝置市場出貨量達 6087 萬臺

3月25日訊息今日，IDC 釋出的《中國智慧家居裝置市場季度跟蹤報告，2020 年第四季度》顯示，2020 年第四季度中國智慧家居裝置市場出貨量為 6,087 萬臺，同比增長 6.0%，銷售額為 130 億美元，同比增長 4.4%。

2021 《財富》美國 500 強榜單出爐，蘋果重回“最賺錢公司”，微軟第二

6 月 2 日訊息財富中文網於北京時間 6 月 2 日與英文網全球同步釋出 2021 年《財富》美國 500 強排行榜。2020 年，這些美國最大企業的總利潤為 8586 億美元，與去年相比大幅減少 29.8%，是 2009 年以來最大的降幅。

2020 年蘋果 App Store 生態銷售額 6430 億美元，中國佔 47%

6 月 3 日訊息美國 Analysis Group（安諾析思國際諮詢公司）今天釋出了一項關於蘋果 App Store 生態的一項獨立研究，該研究名為《App Store 生態系統的全球視點》，在研究中，經濟學家發現，過去一年中，App Store

2021 胡潤中國 500 強釋出：騰訊、臺積電、阿里巴巴、位元組跳動、寧德時代前五，華為第七

1 月 19 日訊息，今日，胡潤研究院釋出了《2021 胡潤中國 500 強》。騰訊控股、臺灣積體電路製造（臺積電）、阿里巴巴、位元組跳動、寧德時代、美團、華為、螞蟻集團、京東集團、中國平安保險位列前十位。其中，騰訊

2020年7月24日 100以內猜數字，統計次數

/* 4、隨機生成一個100以內的整數，猜數字遊戲從鍵盤輸入數，如果大了提示，大了，如果小了，提示小了，如果對了，就不再猜了，

激增！2020 年 Q3 全球 App 收入超 290 億美元，王者榮耀、PUBG 總收入前二

Sensor Tower 最新公佈的報告顯示，今年三季度全球移動 App 開支（包括 App Store 和谷歌 Play）達到 293 億美元，首次安裝量達到 365 億次。相比 2019 年三季度兩個數字都有攀升，去年移動使用者開支約為 222 億美元

2020 年手機市場：小米、OV 強勢進入，三星成最大輸家

今年相較於上一年，全球多個品牌的智慧手機出貨量均有下跌。其中，三星以三千五百萬部的跌幅暫為跌幅第一，而非可能面臨晶片供應不足的華為，這讓市場頗感意外。

2020年《財富》中國500強排行榜資料爬取，看看都有哪些

前言

fake_useragent庫本地使用

python爬蟲2020年《財富》中國500強排行榜資料爬取demo

相關推薦