Task2|Datawhale: 論文作者統計

阿新 • • 發佈：2021-01-17

Task2:論文作者統計

import os
import seaborn as sns
from bs4 import BeautifulSoup #用於爬取arxiv資料
import re #用於正則表示式，匹配字串的模式
import requests #用於網路連線，傳送網路請求，使用域名獲取對應資訊
import json
import pandas as pd
import matplotlib.pyplot as plt

os.chdir('D:/Zoey/datawhale_20210110')

def readArxivFile 
(path,columns=['id', 'submitter', 'authors', 'title', 'comments', 
       'journal-ref', 'doi','report-no', 'categories', 'license', 'abstract', 'versions',
       'update_date', 'authors_parsed'],count=None):
    '''
    定義讀取檔案的函式
        path: 檔案路徑
        columns: 需要選擇的列
        count: 讀取行數
    ''' 
  

    data = []
    #使用with語句優勢：1.自動關閉檔案控制代碼；2.自動顯示（處理）檔案讀取資料異常
    with open(path, 'r') as f:
        for idx, line in enumerate(f):
            if idx == count:
                break
            
            d = json.loads(line)
            d = {col:d[col] for col in columns}
            data.append( 
d)
    
    data = pd.DataFrame(data)
    return data


data2 = readArxivFile('arxiv-metadata-oai-snapshot.json', ['id','authors','categories','authors_parsed','update_date'])

##### 2.1 統計所有論文作者出現頻率Top10的姓名
# 為節約時間，選擇類別為cs.CV下面的論文
data_cv = data2[data2['categories'].apply(lambda x: 'cs.CV' in x)]
# 拼接所有作者
# sum將巢狀的list轉換為list，參考https://segmentfault.com/q/1010000010514370
all_authors = sum(data_cv['authors_parsed'],[])

'''
data_cv['authors_parsed']
[[姓,名],[姓,名],[姓,名]]
[[姓,名],[姓,名]]
sum======>
all_authors 
[[姓,名],[姓,名],[姓,名]]
join=====>
authors_names
['姓 名','姓 名','姓 名']
'''

# 拼接所有作者
authors_names = [' '.join(x) for x in all_authors]
authors_names = pd.DataFrame(authors_names)

# 根據作者頻率繪製直方圖
plt.figure(figsize=(10, 6))
authors_names[0].value_counts().head(10).plot(kind='barh')

# 修改圖配置
names = authors_names[0].value_counts().index.values[:10]
_ = plt.yticks(range(0, len(names)), names)
plt.ylabel('Author')
plt.xlabel('Count')

##### 2.2 統計所有作者姓（姓名最後一個單詞）的出現頻率的Top10
authors_lastnames = [x[0] for x in all_authors]
authors_lastnames = pd.DataFrame(authors_lastnames)

plt.figure(figsize=(10, 6))
authors_lastnames[0].value_counts().head(10).plot(kind='barh')

names = authors_lastnames[0].value_counts().index.values[:10]
_ = plt.yticks(range(0, len(names)), names)
plt.ylabel('Author')
plt.xlabel('Count')

##### 2.3 統計所有作者姓第一個字元的評率
# authors_initial =  [x[0:1] for x in authors_lastnames[0]]
authors_initial = [x[0][0] for x in all_authors]
authors_initial = pd.DataFrame(authors_initial)

plt.figure(figsize=(10, 6))
authors_initial[0].value_counts().head(10).plot(kind='barh')

names = authors_initial[0].value_counts().index.values[:10]
_ = plt.yticks(range(0, len(names)), names)
plt.ylabel('Author')
plt.xlabel('Count')

# cv領域論文數量隨年份走勢
data_cv['year'] = pd.to_datetime(data_cv['update_date']).dt.year
data_cv_year = data_cv.groupby(['year']).agg({'id':'count'}).rename(columns={'id':'counts'}).reset_index()

plt.plot(data_cv_year['year'],data_cv_year['counts'])
plt.xlabel('year')
plt.ylabel('counts')
plt.title('Trend of papers in CV field')

# 設定資料標籤
for a, b in zip(data_cv_year["year"],data_cv_year["counts"]):
    plt.text(a, b+1,  '%.0f' % b, ha='center', va='bottom', fontsize=10, rotation=0)
plt.tight_layout()
plt.show()

學術前沿趨勢分析 Task2 論文作者統計筆記2

技術標籤：專案學術前沿趨勢分析文章目錄任務2：論文作者統計2.1 任務說明2.2 資料處理步驟2.3 字串處理2.4 具體程式碼實現以及講解2.4.1 資料讀取2.4.2 資料統計小小總結

Task2|Datawhale: 論文作者統計

技術標籤：筆記python資料分析 Task2:論文作者統計 import os import seaborn as sns from bs4 import BeautifulSoup #用於爬取arxiv資料

LaTex論文作者過多需換行：你只需一步

技術標籤：LaTeX經驗分享latex LaTex論文作者過多需換行：你只需一步 WrongRight Wrong

Task1：論文資料統計

學習主題：論文數量統計，統計2019年全年，計算機各個方向的論文數量。涉及到的知識點：jupyter notebook中安裝庫；json檔案的讀取；列表推導式；爬蟲；正則表示式

Task1:論文資料統計（待續...）

技術標籤：taskpython Task1:論文資料統計（待續...）一、小白的吐槽沒有任何計算機專業基礎，程式碼看不懂；（選擇先不理解）沒有Python專業,分不清楚Anaconda和pandas；（隊友解釋很給力）安裝連線：ht

Task3：論文程式碼統計（3天）

Task3：論文程式碼統計（3天）Link 學習主題：論文程式碼統計（資料統計任務），統計所有論文類別下包含原始碼論文的比例；

資料分享|R語言對論文作者研究機構、知識單元地理空間資料視覺化

全文連結：http://tecdat.cn/?p=30810 原文出處：拓端資料部落公眾號地圖本身就是視覺化的產品,並在發展過程中形成了一系列的理論與方法。這些都自然地會成為地理空間資料視覺化技術的基礎。地圖學也因視覺化方法

在論文修改了 5 次之後，院士作者終於懟了“不共戴天”的審稿人

今天這篇論文是無意間看到的，隔著螢幕都能感受到作者的絕望和憤怒。先奉上原文截圖，給大家平淡（苦逼）的科研生活甜點色彩~

Python爬蟲爬取ECVA論文標題、作者、連結

1 import re 2 import requests 3 from bs4 import BeautifulSoup 4 import lxml 5 import traceback 6 import time

作者免費分享自己論文也不行，知名學術社交網站 ResearchGate 被判侵權，此前已下架 20 萬餘篇論文

這場關於“開放獲取”的官司，最終還是出版商們打贏了。知名學術社交網站 ResearchGate 被判下架 50 篇受版權保護的論文，並被要求對侵權內容負責。起因是愛思唯爾和 ACS（美國化學學會）發現，有不少作者“偷偷”將

323 篇論文被 ACM 全部撤稿，放眼望去都是中國作者，原因竟是冒充會議

感謝網友 Sancu 的線索投遞！

python爬取CVPR論文標題、作者、pdf連結並儲存到MySQL資料庫

訪問外網，程式跑的時間會長一點，耐心等待！全部原始碼： # -*- coding = utf-8 -*-

經典分散式論文閱讀：Memcache

本文是Memcached論文的閱讀筆記，本文主要描述瞭如何使用memcached構建一個分散式鍵值儲存系統。

經典分散式論文閱讀：Frangipani

本文是Frangipani論文的閱讀筆記，Frangipani是一個建立在Petal之上的分散式檔案系統，採用分散式鎖來保證一致性。其中Petal是一個增量擴充套件、高可用可以自動管理的分散式虛擬磁碟。

經典分散式論文閱讀：Naiad

本文是Naiad論文的閱讀筆記，Naiad是一個執行迴圈並行資料流程式的分散式系統，提供了高吞吐批量處理、低延遲流式處理、迭代計算和增量計算等特性。

開發 Django 部落格文章閱讀量統計功能

作者：HelloGitHub-追夢人物文中所涉及的示例程式碼，已同步更新到 HelloGitHub-Team 倉庫

告別硬編碼，mysql 如何實現按某欄位的不同取值進行統計

上週我突然意識到，我在grafana上寫的 sql 語句存在多處硬編碼。這篇筆記將記錄如何實現沒有硬編碼的 sql 語句，以及自學程式設計過程中如何應對自己的笨拙程式碼和難題不斷的狀況。

基於統計的預警：同環比預警實現深度剖析

摘要：UAV.Monitor提供了對全維監控指標的預警功能，各型別的監控指標均可配置預警策略，當預警策略被觸發後，可通過郵件、HTTP呼叫等方式進行通知報警，並會根據預警時間頻率等對報警動作進行壓制。

mit6824-lab1 讀論文

MapReduce 論文公佈自 2003 MapReduce: Simplified Data Processingn。在這之前 google 每天已經有大量的資料需要處理。MapReduce 的誕生讓程式設計師在面對大資料量環境下只需要專注於實現業務邏輯，並在一定程度上

經典分散式論文閱讀：Dynamo

本文是Dynamo論文的閱讀筆記，Dynamo是亞馬遜的高可用鍵值資料庫。在大規模叢集中，各類故障是家常便飯，Dynamo的設計目標是在大規模叢集中降低一致性要求，實現高效能和高可用。

Task2|Datawhale: 論文作者統計

Task2:論文作者統計

相關推薦