學術前沿趨勢分析 Task2 論文作者統計筆記2

阿新 • • 發佈：2021-01-15

技術標籤：專案學術前沿趨勢分析

文章目錄

任務2：論文作者統計

任務2：論文作者統計

2.1 任務說明

任務主題：論文作者統計，統計所有論文作者出現評率Top10的姓名；
任務內容：論文作者的統計、使用 Pandas 讀取資料並使用字串操作；
任務成果：學習 Pandas 的字串操作；

2.2 資料處理步驟

在原始arxiv資料集中論文作者authors欄位是一個字串格式，其中每個作者使用逗號進行分隔分，所以我們我們首先需要完成以下步驟：

使用逗號對作者進行切分；

剔除單個作者中非常規的字元；

具體操作可以參考以下例子：

C. Bal\\'azs, E. L. Berger, P. M. Nadolsky, C.-P. Yuan

# 切分為，其中\\為轉義符

C. Ba'lazs
E. L. Berger
P. M. Nadolsky
C.-P. Yuan

當然在原始資料集中authors_parsed欄位已經幫我們處理好了作者資訊，可以直接使用該欄位完成後續統計。

2.3 字串處理

在Python中字串是最常用的資料型別，可以使用引號('或")來建立字串。Python中所有的字元都使用字串儲存，可以使用方括號來擷取字串，如下例項：

var1 = 
 'Hello Datawhale!'
var2 = "Python Everwhere!"
 
print("var1[-10:]: ", var1[-10:])
print("var2[1:5]: ", var2[0:7])

執行結果為：

var1[-10:]:  Datawhale!
var2[1:5]:  Python

同時在Python中還支援轉義符：

(在行尾時)	續行符
\	反斜槓符號
’	單引號
"	雙引號
\n	換行
\t	橫向製表符
\r	回車

Python中還內建了很多內建函式，非常方便使用：

方法	描述
string.capitalize()	把字串的第一個字元大寫
string.isalpha()	如果 string 至少有一個字元並且所有字元都是字母則返回 True,否則返回 False
string.title()	返回"標題化"的 string,就是說所有單詞都是以大寫開始，其餘字母均為小寫(見 istitle())
string.upper()	轉換 string 中的小寫字母為大寫

2.4 具體程式碼實現以及講解

2.4.1 資料讀取

data = []
with open("arxiv-metadata-oai-snapshot.json", 'r') as f: 
    for idx, line in enumerate(f): 
        d = json.loads(line)
        d = {'authors': d['authors'], 'categories': d['categories'], 'authors_parsed': d['authors_parsed']}
        data.append(d)
        
data = pd.DataFrame(data)

為了方便處理資料，我們只選擇了三個欄位進行讀取。

2.4.2 資料統計

接下來我們將完成以下統計操作：

統計所有作者姓名出現頻率的Top10；
統計所有作者姓（姓名最後一個單詞）的出現頻率的Top10；
統計所有作者姓第一個字元的評率；

為了節約計算時間，下面選擇部分類別下的論文進行處理：

# 選擇類別為cs.CV下面的論文
data2 = data[data['categories'].apply(lambda x: 'cs.CV' in x)]

# 拼接所有作者
all_authors = sum(data2['authors_parsed'], [])

小小總結

Python中的lambda和apply用法

List itemlambda函式也叫匿名函式,它允許快速定義單行函式，可以用在任何需要函式的地方。這區別於def定義的函式。
apply函式的格式為：apply(func,*args,**kwargs)

處理完成後all_authors變成了所有一個list，其中每個元素為一個作者的姓名。我們首先來完成姓名頻率的統計。

# 拼接所有的作者
authors_names = [' '.join(x) for x in all_authors]
authors_names = pd.DataFrame(authors_names)

# 根據作者頻率繪製直方圖
plt.figure(figsize=(10, 6))
authors_names[0].value_counts().head(10).plot(kind='barh')

# 修改圖配置
names = authors_names[0].value_counts().index.values[:10]
_ = plt.yticks(range(0, len(names)), names)
plt.ylabel('Author')
plt.xlabel('Count')

繪製得到的結果：

接下來統計姓名姓，也就是authors_parsed欄位中作者第一個單詞：

authors_lastnames = [x[0] for x in all_authors]
authors_lastnames = pd.DataFrame(authors_lastnames)

plt.figure(figsize=(10, 6))
authors_lastnames[0].value_counts().head(10).plot(kind='barh')

names = authors_lastnames[0].value_counts().index.values[:10]
_ = plt.yticks(range(0, len(names)), names)
plt.ylabel('Author')
plt.xlabel('Count')

繪製得到的結果，從結果看出這些都是華人或者中國姓氏~

統計所有作者姓第一個字元的評率，這個流程與上述的類似，同學們可以自行嘗試。

學術前沿趨勢分析 Task2 論文作者統計筆記2

技術標籤：專案學術前沿趨勢分析文章目錄任務2：論文作者統計2.1 任務說明2.2 資料處理步驟2.3 字串處理2.4 具體程式碼實現以及講解2.4.1 資料讀取2.4.2 資料統計小小總結

Task2|Datawhale: 論文作者統計

技術標籤：筆記python資料分析 Task2:論文作者統計 import os import seaborn as sns from bs4 import BeautifulSoup #用於爬取arxiv資料

DW-- 學術前言趨勢分析（四）

技術標籤：DWpython 一、背景目的 arXiv 重要的學術公開⽹站，也是搜尋、瀏覽和下載學術論⽂的重要⼯具。arXiv論⽂涵蓋的範圍⾮常⼴，涉及物理學的龐⼤分⽀和電腦科學的眾多⼦學科，如數學、統計學、電⽓⼯程、

論文趨勢分析（python+excel+tableau）

技術標籤：論文趨勢分析資料分析pythonexcel視覺化本文github地址：連結論文趨勢分析專欄：連結

LaTex論文作者過多需換行：你只需一步

技術標籤：LaTeX經驗分享latex LaTex論文作者過多需換行：你只需一步 WrongRight Wrong

基於matlab 的長時間柵格資料的Sen+MK顯著性檢驗趨勢分析

技術標籤：北京二年matlab筆記在前一篇文章中講述了用sen法進行長時間的趨勢分析，但並未對結果進行顯著性檢驗，通常Sen與MK檢驗是結合在一起的，因此本文主要講述如何進行MK檢驗。具體程式碼如下

Task1：論文資料統計

學習主題：論文數量統計，統計2019年全年，計算機各個方向的論文數量。涉及到的知識點：jupyter notebook中安裝庫；json檔案的讀取；列表推導式；爬蟲；正則表示式

Task1:論文資料統計（待續...）

技術標籤：taskpython Task1:論文資料統計（待續...）一、小白的吐槽沒有任何計算機專業基礎，程式碼看不懂；（選擇先不理解）沒有Python專業,分不清楚Anaconda和pandas；（隊友解釋很給力）安裝連線：ht

Task3：論文程式碼統計（3天）

Task3：論文程式碼統計（3天）Link 學習主題：論文程式碼統計（資料統計任務），統計所有論文類別下包含原始碼論文的比例；

KSEM review 覆盤及學術論文寫作教程筆記

第一次投論文 KSEM 2021，收到了 5 個 reviewer 給的意見，指出了我論文中的不足和改進的建議，這些意見非常寶貴，因此整理記錄下來，日後寫論文時要牢記。

未來5年前端技術趨勢分析

統計資料先看一組2021年1月到2022年1月，整整一年的下載量排名資料。 npm統計網站顯示：

物化檢視中的統計資訊導致的查詢問題分析和修復（r7筆記第47天)

今天開發的同事下午反饋給我一個問題，說有操作直接卡住了，聽這個描述，感覺很可能是查詢慢了。

動手學資料分析 Task2 學習筆記

【回顧&引言】前面一章的內容大家可以感覺到我們主要是對基礎知識做一個梳理，讓大家瞭解資料分析的一些操作，主要做了資料的各個角度的觀察。那麼在這裡，我們主要是做資料分析的流程性學習，主要是包括了資料清

資料分享|R語言對論文作者研究機構、知識單元地理空間資料視覺化

全文連結：http://tecdat.cn/?p=30810 原文出處：拓端資料部落公眾號地圖本身就是視覺化的產品,並在發展過程中形成了一系列的理論與方法。這些都自然地會成為地理空間資料視覺化技術的基礎。地圖學也因視覺化方法

利用python進行資料分析（第二版）筆記

Numpy 1、建立ndarray物件 1、arr.ndim：Numpy陣列維度資訊 2、arr.shape：Numpy陣列形狀資訊

Cocos2D-X學習筆記(2)-HelloWorld程式碼分析

技術標籤：Cocos2D-Xcocos2d 開啟cocos2dx工程後，HelloWorld一共就四個檔案。 AppDelegate.h

Nacos原始碼分析三、配置中心（2）

技術標籤：NacosSpringCloudAlibabajavaspring cloud alibabanacos 從NacosConfigService的構造方法裡

Python資料分析與展示（學習筆記）

目錄1.Python語言開發工具選擇①IPython2.Numpy庫入門①資料維度②資料維度的 Python表示③NumPy的資料物件：ndarray（1）NumPy介紹（2）NumPy的引用（3）N維陣列物件：ndarray（4）ndarray例項（5）ndarray物件的屬

軟體分析筆記2 IR

術語 IR = Intermediate Representation 程式碼的中間形式 AST = Abstract Semantic Tree 抽象語法樹

《Python資料分析與展示》課程筆記

第0周 Python基本語法元素 conda : 一個工具，用於包管理和環境管理，其中：包管理與pip類似，管理Python第三方庫環境管理能夠允許使用者使用不同版本Python，並能靈活切換

學術前沿趨勢分析 Task2 論文作者統計 筆記2

文章目錄

任務2：論文作者統計

2.1 任務說明

2.2 資料處理步驟

2.3 字串處理

2.4 具體程式碼實現以及講解

2.4.1 資料讀取

2.4.2 資料統計

小小總結

相關推薦

學術前沿趨勢分析 Task2 論文作者統計筆記2