Task3：論文程式碼統計（3天）

阿新 • • 發佈：2021-01-19

Task3：論文程式碼統計（3天）Link

學習主題：論文程式碼統計（資料統計任務），統計所有論文類別下包含原始碼論文的比例；
學習內容：程式碼連結識別和統計；
學習成果：學會使用正則表示式；

資料處理方式

在原始arxiv資料集中作者經常會在論文的comments或abstract欄位中給出具體的程式碼連結，所以我們需要從這些欄位裡面找出程式碼的連結。

確定資料出現的位置；
使用正則表示式完成匹配；
完成相關的統計；

程式碼分析

1.匯入資料包

# 匯入所需的package
import seaborn as sns #用於畫圖
from bs4 import BeautifulSoup #用於爬取arxiv的資料
import re #用於正則表示式，匹配字串的模式
import requests #用於網路連線，傳送網路請求，使用域名獲取對應資訊
import json #讀取資料，我們的資料為json格式的
import pandas as pd #資料處理，資料分析
import matplotlib.pyplot as plt #畫圖工具
import json
import time

2.匯入資料

在comments欄位中抽取pages和figures和個數，首先完成欄位讀取

json_filename='D:/BaiduNetdiskDownload/archive/arxiv-metadata-oai-snapshot.json'
data = []
with open(json_filename, 'r') as f: 
    for idx, line in enumerate(f): 
        d = json.loads(line)
        d = {'abstract': d['abstract'], 'categories': d['categories'], 'comments': d['comments']}
        data.append(d)
        
data = pd.DataFrame(data) #將list變為dataframe格式，方便使用pandas進行分析

3.正則匹配並篩選出有pages的論文，並進行轉換，即對pages進行抽取：

# 使用正則表示式匹配，XX pages
data['pages'] = data['comments'].apply(lambda x: re.findall('[1-9][0-9]* pages', str(x)))

# 篩選出有pages的論文
data = data[data['pages'].apply(len) > 0]

# 由於匹配得到的是一個list，如['19 pages']，需要進行轉換
data['pages'] = data['pages'].apply(lambda x: float(x[0].replace(' pages', '')))

4.對pages進行統計：

data['pages'].describe().astype(int)

out[4]: 論文平均的頁數為17頁，75%的論文在22頁以內，最長的論文有11232頁。

count    1089180
mean          17
std           22
min            1
25%            8
50%           13
75%           22
max        11232
Name: pages, dtype: int32

5.按照分類統計論文頁數，選取了論文的第一個類別的主要類別：

# 選擇主要類別
data['categories'] = data['categories'].apply(lambda x: x.split(' ')[0])
data['categories'] = data['categories'].apply(lambda x: x.split('.')[0])

# 每類論文的平均頁數
plt.figure(figsize=(12, 6))
data.groupby(['categories'])['pages'].mean().plot(kind='bar')

<matplotlib.axes._subplots.AxesSubplot at 0x154875821d0>

6.接下來對論文圖表個數進行抽取：

data['figures'] = data['comments'].apply(lambda x: re.findall('[1-9][0-9]* figures', str(x)))
data = data[data['figures'].apply(len) > 0]
data['figures'] = data['figures'].apply(lambda x: float(x[0].replace(' figures', '')))

我們對論文的程式碼連結進行提取，為了簡化任務我們只抽取github連結：

# 篩選包含github的論文
data_with_code = data[
    (data.comments.str.contains('github')==True)|
                      (data.abstract.str.contains('github')==True)
]
data_with_code['text'] = data_with_code['abstract'].fillna('') + data_with_code['comments'].fillna('')

# 使用正則表示式匹配論文
pattern = '[a-zA-z]+://github[^\s]*'
data_with_code['code_flag'] = data_with_code['text'].str.findall(pattern).apply(len)

並對論文按照類別進行繪圖：

data_with_code = data_with_code[data_with_code['code_flag'] == 1]
plt.figure(figsize=(12, 6))
data_with_code.groupby(['categories'])['code_flag'].count().plot(kind='bar')

<matplotlib.axes._subplots.AxesSubplot at 0x154a0511c50>

Task3：論文程式碼統計（3天）

Task3：論文程式碼統計（3天）Link 學習主題：論文程式碼統計（資料統計任務），統計所有論文類別下包含原始碼論文的比例；

Task1：知識圖譜介紹（1天）

一、知識圖譜簡介 “知識圖譜本質上是語義網路（Semantic Network）的知識庫”。但這有點抽象，所以換個角度，從實際應用的角度出發其實可以簡單地把知識圖譜理解成多關係圖（Multi-relational Graph）。

AI訓練營Python：TASK01_Python基礎入門-從變數到異常處理（3天，第2天）

技術標籤：學習筆記內容大綱 1. 條件語句 1.1.if 語句 if expression: expr_true_suite 1.2.if-else語句

AI訓練營Python：TASK01_Python基礎入門-從變數到異常處理（3天，第3天）

技術標籤：學習筆記 1. 異常處理定義異常就是執行期檢測到的錯誤。計算機語言針對可能出現的錯誤定義了異常型別，某種錯誤引發對應的異常時，異常處理程式將被啟動，從而恢復程式的正常執行。

戴口罩必備：天興隆零糖薄荷糖 8 盒 19.9 元（3 折）

【天興隆旗艦店】屈臣氏 / 沃爾瑪在售、十二生肖國潮款，天興隆零糖薄荷糖報價 7.9 元，疊加滿 63 元減 23.3 元優惠，限時限量 20 元券，拍 8 件共發 8 盒實付 19.9 元包郵，領券併購買。使用最會買 App 下單，預計還

【013期】JavaSE面試題（十三）：多執行緒（3）

開篇介紹大家好，我是Java最全面試題庫的提褲姐，今天這篇是JavaSE系列的第十三篇，主要總結了Java中的多執行緒問題，多執行緒分為三篇來講，這篇是第三篇，在後續，會沿著第一篇開篇的知識線路一直總結下去，做到日

大資料實戰（六十）：電商數倉（四十三）之系統業務資料倉庫（十六）統計每個月訂單付款率

1 DWS層採用使用者行為寬表作為DWS層 2 ADS層 2.1 建表語句 drop table if exists ads_order2pay_mn;

《Java從入門到失業》第三章：基礎語法及基本程式結構（3.9）：陣列（陣列基本使用、陣列的迴圈、陣列拷貝、陣列排序、多維陣列）

3.9陣列 3.9.1陣列基本使用陣列，英文叫Array，是一種資料結構，是用來存放同一資料型別數值的集合。例如存放30個int型數值、存放100個double型數值等等。

Task01：資料型別及陣列建立（2天）

1.常量（1）兩個numpy.nan是不相等的。np.isnan(x) 對NaN逐個元素進行測試，並以布林陣列返回結果

Task1：論文資料統計

學習主題：論文數量統計，統計2019年全年，計算機各個方向的論文數量。涉及到的知識點：jupyter notebook中安裝庫；json檔案的讀取；列表推導式；爬蟲；正則表示式

Task1:論文資料統計（待續...）

技術標籤：taskpython Task1:論文資料統計（待續...）一、小白的吐槽沒有任何計算機專業基礎，程式碼看不懂；（選擇先不理解）沒有Python專業,分不清楚Anaconda和pandas；（隊友解釋很給力）安裝連線：ht

1.30 紅包攻略：京東紅包最後領 3 天，五糧液折後再 9 折

1月30日，京東年貨節紅包僅剩最後3天領取機會，至高抽中888元，即領即用：京東京享紅包：點此抽取（每天3次，最高888元）天貓年貨買不停主會場：點此前往（每滿300減30元）• 1月30日主要活動：五糧液京東超級品牌日

《電馭叛客2077攻略》結局3：星星-風暴前夕（3）

東邊警車旁，可以和卡西迪聊聊，利用非常不準的左輪進行射擊遊戲。最後找椅子上坐著的布魯斯交談就算完成所有可選任務了。

京東 4.9 元 / 罐：樂虎功能飲料 1.6 元 / 罐狂促（3 折）

【天貓超市次日達】樂虎維生素功能飲料細腰版 250mL×24 罐今日售價 99 元，下單 2 件立打 6.5 折，領 10 元超市券 + 30 元單品券，2 件實付 88.7 元。

JavaSE：線上考試系統（3） - 客戶端主介面的繪製和測試

1. 建立ClientView.java，用於輸出客戶端的使用者介面程式碼： package com.lagou.client;

1.8W字TypeScript入門指南：附大量程式碼例項（收藏！）

前言作為前端開發的趨勢之一，TypeScript 正在越來越普及，很多人像我一樣寫了 TS 後再也回不去了，比如寫再小的demo也要用 TS，JS 只有在配置檔案如Webpack（實際上，接下來肯定會有用TS寫配置檔案的趨勢，如Vit

第六週：論文泛讀（一）

深度學習、帶卷積、SKNet 1、《Selective Kernel Networks》論文原址：https://arxiv.org/pdf/1903.06586.pdf

滿血復活：新希望 × 霸夫植物能量飲品 2 元 / 瓶探底（3 折）

新希望旗下，BIGBUFF 植物能量維生素飲料 500mL×15 瓶年貨節狂歡價 89.8 元，下單立享 6.67 折優惠，限時限量 30 元券，實付 29.9 元包郵，領券併購買。吊牌價 99.8 元，相當於 3 折優惠。使用最會買 App 下單，預計

mybatis-plus 程式碼生成器（3.5.2）

官方文件：https://baomidou.com/ 程式碼生成器配置：https://baomidou.com/pages/981406/ （官網最上方的配置）

日冕相關中篇小說：天喚——第一章：千載星河（蘇聯線）

今天的陽光真好啊~ 瓦西里·伊萬諾維奇·別什科夫正在研究所樓下的咖啡店慢慢啜著一杯拿鐵。他把杯子放在茶托上，轉向門外，望著列寧斯克航天區那磚紅色的樓宇。研究院的玻璃幕牆反射著太陽光，一切都顯

Task3：論文程式碼統計（3天）