DW-- 學術前言趨勢分析（四）

阿新 • • 發佈：2021-02-01

技術標籤：DW python

一、背景目的
arXiv 重要的學術公開⽹站，也是搜尋、瀏覽和下載學術論⽂的重要⼯具。arXiv論⽂涵蓋的範圍⾮常⼴，涉及物理學的龐⼤分⽀和電腦科學的眾多⼦學科，如數學、統計學、電⽓⼯程、定量⽣物學和經濟學等等。

目的：將使⽤arXiv在公開的17萬篇論⽂資料集，通過資料分析能夠挖掘出最近學術的發展趨勢和學術關鍵詞。

使用工具：python

主題：論文分類（資料建模任務），利用已有資料建模，對新論文進行類別分類；

二、資料處理
2.1 匯入包

#匯入所需的package並讀取原始資料
import seaborn as sns
import re

import json
import pandas as pd  # 資料處理和分析
import matplotlib.pyplot as plt  # 畫圖工具

2.2 欄位讀取

data = []
with open('arxiv-metadata-oai-2019.json','r') as f:
    for idx, line in enumerate(f):
        d = json.loads(line)
        d = {'title':d['title'],'categories':d['categories'],'abstract':d['abstract']}
        data.append(d)
        
        # 只選取部分資料
        if idx > 200000:
            break

data = pd.DataFrame(data)
data.head()

在這裡插入圖片描述
2.3 將標題和摘要拼接一起完成分類

# 合併title和abstract
data['text'] = data['title'] + data['abstract']

# 將換行符替換為空格
data['text'] = data['text'].apply(lambda x: x.replace('\n',''))

# 將所有大寫字母替換為小寫字母
data['text'] = data['text'].apply(lambda x: x.lower())

# 刪除多餘的列
data = data.drop(['abstract','title'], axis=1)
data.head()

在這裡插入圖片描述
2.4 處理類別（原始論文有可能有多個類別）

# 多個類別，包含子分類
data['categories'] = data['categories'].apply(lambda x: x.split(' '))

# 單個類別，不包含子分類
data['categories_big'] = data['categories'].apply(lambda x: [xx.split('.')[0] for xx in x])
data.head()

在這裡插入圖片描述
2.5 將類別進行編碼，這裡類別是多個，所以需要多編碼：

from sklearn.preprocessing import MultiLabelBinarizer
mlb = MultiLabelBinarizer()
data_label = mlb.fit_transform(data['categories_big'].iloc[:])
data_label

三、論文分類
3.1 方法一、（1）使用TFIDF提取特徵（限制最多4000個單詞）

from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(max_features=4000)           # 限制最多詞4000
data_tfidf = vectorizer.fit_transform(data['text'].iloc[:])
data_tfidf

3.2 方法一、（2）使用sklearn的多標籤分類進行封裝（多標籤分類）

# 劃分訓練集和測試集
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(data_tfidf,  data_label, test_size=0.2, random_state=1)

# 構建多標籤分類模型
from sklearn.multioutput import MultiOutputClassifier
from sklearn.naive_bayes import MultinomialNB
clf =MultiOutputClassifier(MultinomialNB()).fit(x_train,y_train)

# 精度評價
from sklearn.metrics import accuracy_score
accuracy_score(y_test,clf.predict(x_test))

在這裡插入圖片描述

3.3 方法二、（1）使用深度學習模型，單詞進行詞嵌入然後訓練

#思路2使用深度學習模型，單詞進行詞嵌入然後訓練。首先按照文字劃分資料集


from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(data['text'].iloc[:], data_label,
                                                 test_size = 0.2,random_state = 1)

3.3 方法二、（2）將資料集處理進行編碼，並進行截斷

# parameter
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(data['text'].iloc[:100000], 
                                                    data_label[:100000],
                                                 test_size = 0.95,random_state = 1)
# parameter
max_features= 500
max_len= 150
embed_size=100
batch_size = 128
epochs = 5

from keras.preprocessing.text import Tokenizer
from keras.preprocessing import sequence

tokens = Tokenizer(num_words = max_features)
tokens.fit_on_texts(list(data['text'].iloc[:100000]))

y_train = data_label[:100000]
x_sub_train = tokens.texts_to_sequences(data['text'].iloc[:100000])
x_sub_train = sequence.pad_sequences(x_sub_train, maxlen=max_len)

定義模型並完成訓練：

# LSTM model
# Keras Layers:
from keras.layers import Dense,Input,LSTM,Bidirectional,Activation,Conv1D,GRU
from keras.layers import Dropout,Embedding,GlobalMaxPooling1D, MaxPooling1D, Add, Flatten
from keras.layers import GlobalAveragePooling1D, GlobalMaxPooling1D, concatenate, SpatialDropout1D# Keras Callback Functions:
from keras.callbacks import Callback
from keras.callbacks import EarlyStopping,ModelCheckpoint
from keras import initializers, regularizers, constraints, optimizers, layers, callbacks
from keras.models import Model
from keras.optimizers import Adam

sequence_input = Input(shape=(max_len, ))
x = Embedding(max_features, embed_size,trainable = False)(sequence_input)
x = SpatialDropout1D(0.2)(x)
x = Bidirectional(GRU(128, return_sequences=True,dropout=0.1,recurrent_dropout=0.1))(x)
x = Conv1D(64, kernel_size = 3, padding = "valid", kernel_initializer = "glorot_uniform")(x)
avg_pool = GlobalAveragePooling1D()(x)
max_pool = GlobalMaxPooling1D()(x)
x = concatenate([avg_pool, max_pool]) 
preds = Dense(20, activation="sigmoid")(x)

model = Model(sequence_input, preds)
model.compile(loss='binary_crossentropy',optimizer=Adam(lr=1e-3),metrics=['accuracy'])
model.fit(x_sub_train, y_train, batch_size=batch_size, epochs=epochs)

DW-- 學術前言趨勢分析（四）

技術標籤：DWpython 一、背景目的 arXiv 重要的學術公開⽹站，也是搜尋、瀏覽和下載學術論⽂的重要⼯具。arXiv論⽂涵蓋的範圍⾮常⼴，涉及物理學的龐⼤分⽀和電腦科學的眾多⼦學科，如數學、統計學、電⽓⼯程、

大資料實戰（四）：flink（四）電商使用者行為分析（四）實時流量統計（二）

網站獨立訪客數（UV）的統計　　另外一個統計流量的重要指標是網站的獨立訪客數（Unique Visitor，UV）。UV指的是一段時間（比如一小時）內訪問網站的總人數，1 天內同一訪客的多次訪問

java集合原始碼分析（四）：LinkedList

概述 LinkedList 與 ArrayList 出自一個作者，同時也一樣是 List 介面下的實現類，但是與 ArrayList 不同的是， LinkedList 繼承了 AbstractSequentialList 抽象類，在實現 List 介面的同時還實現了 Deque 介面，是一

Java IO原始碼分析（四）——PrintStream

簡介 PrintStream繼承於FilterOutputStream，而FilterOutputStream用於封裝其他的輸出流。

Duilib 原始碼分析（四）控制元件繪製

技術標籤：Duilib 渲染引擎CRenderEngine：封裝GDI //duilib-master\\DuiLib\\Core\\UIRender.h class DUILIB_API CRenderEngine

【Lua篇】靜態程式碼掃描分析（四）規則檢查

一、前言通過前面三篇文章已經初步實現了將Lua原始碼檔案讀取解析成語法樹，現在就可以通過得到的語法樹進行指定規則的程式碼掃描檢查。下圖簡單列舉了一下單個Lua檔案內部的語法關係情況（注意並非真正的類圖，也

c++虛擬函式表彙編及記憶體佈局分析（四）

#include <iostream> class Base { public: virtual int ShowFunc(int param) { std::cout << \"Base ShowFunc: \" << param << std::endl;

Mini440之uboot移植流程分析（四）

board_init_r和board_init_f差不多，都是執行一個迴圈。這裡是迴圈執行init_sequence_r[]裡的函式指標。

Tomcat原始碼分析（四）----- Pipeline和Valve Tomcat原始碼分析（二）----- Tomcat整體架構及元件

注：原文連結：https://www.cnblogs.com/java-chen-hao/p/11341478.html 正文在 Tomcat原始碼分析（二）----- Tomcat整體架構及元件中我們簡單分析了一下Pipeline和Valve，並給出了整體的結構圖。而這一節，我們

USB匯流排-Linux核心USB3.0裝置控制器驅動框架分析（四）

1.概述如下圖所示，USB控制器可以呈現出兩種不同的狀態。USB控制器作為Host時，稱為USB主機控制器，使用USB主機控制器驅動。USB控制器作為Device時，稱為USB裝置控制器，使用UDC（usb device controller）驅動。本節

從零寫一個編譯器（四）：語法分析之構造有限狀態自動機

專案的完整程式碼在 C2j-Compiler 通過上一篇對幾個構造自動機的基礎資料結構的描述，現在就可以正式來構造有限狀態自動機

JavaScript進階（四）原型與原型鏈用法例項分析

本文例項講述了JavaScript原型與原型鏈用法。分享給大家供大家參考，具體如下：

微信小程式學習總結（四）事件與冒泡例項分析

本文例項講述了微信小程式學習總結（四）事件與冒泡。分享給大家供大家參考，具體如下：

精盡MyBatis原始碼分析 - MyBatis初始化（四）之 SQL 初始化（下）

摘自：https://www.cnblogs.com/lifullmoon/p/14015075.html 該系列文件是本人在學習 Mybatis 的原始碼過程中總結下來的，可能對讀者不太友好，請結合我的原始碼註釋（、、）進行閱讀

WPF原始碼分析系列一：剖析WPF模板機制的內部實現（四）

(注：本文是《剖析WPF模板機制的內部實現》系列文章的第四篇，檢視上一篇文章請點這裡)

論文趨勢分析（python+excel+tableau）

技術標籤：論文趨勢分析資料分析pythonexcel視覺化本文github地址：連結論文趨勢分析專欄：連結

（四）使用CNN實現文字情感分析（Pytorch）

技術標籤：自然語言處理自然語言處理深度學習pytorch 文章目錄準備資料搭建模型實現細節訓練模型使用者輸入完整程式碼

YsoSerial 工具常用Payload分析之Common-Collections7（四）

Java反序列化Common-Collections7利用鏈分析前言 YsoSerial Common-Collection3.2.1 反序列化利用鏈終於來到最後一個，回顧一下：

資料中臺實戰（四）：商品分析（產品設計篇）

作為電商產品，如果站在價值的角度來思考就有問題。你可以分析下我們提到的使用者相關的指標，比如：註冊量、訪問時長、留存率等這些指標都無法提高產品的價值，指標中最重要的是留存率，你發現站在價值的角度留存率

kafka學習（四）叢集搭建及理論分析

一、搭建一個本地偽叢集　　前面我們學習了搭建單臺kafka例項的步驟，現在為了方便，我們直接在本機windows系統上搭建我們的偽叢集來方便我們學習，步驟如下：

DW-- 學術前言趨勢分析（四）

相關推薦