2018.08.17任務---理解已給的比賽程式碼，即每一行程式碼是幹什麼用的

阿新 • • 發佈：2018-12-12

任務：理解已給的比賽程式碼，即每一行程式碼是幹什麼用的。比賽地址：“達觀杯”文字智慧競賽

'''
#匯入所需要的軟體包
'''
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.feature_extraction.text import CountVectorizer
import time

time_start = time.time()
print("開始時間 ：",time_start)
print("\n")

'''
# @程式碼功能簡介：從硬碟上讀取已經下載好的資料，，並進行簡單處理
# @知識點定位：資料預處理
'''
# #分割較大的CSV檔案
# chuck_train = pd.read_csv("./train_set.csv", chunksize=50000)
# for i, chuck in enumerate(chuck_train):
#     chuck.to_csv('train_out{}.csv'.format(i)) # i is for chunk number of each iteration

# df_train = pd.read_csv('./train_out0.csv')#讀取訓練集資料
df_train0 = pd.read_csv('./train_out0.csv')#讀取訓練集資料
df_train1 = pd.read_csv('./train_out1.csv')#讀取訓練集資料
df_train2 = pd.read_csv('./train_out0.csv')#讀取訓練集資料

#合併之前分割的資料
df_train = df_train0.append([df_train1,df_train2])

# #分割較大的CSV檔案
# chuck_test = pd.read_csv("./train_set.csv", chunksize=50000)
# for j, chuck in enumerate(chuck_test):
#     chuck.to_csv('test_out{}.csv'.format(j)) # j is for chunk number of each iteration

# df_test = pd.read_csv('./test_out.csv')#讀取測試集資料
df_test0 = pd.read_csv('./test_out0.csv')#讀取測試集資料
df_test1 = pd.read_csv('./test_out1.csv')#讀取測試集資料
df_test2 = pd.read_csv('./test_out2.csv')#讀取測試集資料
df_test = df_test0.append([df_test1,df_test2])

print(df_train.head())

# df_train.drop(columns = ['article','id'],inplace=True)#刪除訓練集中的article列和id列
# df_test.drop(columns = ['article'],inplace=True)#刪除測試集中的article列

'''
# @程式碼功能簡介：將資料集中的字元文字轉換成數字向量，以便計算機能夠進行處理
# @知識點定位：特徵工程
'''
vectorizer = CountVectorizer(ngram_range=(1,2),min_df=3,max_df=0.9,max_features=100000)#初始化一個CountVectorizer物件
vectorizer.fit(df_train['word_seg'])#構建詞彙表
x_train = vectorizer.transform(df_train['word_seg'])#將每一篇文章轉為與其對應的一個特徵向量
x_test = vectorizer.transform(df_test['word_seg'])#將每一篇文章轉為與其對應的一個特徵向量

y_train = df_train['class']-1   #因為從0開始計數，所以要將原值-1

'''
# @程式碼功能簡介：訓練一個分類器
# @知識點定位：傳統監督學習演算法之線性邏輯迴歸
'''
lg = LogisticRegression(C=4,dual=True)  #初始化一個分類器
lg.fit(x_train,y_train)   #訓練這個分類器
'''
根據上面訓練好的分類器對測試集的每個樣本進行預測
'''
y_test = lg.predict(x_test)
# y_test0 = lg.predict(x_test0)
# y_test1 = lg.predict(x_test1)
# y_test2 = lg.predict(x_test2)

'''
將測試集的預測結果儲存到本地
'''
df_test['class'] = y_test.tolist()  #轉換為python的List形式

df_test['class'] = df_test['class'] + 1   #將class+1，保持和官方預測值一致
df_result = df_test.loc[:,['id','class']]


df_result.to_csv('./result.csv',index = False)#將結果儲存至本地檔案
print(df_result.head())

time_end = time.time()
print("共用時：",time_end - time_start)

2018.08.17任務---理解已給的比賽程式碼，即每一行程式碼是幹什麼用的

任務：理解已給的比賽程式碼，即每一行程式碼是幹什麼用的。比賽地址：“達觀杯”文字智慧競賽 ''' #匯入所需要的軟體包 ''' import pandas as pd from sklearn.linear_model import LogisticRegre

RISC-V雙週簡報0x1e：RISC-V新創企業擬融資上億元(2018-08-17)

RISC-V 雙週簡報 (2018-08-17) 要點新聞： RISC-V新創企業擬融資上億元 CNRV-FPU和lowRISC程式碼更新 CNRV社群活動 Chisel/Rocket-chip/RISC-V線下交流會由SiFive和CNRV一起舉辦的這

對於一個m*n的整數矩陣，其中每一行和每一列的元素都按升序排列，設計一個高效的演算法判斷一個數值是否存在，並給出位置

package com.huanchuang.arvin.vo; public class Finder { private String findElement(int[][] matrix, int target) { int row = 0,

很喜歡的一款開源類庫，可以幫你簡化每一行程式碼，推薦給大家

“黑鐵時代”讀者群裡有個小夥伴感慨說，“Hutool 這款開源類庫太厲害了，基本上該有該的工具類，它裡面都有。”講真的，我平常工作中也經常用 Hutool，它確實可以幫助我們簡化每一行程式碼，使 Java 擁有函式式語言般的優雅，讓 Java 語言變得“甜甜的”。但是呢，群裡還有一部分小夥伴表示還不知道

團隊任務3:每日立會（2018-10-17）

們的正在 9.png ima 遊戲 png 大戰日立就是團隊任務3：每日例會（2018-10-17）我們是第二組。我們開發的軟件是飛機大戰。整理人：李柏侖，2016035107096 ，項目經理今日燃盡圖滯後是因為昨天的制作boss困難血條的功能到今天還沒有

Day 56 （08/17） bookstrap、HTTP協議

修改時間 tab gin thead 情況主機暴露 init blog bootstrap簡介 http://v3.bootcss.com/ Bootstrap優點：下載： Bootstrap引入 1 2 3 4 <meta na

2018-1-17 js彈出div登錄窗口

1-1 cti top function 屬性 ntb margin url 登錄　　今天整理一個實例，如何用js實現彈出登錄窗口： <!doctype html><html>　　<head>　　　　<meta charset="

2018-1-17 6周3次課 awk

boa 創建 http .com man 相等 class 匹配 log 9.6/9.7 awkawk -F 指定分隔符 '{print $1}' 打印第一段（$0表示所有段）[root@localhost awk]# awk -F

2018.1.17 6周3次課

ims 正則數學運算 amp tab sim 進行邏輯 sof 六周第三次課（1月17日）9.6/9.7 awkawk也是流式編輯器，針對文檔中的行來操作，一行一行地執行。awk兼具sed的所有功能，而且更加強大。awk工具其實是很復雜的（有專門的書來介紹它的應用），

2018-1-17 Linux學習筆記(awk)[重要]

標準輸入 == 行處理 c語言開始正則表達正則表達式 $2 指定 9.6 awk(上) awk是一種編程語言，用於在linux/unix下對文本和數據進行處理。數據可以來自標準輸入(stdin)、一個或多個文件，或其它命令的輸出。它支持用戶自定義函數和動態正則表達式等

2018-1-17 6周3次課

shu 忽略 his sco cal system tab 常見腳本文件 9.6/9.7 awk awk工具，比sed更豐富的功能它支持了分段。指定分隔符然後把第一段打印出來如下：註：如果想把第2和第3也打印出來直接在$1的後面加個逗號輸入$2，$3即可

Exchange Server 2016管理系列課件08.禁用和恢復已禁用的郵箱

cmd false reason uid 狀態示例 exchange 並且 tab 禁用郵箱的過程是斷開活動目錄用戶和郵箱之間的連接，恢復已禁用的郵箱，是將活動目錄用戶和郵箱重新連接。必須在“保留已刪除郵箱的期限到期之前”進行。首先，選擇要禁用的郵箱，點擊...之後選擇【

2018-02-17-生活中無處不在的非線性例子

例如量子元素理論 http 關系中間障礙天氣 layout: post title: 2018-02-17-生活中無處不在的非線性例子 key: 20180217 tags: 非線性 modify_date: 2018-02-17 --- 生活中無處不在的非線

2018/2/17 每日一學線段樹

.com 分享圖片葉子節點子節點線段樹 blog 註意 alt 這就是直接上圖，這就是線段樹，可以看到，除了葉子節點，其余的都是區間，這不難想到線段樹的用法：點修改和區間修改及詢問。我們可以從上往下建樹，也可以反過來。先說說怎麽建樹，我們不妨以從上往下來做，當

2018/2/17 每日一學 RMQ

pre 區間dp 什麽是極值 ++ 想想 i++ i+1 bsp 什麽是RMQ？給予n個數，對於區間[l,r]查詢最小、最大值。這就是RMQ。怎麽做？我們不妨設f[i][j]表示從i開始的2^j個數極值。顯然，他表示的是[i,i+2^j-1]，註意有-1（想想，

2018/3/17筆記

div 業務 16px 用例圖 .com img 構圖筆記 spa 畢業論文管理系統的功能結構圖

2018.4.17 四周第二次課

tar打包工具打包並壓縮 zip壓縮工具解壓縮目錄 zip壓縮工具（可以壓縮目錄）概念：zip壓縮包在Windows和Linux中都比較常用，它可以壓縮目錄和文件，壓縮目錄時，需要指定目錄下的文件。 zip後面先跟目標文件名（即壓縮後的自定義的壓縮包名），然後跟要壓縮的文件或者目錄

2018.4.17 16周5次課

Linux學習十六周五次課（4月17日）20.1 shell腳本介紹20.2 shell腳本結構和執行20.3 date命令用法20.4 shell腳本中的變量20.1 shell腳本介紹shell是一種腳本語言 aming_linux blog.lishiming.net可以使用邏輯判斷、循環等語法可以

實訓17 2018.04.17

結果 mod lec native 就是 image reac 方式三種 Collection及其部分子類：　　List的特點：有索引，有序（按照存入順序進行輸出），可出現重復元素；　　Set的特點：沒有索引，沒有重復元素，不一定有序（HashSet的存儲是無序的，

2018-4-17

打包壓縮6.5 zip壓縮工具6.6 tar打包6.7 打包並壓縮6.5 zip壓縮工具前面幾個工具都不支持壓縮目錄，zip支持壓縮目錄。linux下可以不可以解壓 windows下rar文件？默認是不支持的需要安裝一個解壓工具。安裝zip命令 yum install -y zip壓縮1.txt壓縮是比較寬

2018.08.17任務---理解已給的比賽程式碼，即每一行程式碼是幹什麼用的

相關推薦