“達觀杯”文字智慧處理挑戰賽程式碼示例

阿新 • • 發佈：2018-12-31

達觀杯介紹：

類似kaggle的資料科學比賽，任何人可以參加

網址：http://www.dcjingsai.com/

可以用支付寶實名註冊

專案名稱：

“達觀杯”文字智慧處理挑戰賽

安裝Python，執行如下程式碼。可以得到一個分數

專案程式碼：

'''
作者：公眾號：灣區人工智慧
場景：達觀杯 文字智慧競賽  http://www.pkbigdata.com/common/cmpt/%E2%80%9C%E8%BE%BE%E8%A7%82%E6%9D%AF%E2%80%9D%E6%96%87%E6%9C%AC%E6%99%BA%E8%83%BD%E5%A4%84%E7%90%86%E6%8C%91%E6%88%98%E8%B5%9B_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html
時間：#2018-12-01 563610 December Saturday the 48 week, the 335 day SZ

'''

print('start')
import pandas as pd 
from sklearn.linear_model import LogisticRegression #匯入線性迴歸庫
from sklearn.feature_extraction.text import CountVectorizer #匯入特徵提取庫

#讀取檔案，並且刪除無關東西
df_train = pd.read_csv('/Users/apple/Documents/ST/python/competition/DataCastel/text_intelligence/new_data/train_set.csv')
df_test = pd.read_csv('/Users/apple/Documents/ST/python/competition/DataCastel/text_intelligence/new_data/test_set.csv')
df_train.drop(columns =['article', 'id'], inplace = True ) #問題1： 為什麼要刪除這兩個列,id列沒有意義，不需要用article，直接刪除
df_test.drop(columns =['article'], inplace = True ) 




#獲取特徵向量
vectorizer = CountVectorizer(ngram_range = (1,2), min_df = 3, max_df = 0.9, max_features = 100000) #提取特徵
vectorizer.fit(df_train['word_seg']) #問題2：為啥要訓練這一列內容，要先學習整個資料集的詞的DF（文件詞頻）
x_train = vectorizer.transform(df_train['word_seg']) #特徵轉為特徵向量
x_test = vectorizer.transform(df_test['word_seg'])
y_train = df_train['class'] - 1  #問題3：這裡為啥要給所有的類別都減去1，減一是程式碼習慣問題，讓class從0計數

lg = LogisticRegression(C = 4, dual = True) #邏輯迴歸初始化
lg.fit(x_train, y_train) #進行訓練，模型儲存在lg裡面

y_test = lg.predict(x_test) #用模型進行測試

df_test['class'] = y_test.tolist() #測試結果轉為列表，並且放入測試文件的類別裡面。問題5：測試文件沒有類別這個列。這行程式碼會自動給測試文件新增一個類別列。
df_test['class'] = df_test['class'] + 1  #問題4：為啥又要給所有類別分別加1
df_result = df_test.loc[:, ['id', 'class']]  #從測試集裡面拿到'id', 'class']]列的內容
df_result.to_csv('/Users/apple/Documents/ST/python/competition/DataCastel/text_intelligence/new_data/result.csv', index = False) #測試結果轉為提交的CSV格式

print('end')





'''
train_set.csv 1.5G, 普通電腦開啟很吃力，隨意閱讀也吃力，謹慎開啟；
第一行有：ID，article， Word_seg, class;
id:文章數量編號102277個文字； article：文章內容，是一些數字； Word_seg:也是一些數字； class:文字對應的類別從1到20

test_set.csv 1.38Gb,
第一行有：ID，article， Word_sequence,內容和訓練集一樣，只是沒有了類別標籤

result.csv 865 KB, 
第一行有ID， class；也就是預測每一個文件的類別

提交說明

1) 以csv格式提交，編碼為UTF-8，第一行為表頭； 
2) 內含兩列，一列為id，另一列為class； 
3) id對應測試集中樣本的id，class為參賽者的模型預測的文字標籤。


y_train = df_train['class'] - 1 內容：
  import imp
0         13
1          2
2         11
3         12
4         11
5         12
102274    11
102275     3
102276    10
Name: class, Length: 102277, dtype: int64
[Finished in 25.6s]


y_train = df_train['class']內容：
  import imp
0         14
1          3
2         12
102274    12
102275     4
102276    11
Name: class, Length: 102277, dtype: int64
[Finished in 24.3s]

區別就是給每個類的型別都減去1；
'''

'''
得分：0.73

拿高分的方法：
資料預處理：這裡的資料比較完整，不用擔心

特徵工程
這裡技巧很足，需要不斷的積累

機器學習演算法
不同演算法都有對應的任務型別。
lightboard微軟開發的工具，適合大部分的情況，屬於西瓜書第八章的內容。

資料增強：
給了1萬條資料，變成10萬條資料。



輸出內容：
start
/usr/local/lib/python3.7/site-packages/sklearn/externals/joblib/externals/cloudpickle/cloudpickle.py:47: DeprecationWarning: the imp module is deprecated in favour of importlib; see the module's documentation for alternative uses
  import imp
/usr/local/lib/python3.7/site-packages/sklearn/linear_model/logistic.py:432: FutureWarning: Default solver will be changed to 'lbfgs' in 0.22. Specify a solver to silence this warning.
  FutureWarning)
/usr/local/lib/python3.7/site-packages/sklearn/linear_model/logistic.py:459: FutureWarning: Default multi_class will be changed to 'auto' in 0.22. Specify the multi_class option to silence this warning.
  "this warning.", FutureWarning)
/usr/local/lib/python3.7/site-packages/sklearn/svm/base.py:922: ConvergenceWarning: Liblinear failed to converge, increase the number of iterations.
  "the number of iterations.", ConvergenceWarning)
end
[Finished in 1315.7s]

'''

“達觀杯”文字智慧處理挑戰賽程式碼示例

達觀杯介紹：類似kaggle的資料科學比賽，任何人可以參加網址：http://www.dcjingsai.com/ 可以用支付寶實名註冊專案名稱： “達觀杯”文字智慧處理挑戰賽安裝Python，執行如下程式碼。可以得到一個分數

達觀杯文字智慧處理挑戰賽練手程式碼實現

1 import pandas as pd 2 3 import imp 4 5 from sklearn.linear_model import LogisticRegression 6 7 from sklearn.feature_extraction.text import Coun

“達觀杯”文字智慧處理挑戰賽心得體會

記錄一下參賽的過程和體會比賽地址比賽回顧這是我第一次參加與NLP相關的比賽，所以就是在實踐中學習，哪裡不會點哪裡，經過大約10天的努力跑出的成績如下：記錄下我的比賽提交記錄回顧比賽，在整理自己的特徵資料、結果對比的時候還是有些不夠規範，有點混亂

達觀杯文字智慧處理挑戰賽

筆者嘗試了一下達觀杯的比賽，程式碼如下圖所示： import pandas as pd import imp from sklearn.linear_model import LogisticRegression from sklearn.feature_extrac

當知識圖譜遇上文字智慧處理，會擦出怎樣的火花？

目前以理解人類語言為入口的認知智慧成為了人工智慧發展的突破點，而知識圖譜則是邁向認知智慧的關鍵要素。達觀資料在2018AIIA人工智慧開發者大會承辦的語言認知智慧與知識圖譜公開課上，三位來自企業和學術領域的專家分別從不同角度講述的知識圖譜的應用和發展。文字根據達觀資料副總裁王文廣演講內容《知識圖

使用Python處理Excel檔案的一些程式碼示例

筆記：使用Python處理Excel檔案的一些程式碼示例，以下程式碼來自於《Python資料分析基礎》一書，有刪改 #!/usr/bin/env python3 # 匯入讀取Excel檔案的庫，xlrd，其中的 open_workbook 為讀取工作簿 from xlrd import open_wo

opencv影象處理常用完整示例程式碼總結

顯示影象 #include "StdAfx.h" #include <string> #include <iostream> #include <opencv2\core\core.hpp> #include <opencv2\hi

百度OCR文字識別企業版 Object-C 識別兩種型別程式碼示例

前言：關於OCR，也沒有什麼可說的、縱觀國內，做的好的掃描SDK基本都是收費的，比如名片掃描王只對企業開發，個人開發者想做也是難啊，吐槽下國內公司環境只認可企業，對個人開發者可謂非常苛刻，不說了，因為專案中用到掃描圖片識別文字的功能，查詢最後選擇百度介面，可惜也是收費的，

《用Python進行自然語言處理》程式碼筆記（五）：第七章：從文字提取資訊

#!/usr/bin/env python # -*- coding: utf-8 -*- # @Author : Peidong # @Site : # @File : eg7.py # @Software: PyCharm """ 從文字提取資訊 """

03達觀杯文本智能挑戰賽

文本 img inf 微軟 com ont http family 技術文本分類長度較大，對文本的智能解析是很有挑戰的。 03達觀杯文本智能挑戰賽

【智慧合約】客戶端和web端對智慧合約的事件Event進行呼叫的程式碼示例

客戶端和web端對智慧合約的事件Event進行呼叫的程式碼示例 web truffle 按官網的例子 truffle作為一個執行測試框架，用的也是web3對智慧合約進行呼叫。檔案所在的位置src/js/app.js initWeb3:

java併發程式設計學習之髒讀程式碼示例及處理

public class Thread10 { public static void main(String[] args) { Thread10_Entity entity = new Thread10_Entity();

css基礎 line-height 文字的行高簡單示例

utf-8 visual lin doctype class 優秀字號視頻 post 禮悟：　　公恒學思合行悟，尊師重道存感恩。葉見尋根三返一，江河湖海同一體。虛懷若谷良心主，願行無悔給最苦。讀書鍛煉養身心，誠勸且行且珍惜。　　

css3基礎 color:rgba 文字顏色半透明簡單示例

學習 logs school con har win src 文字顏色 www 禮悟：　　公恒學思合行悟，尊師重道存感恩。葉見尋根三返一，江河湖海同一體。虛懷若谷良心主，願行無悔給最苦。讀書鍛煉養身心，誠勸且行且珍惜。　　

office辦公中文字的處理與排版

off 格式化 ctr DG RoCE PE 工作效率修改內容 word 寫這個主要目的是用得多，比較實用，可以提升工作效率 1、格式化講解步驟1：選中步驟2：格式刷 2、字體間距與行距的的調整講解步驟1：鼠標滑動選中，然後鼠標右擊，找到“字體”，然後修改字體間距的值

form表單提交資料的同時上傳檔案程式碼示例

form表單提交資料的同時在表單中上傳檔案程式碼示例一

改變了文字提取處理詞語的方式

Changed the way text extraction treats words. Now it extracts word by word, so text selection or markup are more properly alligned. Plea

C語言解決螺旋矩陣演算法問題的程式碼示例_C 語言

趕集網校招就採用了螺旋輸出矩陣作為程式題，要求將矩陣螺旋輸出如： 2016425180442470.jpg 圖中6*6矩陣線條所示為輸出順序，如果輸出正確的話應該輸出1~36有序數字。我想的是這麼做的： #include <stdio.h> //#define LEN 1 //#define

sed基本用法 sed文字塊處理、 sed高階應用總結和答疑

Top NSD SHELL DAY05 案例1：sed基本用法案例2：使用sed修改系統配置案例3：sed多行文字處理案例4：sed綜合指令碼應用 1 案例1：sed基本用法 1.1 問題本案例要求熟悉sed命令的p、d、s等常見操作，並

Struts2（Interceptor篇）：攔截器的實現原理以及程式碼示例

目錄 Interceptor 簡介理解 Interceptor 概念理解 Interceptor 原理建立 Interceptor 監聽器在pom.xml加入相關依賴自定義 Interceptor 自定義一個實現了Interceptor介面的類，或者繼承抽象

“達觀杯”文字智慧處理挑戰賽程式碼示例

相關推薦