達觀杯文字智慧處理挑戰賽

阿新 • • 發佈：2018-12-16

筆者嘗試了一下達觀杯的比賽，程式碼如下圖所示：

import pandas as pd

import imp

from sklearn.linear_model import LogisticRegression

from sklearn.feature_extraction.text import CountVectorizer

df_test = pd.read_csv(r'testset.csv')

df_train = pd.read_csv(r'trainset.csv')

df_train.drop(columns=['article','id'],inplace=True)

df_test.drop(columns=['article'],inplace=True)

vectorizer = CountVectorizer(ngram_range=(1, 2),min_df=3,max_df=0.9,max_features=10000)

vectorizer.fit(df_train['word_seg'])

x_train =vectorizer.transform(df_train['word_seg'])

x_test =vectorizer.transform(df_test['word_seg'])

y_train =df_train['class']-1

lg = LogisticRegression(C=4,dual=True)

lg.fit(x_train,y_train)

y_test = lg.predict(x_test)

df_test['class'] = y_test.tolist()

df_test['class'] = df_test['class'] + 1

df_result =df_test.loc[:,['id','class']]

df_result.to_csv('./result.csv',index=False)

print("完成")

執行結果是：

pandas.errors.ParserError: Error tokenizing data. C error: out of memory

這是因為我的電腦記憶體太小，導致了記憶體溢位，因此換一臺電腦就可以得到最終得分為72分的答案了。筆者最終排名位於全國前300名，算是一個個人感覺還不錯的成績了。 ---------------------

“達觀杯”文字智慧處理挑戰賽心得體會

記錄一下參賽的過程和體會比賽地址比賽回顧這是我第一次參加與NLP相關的比賽，所以就是在實踐中學習，哪裡不會點哪裡，經過大約10天的努力跑出的成績如下：記錄下我的比賽提交記錄回顧比賽，在整理自己的特徵資料、結果對比的時候還是有些不夠規範，有點混亂

達觀杯文字智慧處理挑戰賽

筆者嘗試了一下達觀杯的比賽，程式碼如下圖所示： import pandas as pd import imp from sklearn.linear_model import LogisticRegression from sklearn.feature_extrac

達觀杯文字智慧處理挑戰賽練手程式碼實現

1 import pandas as pd 2 3 import imp 4 5 from sklearn.linear_model import LogisticRegression 6 7 from sklearn.feature_extraction.text import Coun

“達觀杯”文字智慧處理挑戰賽程式碼示例

達觀杯介紹：類似kaggle的資料科學比賽，任何人可以參加網址：http://www.dcjingsai.com/ 可以用支付寶實名註冊專案名稱： “達觀杯”文字智慧處理挑戰賽安裝Python，執行如下程式碼。可以得到一個分數

當知識圖譜遇上文字智慧處理，會擦出怎樣的火花？

目前以理解人類語言為入口的認知智慧成為了人工智慧發展的突破點，而知識圖譜則是邁向認知智慧的關鍵要素。達觀資料在2018AIIA人工智慧開發者大會承辦的語言認知智慧與知識圖譜公開課上，三位來自企業和學術領域的專家分別從不同角度講述的知識圖譜的應用和發展。文字根據達觀資料副總裁王文廣演講內容《知識圖

03達觀杯文本智能挑戰賽

文本 img inf 微軟 com ont http family 技術文本分類長度較大，對文本的智能解析是很有挑戰的。 03達觀杯文本智能挑戰賽

office辦公中文字的處理與排版

off 格式化 ctr DG RoCE PE 工作效率修改內容 word 寫這個主要目的是用得多，比較實用，可以提升工作效率 1、格式化講解步驟1：選中步驟2：格式刷 2、字體間距與行距的的調整講解步驟1：鼠標滑動選中，然後鼠標右擊，找到“字體”，然後修改字體間距的值

改變了文字提取處理詞語的方式

Changed the way text extraction treats words. Now it extracts word by word, so text selection or markup are more properly alligned. Plea

sed基本用法 sed文字塊處理、 sed高階應用總結和答疑

Top NSD SHELL DAY05 案例1：sed基本用法案例2：使用sed修改系統配置案例3：sed多行文字處理案例4：sed綜合指令碼應用 1 案例1：sed基本用法 1.1 問題本案例要求熟悉sed命令的p、d、s等常見操作，並

法狗狗人工智慧技術總監龐雨穠：文字智慧的演進 | 2018FMI人工智慧與大資料高峰論壇（深圳站）

10月28日FMI-2018人工智慧與大資料高峰論壇深圳場圓滿落幕,法狗狗人工智慧技術總監龐雨穠以文字智慧的演進為主題進行了精彩的分享。法狗狗人工智慧技術總監龐雨穠以下是龐雨穠演講內容，飛馬網根據現場速記進行了不改變原意的編輯（有刪減）：

2018煙臺市服務貿易協會校企聯合研討會暨“北大課工場杯”大學生IT精英挑戰賽啟動

IFTNews 訊息：11月13日，煙臺市服務貿易協會與煙臺市軟體協會聯合北大課工場在煙臺大學於維紘學術交流中心舉辦了2018煙臺市服務貿易協會校企聯合研討會暨“北大課工場杯”大學生IT精英挑戰賽啟動儀式。此次研討會為落實山東省新舊動能轉換重大工程實施規劃，提升煙臺市服務貿易企業和軟體企業的行業競爭力，加

資料科學和人工智慧技術筆記五、文字預處理

五、文字預處理作者：Chris Albon 譯者：飛龍協議：CC BY-NC-SA 4.0 詞袋 # 載入庫 import numpy as np from sklearn.feature_extraction.text import Coun

達觀杯比賽總結

目錄比賽內容評分規則資料集原始資料大小資料處理特徵工程 word2vector doc2vector hash tfidf 特

Python正則表示式做文字預處理，去掉特殊符號

在進行文字訓練和處理之前難免要進行下預處理，過濾掉沒有用的符號等，簡單用python 的正則表示式過濾一下。 #!/usr/bin/python # encoding: UTF-8 import re # make English text clean def clean_en_text(te

文字溢位處理為省略號（多行、單行）

文字溢位處理一、單行文字溢位處理效果圖： html程式碼： <body> <div class="text">vukfjygfvhjvfgdtryutfvghdfkjgfdhgfhjgdfdgj</div> <div

達觀杯_構建模型（一）linearSVM

特徵：tfidf(word)+tfidf(article) """ 1.特徵：tfidf(word)+tfidf(article) 2.模型：linearsvm 3.引數：C=5 """ from sklearn.svm import LinearSVC #

達觀杯_構建模型（二）邏輯迴歸

特徵：tfidf(word+article) """ 1.特徵：tfidf(word+article) 2.模型：lr 3.引數：C=120 """ import pandas as pd import pickle from sklearn.linear_m

達觀杯_構建模型（三）lightGBM

countvector(a)+doc(a)+hash(a) """ 1.特徵：countvector(a)+doc(a)+hash(a) 2.模型：lgb """ import numpy as np import pandas as pd from sklea

[百鍊智慧]hihoCoder挑戰賽36 #1838 : 鎕鎕鎕

#1838 : 鎕鎕鎕時間限制:22000ms 單點時限:1000ms 記憶體限制:256MB 描述鎕鎕有 2n + 1 張卡片，每張卡片上都有兩個數字，第 i 張卡片上的兩個數字分別是 Ai 與 Bi。現在鎕鎕要從所有卡片中選出恰好 n + 1 張卡片，然

Mysql資料庫大文字資料處理

資料庫大文字資料處理目標：把 mp3檔案儲存到資料庫中！在my.ini中新增如下配置： max_allowed_packet=10485760 1　什麼是大文字資料所謂大文字資料，就是大的位元組資料，或大的字元資料。標準SQL中提供瞭如下型別來

達觀杯文字智慧處理挑戰賽

相關推薦