ptyhon中文本挖掘精簡版

阿新 • • 發佈：2018-07-23

gamma 邏輯 data 算法 pickle kit xls form 精簡版

import xlrd
import jieba
import sys  
import importlib
import os         #python內置的包，用於進行文件目錄操作，我們將會用到os.listdir函數  
import pickle    #導入cPickle包並且取一個別名pickle #持久化類
import random
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
from pylab import mpl  
from sklearn.naive_bayes import 
 MultinomialNB # 導入多項式貝葉斯算法包
from sklearn import svm

from sklearn import metrics 
from sklearn.datasets.base import Bunch
from sklearn.feature_extraction.text import TfidfVectorizer
importlib.reload(sys)


#把內容和類別轉化成一個向量的形式
trainContentdatasave=[] #存儲所有訓練和測試數據的分詞
testContentdatasave=[]

trainContentdata  
= []
testContentdata = []
trainlabeldata = []
testlabeldata = []

#導入文本描述的訓練和測試數據
def importTrainContentdata():
    file = ‘20180716_train.xls‘
    wb = xlrd.open_workbook(file)
    ws = wb.sheet_by_name("Sheet1")
    for r in range(ws.nrows):
        trainContentdata.append(ws.cell(r, 0).value)

def importTestContentdata():
    file  
= ‘20180716_test.xls‘
    wb = xlrd.open_workbook(file)
    ws = wb.sheet_by_name("Sheet1")
    for r in range(ws.nrows):
        testContentdata.append(ws.cell(r, 0).value)   

#導入類別的訓練和測試數據
def importTrainlabeldata():
    file = ‘20180716_train_label.xls‘
    wb = xlrd.open_workbook(file)
    ws = wb.sheet_by_name("Sheet1")
    for r in range(ws.nrows):
        trainlabeldata.append(ws.cell(r, 0).value)
        
def importTestlabeldata():
    file = ‘20180716_test_label.xls‘
    wb = xlrd.open_workbook(file)
    ws = wb.sheet_by_name("Sheet1")
    for r in range(ws.nrows):
        testlabeldata.append(ws.cell(r, 0).value)


if __name__=="__main__": 
    
    importTrainContentdata()
    importTestContentdata()
    importTrainlabeldata()
    importTestlabeldata()
    
    ‘‘‘貝葉斯
    clf = MultinomialNB(alpha=0.052).fit(train_set.tdm, train_set.label)  
    #clf = svm.SVC(C=0.7, kernel=‘poly‘, gamma=10, decision_function_shape=‘ovr‘)
    clf.fit(train_set.tdm, train_set.label)  
    predicted=clf.predict(test_set.tdm)
    
    邏輯回歸
    tv = TfidfVectorizer()
    train_data = tv.fit_transform(X_train)
    test_data = tv.transform(X_test)
    
    lr = LogisticRegression(C=3)
    lr.fit(train_set.tdm, train_set.label)
    predicted=lr.predict(test_set.tdm)
    print(lr.score(test_set.tdm, test_set.label))
    #print(test_set.tdm)
    
    #SVM
    clf = SVC(C=1500)
    clf.fit(train_set.tdm, train_set.label)
    predicted=clf.predict(test_set.tdm)
    print(clf.score(test_set.tdm, test_set.label))
    ‘‘‘
    
    tv = TfidfVectorizer()
    train_data = tv.fit_transform(trainContentdata)
    test_data = tv.transform(testContentdata)

    clf = SVC(C=1500)
    clf.fit(train_data, trainlabeldata)
    print(clf.score(test_data, testlabeldata))
    
    
    
    a=[]
    b=[]
    for i in range(len(predicted)):
        b.append((int)(float(predicted[i])))
        a.append(int(test_set.label[i][0]))
    
    ‘‘‘
    f=open(‘F:/goverment/ArticleMining/predict.txt‘, ‘w‘)
    for i in range(len(predicted)):
       f.write(str(b[i]))
       f.write(‘\n‘)
    f.write("寫好了")
    f.close()
    #for i in range(len(predicted)):
        #print(b[i])
    ‘‘‘
    metrics_result(a, b)

ptyhon中文本挖掘精簡版

gamma 邏輯 data 算法 pickle kit xls form 精簡版 import xlrd import jieba import sys import importlib import os #python內置的包，用於進行文件目錄操作

安裝虛擬機精簡版centos7

png vmw url 自己 tail 其他配置ip 虛擬 tools 　　相信大家都想在linux系統下開發，但是又希望自己的電腦是win。我與大家一樣，所以今天就試著裝虛擬機centos來區分開發。首先安裝虛擬機。一、下載資源 1、虛擬機VMware Workst

移動端阻止默認長按選中文本和彈出菜單、點擊陰影

prevent efault css mce web 點擊阻止 tran call css：/*阻止默認長按選中文本*/* { /*ios*/ -webkit-touch-callout:none; touch-callout:none; /*安卓

DIOCP 小白精簡版

接口我們 original .org 連接以及百度 hash codec DIOCP 修改版（YangYxd) 【當前版本】2015.05.27.001 【主要更改】– —————&mdash

機器學習文本挖掘之spherical k-means algorithm初識

ise align lar global product com matrix ati hms Spherical K-Means 法によるクラスタ分析の実験検証 1.1研究背景、目的：インターネットの普及などにより、膨大なデータの中からデータ間の関係を見つけ出したり

CentOS 7 精簡版安裝後聯網問題

ifcfg 內容 har 查看 clas res fab centos uuid 一、首先查看網絡情況：ifconfig 命令二、打開修改/etc/sysconfig/network-scripts/ifcfg-enp0s3（註意ifcfg-enp0s3這個文件是隨機的不

[置頂][終極精簡版][圖解]Nginx搭建flv mp4流媒體服務器

layer 所有 make 精簡節點 tran clas 測試 provider 花了我接近3周，歷經了重重問題，今日終於把流媒體服務器搞定，趕緊的寫個博文以免忘記。。。　　起初是跟著網上的一些教程來的，但是說的很不全面，一些東西也過時不用了（比如jwplayer老版

精簡版—憤慨的小鳥

into erp article type 由於 append alt 小遊戲 tracking 首先我們要布局一下。使用sizeclass來布局：連線過來： @property (weak, nonatomic) IBOutlet

關於網頁中文本域高度自動適應問題，參考微信回復

urn 技術技術分享 idt img col 如果高度自動適應 xtend 最近手頭有個項目中，有個界面想要做出類似於微信中的回復框，輸入框的高度可以隨文本的輸入，換行等自動適應，先放一個微信中的示例以此為參考，廢話不多說，上代碼 1 (function($

《Java從小白到大牛精簡版》——第1章開篇綜述

java javase java小白 java初學者Java誕生到現在已經有20多年了，但是Java仍然是非常熱門的編程語言之一，很多平臺中使用Java開發。表1-1所示的是TIOBE社區發布的2016年5月和2017年5月的編程語言排行榜，可見Java語言的熱度，或許這也是很多人選擇學習Java的主要原因。

禁止選中文本事件

clas () total cti brush stop function div his 由於經常會些寫錯，為了以後節約時間，記錄下： obj.on(‘click‘,‘.arrow‘,function(ev){ consol

《Java從小白到大牛精簡版》之第2章開發環境搭建

big gmp ucs ctr job cu3 vsu utm svt 譾至焚蟻擠追操赴贛鼓鉀辟豆http://huiyi.docin.com/ogudb55786 姥淮眉陶儷秘掣恢狙秘帽簧浪履http://shequ.docin.com/dtmud182 淖可世膛械壽

《Java從小白到大牛精簡版》之第4章 Java語法基礎

java javase 本章主要為大家介紹Java的一些基本語法，其中包括標識符、關鍵字、保留字、常量、變量、表達式等內容。4.1 標識符、關鍵字和保留字任何一種計算機語言都離不開標識符和關鍵字，因此下面將詳細介紹Java標識符、關鍵字和保留字。4.1.1 標識符標識符就是變量、常量、方法、枚舉、類、

《Java從小白到大牛精簡版》之第6章運算符（上）

java java小白 java初學者 Java語言中的運算符（也稱操作符）在風格和功能上都與C 和C++極為相似。本章為大家介紹Java語言中一些主要的運算符，包括算術運算符、關系運算符、邏輯運算符、位運算符和其他運算符。6.1 算術運算符Java中的算術運算符主要用來組織數值類型數據的算術運

關於機器學習中文本處理的一些常用方法

機器學習 tfidf lda word2vec前言文本挖掘也是機器學習或者說是人工智能最需要處理的一類信息（其它的諸如語音、圖像及視頻處理等）；隨著數字信息化和網絡化進程不斷深入，用戶的在線交流、發布、共享等都被以文字形式記錄下來，它們成為分析語言和理解社會的重要素材來源，對於文本的挖掘主要包括文檔分類、

html 中文本去掉下劃線

圖片自己 ges .com logs img 源代碼 src 文本明顯看出，，網頁中文本的下劃線，怎麽去點呢；先看一下源代碼吧，明顯看出，有下劃線的文本時超鏈接，我們可以通過 text-drection:"none"; 這個css樣式去掉博主寫這個是因為自己

Vue精簡版風格指南

methods 包含 user 分類 sid body btn stat better 前面的話　　Vue官網的風格指南按照優先級（依次為必要、強烈推薦、推薦、謹慎使用）分類，且代碼間隔較大，不易查詢。本文按照類型分類，並對部分示例或解釋進行縮減，是Vue風格指南的精簡

跳板機腳本（粗糙版）

Shell 跳板機跳板機需求：要求用戶登陸到跳板機後，只能執行管理員給定的選項動作，不允許以任何形式中斷腳本而到跳板機服務器上執行任何系統命令。需求分析：（1）跳板機服務器需要和其余服務器做好ssh秘鑰認證（2）實現傳統的遠程連接菜單的腳本（3）利用Linux信號防止用戶中斷信

問題16：如何調整字符串中文本的格式

AD 需要 ont 文本 pytho 輸出 AR AS 內容案例：修改字符串中日期的表示方式方案：使用re.sub()方法，對字符串中的內容進行排序替換； import re r = ‘2018-04-10 heyongcan zai xue python‘ #

Illustrator CC 2015精簡版

Illustrator點擊下載Adobe Illustrator CC 2015綠色精簡版 Illustrator CC 2015精簡版是一款非常好用的標準矢量插畫的軟件，由美國奧多比（Adobe）系統公司研發推出原版Illustrator CC 2014精簡而來的，包括精簡了不常用功能、示例文件以及其他多國

ptyhon中文本挖掘精簡版

相關推薦