如何用pandas讀取CVS格式資料

阿新 • • 發佈：2019-01-01

本文主要介紹的是如何利用pandas來讀取CVS格式的資料
CVS格式指的是：每個元素之間均已逗號隔開，不管檔案字尾名是什麼，例如.txt,.data等等

如

#x.txt

1,2,3
4,5,6

----------------------------------------------------------
column_name=['A','B','C']
t=pd.read_csv('./x.txt',names=column_name)
print t

>>
   A  B  C
0  1  2  3
1  4  5  6

1.匯入pandas包

import 
 pandas as pd

2.利用read_csv函式讀取

train=pd.read_csv('./Datasets/Breast-Cancer/breast-cancer-train.csv')
test=pd.read_csv('./Datasets/Breast-Cancer/breast-cancer-test.csv')
print np.shape(train)
print type(train)

>> (175,4)
>> <class 'pandas.core.frame.DataFrame'>

讀取後的資料儲存在train中，但其資料型別不是我們常用的array或者array；此時可以用np.array(train)強制轉換成array型別，之後的操作就同矩陣操作一樣了。

3.擬合數據

3.1 轉換成array型別處理

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

train=pd.read_csv('./Datasets/Breast-Cancer/breast-cancer-train.csv')
test=pd.read_csv('./Datasets/Breast-Cancer/breast-cancer-test.csv')
train_data = np.array(train)
test_data = np.array(test)


X_train = train_data[:,1 
:3] # 取第1,2列作為訓練集
y_train = train_data[:,3] # 取第3列為標籤

X_test = test_data[:,1:3]
y_test = test_data[:,3]

p_index = np.where(train_data[:,3]==1)[0] # 取出所以正樣本的索引
n_index = np.where(train_data[:,3]==0)[0] # 取出所以負樣本的索引
positive = X_train[p_index,:] # 取出所以正樣本
nagative = X_train[n_index,:] # 取出所以負樣本

plt.scatter(nagative[:,0],nagative[:,1],marker='o',s=200,c='red') #繪製樣本點
plt.scatter(positive[:,0],positive[:,1],marker='x',s=150,c='black')
plt.show()

lr=LogisticRegression()
lr.fit(X_train,y_train)
print lr.score(X_test,y_test)

3.2 利用DataFrame處理

import pandas as pd
import matplotlib.pyplot as plt

train=pd.read_csv('./Datasets/Breast-Cancer/breast-cancer-train.csv')
test=pd.read_csv('./Datasets/Breast-Cancer/breast-cancer-test.csv')

negative=train.loc[train['Type']==0][['Clump Thickness','Cell Size']]
positive=train.loc[train['Type']==1][['Clump Thickness','Cell Size']]
plt.scatter(negative['Clump Thickness'],negative['Cell Size'],\
            marker='o',s=200,c='red')
plt.scatter(positive['Clump Thickness'],positive['Cell Size'],\
            marker='x',s=150,c ='black')
plt.show()


X_train=train[['Clump Thickness','Cell Size']]
y_train=train['Type']
X_test=test[['Clump Thickness','Cell Size']]
y_test=test['Type']

lr=LogisticRegression()
lr.fit(X_train,y_train)
print lr.score(X_test,y_test)

下載

參考：

python機器學習及實踐

如何用pandas讀取CVS格式資料

本文主要介紹的是如何利用pandas來讀取CVS格式的資料 CVS格式指的是：每個元素之間均已逗號隔開，不管檔案字尾名是什麼，例如.txt,.data等等如 #x.txt 1,2,3 4,5,6 -------------------------

python讀取json格式檔案和用pandas讀取excel檔案

IT Xiao Ang Zai 9月30號版本：python3.7 程式設計軟體：sublime 一：python解析json資料 1.什麼是json： (1)JSON(JavaScript Object Notation) 是一種輕量級的資料交換格式。它

pandas讀取首行資料（首行無列名），dataframe資料錶轉list陣列格式，dataframe轉置

程式碼： def delbycelllist(self, readfrom=None, sheet_name='Sheet1', cgilist=None, cellnamelist=None): if cgilist: fo

用pandas讀取github的線上資料

用pandas讀取github線上資料。方式一： import pandas as pd url="https://raw.githubusercontent.com/hunkim/DeepL

用pandas或numpy處理資料中的空值（np.isnan()/pd.isnull()）

最近在做資料處理的時候，遇到個讓我欲仙欲死的問題，那就是資料中的空值該如何獲取。我的目的本來是獲取資料中的所有非零且非空值，然後再計算獲得到的所有資料計算均值，再用均值把0和空值填上。這個操作讓我意識到了i is None/np.isnan(i)/i.isnull()之間的差別，再此

用python讀取tif格式影象

用python讀取tif格式影象 import cv2 img = cv2.imread("11.tif",1) #第二個引數是通道數和位深的引數， #IMREAD_UNCHANGED = -1#不進行轉化，比如儲存為了16位的圖片，讀取出來仍然為16位。 #IMREAD_GRAYSC

tensorflow 讀取TFRecord格式資料並進行計算程式碼

import tensorflow as tf def _int64_feature(value): return tf.train.Feature(int64_list=tf.train.Int64List(value=[value])) if __name__=="

用pandas讀取csv檔案出現問題

讀取csv檔案 first = pd.read_csv(r'C:\Users\lenovo\Desktop\廣州.csv',encoding="utf-8") second = pd.read_excel(r'C:\Users\lenovo\Desktop\網點規則調整申請表_20181219_

Python使用pandas讀取Excel檔案資料和預處理小案例

假設有Excel檔案data.xlsx，其中內容為現在需要將這個Excel檔案中的資料讀入pandas，並且在後續的處理中不關心ID列，還需要把sex列的female替換為1，把sex列的male替換為0。本文演示有關的幾個操作。（1）匯入pandas模組 >>> import p

使用python pandas讀取csv檔案資料

csv是我接觸的比較早的一種檔案，比較好的是這種檔案既能夠以電子表格的形式檢視又能夠以文字的形式檢視。最早接觸是在別人的Perl指令碼中，或許是為了充分利用Perl的文字處理能力。不過，日常的生活工作

利用pandas將csv格式資料寫入到excel

一、安裝模組 pip install pandas pip install xlwt 二、程式碼示例 1、csv檔案內容展示 2、程式碼 #!/usr/bin/env python #-*- coding:utf-8 -*- import pandas as p

access vba 用recordset讀取表中資料的簡單方法

'strQuery是表名，查詢名等 Public Function Getrs(Byval strQuery as string) as ADODB.Recordset Dim objRs As New ADODB.Recordset on Error GoTo Er

Sliverlight 讀取 JSON 格式資料

[程式碼] xml程式碼 <UserControl x:Class='SilverlightApplication3.MainPage' xmlns='http://schemas.microsoft.com/winfx/2006/xaml/presentati

用python讀取json格式內容並儲存到excel中

python版本 python2.7 所需安裝庫 xlwt # -*- coding: utf-8 -* import json,xlwt,os def readjson(): path = 'C:/Users/lenovo/Desktop/xueli'#指定資料夾

ajax讀取json格式資料或者說獲取瀏覽器XHR中資料

XHR中有這樣兩組json資料通過getJSON獲取 $.getJSON("{% url villa:get_expect pk=object.id %}",//url地址

用pandas讀取excel並畫圖展示

初學python,啥都不懂。剛好有個資料想分析一下，便搜尋瞭如何使用python處理Excel並展示，短短的一段程式碼浪費了很多時間，直接貼程式碼吧： python dict orderedDict pandas xlrd 程式碼塊程式碼塊語法遵循標準markdow

spark用scala讀取hive表資料

spark1.6寫法： val conf = new SparkConf() val sc = new SparkContext(conf) val hiveContext = new HiveContext(sc) // 指定hive中

用pandas分析百萬電影資料

用pandas分析電影資料 Lift is short, use Python. 用Python做資料分析，pandas是Python資料分析的重要包，其他重要的包：numpy、matplotlib . 安裝pandas(Linux, Mac, Windo

Pandas讀取較大資料量級的處理方法 - chunk

前情提要: 工作原因需要處理一批約30G左右的CSV資料，資料量級不需要使用hadoop的使用，同時由於辦公的本本記憶體較低的緣故，需要解讀取資料時記憶體不足的原因。操作流程：方法與方式:首先是讀取資料，常見的csv格式讀取時一次性全部讀取進來，面對資料

pandas讀取完的csv資料格式

使用pandas讀取csv檔案讀取出來的資料其實還是有一定附加格式的，那就是行列標題。 In [18]: data1 = pd.read_csv('data.csv') In [19]: data1

如何用pandas讀取CVS格式資料

相關推薦