1. 程式人生 > >SPSS學習(1)之資料錄入與資料獲取

SPSS學習(1)之資料錄入與資料獲取

SPSS系列文章是本人根據張文彤的《SPSS20.0統計分析基礎教程第2版》學習SPSS中學習筆記,僅作參考和學習。

在SPSS中建立資料檔案大致有兩種情況:

  • 一種是非電子化的原始資料資料,需要直接將調查問卷中的資料錄入SPSS軟體,建立資料檔案;
  • 另一種是已經被錄入為其他資料格式的資料,需要將其內容直接讀入SPSS中。
針對這兩種情況,我們一起來研究下,如何將資料錄入到SPSS中,以及如何將其他格式的資料讀入SPSS中。

1.統計軟體中資料的錄入格式

統計軟體中資料的錄入格式和大家平時記錄資料用的格式不太相同,SPSS所使用的資料格式也需要遵守相應的格式要求,其基本原則如下:

  • 不同個案(Case)的資料不能在同一條記錄中出現,即同一個案的資料應當獨佔一行(一個個案佔一行
    );
  • 每一個測量指標/影響因素只能佔據一列的位置,即同一個指標的測量數值都應當錄入到同一個變數中去(一個變數佔一列)。

但有時分析方法會對資料有特別的要求,此時可能會違反“一個個案佔一行,一個變數佔一列”的原則,這種情況在配對資料中和重複測量資料中最多見。這是因為根據分析模型的要求,需要將同一個觀察物件某個觀察指標的不同次測量看成是不同的指標,因此被錄入成了不同的變數,這是允許的。但對於統計的初學者而言,最好能夠嚴格遵守以上規則,而且無論表現格式怎樣,最終的資料集都應當能夠包含原始資料的所有資訊。

2.變數屬性

任何一個變數顯然都應當有變數名與之對應,但為了進一步滿足統計分析的需求,除變數名外,在統計軟體中還常常對每一個變數進一步定義許多附加的變數屬性,如變數型別(Type)、變數寬度(Width)、小數位(Decimal)等。

如圖,在SPSS的資料管理視窗的變數檢視中,可以看出SPSS為每一個變數指定11種變數屬性。


  • 變數的儲存型別

SPSS中的變數有3種基本型別,分別是數值型、字串和日期型。根據不同的顯示方式,數值型又被分為了5種或者6種(因版本而異),所以SPSS中的變數型別共有8種(9種)。在變數檢視中選擇“型別”單元格時,可以定義資料型別。如下圖所示:


如圖所示:左側為具體的儲存型別,右側則用於進一步定義變數寬度、小數位數等。

(1)數值型(Numeric):在以上3大類變數型別中,數值是SPSS是最常用的變數型別。數值型的資料是由0-9的阿拉伯數字和其他特殊符號,如美元符號、逗號或者圓點組成的。數值型資料根據內容和顯示方式的不同,又可分為標準數值型(Numeric)、每3位用逗號分隔的逗號數值型(Comma)、每3位用圓點分隔的圓點數值型(Dot)、科學計數型(Scientific Notation)、顯示時帶美元符號的美元數值型(Dollar)、使用者自定義型(Custom Currency)等6種不同的便是方法。

(2)字元型( String):字元型也是 SPSS 較常用的資料型別,字元型資料 的預設顯示寬度為 8個字元位,它區分大小寫字母,並且不能進行數學運算。 字元型資料在SPSS的資料處理過程 (如在計算生成新變數時 )中是用一對引號引起來的。 需要注意的是,在輸入資料 時不應輸入引 號,否則,雙引號將會作為字元型資料的一部分。

(3)同期型( Date):這種型別的資料是用來表示日期或時間的。 H期型資料的顯示格式有很多,SPSS在對話方塊右側會以列表框的方式列出各種顯示格式以供使用者選擇。 如果此處選擇的 是mm/dd/yy或類似的兩位數年份記錄方式,則需要在系統選項的“資料”選項卡中確定具體的世紀範圍,目前系統預設為1941-2040年區間。

事實上,SPSS中的日期型變盤儲存的是該時間與1582年JO月14日零點相差的秒數,如 1582年10月15日儲存的就是 60×60×24=86 400,將變數型別變換為數值型就可以看到。但 是這裡只能儲存正數,即1582年JO月14日及更早的時間在SPSS中是無效的。 日期型資料主 要在時間序列分析中比較有用,在較為簡單的分析問題中完全可以用普通數值型資料 來代替。

  • 變數的測量尺度

如果只使用變數型別,很多時候並不能準確地說明變數的含義和屬性。比如:變數S2“性別” :用l代表男,2代表女。 在這裡1和2只是一個符號,沒有任何數字意 義。 2並不比1大,1也並不比2小。

上述 S2變數的儲存型別是數值型,但數值的具體含義不同,所攜帶的資訊量不同,適用的統計方法也就不同。如果只以儲存型別來說明這個變盤的屬性,就不能反映上 述區別。 為此,就有必要給變數增加測量尺度 這一屬性。

在統計學中,按照對事物描述的精確程度,將所採用的測量尺度從低到高分為4個層次:定類尺度、定序尺度、定距尺度和定比尺度。 在這 4種測量尺度之間,按照資訊量的高 低,可將高層 次測量尺度的測量結果轉換為低層次測量尺度的測量結果,但 這樣會損失一部分資訊,但不能將低層次的測量尺度轉換為高層次測量尺度的結果, 這樣可能會引人錯誤的資訊。

在SPSS中使用度量標準( Measure)屬性對變數的測量尺度進行定義,其中定類尺度變數用“名義( N)”來表示。 能使用的定類尺度的資料可以是數值型變數,也可以是字元型變數。使用定類變數對事物進行分類時,必須符合窮盡和互斥的原則。 窮盡的原則就是指“ 每個個體都必須能歸為一個類別”,互斥的原則 是指“每個個體都只能歸為一個類別” 。

定序尺度變數用 “序號(0)”來表示。 定序變數同定 類變數一樣,其資料可以是數值型變數,也可以 是字元型變數。對於定序變數除了可以計算頻率之外,還可以計算累計頻率。 如足球喜歡程度這一變數的取值有:1 一非常喜歡,2一喜歡,3一無 所謂,4一不喜歡,5一非常不喜歡,這是一個定序尺度的變數,因而可以計算累計頻數和累計頻 率。如對於“足球喜歡程度”,不僅可以計算喜歡的人數和比例,還可以計算喜歡及非常喜歡的 累計人數和比例。

定距尺度( Interval M創surement)是對事物類別或次序之間間距的測度,定比尺度( Scale Measurement)是能夠測算兩個測度值之間比值的一種計量尺度,它的測量結果同定距變數一樣也表現為數值,如職工月收入、企業銷售額等。

SPSS中預設的變數測量尺度就是定比尺度。但由於定距和定比測量尺度在絕大多數統計分析中沒有本質上的差別,在SPSS中就將其合併為一類,統稱為“ 度量( S)

  • 變數名與變數值標籤

變數名標籤: 對變數名的含義進行進一步解釋說明,該標籤會在結果中輸出以方便閱讀,增強變數名的可視性和l統計分析結果的可讀性。

值( Values)屬性: 用於定義變數值標籤(對變數;取值含義的解釋說明資訊,例如1 , 對於性別資料,假設用1表示男,用2表示女)


  • 缺失值

缺失(Missing)屬性用於定義變數缺失值。SPSS中缺失值有使用者自定義缺失值和系統缺失值兩大類。 對於數值型變數的資料,系統缺失值用 一個國點“ . ”表示,而字元型變數預設就是空字串。另外一類缺失值是使用者自定義缺失值。

  • 角色

當開啟其中一個對話方塊時,滿足角色要求的變數將自 動顯示在目標列表中。可用角色包括以下幾個。

(1)輸入:變數將用做輸入(例如,預測變數、自變數)。

(2)目標 :變數將用做輸出或目標 (例如,因變數)。
(3)兩者:變數將同時用做輸入和輸出。
(4)無:變數沒有 角色分配(將不納人分析)。

(5)分割槽:變數用於將資料劃分為單獨的訓練、檢驗和驗證樣本。

(6) 拆分:該項的存在主要是為了能夠和Clementine(即現在的IBM SPSS Modeler)相互相容。具有此角色的變數不會在SPSS中自動成為拆分檔案變數。

在預設情況下,SPSS 將為所有 變數分配輸入角色,需要指出的是,角色分配 隻影響支援角色 分配 的對話方塊。

3.資料的直接錄入

在SPSS中,新建一個數據檔案非常容易。只要開啟SPSS ,系統就巳經生成了一個空資料檔案,使用者只要按自己的需要在其中定義變盤、輸入資料,然後儲存即可。

  • 介面

  • 開放題和簡單單選題的錄入

(1)在SPSS中定義變數

變數 ID 是被訪者的記錄號,它的測量尺度應該是定類尺度。但需要指出的是,因為變 量 ID 只是方便檢查和核對問卷,不參與後邊的資料分析工作, 所以,在要求不嚴格的情況下,此處的變數型別可採用預設形式不進行修改。


(2)開放題的錄入


(3)單選題的錄入


(4)設定多選題變數集

在SPSS中選擇“分析 ”→“多重響應” →“定義變數集”選單項,打〕l:“定義多重響應集” 對話方塊,如下圖所示:


4.外部資料的獲取

對於 SPSS 格式的資料.只要選擇 檔案 → 開啟 → 資料 選單項,然後選擇檔案路徑和 檔名開啟即可。 如果資料不是 SPSS 格式的,也可以直接讀入SPSS,用 SPSS 進行分析。 SPSS可以讀入許多非 SPSS 預設型別的資料檔案,方式主要有3 種,包括直接開啟、利用文字嚮導讀入文字資料,以及利用資料庫 ODBC 介面讀取資料。

  • SPSS可以直接開啟的資料型別
    • S附S Statistics ( * . sav)             SPSS各版本的資料檔案
    • SPSS/PC + ( * . sys)                   SPSS/PC +版本的資料檔案

    • SPSS/PC + ( * . sys)                   SPSS/PC +版本的資料檔案

    • 便攜( * por) Excel       SPSS便攜格式的資料檔案

    • Excel ( *.xls,*. xlsx, *. xlsm)     Excel各版本的資料檔案

    • Lotus( *. w * )                 Lotus各版本的資料檔案

    • SYLK( *. slk)                以SYLK(符號鏈按)格式儲存的資料檔案

    • dBASE( *. dbf)                dBASE系列資料檔案(從dBASEH~N)

    • SAS( *. sas7bdat,  *. sd7,…) SAS各版本的資料檔案

    • Stata( *. dat)                       Stata 4~8版的資料檔案

    • 文字格式(*.txt,*.dat)              純文字格式的資料檔案

讀取表格資料