第一次作業 數據分析軟件介紹
R語言
R是用於統計分析、繪圖的語言和操作環境。R是屬於GNU系統的一個自由、免費、源代碼開放的軟件,它是一個用於統計計算和統計制圖的優秀工具。
R是統計領域廣泛使用的誕生於1980年左右的S語言的一個分支。可以認為R是S語言的一種實現。而S語言是由AT&T貝爾實驗室開發的一種用來進行數據探索、統計分析和作圖的解釋型語言。最初S語言的實現版本主要是S-PLUS。S-PLUS是一個商業軟件,它基於S語言,並由MathSoft公司的統計科學部進一步完善。後來新西蘭奧克蘭大學的Robert Gentleman和Ross Ihaka及其他誌願人員開發了一個R系統。由“R開發核心團隊”負責開發。R可以看作貝爾實驗室(AT&T BellLaboratories)的RickBecker,JohnChambers和AllanWilks開發的S語言的一種實現。當然,S語言也是S-Plus的基礎。所以,兩者在程序語法上可以說是幾乎一樣的,可能只是在函數方面有細微差別,程序十分容易地就能移植到一程序中,而很多一的程序只要稍加修改也能運用於R。 R作為一種統計分析軟件,是集統計分析與圖形顯示於一體的。它可以運行於UNIX,Windows和Macintosh的操作系統上,而且嵌入了一個非常方便實用的幫助系統,相比於其他統計分析軟件,R還有以下特點: 1.R是自由軟件。這意味著它是完全免費,開放源代碼的。可以在它的網站及其鏡像中下載任何有關的安裝程序、源代碼、程序包及其源代碼、文檔資料。標準的安裝文件身自身就帶有許多模塊和內嵌統計函數,安裝好後可以直接實現許多常用的統計功能。[2] 2.R是一種可編程的語言。作為一個開放的統計編程環境,語法通俗易懂,很容易學會和掌握語言的語法。而且學會之後,我們可以編制自己的函數來擴展現有的語言。這也就是為什麽它的更新速度比一般統計軟件,如,SPSS,SAS等快得多。大多數最新的統計方法和技術都可以在R中直接得到。[2] 3. 所有R的函數和數據集是保存在程序包裏面的。只有當一個包被載入時,它的內容才可以被訪問。一些常用、基本的程序包已經被收入了標準安裝文件中,隨著新的統計分析方法的出現,標準安裝文件中所包含的程序包也隨著版本的更新而不斷變化。在另外版安裝文件中,已經包含的程序包有:base一R的基礎模塊、mle一極大似然估計模塊、ts一時間序列分析模塊、mva一多元統計分析模塊、survival一生存分析模塊等等.[2] 4.R具有很強的互動性。除了圖形輸出是在另外的窗口處,它的輸入輸出窗口都是在同一個窗口進行的,輸入語法中如果出現錯誤會馬上在窗口口中得到提示,對以前輸入過的命令有記憶功能,可以隨時再現、編輯修改以滿足用戶的需要。輸出的圖形可以直接保存為JPG,BMP,PNG等圖片格式,還可以直接保存為PDF文件。另外,和其他編程語言和數據庫之間有很好的接口。[2] 5.如果加入R的幫助郵件列表一,每天都可能會收到幾十份關於R的郵件資訊。可以和全球一流的統計計算方面的專家討論各種問題,可以說是全世界最大、最前沿的統計學家思維的聚集地.[2] R是基於S語言的一個GNU項目,所以也可以當作S語言的一種實現,通常用S語言編寫的代碼都可以不作修改的在R環境下運行。 R的語法是來自Scheme。R的使用與S-PLUS有很多類似之處,這兩種語言有一定的兼容性。S-PLUS的使用手冊,只要稍加修改就可作為R的使用手冊。所以有人說:R,是S-PLUS的一個“克隆”。 但是請不要忘了:R是免費的(R is free)。R語言源代碼托管在github,具體地址可以看參考資料。[3] 。 R語言的下載可以通過CRAN的鏡像來查找。 R語言有域名為.cn的下載地址,有六個,其中兩個由Datagurn,由中國科學技術大學提供的。R語言Windows版,其中由兩個下載地點是Datagurn和USTC提供的。
Stata
Stata 是一套提供其使用者數據分析、數據管理以及繪制專業圖表的完整及整合性統計軟件。它提供許許多多功能,包含線性混合模型、均衡重復反復及多項式普羅比模式。用Stata繪制的統計圖形相當精美。 Stata的統計功能很強,除了傳統的統計分析方法外,還收集了近20年發展起來的新方法,如Cox比例風險回歸,指數與Weibull回歸,多類結果與有序結果的logistic回歸,Poisson回歸,負二項回歸及廣義負二項回歸,隨機效應模型等。具體說, Stata具有如下統計分析能力: 數值變量資料的一般分析:參數估計,t檢驗,單因素和多因素的方差分析,協方差分析,交互效應模型,平衡和非平衡設計,嵌套設計,隨機效應,多個均數的兩兩比較,缺項數據的處理,方差齊性檢驗,正態性檢驗,變量變換等。 分類資料的一般分析:參數估計,列聯表分析 ( 列聯系數,確切概率 ) ,流行病學表格分析等。 等級資料的一般分析:秩變換,秩和檢驗,秩相關等 相關與回歸分析:簡單相關,偏相關,典型相關,以及多達數十種的回歸分析方法,如多元線性回歸,逐步回歸,加權回歸,穩鍵回歸,二階段回歸,百分位數 ( 中位數 ) 回歸,殘差分析、強影響點分析,曲線擬合,隨機效應的線性回歸模型等。 其他方法:質量控制,整群抽樣的設計效率,診斷試驗評價, kappa等。 SPSS統計軟件
SPSS是英文Statistical package for the social science 的縮寫,翻譯成漢語是社會學統計程序包,20世紀60年代末由美國斯坦福大學的三位研究生研制,1975年在芝加哥組建SPSS總部。SPSS系統特點是操作比較方便,統計方法比較齊全,繪制圖形、表格較有方便,輸出結果比較直觀。SPSS是用FORTRAN語言編寫而成。適合進行從事社會學調查中的數據分析處理。最新版為13.0版。網址:http://www.spss.com/。
SPSS原名社會科學統計軟件包,現已改名為統計解決方案服務軟件。是世界著名的統計分析軟件之一。
20世紀60年代末,美國斯坦福大學的三位研究生研制開發了最早的統計分析軟件SPSS,同時成立了SPSS公司,並於1975年在芝加哥組建了 SPSS總部。20世紀80年代以前,SPSS統計軟件主要應用於企事業單位。1984年SPSS總部首先推出了世界第一套統計分析軟件微機版本 SPSS/PC+,開創了SPSS微機系列產品的先河,從而確立了個人用戶市場第一的地位。
同時SPSS公司推行本土化策略,目前已推出9個語種版本。SPSS/PC+的推出,極大地擴充了它的應用範圍,使其能很快地應用於自然科學、技術科學、社會科學的各個領域,世界上許多有影響的報刊雜誌紛紛就SPSS的自動統計繪圖、數據深入分析、使用靈活方便、功能設計齊全等方面給予了高度的評價與稱贊。目前已經在國內廣泛流行起來。它使用Windows的窗口方式展示各種管理和分析數據方法的功能,使用對話框展示出各種功能選擇項,只要是掌握一定的 Windows操作技能,粗通統計分析原理,就可以使用該軟件進行各種數據分析,為實際工作服務。
SPSS for Windows是一個組合式軟件包,目前已經開發出SPSS12版本,它集數據整理、分析功能於一身。用戶可以根據實際需要和計算機的功能選擇模塊,以降低對系統硬盤容量的要求,有利於該軟件的推廣應用。SPSS的基本功能包括數據管理、統計分析、圖表分析、輸出管理等等。SPSS統計分析過程包括描述性統計、均值比較、一般線性模型、相關分析、回歸分析、對數線性模型、聚類分析、數據簡化、生存分析、時間序列分析、多重響應等幾大類,每類中又分好幾個統計過程,比如回歸分析中又分線性回歸分析、曲線估計、Logistic回歸、Probit回歸、加權估計、兩階段最小二乘法、非線性回歸等多個統計過程,而且每個過程中又允許用戶選擇不同的方法及參數。SPSS也有專門的繪圖系統,可以根據數據繪制各種統計圖形和地圖。
SPSS for Windows的分析結果清晰、直觀、易學易用,而且可以直接讀取EXCEL及DBF數據文件,現已推廣到多種操作系統的計算機上,最新的版采用 DAA(Distributed Analysis Architecture,分布式分析系統),全面適應互聯網,支持動態收集、分析數據和HTML格式報告,領先於諸多競爭對手。
方便易用是SPSS for Windows的主要優點,同時也是SPSS不夠全面的原因所在
spss的簡單操作
雙擊修改一個數據
Dele鍵刪除一個數據
復制,清除一列數據
合並兩個文件裏的數據
第一次作業 數據分析軟件介紹