Java基礎教程(5)--變數
一.變數
1.變數的定義
正如上一篇教程《Java基礎教程(4)--面向物件概念》中介紹的那樣,物件將它的狀態存在域中。但是你可能仍然有一些疑問,例如:命名一個域的規則和慣例是什麼?除了int還有其他的型別嗎?域在宣告的時候必須初始化嗎?如果域沒有顯示地初始化會被賦予一個預設值嗎?在本文中我們將一一討論這些問題,但是在開始之前,需要對幾個概念進行介紹。在Java中,“域”和“變數”術語都會使用,對於初學者來說這可能有一點困惑,因為它們看起來好像說的是同一個東西。 Java語言定義了以下幾種型別的變數:
- 例項變數(非靜態域):從技術層面來說,物件將它們各自的狀態存在“非靜態域”中,也就是沒有使用static關鍵字修飾的域。非靜態域也被稱為例項變數,因為對於類的每個例項(換句話說,就是每個物件)來說,它們的值都是獨立的。例如,每個自行車的當前速度相對於其他自行車來說都是獨立的。
- 類變數(靜態域):類變數是使用static關鍵字修飾的域。這告訴編譯器無論這個類有多少個例項,這個變數只有一個副本。對於一種特定的自行車來說,它的齒輪數可以被標記為static,因為這個值適用於它的每一個例項。程式碼static int numGears = 6;將會建立一個靜態域。此外,可以使用關鍵字final來修飾這個域來保證它的值不會改變。
- 區域性變數:類似於物件在域中儲存其狀態,方法通常會將其臨時狀態儲存在區域性變數中。宣告區域性變數的語法與宣告域類似(例如,int count = 0;)。沒有特殊的關鍵字將變數標記為區域性變數,這完全取決於宣告變數的位置——它位於方法的兩個大括號之間。因此,區域性變數只對宣告它們的方法可見,對於類的其他部分來說它們是不可見的。
- 引數:你已經在HelloWorld的main方法和Bicycle類中看到過引數的應用。回想一下main方法的簽名——public static void main(String[] args)。這裡,args變數是方法的引數。需要記住的是引數屬於“變數”而不是“域”。這也適用於其他接受引數的結構(例如建構函式和異常處理),我們將陸續在後面的教程中見到它們。
在理解了這幾個概念後,相信你對變數和域的關係有了進一步的認識。變數分為例項變數、類變數、區域性變數和引數,而只有例項變數和類變數屬於域的概念。你也可能偶爾也會看到“成員”一詞,類的域,方法和巢狀型別統稱為其成員。
2.命名
變數名是識別符號的一種,它滿足識別符號的規則。識別符號用來給程式中需要自定義名稱的某個實體命名,例如變數、方法、類、引數等。所有的識別符號都需要滿足以下的規則或慣例:
- 識別符號必須是由字母、數字、下劃線(_)、美元符號($)等Java允許作為識別符號中一部分的字元組成。可以使用Character.isJavaIdentifierPart()來檢測一個字元是否被允許作為Java識別符號的一部分。
- 識別符號不能以數字或其他不允許作為出現在識別符號起始位置的字元開頭。可以使用Character.isJavaIdentifierStart()來檢測一個字元是否被允許作為Java識別符號的第一個字元。
- 識別符號不能是關鍵字、null、true或false。
- 識別符號不限制長度。
- 識別符號應該儘可能地表達出它的作用或意義以提高程式的可讀性。建議使用駝峰法(第一個單詞首字母小寫,其餘單詞首字母大寫)來為設計識別符號。如果是常量(使用final修飾的變數),那麼規則稍有變化,將每個字母大寫並用下劃線(_)分隔每個單詞。
上面提到了關鍵字。關鍵字是程式語言中事先定義的,有特別意義的單詞。下面是Java中的關鍵字: 其中,const和goto關鍵字雖然已經不再使用,但是它們還是被保留了下來。true、false和null雖然被很多人誤認為是關鍵字,但實際上它們只是字面量而已。
二.基本資料型別
1.八種基本資料型別
Java是一門靜態語言,這意味著所有的變數在使用前必須先進行宣告。考慮以下程式碼:
int gear = 6;
上面的程式碼聲明瞭一個名為gear的變數,它是整數型別,並且有一個初始值1。變數的型別決定了它所能儲存的資料的型別。除int之外,Java程式語言還支援其他七種基本資料型別。Java中的八種原始資料型別是:
- byte:byte資料型別是8位有符號整數。它的最小值為-128(-27),最大值為127(27-1)。
- short:short資料型別是16位有符號整數。它的最小值為-32768(-215),最大值為32767(215-1)。
- int:int資料型別是32位有符號整數。它的最小值為-231,最大值為231-1。
- long:long資料型別是64位有符號整數。它的最小值為-263,最大值為263-1。
- float:float資料型別是單精度32位IEEE754浮點數(如果對浮點數的概念不瞭解,可以簡單地將它理解為小數)。它的有效位數為6~7位,不要使用它去儲存對精度要求較高的資料。
- double:double資料型別是雙精度64位IEEE754浮點數。它的有效位數為15位。在儲存浮點數時,絕大部分情況下都應該使用double型別。
- boolean:boolean資料型別只有兩個可能的值:true和false。它一般用來表示條件的真或假。在Java中,boolean資料型別不能與其他資料型別進行相互轉換。
- char:char資料型別是單個16位Unicode字元。它的最小值為'\u0000',最大值為'\uffff'。
char型別擴充套件
要想弄清楚char型別,就必須瞭解Unicode編碼機制。Unicode打破了傳統字元編碼機制的限制。在Unicode出現之前,已經有許多不同的標準:美國的ASCII、西歐語言中的ISO8859-1、俄羅斯的KOI-8、我國的GB2312等。這樣就產生了下面兩個問題:一是對於任意給定的編碼值,在不同的編碼方案下有可能對應不同的字母;二是採用大字符集的語言其編碼長度可能不同。例如,有些常用的字符采用單位元組編碼,而另一些字元則需要兩個或更多位元組。 設計Unicode編碼的目的就是要解決這些問題。在20世紀80年代開始啟動設計工作時,人們認為兩個位元組的程式碼寬度足以對世界上各種語言的所有字元進行編碼,並有足夠的空間留給未來擴充套件。在1991年釋出了Unicode 1.0,當時僅佔用65536個程式碼值中不到一半的部分。在設計Java時決定採用16位的字符集,這樣會比使用8位字符集的程式設計語言有很大的改進。 十分遺憾,經過一段時間,不可避免的事情發生了。由於增加了大量的漢語、日語和韓語中的文字,Unicode字元超過了65536個,16位的char型別已經不能滿足描述所有Unicode字元的需要了。 從JavaSE 5.0開始,碼點(code point)是指與一個編碼表中的某個字元對應的程式碼值。在Unicode標準中,碼點採用十六進位制書寫,並加上字首U+,例如U+0041就是拉丁字母A的碼點。Unicode的碼點可以分成17個平面。第一個程式碼級別稱為基本多語言平面,碼點從U+0000到U+FFFF;其餘的16個平面碼點從U+10000到U+10FFFF,其中包括一些輔助字元(supplementary character)。 下面來介紹UTF-16。UTF-16是Unicode碼的一種編碼格式。也就是說,Unicode決定了每個字元所對應的編碼的值,而UTF-16是Unicode編碼的一種書寫格式,與其類似的還有UTF-8和UTF-32。雖然這些格式的表現形式不盡相同,但他們表示的編碼是一致的,那就是Unicode編碼。UTF-16採用不同長度的編碼表示所有Unicode碼點。在Unicode中,特定長度的位元序列稱為程式碼單元。例如,UTF-8的一個程式碼單元的長度為8。UTF-16中16位表示一個程式碼單元。UTF-16編碼的規則如下:
- U+0000到U+D7FF以及U+E000到U+FFFF(基本多語言平面) 這個區間稱為基本多語言平面,包含了最常見的字元。每個字元對應的碼點使用一個程式碼單元就可以表示。
- U+D800到U+DFFF(代理區) 因為除基本多語言平面外,其他16個平面的碼點無法用2個位元組表示,所以Unicode標準規定,基本多語言平面內的U+D800到U+DFFF的碼點不對應於任何字元,稱為代理區。因此,UTF-16利用保留下來的0xD800-0xDFFF區段的碼位來對輔助平面的字元的碼位進行編碼。
- U+10000到U+10FFFF(輔助平面) 輔助平面中的碼點都大於U+FFFF,無法用16位來表示,因此採用一對連續的程式碼單元來進行編碼。具體步驟如下: a.碼點減去0x10000,得到的結果範圍在0x00000到0xFFFFF,使用二進位制表示為yyyy yyyy yyxx xxxx xxxx; b.高10位的值(範圍為0x000到0x3FF),加上0xD800,得到的結果範圍在0xD800到0xDBFF,稱為高位代理,作為第一個程式碼單元; c.低10位的值(範圍也是0x000到0x3FF),加上0xDC00,得到的結果範圍在0xDC00到0xDFFF,稱為地位代理,作為第二個程式碼單元; d.最終的UTF-16編碼用二進位制表示就是:1101 10yy yyyy yyyy 1101 11xx xxxx xxxx。
在Java中,char型別描述了UTF-16編碼中的一個程式碼單元。建議不要在程式中使用char型別,除非確實需要處理UTF-16程式碼單元。
2.預設值
在宣告一個域時,如果不對它賦值,編譯器將賦予它一個預設值。下面是這8種基本資料型別的預設值: 區域性變數則略有不同,編譯器永遠不會為未初始化的區域性變數分配預設值。如果沒有初始化區域性變數,請保證在使用它之前為其賦值。訪問未初始化的區域性變數將導致編譯時錯誤。
3.字面量
你可能已經注意到在初始化基本資料型別的變數時不使用new關鍵字。基本資料型別是語言中內建的特殊資料型別,它們不是從類建立的物件。字面量(literal)是用於表達原始碼中一個固定值的表示方法。如下所示,可以將字面量分配給基本資料型別的變數:
boolean result = true;
char capitalC = 'C';
byte b = 100;
short s = 10000;
int i = 100000;
(1)整型字面量
整型字面量預設為int型別。可以在整數後面加上字尾L或l來表示long型別字面量。可以使用字首0x來表示十六進位制,0來表示八進位制,0b來表示二進位制:
// The number 26, in decimal
int decVal = 26;
// The number 26, in hexadecimal
int hexVal = 0x1a;
// The number 26, in octal
int octVal = 032;
// The number 26, in binary
int binVal = 0b11010;
(2)浮點型字面量
浮點型字面量預設為double型別(也可以加上D或d,不過一般省略)。可以在浮點數後面加上字尾F或f來表示float型別字面量。 可以使用科學計數法來表示浮點數字面量。例如,1.2345*104可以表示為1.2345E4,1.2345*10-4可以表示為1.2345E-4。E後面的數字表示10的指數,也可以使用小寫字母e。也可以使用十六進位制表示浮點數。例如,3.875=(11.111)2=(3.e)16=(3e)16*2-4,那麼3.875可以表示成0x3.ep0或0x3ep-4(因為e和十六進位制的15重複,所以這裡使用p表示指數)。注意,尾數採用十六進位制,指數採用十進位制。指數的基數是2,而不是10。
(3)字元型字面量
char型別的字面量值要用單引號括起來。例如,'B'是編碼值為66所對應的字元常量。它與"B"不同,"B"是一個包含字元B的字串。char型別的值可以表示為十六進位制值,但需要加上字首\u,其範圍從\u0000~\uFFFF。例如,\u03C0表示圓周率符號π。 除了轉義序列\u外,還有一些用於表示特殊字元的轉義序列,如下表: 所有這些轉義序列都可以出現在字元字面量或字串中。例如'\u2018'或"Hello\n"。轉義序列\u還可以出現在字元字面量或字串之外,而其他轉義序列就不可以。例如
public static void main(String\u005B\u005D args)
就完全符合語法,\u005B和\u005D是[和]的編碼。但要注意的是,轉義序列\u會在編譯程式碼前得到處理。例如,"\u0022+\u0022"並不是一個由雙引號包圍加號組成的字串。實際上,\u0022會在編譯程式碼之前替換為",這個字串會變成""+"",也就是一個空串。更隱蔽的,一定要注意註釋中的\u,註釋
// Unicode \u000A is a new line
會產生一個語法錯誤,因為\u000A會被替換成換行符,也就是說,上面的註釋會變成下面這樣:
// Unicode
is a new line
類似地,下面的註釋也會產生語法錯誤:
// Look inside c:\users
因為\u後面並沒有跟著一個十六進位制數。
(4)在數字字面量中使用下劃線
在JavaSE7及之後的版本中,任意個數的下劃線(_)可以出現在數字字面量中的任意兩個數字之間。這個功能可以提高數字字面量的可讀性,類似於使用逗號或空格等標點符號將每三個數字分為一組的形式。
long creditCardNumber = 1234_5678_9012_3456L;
long socialSecurityNumber = 999_99_9999L;
float pi = 3.14_15F;
long hexBytes = 0xFF_EC_DE_5E;
long hexWords = 0xCAFE_BABE;
long maxLong = 0x7fff_ffff_ffff_ffffL;
byte nybbles = 0b0010_0101;
long bytes = 0b11010010_01101001_10010100_10010010;