Python爬蟲技術--基礎篇--資料型別和變數,識別符號與關鍵字
1.資料型別
計算機顧名思義就是可以做數學計算的機器,因此,計算機程式理所當然地可以處理各種數值。但是,計算機能處理的遠不止數值,還可以處理文字、圖形、音訊、視訊、網頁等各種各樣的資料,不同的資料,需要定義不同的資料型別。在Python中,能夠直接處理的資料型別有以下幾種:
整數
Python可以處理任意大小的整數,當然包括負整數,在程式中的表示方法和數學上的寫法一模一樣,例如:1
,100
,-8080
,0
,等等。
計算機由於使用二進位制,所以,有時候用十六進位制表示整數比較方便,十六進位制用0x
字首和0-9,a-f表示,例如:0xff00
,0xa5b4c3d2
,等等。
對於很大的數,例如10000000000
,很難數清楚0的個數。Python允許在數字中間以_
10_000_000_000
和10000000000
是完全一樣的。十六進位制數也可以寫成0xa1b2_c3d4
。
浮點數
浮點數也就是小數,之所以稱為浮點數,是因為按照科學記數法表示時,一個浮點數的小數點位置是可變的,比如,1.23x109和12.3x108是完全相等的。浮點數可以用數學寫法,如1.23
,3.14
,-9.01
,等等。但是對於很大或很小的浮點數,就必須用科學計數法表示,把10用e替代,1.23x109就是1.23e9
,或者12.3e8
,0.000012可以寫成1.2e-5
,等等。
整數和浮點數在計算機內部儲存的方式是不同的,整數運算永遠是精確的(除法難道也是精確的?是的!),而浮點數運算則可能會有四捨五入的誤差。
字串
字串是以單引號'
"
括起來的任意文字,比如'abc'
,"xyz"
等等。請注意,''
或""
本身只是一種表示方式,不是字串的一部分,因此,字串'abc'
只有a
,b
,c
這3個字元。如果'
本身也是一個字元,那就可以用""
括起來,比如"I'm OK"
包含的字元是I
,'
,m
,空格,O
,K
這6個字元。
如果字串內部既包含'
又包含"
怎麼辦?可以用轉義字元\
來標識,比如:
'I\'m \"OK\"!'
表示的字串內容是:
I'm "OK"!
轉義字元\
可以轉義很多字元,比如\n
表示換行,\t
表示製表符,字元\
本身也要轉義,所以\\
表示的字元就是\
,可以在Python的互動式命令列用print()
列印字串看看:
>>> print('I\'m ok.')
I'm ok.
>>> print('I\'m learning\nPython.')
I'm learning
Python.
>>> print('\\\n\\')
\
\
如果字串裡面有很多字元都需要轉義,就需要加很多\
,為了簡化,Python還允許用r''
表示''
內部的字串預設不轉義,可以自己試試:
>>> print('\\\t\\')
\ \
>>> print(r'\\\t\\')
\\\t\\
如果字串內部有很多換行,用\n
寫在一行裡不好閱讀,為了簡化,Python允許用'''...'''
的格式表示多行內容,可以自己試試:
>>> print('''line1
... line2
... line3''')
line1
line2
line3
上面是在互動式命令列內輸入,注意在輸入多行內容時,提示符由>>>
變為...
,提示你可以接著上一行輸入,注意...
是提示符,不是程式碼的一部分:
┌────────────────────────────────────────────────────────┐
│Command Prompt - python _ □ x │
├────────────────────────────────────────────────────────┤
│>>> print('''line1 │
│... line2 │
│... line3''') │
│line1 │
│line2 │
│line3 │
│ │
│>>> _ │
│ │
│ │
│ │
└────────────────────────────────────────────────────────┘
當輸入完結束符```
和括號)
後,執行該語句並列印結果。
如果寫成程式並存為.py
檔案,就是:
print('''line1
line2
line3''')
多行字串'''...'''
還可以在前面加上r
使用,請自行測試:
布林值
布林值和布林代數的表示完全一致,一個布林值只有True
、False
兩種值,要麼是True
,要麼是False
,在Python中,可以直接用True
、False
表示布林值(請注意大小寫),也可以通過布林運算計算出來:
>>> True
True
>>> False
False
>>> 3 > 2
True
>>> 3 > 5
False
布林值可以用and
、or
和not
運算。
and
運算是與運算,只有所有都為True
,and
運算結果才是True
:
>>> True and True
True
>>> True and False
False
>>> False and False
False
>>> 5 > 3 and 3 > 1
True
or
運算是或運算,只要其中有一個為True
,or
運算結果就是True
:
>>> True or True
True
>>> True or False
True
>>> False or False
False
>>> 5 > 3 or 1 > 3
True
not
運算是非運算,它是一個單目運算子,把True
變成False
,False
變成True
:
>>> not True
False
>>> not False
True
>>> not 1 > 2
True
布林值經常用在條件判斷中,比如:
if age >= 18:
print('adult')
else:
print('teenager')
空值
空值是Python裡一個特殊的值,用None
表示。None
不能理解為0
,因為0
是有意義的,而None
是一個特殊的空值。
此外,Python還提供了列表、字典等多種資料型別,還允許建立自定義資料型別,我們後面會繼續講到。
變數
變數的概念基本上和初中代數的方程變數是一致的,只是在計算機程式中,變數不僅可以是數字,還可以是任意資料型別。
變數在程式中就是用一個變數名錶示了,變數名必須是大小寫英文、數字和_
的組合,且不能用數字開頭,比如:
a = 1
變數a
是一個整數。
t_007 = 'T007'
變數t_007
是一個字串。
Answer = True
變數Answer
是一個布林值True
。
在Python中,等號=
是賦值語句,可以把任意資料型別賦值給變數,同一個變數可以反覆賦值,而且可以是不同型別的變數:
這種變數本身型別不固定的語言稱之為動態語言,與之對應的是靜態語言。靜態語言在定義變數時必須指定變數型別,如果賦值的時候型別不匹配,就會報錯。例如Java是靜態語言,賦值語句如下(// 表示註釋):
int a = 123; // a是整數型別變數
a = "ABC"; // 錯誤:不能把字串賦給整型變數
和靜態語言相比,動態語言更靈活,就是這個原因。
請不要把賦值語句的等號等同於數學的等號。比如下面的程式碼:
x = 10
x = x + 2
如果從數學上理解x = x + 2
那無論如何是不成立的,在程式中,賦值語句先計算右側的表示式x + 2
,得到結果12
,再賦給變數x
。由於x
之前的值是10
,重新賦值後,x
的值變成12
。
最後,理解變數在計算機記憶體中的表示也非常重要。當我們寫:
a = 'ABC'
時,Python直譯器幹了兩件事情:
-
在記憶體中建立了一個
'ABC'
的字串; -
在記憶體中建立了一個名為
a
的變數,並把它指向'ABC'
。
也可以把一個變數a
賦值給另一個變數b
,這個操作實際上是把變數b
指向變數a
所指向的資料:
最後一行打印出變數b
的內容到底是'ABC'
呢還是'XYZ'
?如果從數學意義上理解,就會錯誤地得出b
和a
相同,也應該是'XYZ'
,但實際上b
的值是'ABC'
,讓我們一行一行地執行程式碼,就可以看到到底發生了什麼事:
執行a = 'ABC'
,直譯器建立了字串'ABC'
和變數a
,並把a
指向'ABC'
:
執行b = a
,直譯器建立了變數b
,並把b
指向a
指向的字串'ABC'
:
執行a = 'XYZ'
,直譯器建立了字串'XYZ',並把a
的指向改為'XYZ'
,但b
並沒有更改:
所以,最後列印變數b
的結果自然是'ABC'
了。
常量
所謂常量就是不能變的變數,比如常用的數學常數π就是一個常量。在Python中,通常用全部大寫的變數名錶示常量:
PI = 3.14159265359
但事實上PI
仍然是一個變數,Python根本沒有任何機制保證PI
不會被改變,所以,用全部大寫的變數名錶示常量只是一個習慣上的用法,如果你一定要改變變數PI
的值,也沒人能攔住你。
最後解釋一下整數的除法為什麼也是精確的。在Python中,有兩種除法,一種除法是/
:
>>> 10 / 3
3.3333333333333335
/
除法計算結果是浮點數,即使是兩個整數恰好整除,結果也是浮點數:
>>> 9 / 3
3.0
還有一種除法是//
,稱為地板除,兩個整數的除法仍然是整數:
>>> 10 // 3
3
你沒有看錯,整數的地板除//
永遠是整數,即使除不盡。要做精確的除法,使用/
就可以。
因為//
除法只取結果的整數部分,所以Python還提供一個餘數運算,可以得到兩個整數相除的餘數:
>>> 10 % 3
1
無論整數做//
除法還是取餘數,結果永遠是整數,所以,整數運算結果永遠是精確的。
小結
Python支援多種資料型別,在計算機內部,可以把任何資料都看成一個“物件”,而變數就是在程式中用來指向這些資料物件的,對變數賦值就是把資料和變數給關聯起來。
對變數賦值x = y
是把變數x
指向真正的物件,該物件是變數y
所指向的。隨後對變數y
的賦值不影響變數x
的指向。
注意:Python的整數沒有大小限制,而某些語言的整數根據其儲存長度是有大小限制的,例如Java對32位整數的範圍限制在-2147483648
-2147483647
。
Python的浮點數也沒有大小限制,但是超出一定範圍就直接表示為inf
(無限大)
2.識別符號和關鍵字
3.格式化輸出
常用的格式: