1. 程式人生 > 實用技巧 >Python爬蟲技術--基礎篇--資料型別和變數,識別符號與關鍵字

Python爬蟲技術--基礎篇--資料型別和變數,識別符號與關鍵字

1.資料型別

計算機顧名思義就是可以做數學計算的機器,因此,計算機程式理所當然地可以處理各種數值。但是,計算機能處理的遠不止數值,還可以處理文字、圖形、音訊、視訊、網頁等各種各樣的資料,不同的資料,需要定義不同的資料型別。在Python中,能夠直接處理的資料型別有以下幾種:

整數

Python可以處理任意大小的整數,當然包括負整數,在程式中的表示方法和數學上的寫法一模一樣,例如:1100-80800,等等。

計算機由於使用二進位制,所以,有時候用十六進位制表示整數比較方便,十六進位制用0x字首和0-9,a-f表示,例如:0xff000xa5b4c3d2,等等。

對於很大的數,例如10000000000,很難數清楚0的個數。Python允許在數字中間以_

分隔,因此,寫成10_000_000_00010000000000是完全一樣的。十六進位制數也可以寫成0xa1b2_c3d4

浮點數

浮點數也就是小數,之所以稱為浮點數,是因為按照科學記數法表示時,一個浮點數的小數點位置是可變的,比如,1.23x109和12.3x108是完全相等的。浮點數可以用數學寫法,如1.233.14-9.01,等等。但是對於很大或很小的浮點數,就必須用科學計數法表示,把10用e替代,1.23x109就是1.23e9,或者12.3e8,0.000012可以寫成1.2e-5,等等。

整數和浮點數在計算機內部儲存的方式是不同的,整數運算永遠是精確的(除法難道也是精確的?是的!),而浮點數運算則可能會有四捨五入的誤差。

字串

字串是以單引號'

或雙引號"括起來的任意文字,比如'abc'"xyz"等等。請注意,''""本身只是一種表示方式,不是字串的一部分,因此,字串'abc'只有abc這3個字元。如果'本身也是一個字元,那就可以用""括起來,比如"I'm OK"包含的字元是I'm,空格,OK這6個字元。

如果字串內部既包含'又包含"怎麼辦?可以用轉義字元\來標識,比如:

'I\'m \"OK\"!'

表示的字串內容是:

I'm "OK"!

轉義字元\可以轉義很多字元,比如\n表示換行,\t表示製表符,字元\本身也要轉義,所以\\表示的字元就是\,可以在Python的互動式命令列用print()列印字串看看:

>>> print('I\'m ok.')
I'm ok.
>>> print('I\'m learning\nPython.')
I'm learning
Python.
>>> print('\\\n\\')
\
\

如果字串裡面有很多字元都需要轉義,就需要加很多\,為了簡化,Python還允許用r''表示''內部的字串預設不轉義,可以自己試試:

>>> print('\\\t\\')
\       \
>>> print(r'\\\t\\')
\\\t\\

如果字串內部有很多換行,用\n寫在一行裡不好閱讀,為了簡化,Python允許用'''...'''的格式表示多行內容,可以自己試試:

>>> print('''line1
... line2
... line3''')
line1
line2
line3

上面是在互動式命令列內輸入,注意在輸入多行內容時,提示符由>>>變為...,提示你可以接著上一行輸入,注意...是提示符,不是程式碼的一部分

┌────────────────────────────────────────────────────────┐
│Command Prompt - python                           _ □ x │
├────────────────────────────────────────────────────────┤
│>>> print('''line1                                      │
│... line2                                               │
│... line3''')                                           │
│line1                                                   │
│line2                                                   │
│line3                                                   │
│                                                        │
│>>> _                                                   │
│                                                        │
│                                                        │
│                                                        │
└────────────────────────────────────────────────────────┘

當輸入完結束符```和括號)後,執行該語句並列印結果。

如果寫成程式並存為.py檔案,就是:

print('''line1
line2
line3''')

多行字串'''...'''還可以在前面加上r使用,請自行測試:

布林值

布林值和布林代數的表示完全一致,一個布林值只有TrueFalse兩種值,要麼是True,要麼是False,在Python中,可以直接用TrueFalse表示布林值(請注意大小寫),也可以通過布林運算計算出來:

>>> True
True
>>> False
False
>>> 3 > 2
True
>>> 3 > 5
False

布林值可以用andornot運算。

and運算是與運算,只有所有都為Trueand運算結果才是True

>>> True and True
True
>>> True and False
False
>>> False and False
False
>>> 5 > 3 and 3 > 1
True

or運算是或運算,只要其中有一個為Trueor運算結果就是True

>>> True or True
True
>>> True or False
True
>>> False or False
False
>>> 5 > 3 or 1 > 3
True

not運算是非運算,它是一個單目運算子,把True變成FalseFalse變成True

>>> not True
False
>>> not False
True
>>> not 1 > 2
True

布林值經常用在條件判斷中,比如:

if age >= 18:
    print('adult')
else:
    print('teenager')

空值

空值是Python裡一個特殊的值,用None表示。None不能理解為0,因為0是有意義的,而None是一個特殊的空值。

此外,Python還提供了列表、字典等多種資料型別,還允許建立自定義資料型別,我們後面會繼續講到。

變數

變數的概念基本上和初中代數的方程變數是一致的,只是在計算機程式中,變數不僅可以是數字,還可以是任意資料型別。

變數在程式中就是用一個變數名錶示了,變數名必須是大小寫英文、數字和_的組合,且不能用數字開頭,比如:

a = 1

變數a是一個整數。

t_007 = 'T007'

變數t_007是一個字串。

Answer = True

變數Answer是一個布林值True

在Python中,等號=是賦值語句,可以把任意資料型別賦值給變數,同一個變數可以反覆賦值,而且可以是不同型別的變數:

這種變數本身型別不固定的語言稱之為動態語言,與之對應的是靜態語言。靜態語言在定義變數時必須指定變數型別,如果賦值的時候型別不匹配,就會報錯。例如Java是靜態語言,賦值語句如下(// 表示註釋):

int a = 123; // a是整數型別變數
a = "ABC"; // 錯誤:不能把字串賦給整型變數

和靜態語言相比,動態語言更靈活,就是這個原因。

請不要把賦值語句的等號等同於數學的等號。比如下面的程式碼:

x = 10
x = x + 2

如果從數學上理解x = x + 2那無論如何是不成立的,在程式中,賦值語句先計算右側的表示式x + 2,得到結果12,再賦給變數x。由於x之前的值是10,重新賦值後,x的值變成12

最後,理解變數在計算機記憶體中的表示也非常重要。當我們寫:

a = 'ABC'

時,Python直譯器幹了兩件事情:

  1. 在記憶體中建立了一個'ABC'的字串;

  2. 在記憶體中建立了一個名為a的變數,並把它指向'ABC'

也可以把一個變數a賦值給另一個變數b,這個操作實際上是把變數b指向變數a所指向的資料:

最後一行打印出變數b的內容到底是'ABC'呢還是'XYZ'?如果從數學意義上理解,就會錯誤地得出ba相同,也應該是'XYZ',但實際上b的值是'ABC',讓我們一行一行地執行程式碼,就可以看到到底發生了什麼事:

執行a = 'ABC',直譯器建立了字串'ABC'和變數a,並把a指向'ABC'

執行b = a,直譯器建立了變數b,並把b指向a指向的字串'ABC'

執行a = 'XYZ',直譯器建立了字串'XYZ',並把a的指向改為'XYZ',但b並沒有更改:

所以,最後列印變數b的結果自然是'ABC'了。

常量

所謂常量就是不能變的變數,比如常用的數學常數π就是一個常量。在Python中,通常用全部大寫的變數名錶示常量:

PI = 3.14159265359

但事實上PI仍然是一個變數,Python根本沒有任何機制保證PI不會被改變,所以,用全部大寫的變數名錶示常量只是一個習慣上的用法,如果你一定要改變變數PI的值,也沒人能攔住你。

最後解釋一下整數的除法為什麼也是精確的。在Python中,有兩種除法,一種除法是/

>>> 10 / 3
3.3333333333333335

/除法計算結果是浮點數,即使是兩個整數恰好整除,結果也是浮點數:

>>> 9 / 3
3.0

還有一種除法是//,稱為地板除,兩個整數的除法仍然是整數

>>> 10 // 3
3

你沒有看錯,整數的地板除//永遠是整數,即使除不盡。要做精確的除法,使用/就可以。

因為//除法只取結果的整數部分,所以Python還提供一個餘數運算,可以得到兩個整數相除的餘數:

>>> 10 % 3
1

無論整數做//除法還是取餘數,結果永遠是整數,所以,整數運算結果永遠是精確的。

小結

Python支援多種資料型別,在計算機內部,可以把任何資料都看成一個“物件”,而變數就是在程式中用來指向這些資料物件的,對變數賦值就是把資料和變數給關聯起來。

對變數賦值x = y是把變數x指向真正的物件,該物件是變數y所指向的。隨後對變數y的賦值不影響變數x的指向。

注意:Python的整數沒有大小限制,而某些語言的整數根據其儲存長度是有大小限制的,例如Java對32位整數的範圍限制在-2147483648-2147483647

Python的浮點數也沒有大小限制,但是超出一定範圍就直接表示為inf(無限大)

2.識別符號和關鍵字

3.格式化輸出

常用的格式: