Python 的整數與 Numpy 的資料溢位

阿新 • • 發佈：2019-09-11

某位 A 同學發了我一張截圖，問為何結果中出現了負數？

看了圖，我第一感覺就是資料溢位了。資料超出能表示的最大值，就會出現奇奇怪怪的結果。

然後，他繼續發了張圖，內容是 print(100000*208378)，就是直接列印上圖的 E[0]*G[0]，結果是 20837800000，這是個正確的結果。

所以新的問題是：如果說上圖的資料溢位了，為何直接相乘的數卻沒有溢位？

由於我一直忽視資料的表示規則（整型的上限是多少？），而且對 Numpy 瞭解不多，還錯看了圖中結果，誤以為每一個數據都是錯誤的，所以就解答不出來。

最後，經過學習群裡的一番討論，我才終於明白是怎麼回事，所以本文把相關知識點做個梳理。

在正式開始之前，先總結一下上圖會引出的話題：

Python 3 中整數的上限是多少？Python 2 呢？
Numpy 中整數的上限是多少？出現整數溢位該怎麼辦？

關於第一個問題，先看看 Python 2，它有兩種整數：

一種是短整數，也即常說的整數，用 int 表示，有個內建函式 int()。其大小有限，可通過sys.maxint() 檢視（取決於平臺是 32 位還是 64 位）
一種是長整數，即大小無限的整數，用 long 表示，有個內建函式 long()。寫法上是在數字後面加大寫字母 L 或小寫的 l，如 1000L

當一個整數超出短整數範圍時，它會自動採用長整數表示。舉例，列印 2**100 ，結果會在末尾加字母 L 表示它是長整數。

但是到了 Python 3，情況就不同了：它僅有一種內建的整數，表示為 int，形式上是 Python 2 的短整數，但實際上它能表示的範圍無限，行為上更像是長整數。無論多大的數，結尾都不需要字母 L 來作區分。

也就是說，Python 3 整合了兩種整數表示法，使用者不再需要自行區分，全交給底層按需處理。

理論上，Python 3 中的整數沒有上限（只要不超出記憶體空間）。這就解釋了前文中直接列印兩數相乘，為什麼結果會正確了。

PEP-237（Unifying Long Integers and Integers）中對這個轉變作了說明。它解釋這樣做的目的：

這會給新的 Python 程式設計師（無論他們是否是程式設計新手）減少一項上手前要學的功課。

Python 在語言運用層遮蔽了很多瑣碎的活，比如記憶體分配，所以，我們在使用字串、列表或字典等物件時，根本不用操心。整數型別的轉變，也是出於這樣的便利目的。（壞處是犧牲了一些效率，在此就不談了）

回到前面的第二個話題：Numpy 中整數的上限是多少？

由於它是 C 語言實現，在整數表示上，用的是 C 語言的規則，也就是會區分整數和長整數。

有一種方式可檢視：

import numpy as np

a = np.arange(2)
type(a[0])

# 結果：numpy.int32

也就是說它預設的整數 int 是 32 位，表示範圍在 -2147483648 ~ 2147483647。

對照前文的截圖，裡面只有兩組數字相乘時沒有溢位：100007*4549、100012*13264，其它資料組都溢位了，所以出現奇怪的負數結果。

Numpy 支援的資料型別要比 Python 的多，相互間的區分界限很多樣：

截圖來源：https://www.runoob.com/numpy/numpy-dtype.html

要解決整數溢位問題，可以通過指定 dtype 的方式：

import numpy as np

q = [100000]
w = [500000]

# 一個溢位的例子：
a = np.array(q)
b = np.array(w)
print(a*b)  # 產生溢位，結果是個奇怪的數值

# 一個解決的例子：
c = np.array(q, dtype='int64')
d = np.array(w, dtype='int64')
print(c*d) # 沒有溢位：[50000000000]

好了，前面提出的問題就回答完了。來作個結尾吧：

Python 3 極大地簡化了整數的表示，效果可表述為：整數就只有一種整數（int），沒有其它型別的整數（long、int8、int64 之類的）
Numpy 中的整數型別對應於 C 語言的資料型別，每種“整數”有自己的區間，要解決資料溢位問題，需要指定更大的資料型別（dtype）

公眾號【Python貓】，本號連載優質的系列文章，有喵星哲學貓系列、Python進階系列、好書推薦系列、技術寫作、優質英文推薦與翻譯等等，歡迎關注哦。

Python 的整數與 Numpy 的資料溢位

某位 A 同學發了我一張截圖，問為何結果中出現了負數？看了圖，我第一感覺就是資料溢位了。資料超出能表示的最大值，就會出現奇奇怪怪的結果。然後，他繼續發了張圖，內容是 print(100000*208378)，就是直接列印上圖的 E[0]*G[0]，結果是 20837800000，這是個正確的結果。所

Python字典與JSON資料轉換

JSON在python中分別由list和dict組成。在python中，JSON模組提供以下四個功能， dumps、dump、loads、load。其中dumps把資料型別轉換成字串 dump把資料型別轉換成字串並存儲在檔案中 loads把字串轉換成資料型別 load把檔案開啟從字串轉換成

python整數與IP地址轉換 python整數與IP地址轉換 [轉]

python整數與IP地址轉換 [轉] 我們有時會將一個整數與IP地址進行互換,用python程式碼實現很簡單將一個整數如2000000,變為一個IP地址的方式 >>> import socket >>>

Python Pandas與Numpy中axis引數的二義性

作者：dudubird85 連結：https://www.jianshu.com/p/9aa448ea397c 來源：簡書簡書著作權歸作者所有，任何形式的轉載都請聯絡作者獲得授權並註明出處。 Stackoverflow問題如下： python中的axis究竟是如何定義的呢？他

C_C++呼叫Python [opencv與numpy]

C/C++呼叫Python [opencv與numpy] 目前的情況下，如果你有一個深度學習模型，很想在專案中使用，但模型是用python寫的，專案使用的是C++，怎麼辦？直觀的做法是從C++呼叫python直譯器，本文遇到的情景是C++環境下有張圖片，需要將

170617 numpy資料溢位的對策

大學上C語言的時候理論上碰到過資料溢位的問題，今天在處理實驗資料中真的碰到了這個問題：對於資料過大的數值相乘時可能資料上溢問題，此時，可更改資料型別，增大資料範圍。對於資料過小的數值相乘時可能資

張量tensor的資料與numpy 資料之間的轉化與列印

在tensorflow 中一般資料都是用tensor來表示，而在python 中一般是用numpy包，然而有時候需要列印變數的資料，所以下面可以程式碼：import tensorflow as tf from tensorflow.examples.tutorials.mni

2.python資料分析與展示------Numpy資料存取與函式

1.資料的csv檔案存取CSV (Comma‐Separated Value,逗號分隔值) ，CSV是一種常見的檔案格式，用來儲存批量資料csv檔案: np.savetxt(frame, array, fmt='%.18e', delimite

numpy 資料型別與 Python 原生資料型別

0. numpy 下的資料型別 uint： np.uint, np.uint0, np.uint8, np.uint16, np.uint32, np.uint64 int： np.int, n

【Python】無須numpy，利用map函數與zip(*)函數對數組轉置（轉）

http details 介紹二維數組 nbsp 圖片因此 art comm http://blog.csdn.net/yongh701/article/details/50283689 在Python的numpy中，對類似array=[[1,2,3],[4,5,6],

python包-numpy資料讀取和儲存（二）

目錄 0.為什麼要使用numpy儲存資料 1.儲存為二進位制檔案(.npy/.npz)並讀取 numpy.save和numpy.load numpy.savez numpy.savez_compressed 2.儲存到文字檔案 numpy.savetxt nump

【Python】不用numpy用純python求極差、平均數、中位數、眾數與方差，python的列印到控制檯

原文連結：https://blog.csdn.net/yongh701/article/details/50150619 python作為資料分析的利器，求極差、平均數、中位數、眾數與方差是很常用的，然而，在python進行統計往往要使用外部的python庫numpy，這個庫不難裝，然而，如果單

python 可變與不可變資料型別

1、什麼是不可變型別：變數對應的值不能被修改，如果修改就會生成一個新的值，從而分配新的記憶體空間。變，id會變，會生成一個新的值。不可變型別：數字（int、long、float），布林（bool）,字串（str）,元組（tuple） 2、什麼是可變型別：變數對應的值中資料可以

python 自帶的sum函式與numpy中sum兩者巨大的區別

Python自帶的sum函式與numpy中的sum函式有著天壤之別，沒弄懂之前踩了大坑。 1、Python 自帶的sum Python自帶的sum輸入是個可迭代的。可以是列表，陣列，可迭代物件。此時sum最多有兩個引數第一個引數是可迭代的。當有兩個引數時，第二個引數只能是個數。格式：s

Cris 的 Python 資料分析筆記 02：NumPy 資料定位

02. NumPy 資料定位文章目錄 02. NumPy 資料定位 1. numpy 快速判斷每個元素 2. numpy 判斷並返回對應的元素 1. numpy 快速判斷每個元素 i

Python學習（2）—— 運算子與基本資料型別

運算子與基本資料型別運算子有以下五種：算數運算：比較運算：邏輯運算：賦值運算：成員運算：以上圖片轉載來自：http://www.cnblogs.com/wupeiqi/ 。基本資料型別認識數字 (in

Python—Flask與前端互動資料

與Flask-RESTful建立基本的RESTful API 我將討論如何使用Flask框架構建基本的RESTful API。在開始之前，我們將安裝Flask RESTful庫。在本例中，不會使用任何資料庫。但是你可以用你自己的。我將展示如何使用Flask建立Rest API win

python進階（資料分析numpy庫二）

2、ndarray陣列的切片：（1）陣列切片的基本知識各個維度上單獨切片，用 “，” 隔開，用 “：”表示該維度所有的值。

python進階（資料分析numpy庫一）

numpy——基礎，以矩陣為基礎的數學計算模組，純數學儲存和處理大型矩陣。這個是很基礎的擴充套件，其餘的擴充套件都是以此為基礎。 scipy——數值計算庫,在numPy庫的基礎上增加了眾多的數學、科學以及工程計算中常用的庫函式。方便、易於使用、專為科學和工程設計的Py

基於python的樹型資料結構，二叉樹使用與AVL樹使用

樹由n個節點組成的集合，可以遞迴定義資料結構，如果n=0就是空樹如果n>那麼有樹概念根節點、葉子節點樹的深度（高度）樹的度孩子節點、父節點子樹二叉樹-遍歷 # 樹型圖示意 E

Python 的整數與 Numpy 的資料溢位

相關推薦