1. 程式人生 > >震驚!當Python遇到Excel後,將開啟你的認知蟲洞

震驚!當Python遇到Excel後,將開啟你的認知蟲洞

本文主要內容:   1. Excel,你為什麼如此強大 2. 軟體開發也需要團隊作戰 3. Excel的整合方案演化 4. macOS特有的整合方案:applescript 5. Python與Excel整合,有哪些好處 6. 瞭解多個技術領域,可以間接提高自己的IQ 7. 提高開發效率的利器:生態滲透 8. 上程式碼:Python到底如何與Excel互動 9. 用Python替代VBA   本文主要講Python與Excel的關係以及整合方案,Office家族的其他成員,如Word、PowerPoint與Excel擁有類似的功能,Python同樣可以與Word、PowerPoint等Office成員結合,這些內容我以後會寫文章講解。   我相信看這篇文章的大多數人都是程式設計師。在廣大程式設計師的眼裡,Excel以及Office家族的其他成員完全不能與Python、Java、Sprint Boot這些技術相比。Office被貼上的標籤就是:非專業人員的工具。是由那些體制內的人、會計、業務人員使用的工具,其實這是對Excel的最大誤解。

 1. Excel,你為什麼如此強大

  Excel從一問世開始,定位就是橫跨辦公和開發兩界。在上個世界末推出的Excel5.0(那時還沒有office這個產品套件)就已經支援VBA了,那可是在Win32下(一種基於dos的shell,並不屬於真正的作業系統)。儘管有些原始(以現在的眼光看),但在當時卻顯得極為先進。因為Excel(以及同期的Word)是人類史上第一個內建領域特定語言(DSL)的民用系統(可以被各個領域的人使用的系統)。正是因為有了VBA,Excel才顯得非常強大。   可能有的程式設計師會問,即使Excel支援VBA,可以進行程式設計,也只不過是完成一些自動化操作而已。VBA的功能完全不能與Python、Java、C#、C++這些被廣大程式設計師熟知的程式語言相比,更別說成為程式設計領域的主流了。沒錯,如果單憑VBA本身的確無法與這些流行的程式語言相比,但要知道,VBA和Excel本身可以與其他開發工具融合,也就是說,可以讓VBA和Excel成為自己系統的一部分,這就顯得非常牛逼了。

 2. 軟體開發也需要團隊作戰

  那麼為什麼要將Excel與其他系統結合呢?其實在我們創業時、在公司完成一個專案時,甚至在參加籃球比賽時,都會高頻率提到一個詞:團隊。 現在也流行著一句話:沒有完美的個人,只有完美的團隊。也就是說,沒有人可以什麼都會,什麼都擅長,就算是天才達芬奇也是如此。但團隊就不一樣了,即使某項工作團隊裡沒人能做,也可以擴充團隊成員,吸引能做這項工作的人加入團隊。   其實在開發軟體的過程中也同樣是講究團隊作戰的。不管我們使用的開發工具有多強大,使用者社群由多龐大,都無法規避一個事實:任何技術都不可能適合完成所有的工作。 當然,還有另外一種說法就是儘管某種技術可以完成某項工作,但並不是最好的選擇。   現在回到Excel上來。首先要知道Excel擅長什麼,對,沒錯,Excel擅長表格和圖表的製作。儘管有非常多的開發工具也可以製作表格和圖表,但很顯然,Excel是其中最好的(主要用門檻、易用性、功能和使用者基數的綜合指標來衡量)。所以,如果某一個系統要求將資料轉換為表格和圖表,那麼這項任務交給Excel來完成是再合適不過了。   3. Excel的整合方案演化   在不同的時期,Excel的整合方案也不盡相同。在Excel的大眼夾時代(那時還是Office97和Office2000的時代),微軟與開源世界還水火不容,我也還處於學生時代。在那個時代,Excel只能與Windows下的開發工具融合,其中主要的開發工具包括微軟的VC、VB、以及Borland(現在已經消失)的Delphi、C++ Builder等。     最初的整合方案有如下3種:
  • 可視方式:通過OLE元件將Excel直接嵌入視窗中,其實就相當於擁有了一個高階版的表格編輯器
  • VBA方式:通過ActiveX技術建立Excel.Applicaiton物件(一般是CreateObject函式),然後就可以任意呼叫VBA的API了,我比較喜歡這種方式。通過這種方式,可以將系統中的資料按著一定的格式直接傳輸到Excel中,給使用者提交的是包含表格資料的Excel文件。
  • 反客為主方式:這種方式將Excel作為主體。也就是說,主要的操作介面是Excel,在Excel中呼叫或訪問其他系統。例如,很多年前我做過一個基於Excel的報表系統。該系統分別使用Delphi和Excel實現。Delphi做的管理系統,將資料傳送給Excel。但需要使用者自己調整報表格式。我採用的方案是通過Excel的VBA實現表格的格式設定。其中有部分功能需要訪問SQL Server資料庫,以及完成與Delphi實現的系統類似的功能,這部分功能使用了Delphi封裝的Dll(COM元件),然後通過Excel反過來呼叫這些DLL。終端使用者使用的方式是用主系統完成大部分工作。如果想調整Excel的報表樣式,可以直接用Excel來完成(會在Excel上提供一些自定義的選單和按鈕,現在通過載入項【Add-ins】實現)

  不過隨著時間的推移,現在的微軟已經擁抱開源和其他系統。所以Excel也不僅限於Windows。在macOS上也可以完成在Windows上的大多數工作,甚至Visual Studio也推出了macOS版本。而且.net core也可以同時跨Windows、macOS和Linux三個平臺,SQL Server也開始支援Linux。以後我們會在更多的場景看到微軟的身影。   既然Excel已經支援了macOS平臺,就需要採用跨平臺的方式與Excel整合。當然,前面介紹的幾種方案現在仍然可用,但僅限於Windows平臺。不過我們無法預測使用者到底使用哪一個平臺,所以應該儘量使用跨平臺方案。   目前主要的跨平臺方案有如下3種:
  • 直接修改xlsx檔案
  • 通過VBA間接呼叫其他程式語言
  • 使用office.js
  第1中方式有很多程式語言都支援,例如,Python、Java、Julia、Go、JavaScript。幾乎你能想到的程式語言,都有支援xlsx格式的庫。這裡只討論Python。如果想了解更多關於整合Excel的技術,可以關注我的公眾號:極客起源。   在Python語言中,支援Excel檔案格式的庫非常多,如非常著名的openpyxl、xlsxwriter等。通過這些庫,可以在不依賴Excel環境的情況下,生成xlsx格式的檔案。不過這些庫基本是隻是生成Excel檔案,並不能更好地利用VBA以及更高階的功能。由於Excel檔案格式非常複雜,完全支援比較困難,所以這些庫只是支援一部分Excel的功能,但這些功能對於絕大多數需求已經足夠了。   第2種其實是一種取巧的方式,通過VBA做橋,呼叫其他程式語言,相當於用其他程式語言代替了VBA。這其中典型的就是xlwings。儘管這種方式從表面上看可以直接在Excel中像使用VBA一樣使用這些程式語言,但從本質上看仍然是直接寫xlsx檔案。功能其實與第1種方式相同,因為這並不是官方支援的功能。   第3種是office.js,這是微軟官方提供的一個基於JavaScript的程式庫。基於Node.js,可以用JavaScript完全取代VBA實現Excel以及Office其他成員的載入項。office.js可以在Electron、Web應用以及大多數基於JavaScript的場景中使用。關於office.js的內容我以後會寫文章詳細描述,對office.js感興趣的同學也可以關注“極客起源”公眾號,會不定期更新這方面的內容。     4. macOS特有的整合方案:applescript 除了跨平臺解決方案外,在macOS上,還支援使用applescript與Office(Excel、World、PowerPoint等)互動,這些內容我以後再撰寫文章詳細講解。如果要了解excel applescript api,可以參考Excel Reference。從效果來看,applescript操作Office與在Windows下通過COM元件操作Office類似,可以完全控制Office,只是applescript的語法更接近自然語言。   下面的applescript程式碼會建立一個新的Excel文件,並將其儲存為first.xlsx檔案。  

 

 執行後,會看到一個開啟的Excel文件,並且已經儲存為firstx.xlsx檔案。

 

 5. Python與Excel整合,有哪些好處

  Excel對於Python來說,可以將Excel看做是一個可程式設計的大元件。這個元件的主要功能就是可以製作任意複雜的報表和圖表。儘管Python有很多模組可以製作報表和圖表。但這些模組的功能和效果完全沒辦法與Excel相比。所以將Python與Excel結合的最大好處是可以快速完成製作報表的任務,而且效果槓槓滴。   將Python與Excel相結合,其實還會引出另外一個思考,就是成為專家還是通才的問題。我聽到有很多程式設計師說,要將某種語言搞通,如PHP、Python、Java等,然後就可以很輕鬆解決所有的問題。結果真是這樣嗎?   很久以前,我聽過一個關於微軟的故事(相信很多人也聽過),在微軟有一個幾十人的團隊,花了好幾個月還沒完成一個專案,聽說是遇到了某些難題。這時有一個老程式設計師(據說至少50歲以上)將自己關在辦公室裡一個星期,搞定! 我們先不管這個故事是真是假,那麼從理論上來說,是否有這個可能呢?其實如果光看程式設計速度,再牛叉的程式設計師,也不可能比普通程式設計師快幾十倍,更何況數百倍了。但還有另外一種可能,就是這名老程式設計師使用了完全不同的方法,繞過了大多數影響效率的因素,例如,使用了不同的工具,採用了不同的轉換方式,甚至使用了不同的設計理念等等。這就不是能力問題了,而是認知的問題。我將其稱為“認知蟲洞”。

 所謂“認知蟲洞”,是指通過某種方式很難完成某項工作,但通過另外完全不同,甚至是顛覆三觀的方式,可以用極短的時間達到目的,而且效果極好。就像找到了可以穿越浩瀚星空的蟲洞。這也有點像數學中的“等價替換”。

  可能這個微軟的例子離我們太遠,下面舉一個我自己的關於Excel例子,很多年前,我還在國內某大型軟體公司作高階程式設計師。團隊需要製作大量的報表,使用的主要開發工具是Delphi、後端是SQL Server資料庫。Delphi本身有自己的報表系統,叫QuickReport。功能是很強大的,但問題是,做起來太費勁。例如,要畫表格線時,如果一不小心將某根線拖到了別的地方,而且被其他東西覆蓋,那你就找把,還必須要找到,否則打印出來的表格上就會莫名其妙多了根線。結果團隊好幾個人弄了好幾天還沒弄完(也包括我)。後來我實在不想這麼弄了(因為買了幾張影碟,著急回家看電影,不想加班),於是想到了利用Excel或Word來完成這個報表系統。通過Delphi傳輸資料。   說幹就幹,花了不到2個小時,所有的報表全部搞定(只有我一個人哦),幾個人幾天都沒搞定的東西,我自己不到2個小時搞定,這當然不是我程式設計速度快了幾十倍,而是處在了不同的維度,使用了完全不同的技術來實現,用QuickReport需要一根線一根線的畫,而使用Excel,我不需要畫線,只需要用SQL語句查詢出資料,然後將這些資料傳送給Excel即可。單單用了一個Excel,速度就提高了這麼多,如果系統中很多部分都使用了類似的技術,那麼程式設計效率提高數百倍,甚至上千倍,也不是沒有可能的。   6. 瞭解多個技術領域,可以間接提高自己的IQ   可能有的同學會問,既然可以將多種技術結合起來大幅度提高開發效率,那麼為什麼不通過團隊合作的方式來完成了,通常一個人無法學會那麼多技術。其實這就是一個認知的問題,團隊合作只有在專案所採用的技術被確定後,例如,如何整合多種技術,才可以發揮作用。問題是,如果多種知識分散在不同人的大腦中,很可能沒有人意識到應該去這樣融合多種技術,就更談不上團隊合作了,就像你要探索宇宙,首先你要知道存在宇宙這種東西,否則怎麼去探索呢? 我將這種現象稱為“認知孤島”(相對於“認知蟲洞”而言),就是說並不是沒有能力去做,而是壓根就沒有意識到應該這樣做(由於知識的缺乏、同時導致想象力的受限)。   為什麼達芬奇那麼牛逼,除了聰明之外,達芬奇還橫跨多個完全不同的領域,正是因為對生物學和解刨學的瞭解,蒙娜麗莎的畫像才會那麼自然,栩栩如生,因為達芬奇對骨骼、肌肉的構造非常瞭解,這是其他任何畫家都無法比肩的。如果你在某一個領域排名前20%,而在另外一個領域排名也是前20%,那麼如果需要兩個領域的知識來解決問題時,你就會排名前4%(20% * 20%),如果是3個領域就是百裡挑一。如果是6個領域,那就是萬里挑一,據說達芬奇涉足十多個領域。由於自己和自己溝通的成本為0,所以只有擁有足夠多的知識,並且有融合他們的能力,那麼你就是下一個達芬奇!

 我們可以舉個數學與Python的例子:

 如果我們的程式需要計算某個表示式的定積分(例如y = 2 * x從0到1的定積分)。    假設我們使用的是Python語言,並且不太清楚有什麼庫可以自動計算定積分,那麼採用的方式就是利用數值計算的方式寫程式去完成,計算定積分的數值計算公式比較複雜,可能不是在短時間內能完成的。不過要是瞭解sympy這個庫,那就是幾行程式碼的事:  
import sympy
x = sympy.Symbol('x')
f = 2 * x
# 開始計算定積分
print(sympy.integrate(f,(x,0,1)))

是不是很簡單呢? 只需要瞭解一個API的用法就搞定了。

假設現在我們還有一個需求,要計算某個函式在某一點的導數(導數在深度學習中經常使用),而手頭又沒有必要的庫(也有可能是不知道),那麼只要瞭解導數的原理,就很容易通過幾行程式碼搞定,這就屬於高等數學的範疇了。  

 導數原理,右側是導數的計算公式,

# 計算導數的函式
def derivative(f,x):
  h = 0.0001   # x軸的增量,需要是一個很小的值,但要在浮點數精度範圍內,通常不能超過小數點後6位
  return (f(x + h) - f(x - h)) / (2 * h)
# 待計算的函式1(y = 2 * x)  
def f1(x):
    return 2 * x
import math
# 待計算的函式2(  y = sin(x) * cos(x) / (sin(x) + cos(x))  )
def f2(x):
    return math.sin(x) * math.cos(x) / (math.sin(x) + math.cos(x))

print(derivative(f1,10))    # 1.9999999999953388
print(derivative(f2,123))   # -0.331842825692652
   PS:對這些程式碼和高等數學不熟悉也沒關係,這裡我只是舉個例子,後期我會寫一些關於數學和程式設計方面的文章,詳細解釋這些好玩的東西,可以關注我的公眾號:極客起源 ,會不斷更新各種技術和數學文章,以及視訊課程。   從這兩個案例可以看出,在某一個領域需要非常費勁才能搞出來的東西,在另一個領域其實就是hello world。如果瞭解足夠多的領域,那麼完成很多工作,就會表現出天才的特徵(這也是成為天才的途徑之一,另一個途徑是投胎)。  

 PS:Excel的功能不僅僅是製作報表,Excel還擁有強大的資料分析能力。所以如果將Python與Excel整合,就意味著Python將擁有了Excel的全部能力,相當於Python擁有了Excel的整個生態。我將其稱為“生態滲透”。也就是通過整合或其他方式,一種技術可以直接或間接使用另外一種技術的全部或大部分資源。

7. 提高開發效率的利器:生態滲透    在未來,支援生態滲透的開發方式會非常普遍,如果只是用了一些現成的庫或開源軟體,並不能大幅度提高開發效率,但如果可以利用某些強大系統的生態,就不一樣了。在未來,還會有很多支援“生態滲透”的開發工具。例如,我們團隊研發的UnityMarvel,就是一款超平臺開發系統。這裡之所以稱為“超平臺”,而不是“跨平臺”,是因為UnityMarvel不僅僅可以跨作業系統平臺,還可以跨資料庫平臺,雲平臺、API平臺、開源硬體、物聯網等,以及支援虛擬SQL、客戶端服務端一體化、柔性熱更新、Office載入項、瀏覽器外掛等新特性。因此稱為“超平臺”開發系統。並且自己研發了Ori程式語言(語法融合了Python、Java、Go等語言的優秀特性,但功能得到了前所未有的增強)。通過這些特性,可以用前所未有的規模利用其他系統的生態,要遠比Python使用Excel的生態更完美。其他功能先不解釋(等釋出後我再寫文章詳談),先說說UnityMarvel是如何跨資料庫的。   所謂跨資料庫(目前指關係型資料, 以後會支援文件、鍵值等NoSQL資料庫),是指用UnityMarvel開發基於資料庫的應用並不需要事先確定到底用什麼資料庫(如MySQL、SQL Server、Oracle等),UnityMarvel內建了一種虛擬資料庫,可以直接用虛擬資料庫開發,在釋出時,會要求選擇使用的資料庫,例如,選擇MySQL或SQL Server。UnityMarvel會通過rosetta引擎將Ori語言的程式碼轉換為支援MySQL的程式碼。關於資料庫的部分,主要是用過內建的一種虛擬SQL完成的,而且這種SQL語言是與Ori語言是融為一體的。例如,如果要從persons表中查詢出id大於30的所有記錄,可以直接這樣寫:  
var  result = SELECT * FROM persons
                                 WHERE id > 30;
  result的型別是SQLSelect,將result賦給Grid元件,就會直接顯示查詢結果。當釋出時,會將上面的程式碼轉換為使用相應資料庫(如MySQL、SQL Server)的特定程式語言(如JavaScript、Java等)的程式碼。這麼做的好處如下: 1. 不需要進行資料庫選型,資料庫是在釋出時後期繫結的; 2. 如果想切換資料庫(例如,從MySQL換成Oracle),只需要重新發布,選擇相應的資料庫就可以了,不需要修改一行程式碼; 3. 統一資料庫介面,開發人員並不需要了解各種資料庫的細節,開發門檻低; 4. UI與資料庫互動非常容易,不必考慮各種資料庫引擎和庫,只需要直接將SQL語句賦給與其互動的UI元件即可; 5. 自動檢測和去除大多數SQL中的潛在風險,如SQL注入等; 6. 脫離資料庫環境開發。例如,想使用MySQL資料庫開發,但當前機器上並沒有MySQL開發環境,又不想安裝MySQL。這時仍然可以用UnityMarvel內建的虛擬資料庫進行開發,然後釋出即可,部署在有MySQL環境的機器上就可以成功運行了;  

 

 

8. 上程式碼:Python到底如何與Excel互動   在這一節玩點真格的,看一看Python到底如何與Excel互動。我們使用目前最常用的openpyxl來完成操作。先看一個未處理的Excel表格。

 

 

 上面這個表格是關於營業計劃的資料,看起來很彆扭,因為不同層次的資料之間沒有縮排,也沒有背景顏色,甚至沒有表格線。如果要將這個表格交給領導,估計領導會拿起塊磚頭砸過來!   領導最希望見到下面的表格:

 這個表格看起來是不是很舒服呢!其實這個表格用Excel做起來也並不費勁。不過仍然需要N步,這裡就不詳細解釋如何用Excel來做這個表格了,現在來看如何利用Python閃電般進行格式轉換。

from openpyxl.styles import Alignment,Font,Border,Side,Color,PatternFill
import openpyxl
# 開啟待轉換的檔案
workbook = openpyxl.load_workbook('原始表格.xlsx')

ws = workbook.active
table = ws['A1':'D11']
# 設定字型
ft = Font(name="黑體")
for rows in table:
    for cell in rows:
        cell.font = ft
# 調整行高(所有的行的高度統一設定為18)
for i in range(1,ws.max_row + 1):
    ws.row_dimensions[i].height = 18.0
# 插入列
ws.insert_cols(1,1)

# 調整新插入列的寬度
ws.column_dimensions['A'].width = 5

# 插入行
ws.insert_rows(1,1)
# 調整新插入行的高度
ws.row_dimensions[1].height = 10


# 文字左對齊,數字右對齊
leftAlign = Alignment(horizontal='left',vertical='center')
rightAlign = Alignment(horizontal='right',vertical='center')
for row in ws.rows:
    for cell in row:
        # 數字,右對齊
        if type(cell.value) == int:
            cell.alignment = rightAlign
        else:
            cell.alignment = leftAlign

# 調整列寬
ws.column_dimensions['B'].width =20
ws.column_dimensions['C'].width =9
ws.column_dimensions['D'].width =9
ws.column_dimensions['E'].width =9
ws.column_dimensions['F'].width =4  # 讓表格線出來一點



# 為表格新增邊框

topBorder = Border(top=Side(border_style='thick',color='000000'))
                #bottom=Side(border_style='thick',color='000000'),
                #horizontal = Side(border_style='thin',color='000000'))
# 新增表格頂邊的粗線(包括最後沒有資料的列)
for col in range(2, ws.max_column + 2):
    ws.cell(2, col).border = topBorder

bottomBorder = Border(bottom=Side(border_style='thick',color='000000'))
# 新增表格底邊的粗線(包括最後沒有資料的列),這裡需要加1,是因為前面繪製表格頂邊的粗線時,最大列的數量已經多了1個
# 所以只需要加1即可
for col in range(2, ws.max_column + 1):
    ws.cell(ws.max_row, col).border = bottomBorder

# 新增水平細線
horizontalBorder = Border(top=Side(border_style='thin',color='000000'))
for col in range(2, ws.max_column + 1):
    for row in range(4,ws.max_row):
        ws.cell(row, col).border = horizontalBorder

# 單元格縮排
ws['B5'].alignment=Alignment(indent=1)
ws['B6'].alignment=Alignment(indent=1)
ws['B8'].alignment=Alignment(indent=1)
ws['B11'].alignment=Alignment(indent=1)

ws['B9'].alignment=Alignment(indent=2)
ws['B10'].alignment=Alignment(indent=2)

# 設定文字顏色
blueFont = Font(name="Arial",color = '4169E1')
for col in range(3, ws.max_column + 1):
    ws.cell(5, col).font= blueFont
    ws.cell(6, col).font = blueFont
    ws.cell(9, col).font = blueFont
    ws.cell(10, col).font = blueFont
# 設定背景色
fill = PatternFill("solid", fgColor="B0C4DE")
for col in range(2, ws.max_column + 1):
    ws.cell(4, col).fill= fill
    ws.cell(7, col).fill = fill
    ws.cell(12, col).fill = fill

workbook.save('轉換後的表格.xlsx')

print('見證奇蹟的時刻')

 

現在執行程式,當輸出“見證奇蹟的時刻”後,就會在當前目錄生成一個“轉換後的表格.xlsx”,該檔案就是上圖的效果,是不是很神奇呢?   從這段程式中可以看出,轉換該表格需要多少步,程式碼並不複雜,大家可以根據openpyxl的文件研究。   9. 用Python替代VBA   目前微軟官方還沒有將Python作為VBA的替代品,倒是將JavaScript作為了另外一個選擇(office.js),不過可以利用xlwings做一個折中。xlwings可以單獨使用,也可以通過xlwings office載入項提供的RunPython函式執行Python程式碼。   現在有一個hello.py檔案,程式碼如下:  
import xlwings as xw
def hello_xlwings():
    wb = xw.Book.caller()
    wb.sheets[0].range("A1").value = "Hello xlwings!"
  在xlwings的安裝目錄有一個xlwings.xlam檔案,該檔案是Excel的載入項檔案,也就是Excel VBA的發行包檔案。現在隨便開啟一個空的Excel workbook,然後點選“工具”>“Excel載入項”選單項,會開啟如下圖所示的對話方塊,找到xlwings.xlam檔案,並選中該檔案。

 

 然後在“開發工具”選項卡中點選“Visual Basic”按鈕(如下圖所示),進入VBA編輯頁面。

 

 

 最後引用xlwings庫即可。

  現在可以新建一個VBA模組,然後編寫下面的程式碼:  
 Sub test()
     RunPython ("import  hello; myproject.hello_xlwings()")
 End Sub   

執行指令碼,就會看到在“A1”的位置插入了Hello xlwings!

  OK,現在大家已經瞭解瞭如何使用Python與Excel互動,其他還有很多種方法,而且也不僅僅只有Python能與Excel互動,其實幾乎所有的程式語言,甚至是C語言,都有想用的Library可以與Excel互動。那就期待我下面的文章吧!