演算法的公平性也可以量化？試試這三個指標吧

阿新 • • 發佈：2019-08-22

全文共1931字，預計學習時長4分鐘

圖片來源：pexels.com/@rawpixel

自動化和智慧操作已經可以越來越深度地幫助人們工作。隨著人工智慧越來越多地應用於工業領域的產品和研究，其現在可以更好地專注於需要判斷力和創造力的管理職能。這意味著曾經需要人類做出的關鍵決策，現在都可以通過演算法操作決定了。從化工、採礦、石油和天然氣等資產密集型行業，到媒體和時尚等創意密集型行業，皆是如此。

要驅動大規模數字產品和服務的應用，需要的可不僅僅是自動化。網際網路把人類和機器連線在一起，產生了海量的資料，為了處理這些資料，以及應對時刻變化的社會，需要藉助公平負責的演算法。此外，預計到2030年，人工智慧將為全球經濟增加13萬億美元。毫無疑問，用演算法做決定會變得越來越普遍。

回顧一條大家都懂的機器學習定義——演算法解析資料，從資料中學習，然後用所學知識做出明智的決定。

因此可以知道，資料科學家、工程師和架構師設計和構建演算法的方法是訓練演算法解析正確的資料，以大致確保兩件事：

精確度

圖片來源：pexels.com/@rawpixel

精確度本身就是一個學習的過程。為精確度準備準確的資料是一個挑戰，因為它只能在經過一輪又一輪的建模和更改訓練資料之後才能實現。正確資料的定義因此會根據不同情況而顯著變化。

例如，想要識別大概率會在奢侈時尚精品店購物的客戶，和大概率會在素食餐廳點一道特定餐品的客戶，這二者的演算法需要不同的設計和架構。儘管這兩種演算法會有一些共通點，比如說，和其他因素相比，它們的最新消費、消費頻率、和貨幣面值可能相通，但這兩個演算法的某些變數也會截然不同，這取決於業務的性質。

公平性

隨著演算法越來越公平，在決策過程中個人判斷的影響會逐漸消失。這是最重要也是最棘手的挑戰。因為在學習過程中，這些演算法很有可能會變得不那麼公平，因為它們是由人類程式設計的，而人類的價值觀、想法和觀點會隨之轉移到這些人工智慧軟體中。

這意味著為了能理解機器的自動判斷，需要透明公開復雜的程式。有人害怕在金融、法律和技術公司使用機器自動決策，這是因為人們為貪圖個人利益，常常利用其決策幫助自己獲利，並濫用機密資訊。

為什麼演算法的公平性具有挑戰性?

演算法的偏差反映了社會混亂的過去。所有被刪除的偏差可能仍潛伏在資料中，等著重新出現的機會，這在一定程度上是因為，人們無意間把這些偏差編入了軟體，而演算法會放大這些偏差。

從表面上看，演算法偏差似乎是一個可以用計量經濟學和統計學方法解決的工程問題。然而，想要確保一個公正、公平而又合乎倫理的結果，不僅僅要面對來自資料科學的挑戰。由於設定人工智慧學習程式需要人工干預，因此需要巨大的責任和堅韌的信念，以設定出最為公平的程式。

如何量化公平?

在資料科學中，有很多度量標準和方法可供選擇。

公平性和精確度之間的權衡是一個重要的考慮因素。

為了確保公平性和準確性，模型必須滿足以下兩個條件：

1. 一個通用模型，通過迭代逐步變為特定模型，以更好地適應形勢。

2. 可靈活修改因素、變數和資料，以確保得到公平的結果。

基於這些考慮，建議結合以下三種方法，用以量化公平並保持良好的準確性：

互動資訊分析

主要針對用於訓練模型的原始資料。理解受保護變數(不準備在資料建模中使用的變數)和非受保護變數(準備在資料建模中使用的變數)之間的關係是一個很好的度量標準。

例如，對決定是否能夠入圍面試名單的演算法來說，不能在模型中使用性別這一變數，因為這是一個受保護變數。另一個受保護變數是種族，在模型中不應通過種族，來決定某人是否能申請到助學貸款。

另一方面，像考試成績和按時付款這樣的變數並不是受保護變數，但是很不幸，這些變數可以成為一個代理變數，在資料的訓練過程中暗示一個人的種族。如果把此度量標準與下一個度量標準結合起來，也許可以解決這個問題 —— 差別性影響。

差別性影響

同樣針對訓練資料，揭示了變數對某一人群或某些專案結果的重要性。通過確保每個叢集的每個變數的重要性都差不多，可以幫助確保所有叢集得到平等的對待。在資料訓練過程中，有一種能力在許多情形下都有增強：根據資料集中其他變數預測受保護變數的能力。

比如，在很多情況下，一個人的性別可以根據考試成績來預測，這就在演算法中產生了偏差。通過在迭代過程中修改資料，並減輕某些變數對預測受保護變數結果的影響，可以有選擇地降低確定受保護變數的預測能力。

預測性奇偶校驗位

主要用於調整模型結果，以確保平等和公平。其主要目標是降低錯誤率，或預測錯誤的比率，並確保會降低資料集中所有叢集的錯誤率。

有時，演算法會忽略一個社會維度，不符合道德標準，或者忽略一些商業目標。在這種情況下，完全透明公開這些複雜的演算法將使人工智慧走向大眾化，讓更負責、更道德、更實用的演算法成為可能。

留言點贊關注

我們一起分享AI學習與發展的乾貨
歡迎關注全平臺AI垂類自媒體 “讀芯術”

（新增小編微信：dxsxbb，加入讀者圈，一起討論最新鮮的人工

演算法的公平性也可以量化？試試這三個指標吧

演算法的公平性也可以量化？試試這三個指標吧

CSS 前處理器技術已經非常的成熟了，而且也湧現出了越來越多的 CSS 的前處理器框架。本文便總結下 Sass、Less CSS、Stylus這三個前處理器的區別和各自的基本語法。

【Java】【演算法練習】輸入一個正整數陣列，把數組裡所有數字拼接起來排成一個數，列印能拼接出的所有數字中最小的一個。例如輸入陣列{3，32，321}，則打印出這三個數字能排成的最小數字為321323。

讓這三個月來的更猛烈些吧，前端react同構項目

這三個忠告，讓李連傑與馬雲並肩同行至今

從冗余、性能、成本這三個方面來比較RAID各模式的差異

你可能也罵過這兩個面試題！

學習大數據這三個關鍵技術是一定要掌握！

Oracle啟動中，spfile.ora、init<SID>.ora、spfile<SID>.ora 這三個文件正確的先後順序是什麽？

關於“->”,“=>”,“::”這三個操作符的使用說明

還在用百度找資源？試試這3個頂級資源搜尋網站，沒有找不到的！

還在用百度找資源？試試這3個頂級資源搜索網站，沒有找不到的！

java中輸入三個字元後，按各字元的ASCII碼從小到大的順序輸出這三個字元。

《惢客創業日記》2018.09.14 週五 “不甘心”這三個字，讓他去了美團。

iOS 12 正式版來了，升級後先來試試這 13 個新功能

這三個網站太強大了，沒有找不到的資源

年薪30萬的web前端都經歷過這三個成長階段！

工作再忙，也要學會這 10 個Excel快捷鍵

讀懂這三個關鍵詞，就明白迅雷鏈為什麼受開發者歡迎

網站建設設計|這三個基本要求你需要重點掌握！

演算法的公平性也可以量化？試試這三個指標吧

相關推薦