探訪非洲資料標註工廠:貧民為矽谷人工智慧打工賺錢
以下為文章全文:
人工智慧如人們預期工作時,矽谷企業總喜歡說一切“好似魔法”。
但實則不然。魔法的背後是布蘭達(Brenda),一位26歲的單身母親。她目前居住在非洲很大的貧民窟基貝拉(Kibera),或許這裡也是全球生活最艱難的社群。在這裡,成千上萬人住在一個比倫敦海德公園大不了多少的地方。
每一天,布蘭達坐著公交車前往肯亞首都內羅畢東部。在那裡的一棟大樓內,她和其他1000多名同事為人工智慧的另一面——我們所知甚少,所見更少的一面——辛勤付出。在八小時的工作時間內,她需要負責建立訓練資料,即把資料——大多數為影象——加工成計算機可以理解的形式。
布蘭達先是上傳一張圖片,然後用滑鼠跟蹤裡邊的所有物體。人、車輛、路牌、車道標記——甚至天空,還要特別說明是晴朗的還是陰霾的天空。將數百萬張這樣的圖片輸入到人工智慧系統中,意味著(比方說)一輛自動駕駛汽車可以開始“識別”現實世界中的物體。資料越多,理論上機器越智慧。
在狹小的辦公室裡,她緊挨著身邊的同事,緊盯著顯示屏,放大影象,防止標錯哪怕是一個畫素。一名上級人員會檢查他們的工作,若沒有達到要求,就需要返工。速度較快、準確率較高的訓練員的名字可以出現在辦公室的多臺電視機螢幕上以作鼓勵。而比較受歡迎的獎勵則是:購物券。
“你可以做一些與眾不同的事情。”當我拜訪她時,布蘭達告訴我說。她和自己的女兒,兄弟還有母親一起蝸居在一間擁擠的小房子裡。“我現在的工作,讓我相信我的努力正為未來的某些人提供幫助。”
貧民窟學校
布蘭達的僱主是Samasource。這是一家總部位於舊金山的公司,客戶包括谷歌、微軟、Salesforce和雅虎等。這些客戶大多數都不會希望討論他們與Samasource合作的細節本質——因為大多與未來專案有關——但可以說,在貝羅畢這棟大樓裡準備的資料,構成了矽谷一眾大公司在人工智慧領域得以開展研究的重要一部分。
這種技術進步或許都不可能出現在基貝拉這樣的地方。作為非洲較大的貧民窟,這裡有太多亟需解決的問題,比如缺少清潔淡水,以及眾所周知的衛生危機。但這不代表人工智慧不會在這裡產生積極的影響。當我們在這個下雨天驅車前往基貝拉少有的幾棟建築之一時,我們發現,這棟位於鐵路線附近的建築雖殘破不堪,但顯然自殖民以來經常性為人們所使用。
大約一年前,這棟建築是扔石頭的暴徒與軍隊之間的分界線。今天,它已經成了一個蓬勃發展的活動中心,裡邊有一個媒體學校和工作室,有一個自助餐廳;而在樓上的一個房間裡,滿滿當當的都是桌上型電腦電腦。在這裡,吉迪恩·恩尼歐(Gideon Ngeno)教授向25名左右學生傳授個人計算機的基礎使用知識。
在這個過程中有趣的一點是:哪怕是在基貝拉這樣的地方,人們的數字化素養其實不低。這裡,智慧手機十分普遍,其它商店都有充電器和手機配件等出售,並且人們會使用移動支付系統MPesa來購買這些東西。
但非洲的大多數地區都沒有經歷過桌上型電腦電腦的年代,鍵盤和滑鼠的組合對他們來說是一種新奇陌生又複雜的體驗。一名Samasource的團隊成員告訴我說,在被要求搜尋網際網路上的資訊時,她經常觀察到有學員不是看著電腦,而是拿起他們的手機。
在這裡,教授的課程是為那些希望繼續在Samasource等數字經濟公司工作的人專門設計的,學費為500肯亞先令(5美元左右)。對那些經常生活在貧困線以下的人來說,這個費用也還可以承受。公司一開始提供課程是不收費的,但我後來得知,由於沒有經濟上的付出,考勤(和上課認真程度)都不太理想。
恩尼歐教授說,目前上課較大的困難是噪音——就在我們說話的間隙,一群小孩子發生陣陣吵鬧聲。而在外邊,又是一個人來人往十分嘈雜的集市。
適合加州的園區相比之下,Samasource在內羅畢的辦公室位於一處發展形勢比較好的位置。公司位於一商務園區建築內,總共佔據四層樓,擁有大量用於資料訓練的計算機。
如果不看窗外景色,你恐怕會以為自己身處於一家矽谷科技公司內部。牆上貼著瓦楞鐵皮,這種裝飾方式放在加州的話算得上走在時髦前沿。但是,提醒你這是在非洲——而不是加州——的一點是:大部分工人(近75%)來自平民窟。
令人印象深刻的是,Samasource克服了大多數矽谷企業努力想要解決的問題。近半數的員工為女性,這在母親同時也負擔家庭經濟的國家,實屬了不起。在這裡,有哺乳室,長達90天的產假,以及靈活的輪班模式。這些均讓這家公司不僅在肯亞,就是在全球,也是一個出色的榜樣。
“人們常說,男人工作養家。”人力資源負責人海倫·薩瓦拉(Hellen Savala)說,“但女人工作的話,她不僅養活自己家,也會幫助更大的家庭。這樣的話,你就會擁有更大的影響力。”
“不可能成功”
這種平衡不僅只存在於入門級工作中間。在舊金山的Mission District,在比肯亞辦公室小很多的辦公室裡,Samasource的執行長蕾拉·焦納赫(Leila Janah)談及如何讓公司管理層女性佔大多數時莞爾一笑。她說:
“在矽谷,尤其是在人工智慧領域,這樣的情況實屬罕見。但我們認為這沒什麼特別的。這也是一種競爭優勢。”
Samasource成立於2008年,公司早期並不受待見。在美國經濟衰退期間,大量向發展中國家外包工作並不受人歡迎,可以說現在仍不受歡迎。
而那些發自內心欣賞公司理念的人則又擔心的是,發展中國家的工人缺乏必需的數字技能,擔心他們的工作達不到科技巨頭們願意接受的標準。
“科技圈裡和慈善界的有識之士都說這是一個非常好的想法,但是它不可能成功。”焦納赫回憶說。今天,Samasource是東非同型別組織中最大,同時在亞洲和北美均設有機構。
廉價勞動力焦納赫自豪地表示,公司在準確性和安全性方面的記錄,是贏得谷歌等大公司合同的重要因素。但毫無疑問,這些公司願意與Samasource合作的另一個明顯動機是,這裡有廉價的勞動力,並且當地人迫切需要穩定的工作。
Samasource希望幫助的目標是,目前每天薪酬低於或剛達2美元,並且還是從事所謂的“怪異”地下經濟或危險職業的人。Samasource可以提供每天約9美元的薪酬。這對當地人來說已經是了不得的飛躍,雖然跟矽谷相比仍微不足道。
“確實,它有很高的成本效益。”焦納赫說,“但我們工作中的一個關鍵點在於,我們不會提供可能破壞當地勞動市場的薪酬水平。如果我們給出的薪酬過高,我們會給整個社會帶來麻煩。比如,可能會對我們員工所生活的社群的住房成本、還有食物成本等帶來潛在負面影響。”
當然還有一個問題是,如果這種工作不再有需求會發生什麼情況。Samasource的主要業務是為自動化系統提供資料。那麼,如果建立資料的過程也能夠自動化之後,會怎樣呢?
“這是一個關乎幾十億美元的科技問題,我相信每一個人心中多少都有類似擔憂。”焦納赫說,“我認為,在這個問題上,媒體有炒作過度之嫌。但你要是跟開發這些演算法的資料科學家們深入交流後,你會發現機器遠沒有大多數人想象的那麼智慧。我們仍需要訓練資料很長一段時間。”
“這份工作改變了我的方方面面”
資料訓練專家其實是一項很無聊的工作、充滿了重複性、永沒有盡頭的任務。在鏡頭之外,有些員工會討論如何面對快速工作以實現公司指標的壓力,因而休息時間也大大減少。有些Samasource的工人現在雖然是自由職業者,可以在其他地方工作,但每當工作時都會一個網路攝像頭監視他們的工作。
我們在辦公室內看到的工人都沒有得到適當的符合人體工程學的支援,經常伏在電腦前連續瘋狂點選滑鼠數小時——這對眼睛和身體都會造成一定壓力。公司表示會考慮解決這個問題。
對工作的抱怨在這個行業內並不少見,不過時常會得到快速的跟進和解決。
Samasource表示,公司在發展中國家至少影響了近5萬人;他們要麼在Samasource工作,要麼他們的家人在Samasource工作。根據公司對前員工進行的問卷調查,公司發現近84%的前員工會選擇接受更正式的工作,或接受高等教育。
其中一個從此走向成功的員工叫伊德里斯·阿布迪(Idris Abdi)。25歲的阿布迪在工作後,得以搬離貧民窟。
“這份工作改變了我的......方方面面。”他說,“改變了我的認知,它讓我看到未來的希望。”
來源:網路大資料(ID:raincent_com)
點選下方“閱讀原文”瞭解【人工智慧伺服器】↓↓↓
相關推薦
探訪非洲資料標註工廠:貧民為矽谷人工智慧打工賺錢
近日BBC記者Dave Lee的一篇文章講述了人工智慧背後不為人知的貢獻者——生活在肯亞貧民窟的
總結程式設計師這些年的資料應用發展史:從搜尋引擎到人工智慧
我們對大資料技術的使用也經歷了一個發展過程。從最開始的Google在搜尋引擎中開始使用大資料技術,到現在無處不在的各種人工智慧應用,伴隨著大資料技術的發展,大資料應用也從曲高和寡走到了今天的遍地開花。 Google從最開始發表大資料劃時代論文的時候,也許自己也沒有想到,自己開啟
Python資料預處理:機器學習、人工智慧通用技術(1)
Python資料預處理:機器學習、人工智慧通用技術 白寧超 2018年12月24日17:28:26 摘要:大資料技術與我們日常生活越來越緊密,要做大資料,首要解決資料問題。原始資料存在大量不完整、不一致、有異常的資料,嚴重影響到資料建模的執行效率,甚至可能導致模型
關於導出Excel出現異常的解決辦法。:System.UnauthorizedAccessException: 檢索 COM 類工廠中 CLSID 為 {000209FF-0000-0000-C000-000000000046} 的組件時失敗
size 本地 ESS spa 電腦 步驟 我的電腦 service 交互式 異常信息為:System.UnauthorizedAccessException: 檢索 COM 類工廠中 CLSID 為 {000209FF-0000-0000-C000-00000000004
檢查COM類工廠中CLSID為{000209FF-0000-0000-C000-000000000046}的組建失敗,原因出現以下錯誤:80070005拒絕訪問
1、問題頁面: 2、描述:檢查COM類工廠中CLSID為{000209FF-0000-0000-C000-000000000046}的組建失敗,原因出現以下錯誤:80070005拒絕訪問 3、解決方案: ①win+r啟用命令列,輸入comexp.msc -32 檢
資料報表開發技巧:自動為資料報表新增【小計】、【總計】行
在開發ERP系統的資料報表時,幾乎都是需要看到【小計】、【總計】這樣的彙總資料的,在資料報表的顯示列表中,最下面的一行通常就是【小計】或者【總計】的彙總行。如果手動為每個報表都增加彙總行,那也是一份不小的工作量。 所以,如果能自動為每個資料報表自動新增【小
Python004-資料處理示例:以某個資料(欄位)為基準從資料中獲取不同的欄位行數
資料來源樣式如下所示: 需求: 讀取文字,以第一列為基準參考系,每個基準僅輸出滿足需要條數的資料;不滿足,全部輸出。 比如,基準為 6236683970000018780,輸出條數要求為 5。若文字中含有 6236683970000018780 多於
Gartner2018年大資料平臺魔力象限:華為位置提升,阿里雲和南大通用入圍
來源:雲頭條概要:Gartner近日釋出了2018年版面向分析的資料管理解決方案魔力象限。Gar
資料預處理:讀取檔案資料,並存為python陣列
檔案的簡單讀取 # 定義一個將檔案中的資料轉化為陣列的類 import numpy as np class DataUtil: # =============================================================================
Caffe:如何fine tune一個現有的網路(VGG16)——將資料預處理並儲存為h5格式
在訓練神經網路的過程中,常常需要fine tune一個現有的網路,首先是需要對輸入資料進行預處理,包括有: 對尺寸大小進行處理 將正負例和測試的data&label儲存為h5檔案 將h5檔案中data&label對應的書序打亂 實現程式碼
京東豬臉識別比賽資料預處理:用Python將視訊每一幀提取儲存為圖片
最近參加京東的豬臉識別比賽,訓練集是30個視訊,需要將視訊的每一幀提取出來儲存為圖片,存入對應的資料夾(分類標籤)。 本例是直接呼叫了cv2 模組中的 VideoCapture。一次執行,大概10分鐘,就能得到預處理後的分類圖片了,具體程式碼如下。
大資料第一天: linux裡文字第一行一般為shell指令碼直譯器的路徑
1.首先:第一行加上#!之後 內容會加粗,和其他行的字型不一樣 2.第一行預設為shell指令碼直譯器的路徑,如果不寫,預設直譯器為bash 3:# 是shell腳本里的註釋符,#!在文字第一行,作為
大資料早報:三星設立新人工智慧研究中心 北京銀行聯手京東金融用人工智慧為客戶“畫像”(11.24)
資料早知道,上樂投網看早報! 『融資』用大資料服務實體商業 “商圈雷達”完成2000萬元Pre-A輪融資 一站式商圈大資料平臺“商圈雷達”完成春曉資本領投、水木資本等機構跟投的2000萬元Pre-A輪融資。資金將用於整合商圈大資料來源、加大產品研發的投入。“商圈雷達”隸屬於上海小滿資訊科技有限
【Scikit-learn】【模型預處理-2-資料整理】資料標準化調整:把資料調整為標準正態分佈
1.標準正態分佈概念詳細的概念可以www.baidu.com,或者看以前寫的文章。標準正態分佈又稱為u分佈,是以0為均數、以1為標準差的正態分佈,記為N(0,1)。如下圖,綠色綠色就代表了標準正態分佈:2.資料標準化調整2.1簡介許多機器學習演算法在具有不同範圍特徵的資料中呈
《我不是藥神》:我會資料分析,我可以為他們做些什麼?
導讀:在《我不是藥神》爆紅開始之前,山爭大哥“C位出道”的微博熱搜就已經牢牢地抓住了我的眼球。我
oracle建立檢視包含clob欄位,報錯:資料型別不一致:應為-,但卻獲得CLOB
在oracle中建立檢視的時候,語句中包含有clob型別的欄位。檢視建立語句大概如下: CREATE OR REPLACE FORCE VIEW "T_PROJECTS" ("ID", "NAME","DSC_INFO") AS ( select a.id,a.name,
資料儲存(無資料庫版)之一:儲存為JSON
#coding:utf8 #使用Requests訪問http://seputu.com/,獲取並列印HTML文件內容 import requests user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
用深度學習做命名實體識別(一):文字資料標註
“ 本文是用深度學習做命名實體識別系列的第一篇,通過本文,你將瞭解如何用brat做文字資料標註。” 一、 什麼是命名實體識別? 從一句話中識別出人名,地名,組織名,日期時間,這就是命名實體識別的一個例子,而人名,地名等這些被識別的目標就是命名實體。當然命名實體還可以是很多其它有
手把手教你用深度學習做物體檢測(二):資料標註
“本篇文章將開始我們訓練自己的物體檢測模型之旅的第一步—— 資料標註。” 上篇文章介紹瞭如何基於訓練好的模型檢測圖片和視訊中的物體,若你也想先感受一下物體檢測,可以看看上篇文章:《手把手教你用深度學習做物體檢測(一):快速感受物體檢測的酷炫 》。 其實,網上關於資料標註的文章已有很多,但
用深度學習做命名實體識別(三):文字資料標註過程
上一篇文章,我們介紹了brat的安裝和配置,當成功安裝和配置好了brat,我們就可以進行文字標註了。 首先,在brat專案的data目錄下新建一個project目錄,然後在brat專案的主目錄下找到以下檔案,複製到project目錄: 主目錄:/var/www/html/brat project目