跨越數字化週期,資料質量如何影響和驅動業務增長
本文是根據DQMIS 2020第四屆資料質量管理國際峰會資料質量業務場景應用圓桌論壇現場嘉賓討論整理而成。
圖1.1資料質量業務場景應用圓桌論壇
(左起:《北大創新評論》執行主編謝豔老師,國家工業資訊保安發展研究中心人工智慧所資料質量室主任楊柳老師,金域醫學資訊管理中心總經理丘偉鬆老師,中國氣象中心副總工兼科技委主任沈文海老師,畢馬威資料治理主管合夥人陳立節老師,龍石資料總經理練海榮老師)
討論主題:
跨越數字化週期,資料質量如何影響和驅動業務增長
嘉賓
-
特邀嘉賓主持:
謝豔-《北大創新評論》執行主編
-
參與討論嘉賓:
楊柳-國家工業資訊保安發展研究中心人工智慧所資料質量室主任
丘偉鬆-金域醫學資訊管理中心總經理
沈文海-中國氣象資訊中心副總工兼科技委主任
陳立節-畢馬威資料治理主管合夥人
練海榮-龍石資料總經理
特邀嘉賓主持謝豔-《北大創新評論》執行主編:非常感謝大會的邀請,同時歡迎我們在坐的幾位嘉賓。正如上午大會所分享與交流的重要觀點,在數字時代的智慧世界中,我們新的生產要素“資料”正在發生很大的改變,這是我們運用“雲物智”結合算力去改變舊生產形態的基礎。
對於企業來說,資料成為了競爭的關鍵要素,如果我們不能在新的世界當中掌握新生產資料的基本價值就會出現決策失靈、產能失效等問題。同時,進一步提升資料質量,可以直接具象地幫助企業改進工作流程、升級業務市場、監控行業風險。
企業做資料,重要的啟動項是解決應用和應用間的資訊共享問題,尤其是大的業務域和業務域之間的資訊共享,連結搭建最基礎的“智慧組織”關係。那麼在大部分企業經歷過資料從採集儲存到分析應用的“大資料”胚胎期,我們今天來談談在新條件下的資料質量是如何影響和驅動業務增長的。
01
新冠疫情的衝擊給各機構業務發展帶來什麼影響?
特邀嘉賓主持謝豔-《北大創新評論》執行主編:今天下午的圓桌論壇時間有限,建議嘉賓們每個問題言簡意賅,直答我們內心的思索。事不宜遲,我們馬上進入主題,實際上我們知道今年特殊的情況下,經過疫情,催生了很多資訊化和資料化的改革和變革,包括中午我們探討的時候說網際網路醫療終於跟醫保接上軌了,但這件事情可能已經經歷了5到10年的發展歷程。
我的第一個問題是這樣的,希望每一位老師用兩到三分鐘的時間分享一下,在今年疫情之下,中國的經濟發展和市場發展都面臨不同的挑戰,您認為給業務發展或者是研究工作帶來了怎樣的影響,我們的核心資料質量和資料治理在其中的應對措施是如何的?
楊柳-國家工業資訊保安發展研究中心人工智慧所資料質量室主任:謝謝主持人,實際上今年疫情給各個行業都帶來很大的衝擊,大資料的企業在整個疫情當中也面臨營收和成本支出的壓力,但相較於偏傳統制造業、數字化程度相對較低,或者勞動密集型的企業而言,大資料企業受到的影響還是相對較小的。
我們作為工信部下屬的事業單位,在疫情防控過程中也是支撐工信部做了有關疫情防控和復工復產、復課的相關優秀案例的徵集和評選工作。在這個過程中,地方政府推薦上來1600多個大資料應用和解決方案相關案例,其中我們評選出了94個非常優秀的案例在全國做了應用和推廣,所以我們也是充分認識到大資料在整個疫情防控過程中發揮了非常大的作用,尤其是大資料對疫情的態勢研判、趨勢發展、精準定位、物資調配的重要支撐能力。
總體而言,一方面,在疫情期間,大資料企業或多或少受到了一定的衝擊,但另一方面,大資料的重要性也是被提到了一個新高度。各界對資料的意義、價值都是有了新的認識。
事實上,我們在調研評選的過程中,也發現了大資料在支撐疫情防控中存在的一些問題,包括資料治理、資料開放等方面的問題,比方說現在一些資訊系統對於疫情資料的採集效率整體還是偏低的,下到一些社群,在資料採集的過程中時常需要依靠一些手工填報的方式,資料格式難以統一,資料質量也很難保證。另外就是跨地區、跨系統間的資料其實是很難打通的,開放共享很難實現。所以,疫情防控的問題很多都是集中在共享、資料的隱私保護,以及高質量應用的問題。大資料以後的發展方向,將圍繞資料治理、資料打通共享開展,也是各方企業共同努力的一個方向。謝謝!
丘偉鬆-金域醫學資訊管理中心總經理:首先感謝我們這個論壇,感謝譚總,也感謝謝老師給我們這樣一個機會。我先做個小廣告,金域醫學是國內檢驗龍頭企業,上海上市,股票程式碼603882,大家可以馬上關注一下。
談到疫情,先說說我們公司的願景,其實跟大資料有關,我們叫金域醫學檢驗集團,主營業務是醫學檢驗服務,但我們公司的願景是成為國內領先的、世界一流的醫學資訊和資料服務供應商。檢測服務最終的成果是什麼?實際上就是資訊和資料,我們現在給大家提供的,看起來是打在紙面上的醫學檢驗診斷報告,但是抽象來看就是資訊和資料。
這次突發疫情,我們碰到了一個措手不及的“機會”。截止8月底,金域檢測了新冠的標本接近2000萬,應該佔到了全國總檢測量的10%。這個規模是怎麼實現的呢?首先我們在前幾年,在內部已經把我們的資訊系統以及我們的資料,整個流程和基礎資料完全標準化了,花了大量的力氣。
幾個大篩查我們都參加了,武漢、北京、新疆的大篩查,給我們提出了兩個很大的問題:外部的資料如何進入金域的系統裡面,跟我們的系統對接上?在我們檢測後,檢測結果資料和資訊如何進入到各地健康碼的系統裡面去,跟各地的衛計委打通?
所以,我們面臨的問題是資料來源加工標準化的問題,它雖然有標準,但是如何加工的問題,以及我們的資料出去以後,如何給我們的客戶應用的問題。
今天早上楊部長提的非常好,如果我們的客戶都沒有基礎的資訊化水平,沒有這個基礎,你給他任何資料,他也不一定能夠享受到資料帶來的價值。
我估計在座各位有一些經歷過,新冠篩查一開始是用手工登記的,拿一個紙在那裡登記你的身份證號、電話號碼,出現的問題是啥呢?標本進到我們的實驗室,6個小時以後結果出來了,結果不知道是誰的,無法發檢驗報告,因為資訊還沒有進系統。
我們的解決方案就是往前走,金域開發了多種前端的資訊登記系統,我們來提供資訊登記系統。在篩查取樣點,很簡單,身份證一掃,取樣管一掃,所有後面的流程都資訊化了,全部資料化,6個小時以後查北京的健康寶就能查到了。
這些前端的應用,從技術上來講很簡單,但在新冠篩查期間,使得資訊登記的環節效率提高了15倍,整體的生產效率提高了5倍,就是資訊化、數字化帶來的效率。大家拿核酸檢測報告所需時間從24小時提高到只需6小時了。
因此,資訊化,資料標準化的東西不能是一個內迴圈,而是要向前後兩端延伸,這是我感觸最深的一點。謝謝!
沈文海-中國氣象資訊中心副總工兼科技委主任:丘總是戰鬥在抗疫第一線,令人敬佩。氣象部門跟丘總所在的部門有所不同,我們是純粹的業務部門,氣象部門是從一開始就具備了數字化企業的所有主要特徵的單位,從一開始就是採集資料、分析資料,最後拿資料對社會進行服務。
比較可喜的是進入21世紀之後,氣象部門在“十五”和“十一五”這兩個五年計劃當中實施了大氣觀測自動化系統建設,這是一個非常了不起的工作。為什麼這麼說呢?因為氣象部門工作資料的主要物件是氣象觀測資料,在以前基本上都是靠人工觀測,特別是地面觀測部分。那些不適於人類居住的地方如沙漠、高原、荒島等等,人工觀測是很成問題的。
大氣觀測自動化以後,不適於人類居住地方的觀測問題就基本解決了,比如剛才所說的高原、沙漠、海島等等,這些地方都可以進行相應的地面觀測了。觀測的方式大大改變,觀測的效率也大大提高。
從2010年起,氣象部門又啟動了資料質量控制和管理的工作,資料的質量正在逐步或者說很快就受到了從上到下所有人的關注。
至於疫情對於氣象部門的業務工作的影響,在我看來影響真的不是很大,因為很大一部分氣象觀測完全自動化了,資料質量的控制和管理基本上也成型了,而且都成了一個個業務系統,在自動的執行。就氣象部門整體而言,絕大部分業務都是以資訊業務系統的形式每天24小時自動地執行著。因此疫情對於氣象部門的核心業務而言,影響真的不是很大,這也是氣象部門有別於其它企業的一個特點之一吧。
陳立節-畢馬威資料治理主管合夥人:疫情對審計和諮詢公司影響主要在兩大方面。第一方面是在從客戶端對我們的業務產生影響。比如說我的客戶主要是銀行金融機構,在疫情這段期間,許多銀行都加快發展線上金融業務,提供非接觸式服務。在這個大背景下,很多銀行都借這個契機推進數字化轉型。我最近拜訪了很多家商業銀行的董事長、行長,他們都在提要做數字化轉型和創新,都在考慮數字化戰略。因為剛好趕上“十四五”規劃,要考慮未來銀行發展的五年戰略規劃,如何通過數字化來改變銀行整個的業務模式,為業務賦能。
這對諮詢公司是非常好的契機,我發現疫情來了之後,我們的機會反而變多了。數字化轉型、資料治理和應用等成為行業熱點,包括今天的會議主題也是資料治理,這帶來很多新的諮詢機會,我們甚至比原來疫情以前更忙了。
第二個是我們的服務提供形式。以往我們客戶基本上都會要求現場辦公,但是在疫情期間可能沒辦法駐場,尤其是金融機構對外部人員入場控制非常嚴格,現在有很多的工作都是非現場方式提供。比如,利用畢馬威自行開發的智慧審計系統,可以支援線上訪問客戶的資料庫並開展非現場審計,突破了傳統的審計模式,也提高了審計效率。
從這個角度來講,也要求審計和諮詢公司本身也要具備這樣的數字化能力,要用我們自己的數字化工具來應對疫情影響,對我們服務形式進行一些創新。
練海榮-龍石資料總經理:因為我們主要服務的是政府部門,其實疫情發生以後,對我們也是帶來了蠻多機會的,從疫情中我們觀察到,公安部門將過去20多年的資訊化過程重新演練了一遍,怎麼演練的呢?
疫情剛出現的時候,先拿個紙質表格來登記你是從哪裡來的,有沒有離開過蘇州。後來開發了一個APP,讓市民自己填報一下你的行程。再後來我們就連通了公安的人口庫資料進行人口實名的登記以及健康碼資訊的錄入和查詢。再後來我們就變成人工智慧了,通過人臉的識別來將你與資料庫裡的資訊進行比對。
在這個過程當中,我們會發現所有的事情能夠推行下去,依據的都是公安的人口庫,這裡面說明了兩點:
第一,如果沒有過去十年左右的人口庫的資料積累,我們是不可能在這麼短的時間裡面弄出健康碼這樣一個東西的。
第二,如果咱們人口庫的資料質量沒有那麼好的話,健康碼也是推行不下去的。當然,現在多多少少還是出現一些問題,偶爾還是有些人還是沒有辦法登入或者有些錯誤資料等。
所以,經過疫情以後,很多的政府部門都已經認識到了,我們不光要有資料,而且需要高質量的資料。我們過去在做政府專案的時候,政府彙報裡面主要的報告內容就是我匯聚了多少維度、多少資料量的資料,現在很明顯,我們的政府都開始提出這麼一個要求:我們不但要有資料,我們還要有高質量的資料。只有高質量的資料才能支撐數字化轉型,才能支撐我們實現數字政府,所以資料質量是迎來了很好的機會。
特邀嘉賓主持謝豔-《北大創新評論》執行主編:謝謝!我相信疫情只是我們現在生活在這個時代當中的很多問題的一個觸發點,無論是在資料資訊化具有天然優勢的金融行業、氣象行業,還是其他還未全面數字化轉型的行業,我們會發現資料治理對於整個數字中國的智慧化發展程序的影響是不可逆的。
今天中午我跟各位嘉賓交流時,我說在小系統當中,我們是不能違背當中的公理的,但是當我們遇到超越了小系統的問題的時候,我們就不能侷限於原有的條件,而是要從更大的一個戰略性的角度去看資料治理和資料質量的發展問題。
02
資料質量在企業加速數字化發展上的影響與應對措施
特邀嘉賓主持謝豔-《北大創新評論》執行主編:我相信在經過這一輪數字經濟的變革,會與以往不同,我們更多的是一盤棋,是一個整體從巨集觀到中觀到微觀的總體變化,所以我想請教一下楊老師,您怎麼看待目前數字經濟的國策:資料作為重要的生產要素的核心命題這個問題?
楊柳-國家工業資訊保安發展研究中心人工智慧所資料質量室主任:其實資料近兩年的發展在國家的戰略方面也能體現出來它的發展變化,早在2015年,國家首次提出實施國家大資料戰略,自此之後,我們國家大資料產業也是迎來了高速發展時期,無論是產品、技術,還是服務,以及整個產業的生態,其實都迎來了非常好的時期。
近兩年資料國家戰略方面也是開始逐步聚焦在資料本身,今年的4月份,在黨的十九屆四中全會上,也是首次把資料增列為生產要素,這其實相當於將資料的重要性提升到國家層面上了。資料與勞動、土地、資本、技術一起成為一種新的經濟正規化,所以資料的重要性從國家層面到各地方、各個企業都得到了巨大的重視和關注。在響應國家號召的情況下,不管是國家部委,還是各地方政府,在實施資料規劃或者是制定相關程式、流程等資料治理工作時,也越來越注重如何去推動資料要素資源的釋放,發揮資料的價值。
工信部今年在5月份釋出《關於工業大資料發展的指導意見》,其中就提到要推動工業資料的全面採集、高效互通、積極的治理和高質量的匯聚,在這個過程中推動工業資料的流通和利用。
另外工信部今年關於大資料方面另一個重點的工作,就是推動《資料管理能力成熟度評估模型》這個國家標準的慣標和評估工作,其實也就是希望通過國家標準的貫徹幫助企業建立完善資料管理的體系,提升資料管理的能力,更大程度的發揮這個資料的價值,也是幫助企業在數字化轉型升級的市場上更大的發揮自己的作用。關於這個話題,我主要說一下國家的戰略方面的情況,謝謝。
沈文海-中國氣象資訊中心副總工兼科技委主任:剛才我大致介紹了一下氣象業務和氣象資料的關係,氣象資料對於氣象部門而言,它作為生產要素是不可或缺的,可以說是唯一的生產要素,因為沒有氣象資料什麼都無從談起。大家也都知道,獲取氣象觀測資料有很多種途徑和型別,有地面觀測、探空、雷達、衛星遙感,這些觀測手段不管它的位置如何,基本上都是為了探測大氣的基本資料,以衛星遙感而言,衛星遙感最大的優勢就在於它的面非常廣,有很多人類無法涉足到的地方,像海洋、沙漠、極地等都可以時刻地來進行觀測。
但是大家都知道衛星遙感是通過電子器件進行遙感的,電子器件都有一定的衰變期,所以它所遙感出來的這些電子訊號或者資料,必須要和地面的觀測資料、海洋浮標觀測資料進行校對,之後才能成為真正的遙感資料。這樣一來,大家就看出來了:地面觀測資料和海洋的浮標觀測資料質量顯得非常重要,有可能因為一個地面或浮標資料出了問題,對於衛星資料而言,可能整個一片資料就都出問題了。
地面觀測資料的資料質量是非常重要的,舉一個簡單的例子,在90年代,中國氣象局為了更好的服務政府,有專線直通中南海,使實況和預報結果能第一時間報告給中央國務院有關部門。結果有一年汛期期間,某天傍晚中南海打來電話,說哪兒哪兒是不是發生了極大的暴雨,你們看一看。我們這邊一查,發覺是雲南的某個觀測站資料出了問題,周圍都是一片晴空,但是這個站點資料居然24小時降雨達1000多毫米,超過歷史極值多少倍。發現問題後,氣象有關部門感到非常慚愧,這麼明顯的錯誤資料居然從觀測到收集到入庫到傳送到中南海,各個環節都沒有把它發現並過濾掉,而是讓它直報給了中南海,據說還是國務院一位領導發現的這個問題,這反過來說明資料,特別是這種地面觀測資料的資料質量,對氣象部門的業務工作是十分重要的,甚至可以說是生命線。
特邀嘉賓主持謝豔-《北大創新評論》執行主編:我覺得沈老師舉的這個例子非常恰當,資料是一個大的命題,它既然作為生產要素,對於各行各業都是不可或缺的,我們今天的資料就是上達天文,下達自身。一個數據的質量是在我們任何一個系統單元當中都可能產生重要影響的,從我們自身,到安全、健康、發展,然後再到大一點的組織關係,到智慧組織和未來企業形態等等,都會產生影響。
我剛提到智慧組織,怎樣才能成為一個智慧組織呢?首先在一開始資料的質量和資料的管理上,就必須要解決某些源頭上的問題。今天有很多面臨資料治理和資料質量問題的從業者們,從各位專家的角度,從實戰的角度聊一下資料治理和資料質量的提升怎麼能夠幫助企業未來的成長呢?
練海榮-龍石資料總經理:我們做業務時有過總結。首先,政務大資料的發展已經進入了一個新的階段,就像GDP的增長一樣,原來咱們對經濟的追求一直都是追求產值的快速發展。現在國家要求實現經濟的高質量發展,我認為咱們政務大資料發展的形態也是一樣的,我們是進入了一個新階段,我們正逐步從對量的追求過渡到對質的追求的新階段,我們不再只是追求數量,也要追求質量。
其次,高質量資料是破解資料困境的必然要求,打破部門壁壘不是政務大資料的唯一目的,需要讓資料能夠為業務部門提供更好的服務和能力支撐,讓業務部門不僅在政務大資料建設過程中共享資料,同時也能夠擁有獲得感,對資料用得放心。之前新聞媒體有過報道,資料質量問題確實造成了一些笑話。比如說食品監管部門發放的食品經營許可證證號的重複,導致企業在美團網上沒法註冊,說這是個假證,這很影響政府的形象。
第三,高質量資料是實現數字政府的必由之路,政務大資料是實現數字政府、優化營商環境、推動“放管服”改革的重要支撐。實現這一目標,必須堅持質量第一、效果優先、強化責任,建立長效工作機制,不斷豐富資料內容和提高資料質量,切實為數字政府建設夯實資料基礎。
陳立節-畢馬威資料治理主管合夥人:我是從兩個層面來考慮資料質量和企業業務發展之間的關係。首先講巨集觀層面,然後再講微觀層面。從巨集觀層面來講,站在一個企業高管的角度來看,如董事長、總裁,他們如何看待這個問題。我最近也跟很多企業高管做過訪談,問“作為企業的一把手,您怎麼看資料質量?對它有什麼要求嗎?”我記得一家企業的總裁是這麼說的“我的要求很簡單,我想看到我們公司不同條線的產品,收入是多少,成本是多少,利潤是多少,我想看到的精細化的決策分析資料,但是目前的資料質量支援不了這個訴求。”就經營決策這麼一個簡單的訴求,這家企業現在是滿足不了的,為什麼呢?
有兩個主要的原因,一個是該企業缺乏統一的產品目錄和產品標準。不同的部門、不同的業務條線,對產品的劃分是不清晰的。比如一個具體的產品,可能同時掛在多個部門之下,導致產品交叉重複統計了。再就是很多明細交易資料的質量非常差,沒辦法在交易明細層面對應到最細顆粒度的產品品類,往往只能對應到一個產品大類,這是底層資料質量導致頂層難以分類彙總的問題。
正是因為很小的一個問題,導致了管理層掌握不了企業產品品類的成本收入情況。這讓管理層怎麼去做戰略決策?以後重點發展哪個業務條線、產品品類、具或體產品?這是在巨集觀層面。
微觀層面就是企業的日常工作和業務經營,比如說業務營銷、風險管控、監測預警等也面臨很大的資料質量問題。大家都知道網際網路企業會做精準的客戶畫像,千人千面,但是我們曾經看到一家企業的客戶交易資訊有重大的質量問題。這還是一家非常領先的網際網路公司,我們看到很多的線上交易明細裡,交易日期竟出現1900年的,網際網路到今年才有多少年,怎麼可能有一筆該日期的交易?這些基礎的資料質量問題對後續客戶營銷、風控預警等日常經營管理活動造成很大的影響。
所以,無論是巨集觀的管理層決策支援,還是微觀的日常業務經營管理層面,都是需要藉助於高質量的資料才能給企業的長遠發展提供保障和支撐的。
丘偉鬆-金域醫學資訊管理中心總經理:幾位老師講的比較高屋建瓴,我就從企業面臨的實際問題來談一談。
金域集團含有一塊體檢業務,我們內部員工都在自己的體檢中心做體檢。每年年底各條業務線都要做彙報,去年年底體檢中心的老總彙報前說“我先跟各位領導報告一個好訊息,我們所有的男領導都沒有宮頸問題,我們所有女領導都沒有前列腺問題,這是一個好兆頭”,當然他是開玩笑。
但開玩笑之外,其實在病理檢測時偶爾會出現這樣的情況,性別是男,但是發了子宮頸癌病變的報告。在醫學領域,資料質量出現問題說老實話是人命關天的,這是很荒謬的,但是這些荒謬問題是怎麼發生的,是從資料來源頭和資料不斷產生的過程中出現的。
為了減少這類問題,首先我們自己的內部流程要規範、要核對、要用很多系統來固化規則。金域的系統內部設定了很多自動化、智慧化的規則,並通過不同的規則互相校驗,通過資料之間的自動校對糾正,發現錯誤,預警錯誤。但我們還是要做到源頭資料更準確,有一定的標準,這是通過技術來控制我們的資料質量。
但如果我們的技術控制加的太多了,規則太多了,條件太多了,又出現另外一個問題。客戶要求的快捷、便利,體驗和精準之間如何做平衡的問題。我曾經請教一個頭部網際網路企業:客戶讓開發票,你們怎麼開?回覆是:客戶填了什麼就開什麼,他的單是多少就開多少。他說我能夠承受這個損失,要的就是快和客戶體驗好。但是2B的企業呢,可能非要跟他把這個賬對清楚了才會開發票,因為可能會發生稅務風險,這是2B企業一慣的做法,這兩個之間如何平衡呢?這是我們要考慮的一個問題,在風險管控和便利性方面的考慮。
我們金域實際上一直在走資訊化、數字化、智慧化的發展道路上。舉個例子,我們現在在研發AI宮頸輔助篩查,所有的宮頸片掃到電子裡去應該是32秒,比人工提高了接近5倍的時間,32秒就可以基本上給出一個初步輔助篩查結果。那麼不同儀器掃進去的片,不同染色工藝掃出來的片,不同的技術人員取材的製作的病理片,會是一樣的嗎?AI能識別嗎?所以資料的質量、資料的標準化一定是我們未來AI發展最基本的東西,如果沒有有質量的資料,我們的AI是發展不起來的,不管是非結構化資料還是結構化資料的質量。如果資料的質量不能很好的管理,我們的智慧化就是一句空談,這是我的一個體驗,謝謝!
特邀嘉賓主持謝豔-《北大創新評論》執行主編:感謝各位老師,其實我覺得有一個總體的觀點,“質量質量”,“質”是“量”的一個基本前提。
資料作為生產要素,它其實是有兩個需要強調的重點,其一就是資料在我們的生產生活當中產權的基本關係,其二就是資料在確立產權關係下的未來的交易化和市場化。如果是沒有市場的情況下,它又何談從產權到財權,這是一個基本的方向。
大家對今天的討論意猶未盡,但是時間有限,我相信各位已經感受到資料質量和資料治理對於我們自身的生存、生活、企業的發展都有非常重要的作用。
今後如果大家有這方面想討論的、想交流的,都可以請教我們幾位老師,譚總建立這麼好的一個峰會平臺,現在已經發展到第四屆了,我們可以在這樣一個好的平臺上繼續進一步去交流,把我們想學習瞭解的資料治理和資料質量的問題進一步深度探討,我相信今天只是一個開始,未來希望我們真正實現資料可量化、可確權、可交易,煥發出它的關鍵價值。
本次的圓桌討論就告一段落了,下午還有更多嘉賓的精彩分享,不容錯過,敬請期待。再次感謝各位老師,謝謝!