1. 程式人生 > >迴歸演算法應用場景例項二十則

迴歸演算法應用場景例項二十則

    本文整理了20個天池、DataCastle、DataFountain等中出現的,可使用迴歸演算法處理的問題場景例項。

1 機場客流量分佈預測

        為了有效利用機場資源,機場正利用大資料技術,提升生產運營的效率。機場內需要不斷提升執行效率的資源有航站樓內的各類燈光電梯設施裝置、值機櫃臺、商鋪、廣告位、安檢通道、登機口,航站樓外的停機位、廊橋、車輛(擺渡車、清潔車、物流車、能源車),要想提升這些資源的利用率首先需要知道未來一段時間將會有多少旅客或航班會使用這些資源,其次需要精準的排程系統來調配這些資源和安排服務人員,幫助機場提升資源利用效率,保障機場安全與服務提升。

以海量機場WiFi資料及安檢登機值機資料,希望通過資料演算法實現機場航站樓客流分析與預測。

2 音樂流行趨勢預測

        經過7年的發展與沉澱,目前某音樂平臺擁有數百萬的曲庫資源,每天千萬的使用者活躍在平臺上,擁有數億人次的使用者試聽、收藏等行為。在原創藝人和作品方面,更是擁有數萬的獨立音樂人,每月上傳上萬個原創作品,形成超過幾十萬首曲目的原創作品庫,如此龐大的資料資源庫對於音樂流行趨勢的把握有著極為重要的指引作用。

        以某音樂平臺使用者的歷史播放資料為基礎,期望通過對藝人的試聽量的預測,挖掘出即將成為潮流的藝人,從而實現對一個時間段內音樂流行趨勢的準確把控。

3 需求預測與倉儲規劃方案

        擁有海量的買家和賣家交易資料的情況下,利用資料探勘技術,我們能對未來的商品需求量進行準確地預測,從而幫助商家自動化很多供應鏈過程中的決策。這些以大資料驅動的供應鏈能夠幫助商家大幅降低運營成本,更精確的需求預測,能夠大大地優化運營成本,降低收貨時效,提升整個社會的供應鏈物流效率,朝智慧化的供應鏈平臺方向更加邁進一步。高質量的商品需求預測是供應鏈管理的基礎和核心功能。

        以歷史一年海量買家和賣家的資料為依據,希望預測某商品在未來二週全國和區域性需求量。用資料探勘技術和方法精準刻畫商品需求的變動規律,對未來的全國和區域性需求量進行預測,同時考慮到未來的不確定性對物流成本的影響,做到全域性的最優化。

4 新浪微博互動量預測

        新浪微博作為中國最大的社交媒體平臺,旨在幫助使用者釋出的公開內容提供快速傳播互動的通道,提升內容和使用者的影響力。希望能夠最快找到有價值微博的方法,然後應用於平臺的內容分發控制策略,對於有價值的內容可以增加曝光量,提高內容的傳播互動量。對於一條原創博文而言,轉發、評論、贊等互動行為能夠體現出使用者對於博文內容的興趣程度,也是對博文進行分發控制的重要參考指標。

        希望根據抽樣使用者的原創博文在發表一天後的轉發、評論、贊總數,建立博文的互動模型,並預測使用者後續博文在發表一天後的互動情況。

5 貨幣基金資金流入流出預測

某金融服務機構擁有大量會員並且業務場景中每天都涉及大量的資金流入和流出,面對如此龐大的使用者群,資金管理壓力會非常大。在既保證資金流動性風險最小,又滿足日常業務運轉的情況下,精準地預測資金的流入流出情況變得尤為重要。

期望能夠通過使用者基本資訊資料、使用者申購贖回資料、收益率表和銀行間拆借利率等資訊,對使用者的申購贖回資料的把握,精準預測未來每日的資金流入流出情況。

6 電影票房預測

        中國是全球第二大電影市場,同時也是增長最快的市場之一;隨著市場的成熟,影響電影票房的因素也越來越多,包括題材、內容、導演、演員、編輯、發行方等等。因此對電影製作公司而言,依靠主觀經驗製作一部高票房的電影也越來越困難,而隨著大資料技術的發展,藉助大資料分析對電影市場進行分析,指導電影製作成為可能。

        希望依據歷史票房資料、影評資料、輿情資料等網際網路公眾資料,對電影票房進行預測。

7 農產品價格預測分析

        農產品價格受市場影響的程度特別大,特別是受農產品的供求關係影響較大,同時價格本身又受自然條件、社會和經濟條件的影響,特別是國際市場的影響。從價格本身來看,受供求、季節等發生波動,受外界各種影響比較多,這就造成了價格預測的困難。但從長期看,農產品價格隨著時間的推移仍然呈現一定規律性。價格預測是大資料的精華所在,通過大量的歷史資料分析,預測未來的價格走勢,為決策者提供更有力的資料支援。

        希望通過分析價格歷史資料,對要求預測的農產品接下來固定時間的價格進行預測。並儘可能多的使用與價格有影響的其他資料以提高預測的準確率。

8 基於多源資料的青藏高原湖泊面積預測

        全球氣候變化對青藏高原的湖泊水儲量有很大影響,因此精確的估計青藏高原湖泊面積變化對於研究氣候變化變得很重要。海量多源異構資料和大資料處理與挖掘技術給湖泊面積變化研究帶來新的解決思路;如何通過多源資料對青藏高原的湖泊面積進行預測,將大資料技術應用到全球氣候變化研究中來成為一項新的挑戰。

        希望通過研究青藏高原湖泊面積變化的多種影響因素,構建青藏高原湖泊面積預測模型。

9 微博傳播規模和傳播深度預測

        近些年,一些研究表明,一條微博發出以後,只需要觀察其在之後一小段時間內的轉發情況,它的傳播規模便可以被預測。但是不同型別的微博會有不同的傳播方式,比如明星晒一張生活狀態就能得到眾多粉絲的熱捧,具有較大的傳播廣度,但是往往在傳播深度上稍顯不足;相比之下,一些被廣泛討論的新聞類微博往往具有較深的傳播深度。也有統計結果顯示,一些謠言往往會得到大規模的傳播,闢謠類的訊息反而得不到廣泛關注。不僅如此,我們在熱門微博中能看到不少正能量的資訊,同時也能看到一些話題被持正反兩種不同意見的人掀起討論熱潮。簡而言之,微博初期的傳播速度、使用者關係、資訊型別、內容情感等特徵都是影響微博傳播規模和深度的重要影響因素。

        希望基於大約1-3萬條微博及其它們的轉發微博,結合微博使用者的關注關係、微博的內容型別和情感分析以及初期的傳播模式,來預測微博的傳播規模和傳播深度。

10 鮑魚年齡預測

        鮑魚,在現代漢語中有多種含義。最常用的是指一種原始的海洋貝類,屬於單殼軟體動物,其只有半面外殼,殼堅厚、扁而寬,鮑魚是中國傳統的名貴食材,位居四大海味之首。直至現今,在人民大會堂舉行的多次國宴及大型宴會中,鮑魚經常榜上有名,成為中國經典國宴菜之一。被人們稱為“海洋的耳朵”。和古代“用鹽醃製的魚”是兩種東西。鮑魚的優劣與年齡相關。一般來說,我們可以數鮑魚的生長紋來確定鮑魚的年齡,但數生長紋也是一件挺麻煩的事情。

        希望利用與鮑魚年齡有關的因素來預測鮑魚的年齡。

11 學生成績排名預測

        學生的校園行為資料,可以挖掘使用者作息規律、興趣愛好等,精準地預測學生之間的相對排名。通過對這些日常行為的建模來預測學生的學業成績,可以實現提前預警學生的異常情況,並進行適當的干預,因而對學生的培養、管理工作將會起到極其重要的作用。從某高校的某個學院隨機抽取一定比例學生,提供這些學生在三個學期的圖書館進出記錄、一卡通消費記錄、圖書館借閱記錄、以及綜合成績的相對排名。這一部分資料將作為訓練資料。我們從另外的某學院隨機抽取一定比例的學生,然後提供他們在三個學期的圖書館進出記錄、一卡通消費記錄、圖書借閱記錄、以及前兩個學期的成績排名。

        希望通過藉助大資料相關的挖掘技術和基礎演算法,預測第三學期的成績排名。

12 網約車出行流量預測

        在出行問題上,中國市場人數多、人口密度大,總體的出行頻率遠高於其他國家,這種情況在大城市尤為明顯。然而,截止目前中國擁有汽車的人口只有不到10%,這也意味著在中國人們的出行更加依賴於計程車、公共交通等市場提供的服務。另一方面,滴滴出行佔領了國內絕大部分的網路呼叫出行市場,面對著巨大的資料量以及與日俱增的資料處理需求。截止目前,滴滴出行平臺每日需處理1100萬訂單,需要分析的資料量達到50TB,路徑規劃服務請求超過90億。面對如此龐雜的資料,我們需要通過不斷升級、完善與創新背後的雲端計算與大資料技術,從而保證資料分析及相關應用的穩定,實現高頻出行下的運力均衡。供需預測就是其中的一個關鍵問題。供需預測的目標是準確預測出給定地理區域在未來某個時間段的出行需求量及需求滿足量。調研發現,同一地區不同時間段的訂單密度是不一樣的,例如大型居住區在早高峰時段的出行需求比較旺盛,而商務區則在晚高峰時段的出行需求比較旺盛。

        希望能預測到在未來的一段時間內某些地區的出行需求量比較大,以提前對營運車輛提供一些引導,指向性地提高部分地區的運力,從而提升乘客的整體出行體驗。

13 紅酒品質評分

        紅酒口感的好壞,受很多因素的影響,例如年份、產地、氣候、釀造的工藝等等。通過一些化學屬性特徵就能夠很好地判斷紅酒的品質。通過監測紅酒中化學成分的含量,可以控制紅酒的品質和口感。

        希望基於紅酒的化學特性,例如酸性、含糖量、氯化物含量、硫含量、酒精度、PH值、密度等,構建機器學習模型,對紅酒品質進行評分。

14搜尋引擎的搜尋量和股價波動

        上市公司在網際網路中搜索量的變化,會顯著影響公司股價的波動和趨勢,即所謂的投資者注意力理論。該理論認為,公司在搜尋引擎中的搜尋量,代表了該股票被投資者關注的程度。因此,當一隻股票的搜尋頻數增加時,說明投資者對該股票的關注度提升,從而使得該股票更容易被個人投資者購買,進一步地導致股票價格上升,帶來正向的股票收益。

15 中國人口增長分析

        中國從1971年開始全面開展了計劃生育,使中國總和生育率很快從1970年的5.8降到1980年2.24,接近世代更替水平。此後,人口自然增長率很大程度上與經濟的發展等各方面的因素相聯絡,與經濟生活息息相關。影響中國人口自然增長率的因素有很多,如經濟整體增長、居民消費水平、文化程度、人口分佈,以及非農業與農業人口的比率等。

希望通過歷史資料分析,對未來人口增長率進行預測。

16 農村居民收入增長預測

        “三農”問題的核心是農村居民收入問題。改革開放以來,農村經濟蓬勃發展,農村居民收入有了較大幅度的增長,但與城鎮居民的收入相比,卻表現出增長緩慢、差距越來越大的趨勢。

        希望對影響我國農村居民收入的因素進行分析,再運用實證方法對農民的經濟統計資料進行分析,得到了影響農村居民純收入的模型。為預測農村居民的收入增長趨勢提供工具,為農村地區的政策措施提供參考建議。

17 房地產銷售影響因素分析

        改革開放以來,我國的經濟突飛猛進對城市商品房的價格產生了巨大影響,特別是進入21世紀後,伴隨著商品房價格日益增長,出現了房地產投資過熱。在這種房價居高不下的形勢下,國內外諸多專家學者認為我國的房地產市場已經出現價格泡沫,在房地產業對我國國民經濟發展起著積極作用的大環境下,這種價格泡沫勢必會對我國的經濟發展造成重大影響。

        年人均收入、新增住房面積及上一年商品房價格等因素對房地產銷售有影響,期望利用歷史資料分析測度其對商品房價格的影響,找出了引起房地產價格波動的主要因素當年年人均收入,根據實證結論提出了控制房價的建議。

18 股價走勢預測

        隨著經濟社會的發展,以及人們投資意識的增強,人們越來越多的參與到股票市場的經濟活動中,股票投資也已經成為人們生活的一個重要組成部分。然而在股票市場中,眾多的指標、眾多的資訊,很難找出對股價更為關鍵的因素;其次股市結構極為複雜,影響因素具有多樣性、相關性。這導致了很難找出股市內在的模式。

        希望在儘可能全面的收集股市資訊的基礎上,建立股價預測模。

19 全國綜合運輸總量預測

        以全國同期國民經濟主要產品產量,如原煤、原油、生鐵、鋼材、水泥、木材、糧食的歷史資料,建立資料探勘模型,對全國綜合運輸總運量進行預測。

20 地震預報

        根據歷史全球大地震的時空圖,找出與中國大陸大地震有關的14個相關區,對這些相關區逐一鑑別,選取較優的9個,再根據這9個相關區發生的大震來預測中國大陸在未來一年內會不會有大震發生。