1. 程式人生 > >分類演算法應用場景例項二十則

分類演算法應用場景例項二十則

    本文整理了20個天池、DataCastle、DataFountain等中出現的,可使用分類演算法處理的問題場景例項。

1 O2O優惠券使用預測

       以優惠券盤活老使用者或吸引新客戶進店消費是O2O的一種重要營銷方式。然而隨機投放的優惠券對多數使用者造成無意義的干擾。對商家而言,濫發的優惠券可能降低品牌聲譽,同時難以估算營銷成本。個性化投放是提高優惠券核銷率的重要技術,它可以讓具有一定偏好的消費者得到真正的實惠,同時賦予商家更強的營銷能力。

現有O2O場景相關的豐富資料,希望通過分析建模,精準預測使用者是否會在規定時間內使用相應優惠券。

2 市民出行選乘公交預測

       基於海量公交資料記錄,希望挖掘市民在公共交通中的行為模式。以市民出行公交線路選乘預測為方向,期望通過分析廣東省部分公交線路的歷史公交卡交易資料,挖掘固定人群在公共交通中的行為模式,分析推測乘客的出行習慣和偏好,從而建立模型預測人們在未來一週內將會搭乘哪些公交線路,為廣大乘客提供資訊對稱、安全舒適的出行環境,用資料引領未來城市智慧出行。

3待測微生物種類判別

       DNA是多數生物的遺傳物質,DNA上的鹼基(A,T,C和G)就儲藏了遺傳資訊,不同物種的DNA序列在序列長度和鹼基組成上差異顯著。所以我們能夠通過DNA序列的比較分析,來判斷DNA序列是來自哪些物種。由於測序技術限制,我們只能得到一定長度的DNA序列片段。通過DNA序列片段與已知的微生物DNA序列進行比較,可以確定DNA片段的來源微生物,進而確定待測微生物種類。

       期望在相關資料基礎上,建立分析方法,在計算資源消耗盡量小的情況下,儘可能快地給出準確的結果,以滿足臨床診斷需求。

4 基於運營商資料的個人徵信評估

       運營商作為網路服務供應商,積累了大量的使用者基本資訊及行為特徵資料,如終端資料、套餐消費資料、通訊資料等等。實名制政策保證了運營商使用者資料能與使用者真實身份匹配,並真實客觀的反映使用者行為。廣泛覆蓋的網路基礎設施提供了積累大量實時資料的條件,這些使用者資料實時反饋著使用者的各個維度的資訊及特徵。

       在我國,個人徵信評估主要通過引用央行個人徵信報告,但對於很多使用者沒有建立個人信用記錄的使用者,金融機構想要了解他們的信用記錄成本又較高,傳統徵信評估手段難以滿足目前多種多樣的新興需求。金融業務不同於其他大資料業務,對資料的真實性、可信度和時效性要求較高,而這正是運營商資料的價值所在。

       期望利用運營商使用者資料,提供完善的個人徵信評估。

5 商品圖片分類

       京東含有數以百萬計的商品圖片,“拍照購”“找同款”等應用必須對使用者提供的商品圖片進行分類。同時,提取商品影象特徵,可以提供給推薦、廣告等系統,提高推薦/廣告的效果。

       希望通過對影象資料進行學習,以達到對影象進行分類劃分的目的。

6 廣告點選行為預測

       使用者在上網瀏覽過程中,可能產生廣告曝光或點選行為。對廣告點選進行預測,可以指導廣告主進行定向廣告投放和優化,使廣告投入產生最大回報。

       希望基於100萬名隨機使用者在六個月的時間範圍內廣告曝光和點選日誌,包括廣告監測點資料,預測每個使用者在8天內是否會在各監測點上發生點選行為。

7 基於文字內容的垃圾簡訊識別

       垃圾簡訊已日益成為困擾運營商和手機使用者的難題,嚴重影響到人們正常生活、侵害到運營商的社會形象以及危害著社會穩定。而不法分子運用科技手段不斷更新垃圾簡訊形式且傳播途徑非常廣泛,傳統的基於策略、關鍵詞等過濾的效果有限,很多垃圾簡訊“逃脫”過濾,繼續到達手機終端。

       希望基於簡訊文字內容,結合機器學習演算法、大資料分析挖掘來智慧地識別垃圾簡訊及其變種。

8 中文句子類別精準分析

       精確的語義分析是大資料必備技術,在分析句子時,不同句子類別即使用類似的關鍵詞,表達的含義仍有很大差別,特別是在情感判斷中。

       希望通過新聞以及微博等文字資料,對其句子類別進行判斷。

9 P2P網路借貸平臺的經營風險量化分析

       P2P網路借貸即點對點信貸,其風險情況始終觸碰著投資人的神經。據網貸之家統計,截止今年9月份,出現問題的網貸平臺一共有1008家,而僅僅今年就有641家平臺出現問題,這說明了隨著我國p2p行業的迅猛發展,P2P平臺的風險預測已經成為一個至關重要的問題。P2P平臺的風險主要是在運營過程中產生的,與運營資料有著密不可分的關係。P2P平臺的風險預測並非無線索可尋,像借款期限和年化收益率等指標,就對P2P平臺的風險預測有很重要的參考意義。

       希望通過網際網路資料,構建出P2P網貸平臺的經營風險模型,從而能夠比較準確的預測P2P網貸平臺的經營風險,促進我國P2P行業向正規化方向發展。

10 國家電網客戶用電異常行為分析

       社會經濟的發展使得社會用電量逐年增加,受利益驅使,竊電現象也日益嚴重。竊電行為不僅給供電企業造成了重大經濟損失,也嚴重影響了正常的供用電秩序。根據國家電網公司統計,近年因竊電導致的損失達上千萬元。近年來,竊電方式也由野蠻竊電發展到裝置智慧化、手段專業化、行為隱蔽化、實施規模化的高科技竊電,給反竊電工作進一步增加了很大的難度。隨著電力系統升級,智慧電力裝置的普及,國家電網公司可以實時收集海量的使用者用電行為資料、電力裝置監測資料,因此,國家電網公司希望通過大資料分析技術,科學的開展防竊電監測分析,以提高反竊電工作效率,降低竊電行為分析的時間及成本。

       希望基於國家電網公司提供的關於使用者用電量、電能錶停走、電流失流、計量們開啟燈計量異常情況、竊電行為等相關資料,以及經過現場電工人員現場確認的竊電使用者清單,希望參賽者利用大資料分析演算法與技術,發現竊電使用者的行為特徵,形成竊電使用者行為畫像,準確識別竊電使用者,以幫助系統更快速、準確地識別竊電使用者,提高竊電監測效率,降低竊電損失。

11 自動駕駛場景中的交通標誌檢測

       在自動駕駛場景中,交通標誌的檢測和識別對行車周圍環境的理解起著至關重要的作用。例如通過檢測識別限速標誌來控制當前車輛的速度等;另一方面,將交通標誌嵌入到高精度地圖中,對定位導航也起到關鍵的輔助作用。交通標誌的檢測是一項非常有挑戰的任務,精確的檢測對後續識別,輔助定位導航起著決定性的作用。交通標誌的種類眾多,大小、角度不依,本身就很難做到精確檢測,並且在真實的行車環境中,受到天氣、光照等因素的影響,使得交通標誌的檢測更加困難。

       希望機遇完全真實場景下的圖片資料用於訓練和測試,訓練能夠實際應用在自動駕駛中的識別模型。

12 大資料精準營銷中搜狗使用者畫像挖掘

       “物以類聚,人以群分”這句古語不僅揭示了物與人的自組織趨向,更隱含了“聚類”和“人群”之間的內在聯絡。在現代數字廣告投放系統中,以物擬人,以物窺人,才是比任何大資料都要更大的前提。在現代廣告投放系統中,多層級成體系的使用者畫像構建演算法是實現精準廣告投放的基礎技術之一。其中,基於人口屬性的廣告定向技術是普遍適用於品牌展示廣告和精準競價廣告的關鍵性技術。在搜尋競價廣告系統中,使用者通過在搜尋引擎輸入具體的查詢詞來獲取相關資訊。因此,使用者的歷史查詢詞與使用者的基本屬性及潛在需求有密切的關係。

       希望基於使用者歷史一個月的查詢詞與使用者的人口屬性標籤(包括性別、年齡、學歷)做為訓練資料,通過機器學習、資料探勘技術構建分類演算法來對新增使用者的人口屬性進行判定。

13 基於視角的領域情感分析

       情感分析是網路輿情分析中必不可少的技術,基於視角的領域情感分析更是情感分析應用於特定領域的關鍵技術。在對句子進行情感分析時,站在不同的視角,同一個句子的情感傾向判斷結果將有所差別。

       給定一個句子,如果該句子中包含“視角”詞語,則應針對這一視角進行情感分析;如果句子中包含多個“視角”詞語,則應對不同的視角進行單獨的情感分析;如果句子中不包含視角,則不做情感判別處理。

14 監控場景下的行人精細化識別

       隨著平安中國、平安城市的提出,視訊監控被廣泛應用於各種領域,這給維護社會治安帶來了便捷;但同時也帶來了一個問題,即海量的視訊監控流使得發生突發事故後,需要耗費大量的人力物力去搜索有效資訊。行人作為視訊監控中的重要目標之一,若能對其進行有效的外觀識別,不僅能提高視訊監控工作人員的工作效率,對視訊的檢索、行人行為解析也具有重要意義。

       希望基於監控場景下多張帶有標註資訊的行人影象,在定位(頭部、上身、下身、腳、帽子、包)的基礎上研究行人精細化識別演算法,自動識別出行人影象中行人的屬性特徵。標註的行人屬性包括性別、頭髮長度和上下身衣著、鞋子及包的種類和顏色,並提供影象中行人頭部、上身、下身、腳、帽子、包位置的標註。

15 使用者評分預測

       個性化推薦已經成為各大電子商務網站的必備服務。準確的推薦不僅可以提高商家的產品銷量,更能為顧客提供優質快速的購物體驗。推薦系統發展至今,已經有許多非常優秀的推薦演算法,從各種不同的角度來為電子商務大廈添磚加瓦。迄今為止,已經有不少研究表明,使用者在短期時間內會瀏覽相似的商品,但其興趣可能會隨時間發生些許變化。

       希望通過訓練帶有時間標記的使用者打分行為,準確地預測這些使用者對其他商品的打分。

16 貓狗識別大戰

       有人說,貓與狗上千年曆史的敵對狀態,主要是由於在長期進化過程中迫於對生存資源進行爭奪而造成的殘酷競爭導致的;也有人說,是他們天生的交流方式不同導致的;今天貓狗大戰開始了,為了避免被這些傢伙拆房的危險,各位智慧的人類,請速來隔離高冷貓和憨厚狗。

       希望從訓練集裡建立一個模型去識別測試集裡的小狗來。

17 微額借款使用者人品預測

       網際網路金融近年來異常火熱,大量的資本和人才湧入這個領域發掘富藏價值。金融領域無論是投資理財還是借貸放款,風險控制永遠是業務的核心基礎。而在所有的網際網路金融產品中,微額借款(借款金額500元~1000元)因其主要服務物件的特殊性,被公認為是風險最高的細分領域。

       希望通過資料探勘來分析”小額微貸“申請借款使用者的信用狀況,以分析其是否逾期。

18 驗證碼識別

       使用各類驗證碼的訓練集進行學習、編碼與測試,形成驗證碼演算法模型。

19 客戶流失率預測

       我國的行動通訊行業經過了前幾年的高速發展,近一段時間的發展速度逐漸緩慢下來。註冊使用者常常處於一種動態變化的狀態,即不斷有老客戶離網,又不斷有新客戶入網。大量的低消費客戶和大量老客戶的離網使得行動通訊公司無法快速向前發展。

       希望建立客戶流失模型,對新老客戶進行分類。

20 汽車4S店郵件營銷方案

       直郵營銷是直效行銷的一種,是把傳統郵件直接傳送給消費者的營銷方式涉及的行業主要是大型商場、大賣場、商業連鎖店鋪、專賣店等。一家汽車4S店,公司擁有完備的客戶歷史消費資料庫,現公司準備舉辦一次高階品牌汽車的促銷活動,為配合這次促銷活動,公司計劃為潛在客戶寄去一份精美的汽車銷售材料並附帶一份小禮品。由於資源有限,公司僅有1000份材料和禮品的預算額度。

       希望根據與這次促銷活動類似的已經舉辦過的促銷活動的歷史消費資料,用過機器學習演算法得到一個分類器,對新客戶進行分類,生成正類客戶的客戶列表,向他們寄出材料和禮品。