CCF-企業非法集資風險預測比賽收穫——字串特徵處理

阿新 • • 發佈：2020-12-08

這篇題為收穫而不是總結，主要是自己棄賽了一大段時間，再回來已是水哥baseline的天下/(ㄒoㄒ)/~~。如今比賽告一段落，來分享一個自己構造出的效果顯著的特徵——主要是對字串opscope的處理。

處理前
處理中：對opscope特徵進行處理，將字串修正為列表

train_base_df['opscope'] = train_base_df['opscope'].apply(lambda x: x.replace("（", "("))
train_base_df['opscope'] = train_base_df[ 
'opscope'].apply(lambda x: x.replace("）", ")"))
train_base_df['opscope'] = train_base_df['opscope'].apply(lambda x: re.sub(u"\\(.*?\\)", "", x))
pattern = r',|\.|/|;|\'|`|\[|\]|<|>|\?|:|"|\{|\}|\~|!|@|#|\$|%|\^|&|\(|\)|-|=|\_|\+|，|。|、|；|‘|’|【|】|·|！| |…|（|）' 

train_base_df['opscope'] = train_base_df['opscope'].apply(lambda x: re.split(pattern, x))
train_base_df['opscope'] = train_base_df['opscope'].apply(lambda x: [i for i in x if (i != '')&(i != '***')])

處理後
後續構造特徵

# 計算label為1企業opscope頻率最高的業務：有風險的業務
label1_sample_opscope = train_base_df.loc[train_base_df[ 
'label'] == 1, ['opscope']]
opscope_risk_list = []
for _, i in label1_sample_opscope.iterrows():
    opscope_risk_list.extend(i['opscope'])

import collections
count = collections.Counter(opscope_risk_list)
risk_num = 8
opscope_mostrisk_list = []
for i in range(risk_num):
    opscope_mostrisk_list.append(count.most_common(risk_num)[i][0])
opscope_mostrisk_list

Result：[‘投資諮詢’, ‘投資管理’, ‘實業投資’, ‘股權投資’, ‘資產管理’, ‘創業投資’, ‘企業投資’, ‘企業管理諮詢’]

# 特徵：計算各企業包含風險業務的個數
def opscope_mostrisk_count(x, opscope_mostrisk_list):
    count = 0
    for i in x:
        if i in opscope_mostrisk_list:
            count += 1
    return count
train_base_df['base_opscope_mostrisk_num'] = train_base_df['opscope'].apply(lambda x: opscope_mostrisk_count(x, opscope_mostrisk_list))

# 特徵：企業是否包含某項風險業務
for f in opscope_mostrisk_list:
    train_base_df['base_opscope_'+f] = train_base_df['opscope'].apply(lambda x: f in x)

# 特徵：風險業務所佔比例(風險業務個數/企業經營業務總個數)
train_base_df['opscope_count'] = train_base_df['opscope'].apply(lambda x: len(x))
train_base_df['opscope_rate'] = train_base_df['base_opscope_mostrisk_num']/train_base_df['opscope_count']

這裡只是拋磚引玉，大家可以拓展思路哈！另外有沒有對資料比賽感興趣的小夥伴還缺少隊友的可以留言或者私信我哈 /(ㄒoㄒ)/~~

CCF-企業非法集資風險預測比賽收穫——字串特徵處理

技術標籤：比賽總結資料探勘機器學習資料分析字串列表這篇題為收穫而不是總結，主要是自己棄賽了一大段時間，再回來已是水哥baseline的天下/(ㄒoㄒ)/~~。如今比賽告一段落，來分享一個自己構造出的效果顯著的特

CCF CSP 202009-2風險人群篩查 100分

技術標籤：CSPccfcspc# 題目背景某地疫情爆發後，出於“應檢盡檢”的原則，我們想要通知所有近期經過該高危區域的居民參與核酸檢測。

CCF CSP 202009-2 風險人群篩查

202009-2 風險人群篩查題目背景某地疫情爆發後，出於“應檢盡檢”的原則，我們想要通知所有近期經過改高危區域的居民參與核酸檢測。

CCF CSP 202012-1 期末預測之安全指數

202012-1期末預測之安全指數題目背景期末要到了，小菜同學找到了自己的好朋友頓頓，希望可以預測一下自己這學期是否會掛科。

CCF CSP 202012-2 期末預測之最佳閾值

202012-2期末預測之最佳閾值題目背景考慮到安全指數是一個較大範圍內的整數、小菜很可能搞不清楚自己是否真的安全，頓頓決定設定一個閾值 θ，以便將安全指數 y 轉化為一個具體的預測結果——“會掛科”或“不會掛

廣東中山警方：小霸王文化發展有限公司涉非法集資，正開展偵查

2 月 27 日訊息“中山市公安局”微信公眾號今日釋出訊息稱，近期，中山市公安局陸續接群眾報案稱：小霸王文化發展有限公司涉嫌非法集資。

python利用sklearn對企業資料分析並預測

題目大概就是利用企業發票的資訊分析出企業是否為異常企業，其中企業一共有3萬多家，發票數大約有400多萬條資訊，發票明細資訊有1000多萬條資訊

華為公開睡眠風險預測專利，可實現睡眠呼吸暫停風險評估

10 月 23 日訊息，昨日，華為技術有限公司公開“睡眠風險預測方法、裝置和終端裝置”專利，公開號為 CN113520343A。企查查專利摘要顯示，該申請通過對待檢測使用者患有各種亞型的睡眠呼吸暫停綜合徵的風險進行預測，

海南：嚴打假借區塊鏈名義進行虛假宣傳炒作、非法集資詐騙、發行代幣等違法行為

12 月 28 日訊息，據海南釋出，海南省在 12 月 28 日舉行了《海南省建立國家區塊鏈試驗區實施方案》政策解讀新聞釋出會。海南省工業和資訊化廳黨組書記王靜表示，海南省區塊鏈發展面臨產業生態有待完善、人才儲備明

新華社：防範以“元宇宙”名義非法集資

2 月 18 日訊息，“新華視點”微信公眾號今日發文，防範以“元宇宙”名義非法集資。文章稱，近期一些不法分子以“元宇宙投資專案”“元宇宙鏈遊” 等名目吸收資金，涉嫌非法集資、詐騙等違法犯罪活動。對此，處置非

期末預測之安全指數——【CCF CSP 202012-1】

技術標籤：CCF CSP 題目背景期末要到了，小菜同學找到了自己的好朋友頓頓，希望可以預測一下自己這學期是否會掛科。

SA：企業更喜歡省錢且高效的機器人，預測服務機器人今年增銷 31%

Strategy Analytics 新興終端技術（EDT）團隊在最新發布的一系列研究報告中預測，繼 2020 年的年銷量增長 24%之後，服務機器人銷量將在 2021 年加速增長 31%。

魅族正式釋出手機隱私風險自測 App ：可檢測前置偷拍 / 非法讀取剪貼簿 / 遠端刪除檔案等

3 月 2 日訊息你是否擔心過這些手機隱私問題？前置攝像頭偷拍 / 非法讀取剪貼簿 / 照片隱私資訊暴露 / 非法獲取精確定位 / 遠端刪除手機檔案 / 擅自掃描本地網路 ......

工信部：強化大型網際網路企業責任擔當，加強重要資料安全風險評估和出境管理

7 月 30 日訊息日前，工信部網路安全管理局委託中國網際網路協會組織召開重點網際網路企業貫徹落實《資料安全法》座談會。中國網際網路協會、中國資訊通訊研究院及阿里、騰訊、美團、奇安信、小米、京東、微博、位元

日本企業利用超算“富嶽”與 AI 預測內陸海嘯

8 月 10 日訊息據共同社報道，日本的一家民營企業正在研究利用超級計算機“富嶽”和人工智慧（AI），來預測抵達內陸地區的海嘯。

騰訊即時通訊專利獲授權：可降低員工離職時，企業客戶流失的風險

8 月 31 日訊息今日，騰訊科技 (深圳) 有限公司“一種即時通訊控制方法、裝置及儲存介質”專利獲授權，公開號為 CN108965109B。

決策樹——非正常企業預測

核心步驟： ①將nsrxx.csv，zzsfp.csv和zzsfp_hwmx三個表進行了合併和縮減，最終保留下了6個欄位存入business.csv

《雀魂》今日舉行企業日本麻將比賽角川、SE等知名遊戲公司參加

二次元少女日本麻將遊戲《雀魂》於今日舉行四屆冬季娛樂企業對抗賽。比賽於今日（12月29日）下午北京時間13點開始，預計會在20點結束。比賽會在油管直播。來自日本16家公司的代表選手將通過《雀魂》四人半莊戰一決勝

一朝被 Log4j 坑，十年怕開源：蘋果等科技企業將舉行會談討論相關安全風險問題

1 月 13 日訊息，據路透社報道，在 2021 年美國遭受數次重大網路攻擊後，蘋果、谷歌、亞馬遜、Meta 和 IBM 將出席白宮會議，一同討論開源軟體的安全問題。除了大型科技公司外，包括美國國土安全部、國防部和商務部在

拓端tecdat|R語言群組變數選擇、組懲罰group lasso套索模型預測分析新生兒出生體重風險因素資料和交叉驗證、視覺化

原文連結：http://tecdat.cn/?p=25158 原文出處：拓端資料部落公眾號本文擬合具有分組懲罰的線性迴歸、GLM和Cox迴歸模型的正則化路徑。這包括組選擇方法，如組lasso套索、組MCP和組SCAD，以及雙級選擇方法，如組指

CCF-企業非法集資風險預測比賽收穫——字串特徵處理

相關推薦