1. 程式人生 > 實用技巧 >命名實體識別資料預處理

命名實體識別資料預處理

背景:從提供的金融文字中識別出未出現的未知金融實體

一、簡單的熟悉資料

使用資料:

import pandas as pd
# 原始資料集
train_df = pd.read_csv('./train.csv', encoding='utf-8')
test_df = pd.read_csv('./test.csv', encoding='utf-8')

部分資料如下:

二、清理資料

(1)找出所有的非中文、非英文、非數字符號

import re
# 找出所有的非中文、非英文和非數字符號
additional_chars = set()
for t in list(test_df.text) + list(train_df.text):
    additional_chars.update(re.findall(u
'[^\u4e00-\u9fa5a-zA-Z0-9\*]', str(t))) print(additional_chars)
{'\\', '\ue611', '=', '\ue13d', '', '', '', '', '', '', '', '\ue312', '\ue022', '', ']', 'с', '', '~', '\ue333', 'Ω', '', '', '', '\ue22e', '', '', '', '\ue12f', '', '', '', '', 'Т', '.', '\ue412', '', '', '', '\ue222
', '', '\ue131', '', '', '#', '', '', '', '\ue335', '', '', 'μ', '', '', '', '', '', '\ue14c', '', 'π', '', '', '', '\ue114', '', '<', '', '', '', '\ue63c', '', '', '\ue612', '\ue110', '&', '', '\ue317', '[', '\ue220', '', 'α', '\ue345', 'ê', '', '', '(', '', '\ue325
', '', '', '', '', '', '', '', 'ū', 'и', 'ú', '÷', '', '', '', '', '', '', '', 'й', '', '\ue219', '', '\ue315', '', '', '', '', '{', '@', '\ue00e', '\ue32f', '', 'ē', '', '\x05', '', 'à', '', '', '', '\ue415', '', '\ue60b', '', '\n', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', ')', 'è', '', '', '\x06', '', '', 'θ', '', '', '', '', '', '\ue00d', '', '\ue202', '', '', '\ue60c', '', '', '%', '\ue332', '\ue60e', '\ue66d', '', '\ue404', '', ',', '\ue04a', '', '\ue217', '', '\ue627', '\ue035', 'ω', 'ü', 'ˇ', '', '', 'у', '˙', '\ue607', '', 'ò', '\ue230', "'", '', '', 'к', '', '', '', '\ue030', '\ue253', '', '', '\ue32e', '', '', '\ue622', '', '', '', 'á', '', '\ue60a', '\ue215', '', '', '\ue01c', '\ue10e', '', '', '', '\ue10d', 'В', '', '', '\ue21c', '\ue63d', 'ó', '', '>', '\ue60f', '\ue310', '', '"', '\ue231', '\ue11d', '', '', '', '', '?', '', '', '', 'é', '\ue234', '', '', '\x07', '\ue107', '', '\ue221', '', '', '}', '\ue21e', '', '\x08', '!', '±', '', '', '', '\ue608', '', 'ā', '', '', '×', 'С', '`', '', '', '\ue21d', '\ue609', '^', '', '\ue796', '/', '\ue513', '\ue112', '', '', ':', 'ǎ', '', '', '\ue11b', '', '', '', '\ue21f', '', '', '', '', '', '', '', '', '', '', '', '', '', ' ', '', '_', '', '', '', '', '', '', '\ue41d', '', '', '\ue00a', '', '', '', '', '', '', '', '\u3000', '+', '', '', '', '\ue04e', '', '', 'τ', '', '-', '', '', '', '', '', '', '', '$', '', '', '', '|', '\ue115', '', '', '', '', '°', '', '_', '', ';', '', '', '', '', '·', '', '', '\ue021', ''}

(2)一些要保留的符號

# 一些需要保留的符號
extra_chars = set("!#$%&\()*+,-./:;<=>?@[\\]^_`{|}~!#¥%&?《》{}“”,:‘’。()·、;【】")
print(extra_chars)
{')', '\\', '+', '>', '', '', '=', '', '#', '', '^', '|', '{', '@', '}', '-', '/', '', '%', '', '', '!', '?', ']', '_', '', '&', '~', '', '', '*', '', '', '[', ':', ';', ',', '', '', '.', '<', '', '`', '(', '', '·', '', '', '$'}

(3)找出他們之間的差異

additional_chars = additional_chars.difference(extra_chars)
print(additional_chars)
{'у', '\ue611', '˙', '\ue607', '\ue13d', '', '', 'ò', '\ue230', "'", '', '', '', '', '', '', '', '', '\ue312', '\ue022', '', 'с', 'к', '', '', '\ue333', 'Ω', '', '', '\ue22e', '', '', '', '', '\ue12f', '', '', '', '', 'Т', '', '\ue412', '\ue030', '', '', '\ue253', '', '', '', '\ue222', '\ue32e', '', '', '\ue131', '\ue622', '', '', '', '', '', '', '', 'á', '', '\ue335', '', '', 'μ', '', '', '', '\ue60a', '\ue215', '', '', '', '', '\ue01c', '\ue14c', 'π', '', '', '\ue10e', '', '', '\ue114', '', '', '', '\ue10d', '', 'В', '', '', '\ue21c', '\ue63d', '', 'ó', '', '\ue60f', '\ue310', '', '"', '', '\ue63c', '', '', '\ue231', '\ue11d', '', '', '\ue612', '\ue110', '', '', '\ue317', '', '\ue220', '', '', 'α', '\ue345', 'ê', '', 'é', '', '', '\ue234', '', '', '\x07', '\ue325', '', '\ue107', '', '\ue221', '', '', '', '', '', '', 'ū', '\ue21e', '', '\x08', 'и', 'ú', '±', '÷', '', '', '', '', '', '', '\ue608', '', 'ā', '', '', '', '', '', '×', 'й', '', 'С', '', '', '\ue219', '\ue21d', '', '\ue315', '', '\ue609', '', '', '', '\ue796', '\ue00e', '\ue32f', '', '\ue513', 'ē', '\ue112', '', '\x05', '', '', '', 'à', '', '', '', '\ue415', 'ǎ', '', '', '\ue11b', '', '\ue60b', '', '', '\n', '', '', '\ue21f', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', ' ', '', '', '', '', '', '', '', '', '', '\ue41d', '', '', '', '\ue00a', '', '', '', '', '', '', '', '', '', '', '', '', '\u3000', 'è', '', '', '', '\ue04e', '', '', 'τ', '', '', '', '', '', '\x06', '', '', 'θ', '', '', '', '', '\ue021', '', '', '', '\ue00d', '', '\ue202', '', '', '', '', '', '', '\ue60c', '', '\ue115', '', '', '', '', '\ue332', '', '°', '\ue60e', '', '\ue66d', '_', '', '', '\ue404', '', '', '', '\ue04a', '', '', '\ue217', '', '\ue627', '\ue035', '', 'ω', 'ü', 'ˇ', '', '', '', ''}

(4)過濾掉一些停止詞其噪聲

def stop_words(x):
    try:
        x = x.strip()
    except:
        return ''
    x = re.sub('{IMG:.?.?.?}', '', x)
    x = re.sub('<!--IMG_\d+-->', '', x)
    x = re.sub('(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]', '', x)  # 過濾網址
    x = re.sub('<a[^>]*>', '', x).replace("</a>", "")  # 過濾a標籤
    x = re.sub('<P[^>]*>', '', x).replace("</P>", "")  # 過濾P標籤
    x = re.sub('<strong[^>]*>', ',', x).replace("</strong>", "")  # 過濾strong標籤
    x = re.sub('<br>', ',', x)  # 過濾br標籤
    x = re.sub('www.[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]', '', x).replace("()", "")  # 過濾www開頭的網址
    x = re.sub('\s', '', x)   # 過濾不可見字元,比如換行符、製表符等
    x = re.sub('', 'V', x)

    for wbad in additional_chars:
        x = x.replace(wbad, '')
    return x

(5)對資料進行處理:我們將title和text的資料一起考慮

train_df['text'] =  train_df['title'].fillna('') + train_df['text'].fillna('')
test_df['text'] =  test_df['title'].fillna('') + test_df['text'].fillna('')

# 清除噪聲
train_df['text'] = train_df['text'].apply(stop_words)
test_df['text'] = test_df['text'].apply(stop_words)
train_df = train_df.fillna('')

視覺化train_df:

三、探索資料

(1) 原始資料中可能存在一些錯誤的標籤我們需要將其找出來

label_list = train_df['unknownEntities'].tolist() # 將列資料轉為列表
text_list =  train_df['text'].tolist() # 獲得文字列表
id_list =  train_df['id'].tolist() # 獲得id列表
false_get_id = [] # 錯誤的標籤對應的id
false_get_label = [] # 錯誤的標籤
for i, label in enumerate(label_list): # 遍歷每一條資料的標籤
    text = text_list[i]
    idx = id_list[i]
    l_l = label.split(';') # 一條資料的多個標籤之間是用;隔開的
    not_in = []
    for li in l_l:
        if li not in text: # 如果該標籤沒有在文字中,說明標籤錯誤
            not_in.append(li)
    if len(not_in) > 0: 
        false_get_id.append(idx)
        false_get_label.append(label)
print(false_get_id)
print(false_get_label)
[2641, 4254, 92, 2528, 1634, 2895, 4040, 4744, 1550, 658, 3771, 3502, 1642, 95, 1461, 4468, 1273, 2974, 2866, 3998, 337, 2705, 4044, 2843, 2093, 2808, 3879, 3428, 1612, 2623, 2890, 330, 281, 3337, 3300, 2350, 226, 671, 65, 3877, 4058, 2651, 3332, 3385, 2821, 2633, 655, 2004, 1539, 117, 2372, 4463, 5007, 4033, 2627, 246, 4782, 3596, 1969, 46, 3238, 3977, 4769, 3075, 1585, 3013, 1384, 1883, 2481, 2747, 3157, 2017, 4488, 4633, 1335, 4444, 1994, 1600, 4080, 2058, 3544, 3847, 570, 3149, 3786, 2984, 2580, 2802, 1080, 1206, 2948, 1357, 1138, 8, 991, 5006, 864, 4448, 623, 2930, 1784, 4321, 884, 4177, 3334, 243, 2123, 4823, 1073, 2478, 1556, 4682, 1190, 1331, 1134, 1354, 114, 45, 3338, 1518, 928, 2736, 4353, 3880, 2491, 261, 1619, 1114, 2296, 1937, 2118, 663, 4686, 336, 4052, 3058, 3381, 2793, 4012, 3623, 4926, 319, 3242, 1350, 4004, 6, 4918, 4482, 3574, 4575, 2220, 4008, 4081, 2841, 1051, 701, 2551, 1446, 1235, 3719, 530, 4415, 3145, 4233, 4791, 4275, 4850, 3856, 4046, 1560, 59, 2577, 3812, 1597, 1458, 350, 631, 4319, 3683, 4629, 1876, 1866, 1139, 4564, 279, 314, 25, 1438, 2884, 3882, 4768, 1391, 3453, 3199, 4043, 1771, 151, 1407, 2885, 1616, 2476, 1386, 2155, 3032, 3775, 3896, 2724, 2744, 3839, 3129, 4023, 4414, 3554, 2304, 4685, 47, 3991, 1918, 2579, 2831, 2733, 2570, 4842, 1343, 1530, 1907, 2340, 3039, 3114, 450, 1815, 462, 3507, 606, 3650, 2660, 931, 2218, 547, 228, 434, 2427, 2227, 2074, 1754, 2153, 3326, 3034, 4143, 1704, 794, 4572, 648, 130, 3258, 2170, 674, 583, 4333, 4577, 3754, 3541, 3051, 3937, 3345, 291, 2160, 4192, 3154, 315, 1614, 3328, 1536, 707, 2287, 3416, 773, 594, 3516, 2102, 2964, 3224, 938, 2290, 1143, 1316, 1147, 2000, 93, 2366, 1998, 875, 1007, 3435, 2613, 2048, 4733, 1605, 116, 4069, 4961, 3913, 3873, 308, 532, 3907, 4460, 2413, 599, 1757, 2245, 3065, 3155, 3982]
['大象健康科技有限公司;健康貓;廣州大象健康科技有限公司', '人和幣;人人愛家金融', '速借貸;金融管家有信錢包', '速借貸;網路貸;金融管家有信錢包', '速借貸;金融管家有信錢包', '速借貸;金融管家有信錢包', '軟銀;Betfair必發;火幣', 'ATC國際期貨香港恆利金業嘉信金服', 'finci芬吉', '閃電借款;掌buy商城', '陀螺世界', '斑馬會員', '華林', '大象健康科技有限公司;健康貓;廣州大象健康科技有限公司', 'E租寶;寶點網;e租寶', '大象健康科技有限公司;健康貓;廣州大象健康科技有限公司', '大象健康科技有限公司;健康貓;廣州大象健康科技有限公司', '大和中盛', 'exp金融資產', '錢寶網', 'Vpay錢包', '應用試客', '白雲山盈康藥業', 'bitfund', 'GEC環保幣;GEC幣', '時代證券', '火星錢包;火星數字資產銀行區塊鏈世界;鏈世界', '國際期貨;先匯國際;中匯國際;中匯國際期貨中巨集資管先匯國際', 'ST拆分搜寶國際', '廣州和信共享科技', '洛安期貨昶勝國際BKB數字貨幣中恆策略MBGMarkets', '金康安泰', '神州長城', '上海憶藏藝術品拍賣公司', '滬深理財;首投理財;多融財富', 'GEC環保幣;GEC幣', '南通海安新藍圖建材科技有限公司', '香港安盛保險', '陝西裕泓鑫泰商貿公司', '智慧商城', '正宇控股;正宇控股集團', '盛投資;期權;貝寶加密貨幣;BTC.com;高盛投資;Matrixport;合創;區塊鏈世界;鏈世界;貨幣交易', '支付通;全球數字資產交易所;Fcoin;WoToken', '支付通;全球數字資產交易所;Fcoin;WoToken', '支付通;全球數字資產交易所;Fcoin;WoToken', '支付通;全球數字資產交易所;Fcoin;WoToken', '支付通;全球數字資產交易所;Fcoin;WoToken', 'e貸通', 'Ecoin', 'gec;GEC環保幣', '萬全;GLO;聚寶金融;匯理財;OCTO;4M;沃爾克;IGOFX;澳沃國際;金殿環球;普頓;馬勝金融;炒期貨;聚金;匯投資;福袋匯業;期貨投資;PTFX普頓外匯;聚寶', '拍拍貸;星星貸;小牛線上;一加二金融富車線上萬貝貸牛娃網際網路金融古德金融超市', 'jojomarkets久久', '易貸;聯合融資擔保;團貸網;車易貸錢進;錢香;熊貓金庫;麻袋財富;惠人貸;速貸;貸網;飯飯金服;房速貸;互金跟投', 'e代理星球日報;期權;E網;P2P借貸;block;匯聚', 'ATC艾特幣;趣步;巴特幣;證通;bgt;CBT;TBC天寶幣;zfb;艾特幣;流幣;智慧晶', '有融網;銀谷財富;愛福家;湖南伊思多爾電子商務有限公司;銀豆網;長沙賽鼎生物科技有限公司;於金瑞龍理財;湖南振湘網路科技有限公司;伊思多爾', '樂易bank', '付臨門;支付通Qpos;樂刷;瑞和寶;立刷;隨行付Plus;快刷;通刷MPOS;新中付;支付通;銀盛通;金中寶;拉卡拉收款寶', '金網安泰信雅達', '普信金服app;巨集利保險;北京徵和惠通基金管理有限公司;徵和惠通;信中利', '普信金服app', '普信金服app', '普信金服app', '幣圈東霖國際;波場超級社群;火幣;超級社群;GCG鉅富;普頓', '北斗易購', 'MGCToken', '幣圈;安徽天策有額度;天策;波場超級社群;雲算力;超級社群;幣雲', '優品;優樂商城區塊鏈系統;淘優樂;新零售;升值空間;支付系統;超級省;數字錢包;探路者', '抖音快手', '雅布力母嬰', '智投;全球投資;友信;能投資金融科技', '亞泰坊;錢多多;瑞波;東望集團;量子金融;智慧地球;鏈世界;中雲;夸克聯盟;小櫻桃商城;理財幫;億脈生活;沃爾克;貝爾鏈;愛我中華互助聯盟;CMG;都優樂;瑞景;亞泰;中位元;東霖國際;GEC環保幣;愛潤妍;蒂克幣小櫻桃;酒鏈世界;金匯泰;君澤影業;瑞景之家;GS;乾股幫;聚才道;影視投資;霍特幣;博旅理財;華克金;呂家傳;霸屏天下;鏈購;米安影視投資;空中比特幣;瑞波幣', '華盈城市集團廈門中海航集團恆優國際集團', '圖靈資本(領投)道生資本小智投資', '7GH;幣虎全球交易所;薅羊毛;萬幣', '投哪網;華僑寶;盤龍財富;銀谷線上;團貸網;悟空理財;大麥理財;海鷺金服;盈盈理財;金正寶;麥麥理財;順風車;合眾e貸;錢寶;金蛋理財;信用卡辦理;龍貸;短標;易享貸;米族金融;網信;京貸金服;51人品;微貸;樂閃唄;網利寶;翼龍貸;乾包微貸網;向上金服;廣信貸;融信網;乾包網;花生米;玩轉信用卡;點牛金融;伽滿優;e家人;享貸;積木盒子;金百萬;花生米富;指旺財富;智新寶;貸網;星星;樂刷;還唄;上新;通付;玖富;用錢寶', 'Ubank錢包', '阿里巴巴瑞士銀行;永利金控控股有限公司;UBS', '放款快;隨借;金機寶小錢包;小錢;隨借隨還;能貸;貸款機;搖錢樹;米多多;借的到;快來借;來借;下款;款到', 'MMM3.0', '紅馬優購;智匯;裂變客;瑞波;osp;鏈世界;創客系統;330遊戲;車智匯;區塊狗;狗狗幣;愛潤妍;plustoken酒鏈世界;創客;霍特幣;趣步;dogx錢包;以太坊;閃電雞;新零售;享鏈;霸屏天下;隨時約', 'ALicoin;幣圈;幣價格;幣成;證通;幣通;e交易;合作首家;易信;以太坊;算利;gle;數字貨幣交易平臺;開原始碼加密貨幣;用到;火幣;貨幣交易;安心;我的錢包;消費挖礦', 'Cmsl(四川創夢森林軟體科技有限公司)', 'FCoin;Fcoin;火幣', 'DETOKEN', 'dogx錢包', 'Dragonex', '比特幣;EXPASSET;幣安;火幣網;未來網FNEOS;巴菲特', '期權加密貨幣;金錢包;二元期權;EXPASSET;IX;FT;如何付;現金錢包;EXPASSET亞斯特;貨幣交易', 'Fcoin;GTC', '嘉實資本;TF環球金融;眾元國際;捷盛國際;金源財富;GMO奧諾;鼎盈信投;中恆策略;億運富國際;速匯國際;輝立國際;世紀金業;艾斯國際;金山金融;MALAFY;巨集源國際;鴻安資本;DGINT;問鼎財富;finci芬吉;鴻昇國際;鴻翔國際;寧波大宗商品;圓匯金融;唐印國際;恆牛策略;東財國際;創昇國際;錦豐國際', '歐萊雅;PWC;gec;GEC環保幣;CVTE;寶潔;大疆創新;MARS;位元組跳動', '比特幣;gec;Paypal;BTC錢包', 'GEC環保幣;gec', '比特幣;瑞波XRP', 'HES和氏幣(H幣)', 'ibank數字錢包', 'iotoken', 'JMC生態鏈', 'jojomarkets久久', '易信;KB數字資產兌換平臺;以太坊;共享單車;全球金融;易和投資;眼界集金;環球;gle', 'longbit', '眾昇策略;立盟策略;富鑫策略;奔富資管;易配配資捷盈資本;恆燁國際;豐盈服務;boss金服投資', 'DLC(DolahCoin)多拉幣', '以太坊;Mchain;財富之門;EXX交易所;道軒資本;蜂鳥財經;炒幣', '以太坊;Ripple;Mchain', 'OKEx;Plustoken', 'Prospertoken;LTC萊特幣;EOS柚子;狗狗幣;BCH位元現金;XRP瑞波幣;osp;USDT量化收益;達世幣;DOGE狗狗幣;火幣;plustoken;ETC以太經典;DASH達世幣', '天弘基金;sky雲世紀;環金融;SKY雲世紀', '華潤商業平安不動產平安磐海匯富中海海運資產中華企業中星集團金豐投資上海古北集團', '速通寶VPAY;瑞波幣;瑞波', 'wad拆分盤', 'wad拆分盤;WAD拆分理財平臺', 'wbex', '比特幣;以太坊;瑞波幣;wpay', 'youbank', 'jojomarkets久久', '因為有你;東霖國際高得;流幣;互助盤;實幹興邦;TOKEN', '信邦;IG;中贏國際;白象國際;花旗;牛策略;快聯;環球;期權;恆利金業;海利國際;嘉晟財富;百信通國際;匯豐;新源財經優信外匯;環球金融;匯融國際;聚富策略;想過;富通國際;速匯國際', '合作鳳凰;證券網;中金;中國證券網;金鳳凰;中國證券金融股份有限公司;', 'Drivechain側鏈', '58COIN', 'ok鏈', '幣漲;幣虎全球交易所;bgt;布穀;range;6GH;薅羊毛', 'vpay商城;Vpay;ICO', '還信;信用卡辦理投融資', '小灰熊金服;巨人理財;象象財富小灰熊金服雲端金融;上海犇序實業有限公司;掌悅理財;央金所;一點金庫;巨潮金融;雲端金融;利利金服;菠菜理財;象象財富', 'guardian', '合作資管產品;中國金融;風險管理;理財人;鉅派投資集團;投資集團', '華寶基金;陸家嘴;MT;金融服務;新世界;轉型路;新紀元;全球投資;投資界;金融業;華平投資集團;華平投資;海通證券理財客;資管產品;中為投資;投資集團;投資策略;Smart;和中;基金行;首家;華寶基金管理有限公司;科創板;中國金融;牛基金;上海證券;美國華平投資集團;金牛基金;上交所;海外投;環球;量化投資;環球金融;亞太', '成都奇米達科技有限公司', '錢夾;顛峰金融;車豐匯;海納百川;彤楓金融首鴻財富;海星;舒心貸理財;珂萬投資;聯連理財;德晟金服;君融貸;昂道錢夾;潛隆貸;豐付;麻袋理財;金銀貓恆信;曜鬥金融;恆信易貸;網貸界;金龜網;中建投資;仟人金服;洪豐金融;銘萬線上;易貸;還到;廣發證券;亞秀投資;昭豐財富;農信國投;人人貸;首鴻財富', '資金鍊;匯通;海納百川;淘金社;彤楓金融首鴻財富;舒心貸理財;珂萬投資;寶通網;東起投資;昊祥投資;元貸通;暢貸網;潛隆貸;豐付;豐鼎金融;線上貸;漢金所;金龜網;中建投資;仟人金服;洪豐金融;銘萬線上;還到;展恆理財;國有投資;有錢;貸網;匯通金融;亞秀投資;中旭鴻基投資;聯鼎投資;農信國投;潤達貸;首鴻財富', '捷信金融;消費貸;現金貸;現金貸款;捷信公司;分期付多投;信金融;捷信消費金融;捷信(中國)金融公司;麥點商城', '俠侶聯盟廈門俠網旅遊服務有限公司廈門俠網旅遊服務有限公司旅划算廣州市旅划算國際旅行社有限公司', '承返網(承返(廣州)網路科技有限公司)', '盈泰聯合關聯平臺;浙江頤榮資產管理有限公司;小寶金服;盈泰聯合;印子坊;深圳智鼎投資管理有限公司;深圳市中雲金融服務有限公司;穩銀;春天金融;穩銀線上;可易金融;起點貸;深圳盈泰聯合投資管理有限公司', '維卡幣;維卡幣(OneCoin)', '螞蟻金服奇虎360;優客工場;人人車;唱吧;考拉先生;蔚來汽車;雷蛇;柔宇科技;漢富資本', '東北亞貴金屬;西南大宗;德通匯富(北京)資本管理有限公司;海西南商品交易所;天津貴金屬交易所海西南商品交易所昆明貴重金屬交易所海南大宗商品交易中心西南大宗東北亞貴金屬;海南大宗商品交易中心;天津貴金屬交易所;廣清所;昆明貴重金屬交易所;廣州商品清算中心股份有限公司', '金證股份歐普康視', 'oranflag', '旭隆金業;旺潤配資;金銀策略;匯豐鴻利;雲旗金服;策略資本;翻翻配資;中首上上策;震泰國際;亨達國際;穩贏策略;四川大宗;海牛金服;指南針大宗;盈策略;牛360配資;一股期權;維海配資;銀華中期;博時國際期貨;中泰期權;創利融;步步盈配資;中恆策略;興蜀大宗;中證期權;航心配資;策略之家;鼎鑫金業;創盈金服;九五配資;鼎牛配資;億配資;華瑞國際;鼎盛配資;翻倍賺;艾德配資;百匯期權;點點金富通國際', 'sumtoken;fCOIN交易所;KEX交易所;ZB交易所', '民x影視', 'Ppmoney;愛錢進;輕易貸;永銀貸;一誠一貸;一人一貸', 'ql;東霖國際', 'iplus智慧挖礦手機', 'Altailtd阿爾泰', '商房所;泰多米;捷麥理財;易麥理財;硯下金融;俊掌櫃;91飛貓;外快理財', '東方城DFC', '民金所;民生融資擔保;亞太財險;民生證券中天金融;泛海控股;亞太', '貴州中進大宗商品交易中心;華遠國際;易資配;速匯國際;匯豐聯合;泛金國際;信投線上;EGML環球金融;創遠世紀金融;東吳金服;豪根國際;AJPFX;中港國際;股融易;信邦策略;大彩配資;飛客線上;世紀金融;世紀集團金業控股有限公司;金景配資;中瑞財訊;西安環海陸港商品交易中心;方正國際;新源財經;50ETF;弘基金融;富通國際;恆信財富;日照大宗商品交易所;海慧通 ;洪富期貨;創昇國際期貨;海拓環球融資融券;安信金控;輝煌', '長頸鹿;MT;home', '鳳凰金融鳳凰智信;中信資本;東方資產;中信資本;鳳凰智信;鳳凰金融;東方資產', '高勝投資投行配資九鼎金策香港信誠資產中鑫建投帝鋒金業向上金服銀豐配資粵友錢策馬財經盈龍策略', '新網銀行;人人貸;錢來也;帛揚集團;輕易貸', '零花錢;亞運科技;趣妙租;亞遠科技', '一隻牛', 'bc;錢寶科技;pos招錢進寶;一清機;錢進;秒到賬;錢寶', '蘇寧體育蘇寧文創', '滬深300;炒黃金;布林金融;來投;大地;冠聯投資家園.財富領航', '益冠創投;金鳳凰;煌薩投資;鳳凰;國富通;易錢匯;豆包金服;觀金鑑股;匯信;浩然眾籌;房金網;金豆包;91飛貓朔漪眾籌;穆金所;中信創;好牛創投;匯信聚業;黎明國際;好牛;易眾網;吆雞理財', '宜聚網;和信貸;恆易融;花蝦金融;恆慧融;財富中國;道口貸;信融財富;東創線上;小贏理財;nbd;草根投資;信廣立誠貸;聚財貓;寧波東創投資管理;善林金融;寧波東創投資管理有限公司;口貸東創投資;多樂融;金瑞龍;財富星球;米莊理財;達人貸;信而富;洋錢罐;今日捷財;財貓;融網;短融網;銀豆網;鑫金服;聚財;恆昌;錢盆網;誠貸;易融;聚網;笑臉金融;雲端金融;開鑫金服', '海航集團航海創新', 'hiifx海匯國際;HIIFX海匯國際', '歐萊雅嗨團團購', '紅域短視訊;火牛視訊;紅域視訊', '快易點八里香', '陸金所小牛線上蜂融網平安集團', '錢盆網;疊尚財富;鑫隆創投;錢牛牛;金大聖;51快影;微金投;聚寶天下;穩展財富;麥子金服;競優理財;壹理財;溪安金服;牛板金;源源金服;湛思投資;百廣線上;愛錢來;航金所;紅創金服;錢滿倉;普益金服;互融寶;得力金服;勝輝貸;萬有投資;民信金服;神州通投資;51人品;拓道金融;玖富;理財範;付融寶;欒恆金服;京力投資;壹壹金服', '廣州花生日記網路科技有限公司;花生日記', '乾包網;津啟寶;九藥網;好友邦金服;乾包匯投網;點聚財;生意貸;聚財;金羊金服;東上金服;中航生意貸;邦金服', '和信貸;貫通金服;普匯雲通;點融網;融網;眾籌平臺;中融民信;汽車眾籌和信;酷盈網;點融;盎盎理財;眾力金融', '積木盒子;積木盒子巴巴匯;全球金融;網貸;宜人貸;人人貸;巴巴匯', '網保;中國保險;加油寶;信用保首家;同花順財經;合時代', 'Fcoin', '海拓環球融資融券平臺', '鏈上錢以太森林;輝煌', '新橙分期夠花;新口子;今日推薦', '金殿環球金融投資集團', '金包豆;“兄弟”車貸;昌和財富;昌久財富;聚利眾籌;建軍財富;聚匯天下;誠天財富;金貝貝;桑善金服;致財富;絮東投資;建元投資;豆蔓智投;中智魔方;亦川資本;紅豐智投;富捷金服;厚元投資;紫檁金融;鴻百佳投資;酷盈網;中仁財富;理財咖;益冠創投;華隆資產;湧集投資;聚金袋子;聚樂資本;博美投資;融創嘉誠;大盈投資;金蘇線上', '金開貸;陝西金融控股集團', '海通證券', '錦安財富;前海開源基金;金色木棉;北京卡拉卡爾科技公司;中科招商;ST德奧;意隆財富', '信邦;IG;中贏國際;MT;花旗;貴金屬;牛策略;現貨白銀;金源財富;海利國際;嘉晟財富;錢到;澳大利亞證券及投資委員會(ASIC);炒期貨;新源財經;炒外匯英國金融;聚富策略;富通國際;速匯國際;白象國際;英國金融行為管理局(FCS);富有;炒股;個股期權;瑞士金融市場監督管理局(FINMA);速贏;紐西蘭金融市場管理局(FMA);外匯投資;期權;恆利金業;匯豐;匯股票;環球;優信外匯;新華富時;環球金融;滬深300;匯融國際;白銀;現貨原油;匯投資', '天安金交中心;廈金中心;廈金理財平臺;天安(貴州省)網際網路金融資產交易中心股份有限公司;北京鑫旺闊達投資有限公司;鑫旺投資;深圳市景騰瑞貿易發展有限公司;廈門國際金融資產交易中心有限公司;鑫聚天利', '移動錢包;富數玖富;玖富錢包', '分期樂;玖富普惠;投哪網;小贏理財;微貸網桔子理財;玖富錢包;網上賺錢;小贏錢包;東方證券;玖富;貸網;可得;龍支付;微貸;宜人貸;麻袋財富;國信證券', '分期樂;宜人貸;玖富普惠;投哪網;小贏理財;微貸網;桔子理財玖富錢包;網上賺錢;小贏錢包;東方證券;玖富;貸網;可得;龍支付;微貸;國信證券;麻袋財富', '酒業鏈WNN', '中資信匯投資管理有限公司', '廣發基金;大成基金;博時基金;鵬華基金;匯添富基金;jojomarkets久久', '以太坊;比特幣;凱頓', '領路;皇瑪金融;中北選買;中遠期貨;創遠世紀金融;海利國際;青島西海岸;恩聖威;新源財經華遠國際;聚富策略;首席;AJPFX;富通國際;速匯國際;豐盛金;艾利威;保誠國際;信財富;豪根國際;遊資通;方正國際;恆信財富;恆信;雜湊;粒子金融;恆利金業;泛金國際;匯豐;環球;優信外匯;創遠世紀;世紀金融;匯融國際;中首投資;安信;中融金業', '新華都三江購物', '匯豐銀行', '瑞波幣;比特幣;恆星幣萬維幣通盛幣珍寶幣富豪幣萬福幣吉祥幣視界鏈農業鏈天使鏈流量魔石金元幣西遊鏈高興幣電能鏈lmc檸檬幣kdc凱帝幣csc炭匯幣scc足球幣綠鏈acc防偽幣fyb弗益幣匯擇投資正謙益睿鑫寶德愛社群微韻文化益路同行山海經融易通特色三妹至尊阿川星火草原恩威商城CNY金融互助公益社群掌心眾扶友錢寶友義寶影子銀行智富寶雲支付|雲付通精神傳銷心靈培訓億加互助ICA;微韻文化;kdc凱帝幣;流量魔石;雲支付|雲付通;fyb弗益幣;智富寶;星火草原;萬福幣;德愛社群;公益社群掌心眾扶;天使鏈;scc足球幣;影子銀行;lmc檸檬幣;富豪幣;睿鑫寶;友義寶;吉祥幣;恩威商城;CNY金融互助;acc防偽幣;正謙益;金元幣;友錢寶;維卡幣;ICA;綠鏈;特色三妹;恆星幣;視界鏈;至尊;阿川;精神傳銷心靈培訓;益路同行;csc炭匯幣;農業鏈;珍寶幣;融易通;匯擇投資;通盛幣;馬克幣;山海經;億加互助;西遊鏈;萬維幣;高興幣;電能鏈', '坤吉國際;EQRFDEX貴州國際交易中心廣州西勃商品交易中心創昇國際期貨點牛融資融券信捷策略眾昇策略時盛財匯鼎點策略錢盈配資國金策略嘉露國際有富策略東方匯盈小金橘策略紅牛策略真牛科技中航江南期貨象嶼期貨貝贏網信誠資產漲悅財金海慧通壹恆國際鼎點策略錢盈配資順通線上國金策略嘉露國際迅視資管期權專車桑傑股權花旗資本BKB九州金服中盟國際中浙金控海博利創輝國際海南大宗諾安期貨路易澤安信金控百益策略期貨大贏家', 'MG', '粉象;紅人裝;易金融;花生日記;麻袋財富', '理理財;有家;信條;理財計劃投融資;輕鬆理財', '嘉聯立刷', '錢保姆;分秒金融;飯飯金服掌悅理財;黎明國際;金匯微金;融網;一點金庫;點金;金統貸;有融網', 'GallandGlobal格蘭特?;PTFX?;AS國際?;薩羅國際', '招財寶;香港安盛投連險;香港安盛保險;AsiaOne', '平安銀行江蘇銀行螞蟻財富天天基金;陸金所;微交易;嘉合基金;基金網', '36氪未來智庫', 'DEC覓信', '新網銀行;積木盒子;錢來也;錢來也網路借貸;你我貸', 'bc;諾德基金;證券股份;中天證券;大同證券;山西證券', '廣州承興營銷管理有限公司;廣東中誠實業控股有限公司;諾亞財富', '恆利金業;Gallant;香港富贏通;FT;亞太;菲特爾國際;粒子金融;FTSE;格蘭特;中泰期權;TRENDS;歐克斯;中首投資;優越投資;嘉晟財富;速匯國際;青島西海岸;豪根國際;保卓國際;Morse火幣網;奧瑞國際;琥珀帝國;AJPFX;TTEX;大贏家;炒外匯;富贏通;星亙國際;富時羅素;嘉蘭待;法納金融;富盈;高盛亞太;大贏家期貨;香港優越投資中心;中元天頤;中遠期貨;香港富盈;寶丰國際;火幣網;CFEX;帕克金融;鼎和金控;火幣;中浙金控;IG;彭義昆維權;富通國際;世紀金業;ATTEX', '領航資本', '前金融;陸金所;鏈鏈金融房金所中金貸津融貸車賺', '馬勝金融;普頓PTFX;普頓ptfx;聚寶金融;IGOFX;3M;PTPrutonMegaBerjangka;聚寶金融馬勝金融3M;PrutonCapital', '沃爾克外匯;MMM金融互助;馬勝金融;亨英集團;hiifx海匯國際;EA智慧交易;IGOFX;HYBX', '紅威投資;金融網;富利寶;優理財;豫之興資本;錢富通;競優理財;豐鼎金融;真信匯通;信匯金財富;大額標;問問;問問我;智慧理財;聚財;全域性金服;榕巨互金;資訊網;天誠財富;星通財富;梵豐投資;國有投資;德眾金融;吉盟財富;永利寶;信匯通;億企聚財;花橙金融;理財網;吉農投資;儲信理財;火理財;儲信;融網;匯通;慧理財', '合創網商', '美國銀行;比特幣;易收益;易和投資;中安國泰區塊鏈有限公司;Discuz;以太坊;火幣集團;經緯中國;幣社群;火幣;Smart;合創;螞蟻礦池;全信;明和;易支付;光子鏈;數字加密貨幣;IX;中安國泰;眾籌平臺;alpha;流幣;數字錢包;火幣網;kl;應用開發;比特幣網;多投', '京東蘇寧唯品會淘寶考拉;權健;華林', '京東蘇寧唯品會淘寶考拉;權健;華林', '天貓淘寶京東優品彙;全返通', '融創中國;摩根士丹利;德意志銀行農銀國際', 'e租寶;錢寶網;江蘇聯寶;鱷魚金融', 'bitmex', 'GEC環保幣;gec', '象嶼園區內夏商風信子時福全球購恆優國際寶象商務中心金淘惠源沃洋優品酩悅酒業歐頌酒業優傳保稅跑街等11家平臺企業和海滄園區內歐食安海搗網酒龍網E境·國際生活體驗城跨惠通跑街', '淘寶京東網易', '東方證券股份有限公司花旗環球金融(亞洲)有限公司', '神州泰嶽投資;米莊理財;神州泰嶽圖騰貸沃時貸米莊理財', '藍籌公司', 'a股頭條', '涇縣綠都影城', '比特幣;速匯國際;滬深300;現貨原油;現貨黃金;SpeedTrad;現貨白銀;期貨期權;新華富時A50;德指DAX30;恆指HIS;泰達幣', '速通寶VPAY', '悟空理財;晉商貸;銅板街;泰然金融;晉商貸玖富;融牛線上;可溯金融;微貸網', '比特幣萊特幣無限幣夸克幣澤塔幣燒烤幣隱形金條', '優品;優樂商城淘優樂;新零售;升值空間;支付系統;超級省;數字錢包;探路者', '米缸金融;天安保險;富管家;鑫聚天利;富盈;金理財;寧富盈;天安(貴州省)網際網路金融資產交易中心股份有限公司;北京航天浦盛科技中心;天安金交中心(有限合夥)', '富管家;寧富寶6MFDBF011;寧富盈1800244550號;鑫聚天利;天安金交所', '寒武創投熠美', '紅嶺創投;Ppmoney;樂享寶', '有錢;家庭投資投資策略;安全投;個人所得稅;急用錢;金融投資;風險投資;錢生錢', '萊次狗;摩拜鏈(MobikeChain);以太坊;遨遊;麻吉寶;共生幣;網易星球;CNHKC;CEC;ENE;共生幣;遨遊;摩拜鏈', '上海挖易', '全球投資;富數;玖富數科;友信智投;能投資普惠金融;金融科技;智投;玖富;宜人金科;友信;友信金服', '大地;金融服務愛理不理;金融理財;幣價格;互聯支付;雷達幣;雷達錢包;交易網;雷達支付;支付系統;貨幣交易', '比特幣;未來星球', 'jojomarkets久久', '西投控股西安經開城投西安城投(集團)西安曲江文化長安信託西安金控', '創業夢;遠特通訊;遠特喜牛;遠特喜牛通訊;新紀元', '金融業;金融投資;放心投;放心投資華霖財富管理股份有限公司;買房;有錢;華霖金服', '錢寶;百川幣e租寶;聖商;中晉;e租寶;泛亞;鮮生友請;巴菲特', '伽滿優;富友;富友支付;乾包網;him;乾包', '伽滿優;富友;盈盈理財;富友支付;乾包網;him;乾包', '臻理財;盈盈理財;蝸牛線上;乾包網;him;乾包', '策略通牛股盈新紀元期貨花旗證券廣匯大宗商品交易中心貴州西部農產品交易中心眾生策略沃倫策中陽期貨巨集琳策略股億訊萊贏寶金盛商貿創投大師芬吉牛來了掌互通鼎盈信投滬深689策略國金策略神聖策略益達商城壹恆國際復興恆福神谷策略江蘇百瑞贏通達國際期貨眾達國際期貨純手期貨天興國際期貨國人期投超人國際融盛線上眾贏投顧神聖策略股易融花旗證券鴻運信投眾生策略財創期選勁牛期權華信策略中訊策略創期國投順配寶香港英聯策略', 'UNwallet', '九九小花', '眾贏;普惠金融;悟空理財;玖富;叮噹貸;金融服務玖富錢包', '小象金融;響噹噹;百仁貸;公眾理財;上海崇明;宜泉資本;信而富;99財富;一起理財;酷盈網敢投;人人愛家', '小諸葛金服;芝麻寶金服;天農金融;有融網;狐小狸理財;城城理財;海星寶理財;易納理財;普益金服;財富中國;小灰熊金服;紅八財富;貸你盈;超人貸;台州貸;百金貸;浣熊理財;銀號理財;偉民金服;啄米理財上一篇財富中國2018-04-09廣東深圳經偵介入下一篇相關推薦海星寶是下架那麼簡單嗎!!哎~為什麼不聽我的?!最新預警網貸平臺名單芝麻寶金服;天農金融;有融網;狐小狸理財;城城理財;海星寶理財;易納理財;普益金服;財富中國;小灰熊金服;紅八財富;貸你盈;超人貸;台州貸;百金貸;浣熊理財;銀號理財;偉民金服;啄米理財', '以太森林;YTC;FBC', '錢境', '中雲國際;e路商城', '京東金融京東理財;小白理財;年年盈;月月盈;金理財;季度盈;天天盈;幣基金', '獵金影視;獵金集團;獵金全民影視', '巨人理財;掌悅理財;一點金庫;城鄉小康發展浙江中心;央金所;利利金服;領奇理財;投米樂;領奇理財一點金庫利利金服微米線上掌悅理財巨人理財投米樂;微米線上', '宜信財富管理公司(“宜信財富”);諾德基金管理有限公司(“諾德基金”);喆顥資產管理(上海)有限公司(“喆顥資產”);宜信惠民投資管理', '以太幣', '匯正財經創牛配資長春博時配資漲握線上如意期貨通文華財經鴻達國際高升網股豆網365盈股壹佰億海智投財惠賺華信策略BROOKFIELD創輝國際牛股通捷盛國際中瑞財訊盈配網國信配資股易融股乾寶信投策略遊資通飛客線上海期財富百裕期貨海慧通股億訊泰洪天裕泓盛信誠期貨中瑞財訊貴州黔中生態茶洛克國際廣州西勃', '寧波甬堅網路科技有限公司;麥穗金服錢內助三金線上民信金服利民網巨如眾吧搶錢通金投手壹萬木投資;寧海縣永堅混凝土有限公司;易麥理財', '金證科技;新大陸;興業數金;工銀科技;\x7f高偉達;國泰君安研究所;民生科技', '仁遠資本;貝米錢包;東澤匯順發人人貸', '啄米理財;快點理財;甬e貸;多米金融;壹佰金融津啟寶利魔方溫州貸;招金貓;易貸線上', '富通環球投資;恆信環球投資;恆信國際;恆信貴金屬;恆信集團;恆信貴金屬8BX(寶星環球投資8比匯及比匯國際)HXFX(犀牛智投)FTWW(富通環球投資)', '五星基金華安策略', '你我貸玖富普惠宜人貸微貸網', '放款快;速到賬;可貸金有信錢包;網貸黑名單;芝麻分貸款', '有機會;花生日記菜鳥;雲集微店;有它;一片紅', '皮城金融;企查查海寧民間融資服務中心;海寧皮城', '浙江謝志宇控股集團有限公司杭州凱藍汽車租賃有限公司', '蘑菇街飛豬旅行俠侶聯盟廈門俠網旅遊服務有限公司廈門俠網旅遊服務有限公司', 'A50;CNA3000;弘誠維權;道瓊斯指數;平安證券;HDI', '海貝國際;IGOFX平臺;igofx平臺', '光大保德信鼎鑫基金華泰期貨', 'MoreToken錢包;Coinone;ChengduXintongWangyiMedical&TechnologyDevelopmentCo.;Tokenstore錢包;Ltd.;BossToken錢包;智慧搬磚;BossToken;SecurityToken', '玖富叮噹貸;馬上金融;星星錢袋;招聯好期貸;小鯊易貸', '天津銀行;大健康;智聖金服;有錢;全方位金融有錢人;金融理財;全民理財;廣州智聖大健康投資有限公司', '金融業;金融理財平臺;智聖金服;金融服務;理財投資有錢人;金融理財;有錢', '紅橙優選;郵幣卡;新紀元;貴金屬;上交所;期權;微豪配資;個股期權;恩聖威;TTEX;還信;國際期貨;投資集團;MORSE;外匯投資;易信;炒黃金;新源財經;MT;豐盛金;炒股;中北選買;金幣;中遠期貨;滬深300;嘉晟財富恆利金業;ATTEX;優信外匯;速匯國際;易融;股票交易;威海中元天頤;AJPFX;原油;匯投資;中元天頤;中泰之星', '信邦;IG;中贏國際;白象國際;花旗;牛策略;快聯;環球;中瑞財訊;期權;恆利金業;海利國際;嘉晟財富;匯豐;新源財經優信外匯;環球金融;匯融國際;聚富策略;想過;瑞財;富通國際;速匯國際', '中信華睿;華安策略;福盛期權;杜德配資;WIRECADD;MALAFY;金田策略;;Helong和隆;銀島配資;世紀金業;鼎盈信投;信融期權;弘基金融;天臣配資;久聯優配;致富配資;鼎澤配資;涵星配資;鑫配資;鼎盈信投;信邦策略;百益策略;安信金控;CFX圓匯;格林期貨;鴻運信投;信邦策略;巨集觀策略;金多多配資;羅賓智投;信溢國際;弘基金融;萬榮國際;多乾國際;合欣國際;EGML;環球金融;HATSKY;速達國際;中陽期貨;領航資本;豐訊凱國際FDEX', '華遠國際;亞太;撮合網;粒子金融;明道配資;知富;安信;長江期貨;佳銀融資融券;海南大宗商品交易中心;貴州國際商品交易中心策略資本;期財富;穩贏策略;盈策略;期權;川商聯宗商品;外匯投資;炒外匯;天元策略;聚富策略;環海陸港;信邦;盈策;匯融國際;領航配資;炒股;新紀元;廣州西勃商品交易中心;權金匯;東方財經;中遠期貨;瑞信;速贏;誠信配資;方正國際;新源財經;滬深300;富成;艾利威;大連商品交易所;賽嶽恆配資;弘基金融;匯投資;富盈;創期國投;盛贏期服', '慧盈理財', '普信金服app', '投哪網;龍支付;可得;麻袋財富;東方證券;微貸;網上賺錢桔子理財;貸網;微貸網;國信證券;小贏理財;分期樂;宜人貸;小贏錢包', '中融信託;建信信託;越秀金控;浚源資本;綵鳳金鑫', '首家;P2B;資金週轉;金融服務;興貸;微金融;P2P;芒果金融;p2b', '3645', '3910', '股王配資DBC幣眾融眾投新富金融恆通國際微交易大東方國際商品交易集團鑫匯環球;大東方國際商品交易集團;恆通國際微交易;DBC幣;新富金融;股王配資;眾融眾投;鑫匯環球', '信融財富;中航期貨;震泰國際;ainol艾諾;joso聚碩;tfyforex;國峰貴金屬', 'plustoken;obex', '亞馬遜電商', 'brt房產信託', '火幣;obex', '嘉盛國際投資;嘉盛', '沃客理財', '比特幣;obex', 'cardiff;愛福瑞', '雲聯惠;萬通奇蹟;K幣商城;星火草原;LCF專案;中綠資本;萬達複利理財;天獅集團;億加互助;神州互聯商城;國通通訊網路電話;萊匯幣;DGC共享幣;豐果遊天下;綠色世界理財;雲訊通;WV夢幻之旅N積分寶;五行幣;EGD網路黃金;1040陽光工程;網路黃金;摩根幣;開心理財網;盛大華天;世界華人聯合會;老媽樂;寶微商城;沃客生活;世界雲聯;五化聯盟;萬福幣;SF共享金融;惠卡世紀;CNC九星;光彩幣;港潤信貸;GemCoin(珍寶幣);中晉系;富迪;薪金融;維卡幣;貝格邦BGB;微轉動力;賽比安;恆星幣;善心匯;雲夢生活;民族資產解凍/民族大業;MFC幣理財;馬克幣;易賺寶;FIS數字金庫;二元期權;雲在指尖/雲指商城;天音網路;雲數貿;綠藤理財']

(2)修復錯誤標籤

repair_id_label = ['大象健康科技有限公司;健康貓', '人人愛家金融', '速借貸;有信錢包', '速借貸;有信錢包', '速借貸;有信錢包',
                   '速借貸;有信錢包', '軟銀;(必發)BETFAIR;火幣', 'ATC國際期貨;香港恆利金業;嘉信金服', 'Finci芬吉', '閃電借款;掌眾財富',
                   '陀螺', '', '', '大象健康科技有限公司;健康貓', '寶點網;e租寶',  '大象健康科技有限公司;健康貓', '大象健康科技有限公司',
                   '', 'Exp金融資產;expasset專案;Plustoken錢包;expasset;Exp亞斯特', '錢-寶-網', 'Vpay支付', '', '盈康易和元消痛貼',
                   'Bitfund', 'GEC幣', '時代證卷', '火星錢包;火星數字資產銀行', '中匯國際期貨;中巨集資管;先匯國際', 'ST國際(搜寶國際)',
                   '和信售貨機限公司', '洛安期貨;昶勝國際;BKB數字貨幣;中恆策略;MBGMarkets', '', '', '', '滬深理財;首投理財',
                   'GEC幣', '', '安盛', '', '智慧晶商城', '正宇控股', 'ShapeShift;Coinbase;CactusCustody;GenesisCapital;貝寶金融;位元大陸;Matrix;Matrixport;BitGoInc.;MatrixportBeta',
                   'wotoken', 'wotoken;WoToken', 'wotoken;Wotoken', 'wotoken;WoToken', 'wotoken;WoToken', '小微E貸通', 'ECOIN', 'GEC環保幣',
                   'PTFX普頓外匯;PTFX;PTFX(普頓);聚寶金融;馬勝金融;3M;IGOFX;金殿環球;OCTO;澳沃國際;期海聚金;期海財經', '一加二金融;富車線上;萬貝貸;牛娃網際網路金融;古德金融超市',
                   'JOJOMARKETS', '團貸網;錢香金融;金沙江;點亮;磐慶;玖臻資本;PPmoney;愛錢進;熊貓金庫;飯飯金服;惠人貸;拍拍貸;麻袋財富', 'EOS',
                   'ATC艾特幣;ZFB-致富鏈;趣步;巴特幣;TBC天寶幣;艾特幣;智慧晶',
                   '有融網;銀谷財富;愛福家;銀豆網;長沙賽鼎生物科技有限公司;金瑞龍理財;湖南振湘網路科技有限公司;伊思多爾', '樂易Bank', '快刷;支付通;金中寶',
                   '應價零批;Lnko;plustoken;金網安泰;信雅達;PlusToken;lnko',  '普信金服APP;巨集利保險;北京徵和惠通基金管理有限公司;徵和惠通;信中利;徵和控股集團', '普信金服APP',
                   '普信金服APP', '普信金服APP', '東霖國際;波場超級社群;Plustoken;PlusToken;GCG鉅富;PTFX普頓;RCFX;GCG鉅富金融;GCGASIA鉅富金融;GCGASIA;香港鉅富金融公司;外匯米治;SOXEX交易所;閃鏈SHE;火幣HT',
                   '北斗股權;北斗生態圈;北斗期權;易購商城;趣步;迴圈信用卡', 'MGCTOKEN;mgctoken;MGCtoken',  '安徽天策;Plustoken;Lnko錢包;SOXEX交易所;波場超級社群;PlusToken;米治;PTFX',
                   '淘優樂;鏈豆', '', '雅布力', '友信證券;友信智投', '', '華盈城市集團;廈門中海航集團;恆優國際集團', '圖靈資本;道生資本;小智投資;銀杏谷資本', '',
'金蛋理財;網利寶;金百萬;大麥理財;伽滿優;玖富;米族金融;合眾e貸;拼客順風車;麥麥理財;盤龍財富;翼龍貸;證券單;微貸網;指旺財富;銀谷線上;華僑寶;投哪網;團貸網;陸金所;積木盒子;悟空理財;廣信貸;向上金服;銀多網;花生米富;用錢寶;乾包網;盈盈理財;海鷺金服;智新寶;京貸金服;點牛金融;融信網;易享貸;51人品;金融工廠',
                   'UBank', '永利金控控股有限公司;UBS香港', '金機寶', '3m3.0互助;mmm3.0', '紅馬優購;車智匯狗狗幣;酒鏈世界;霍特幣;趣步;dogx錢包;以太坊;閃電雞',
                   'ALicoin;TheDAO專案', '四川創夢森林軟體科技有限公司;Cmsl', 'FCoin;火幣', 'DEtoken', 'dogx;dogxwallet', 'DragonEx龍網;IOST',  'EXPASSET;EXP', '利潤錢包;EXP-ASSET', 'FCoin',
                   'Finci芬吉;嘉實資本;TF環球金融;眾元國際;捷盛國際;金源財富;GMO奧諾;鼎盈信投;中恆策略;億運富國際;速匯國際;輝立國際;世紀金業;艾斯國際;金山金融;MALAFY;巨集源國際;鴻安資本;DGINT;問鼎財富;鴻昇國際;鴻翔國際;圓匯金融;唐印國際;恆牛策略;東財國際;創昇國際;錦豐國際',
                   'GEC', 'GEC', 'GEC', '瑞波(XRP)', 'HES和氏幣', 'iBank數字錢包', 'IOToken(米奧錢包);IOToken', 'JMC', 'Jojomarkets', 'KB數字資產兌換平臺', 'LongBit',
                   'LXFX;豐盈服務;立盟策略;易配配資;捷盈資本;眾昇策略;boss金服', 'DLC數字貨幣;MCC數字礦工幣', 'MChain;EXX交易所;蜂鳥財經;道軒資本', 'Mchain;MChain', 'PlusToken',
                   'ProsperToken;LTC萊特幣;EOS柚子;狗狗幣;BCH位元現金;XRP瑞波幣;osp;達世幣;DOGE狗狗幣;火幣;plustoken;ETC以太經典;DASH達世幣', 'SKY;sky雲世紀', '華潤商業;中星集團;金豐投資;上海古北集團',
                   '速通寶Vpay;速通寶;瑞波幣', 'WAD國際拆分理財平臺','WAD國際金融平臺', 'WBEX', 'WPAY', 'YouBank', 'jojomarkets', '惠恩商城;MGC錢包;東霖國際', '百信通國際;CITIGLOBAL花旗國際;海.貝國際;海慧通;眾元國際;恆牛策略;世紀金業;諾安期貨;金源財富;白象國際;輝立國際;HATSKY;博邁線上;bitkoc德林資本;艾斯國際;JTL國際;長虹資本;HDI國際;嘉晟財富;SpeedTrad速匯國際;mrt捷盈資本;萬鼎國際;信融期權;恆利金業;britrading;新源財經;東吳金服;創昇國際;CXM希盟;巨集源國際;旭升策略;富通國際;海利國際;合欣國際;東財國際;九夢財富;中贏國際EGML環球金融;國人策略;優信外匯;匯豐聯合;鴻運信投;鼎盈信投;信邦策略;巨集觀策略;聚富策略;匯融國際',
                    '北京麗澤金融商務區控股有限公司;北京金唐天潤置業發展集團;北京戴德樑行物業管理有限公司', 'Drivechain;側鏈(Sidechain)', '58coin', 'OK鏈', '', 'Vpay;VPAY支付', '',
                   '菠菜理財;上海犇序實業有限公司;象象財富;小灰熊金服;雲端金融;掌悅理財;央金所;巨人理財;利利金服', 'Guardian', '鉅派投資集團;布林金融', '環球金融;華寶基金', '成都奇米達',
                   '成都潛隆貸;麻袋理財;君融貸;沃時代;金銀貓;恆信易貸;聯連理財', '成都潛隆貸;寶通網;漢金所;鑫鵬貸;中旭鴻基投資;豐鼎金融;聯鼎投資;昊祥投資;國有投資展恆理財',
                   '捷信(中國)金融公司;捷信', '俠侶聯盟廈門俠網旅遊服務有限公司;廈門俠網旅遊服務有限公司;旅划算廣州市旅划算國際旅行社有限公司',  '承返網;承返網(承返(廣州)網路科技有限公司)',
                   '合拍貸;春天金融;穩銀線上;可易金融;起點貸;深圳盈泰聯合投資管理有限公司;深圳智鼎投資管理有限公司;深圳市中雲金融服務有限公司;小寶金服;盈泰聯合;印子坊;浙江頤榮資產管理有限公',
                   '維卡幣', '優客工場;人人車;唱吧;考拉先生;蔚來汽車;雷蛇;柔宇科技;漢富資本', '', '金證股份;歐普康視', 'ORANFLAG', '旭隆金業;旺潤配資;金銀策略;匯豐鴻利;雲旗金服;策略資本;翻翻配資;中首上上策;震泰國際;亨達國際;穩贏策略;四川大宗;海牛金服;指南針大宗;盈策略;牛360配資;一股期權;維海配資;銀華中期;博時國際期貨;中泰期權;創利融;步步盈配資;中證期權;航心配資;鼎鑫金業;創盈金服;九五配資;鼎牛配資;億配資;華瑞國際;鼎盛配資;艾德配資;百匯期權;點點金富通國際',
                   'sumtoken;fCOIN交易所', '', 'PPmoney;愛錢進;輕易貸;永銀貸;一誠一貸;一人一貸', '東霖國際', '', '阿爾泰平臺', '商房所;捷麥理財;易麥理財;硯下金融;俊掌櫃;91飛貓;外快理財', 'DFC;東方城', '民生證券;中天金融;民金所;泛海控股;亞太財險',
                   '華遠國際;易資配;速匯國際;匯豐聯合;泛金國際;信投線上;EGML環球金融;創遠世紀金融;東吳金服;豪根國際;AJPFX;中港國際;股融易;信邦策略;大彩配資;飛客線上;世紀金融;世紀集團金業控股有限公司;金景配資;中瑞財訊;西安環海陸港商品交易中心;方正國際;新源財經;50ETF;弘基金融;富通國際;恆信財富;日照大宗商品交易所;海慧通;洪富期貨;創昇國際期貨;海拓環球融資融券;安信金控',
                    '長頸鹿;MT', '中信資本;中信資本;鳳凰智信;鳳凰金融;東方資產',
                   '高勝投資;投行配資;九鼎金策;香港信誠資產;中鑫建投;帝鋒金業;向上金服;銀豐配資;粵友錢;策馬財經;盈龍策略', # 2551
'人人貸;錢來也;帛揚集團', '零花錢;趣妙租;亞遠科技', '一直牛',
'錢寶科技;招錢進寶;秒到賬;錢寶', '蘇寧體育;蘇寧文創', '布林金融;冠聯投資家園.財富領航',
'益冠創投;金鳳凰;煌薩投資;國富通;易錢匯;豆包金服;觀金鑑股;浩然眾籌;房金網;金豆包;91飛貓;朔漪眾籌;穆金所;中信創;好牛創投;匯信聚業;黎明國際;易眾網;吆雞理財', '宜聚網;和信貸;恆易融;花蝦金融;恆慧融;財富中國;道口貸;信融財富;東創線上;小贏理財;草根投資;信廣立誠貸;聚財貓;善林金融;寧波東創投資管理有限公司;東創投資;多樂融;金瑞龍;財富星球;米莊理財;達人貸;信而富;洋錢罐;今日捷財;財貓;短融網;銀豆網;恆昌;錢盆網;笑臉金融;雲端金融;開鑫金服', '海航集團;航海創新', 'HIIFX海匯國際', '歐萊雅;嗨團團購', '紅域短視訊;火牛視訊', '快易點;八里香', '陸金所;小牛線上;蜂融網;平安集團', '錢牛牛;麥子金服;互融寶;51人品;拓道金融;玖富;付融寶', '花生日記', '乾包網;津啟寶;九藥網;好友邦金服;點聚財;生意貸;聚財;金羊金服;東上金服;中航生意貸;邦金服', '和信貸;貫通金服;普匯雲通;點融網;眾籌平臺;中融民信;酷盈網;點融;盎盎理財;眾力金融', '積木盒子;全球金融;網貸;宜人貸;人人貸;巴巴匯', '中國保險;加油寶;同花順財經;合時代', 'FCoin', '海拓環球;融資融券', '鏈上錢包;以太森林', '新橙分期;新口子;今日推薦', '金殿環球', '金包豆;“兄弟”車貸;昌和財富;昌久財富;聚利眾籌;建軍財富;聚匯天下;誠天財富;金貝貝;桑善金服;金致財富;絮東投資;建元投資;豆蔓智投;中智魔方;亦川資本;紅豐智投;富捷金服;厚元投資;紫檁金融;鴻百佳投資;酷盈網;中仁財富;理財咖;益冠創投;華隆資產;湧集投資;聚金袋子;聚樂資本;博美投資;融創嘉誠;大盈投資;金蘇線上', '金開貸',
                   '錦安財富;金色木棉;北京卡拉卡爾科技公司;ST德奧;意隆財富', '信邦策略;中贏國際;花旗;貴金屬;恆牛策略;現貨白銀;金源財富;海利國際;嘉晟財富;澳大利亞證券及投資委員會(ASIC);新源財經;炒外匯英國金融;聚富策略;富通國際;速匯國際;白象國際;英國金融行為管理局(FCS);瑞士金融市場監督管理局(FINMA);速贏;紐西蘭金融市場管理局(FMA);外匯投資;恆利金業;匯豐;環球;優信外匯;新華富時;環球金融;匯融國際', '天安金交中心;廈金中心;廈金理財平臺;天安(貴州省)網際網路金融資產交易中心股份有限公司;北京鑫旺闊達投資有限公司;鑫旺投資;深圳市景騰瑞貿易發展有限公司;廈門國際金融資產交易中心有限公司', '移動錢包;玖富數科集團;玖富錢包',
'分期樂;玖富普惠;投哪網;小贏理財;微貸網;桔子理財;玖富錢包;網上賺錢;小贏錢包;東方證券;玖富;貸網;龍支付;宜人貸;麻袋財富;國信證券',
'分期樂;宜人貸;玖富普惠;投哪網;小贏理財;微貸網;桔子理財;玖富錢包;網上賺錢;小贏錢包;東方證券;玖富;龍支付;微貸;國信證券;麻袋財富',
'酒業鏈wnn', '中資信匯投資打點有限公司', '廣發基金;大成基金;博時基金;鵬華基金;匯添富基金;jojomarkets', '匯置投資;挑戰者;匯置財富',
'凱頓', '皇瑪金融;中北選買;中遠期貨;創遠世紀金融;海利國際;青島西海岸;恩聖威ncy;新源財經;華遠國際;聚富策略;AJPFX;富通國際;速匯國際;豐盛金融;艾利威國際;保誠國際;豪根國際;遊資通;方正國際;恆信財富;粒子金融;恆利金業;泛金國際;優信外匯;創遠世紀;世紀金融;匯融國際;中首投資;安信;中融金業',
'新華都;三江購物', '', '瑞波幣;恆星幣;萬維幣;通盛幣;珍寶幣;富豪幣;萬福幣;吉祥幣;視界鏈;農業鏈;天使鏈;流量魔石;金元幣;西遊鏈;高興幣;電能鏈;lmc檸檬幣;kdc凱帝幣;csc炭匯幣;scc足球幣;綠鏈;acc防偽幣;fyb弗益幣;匯擇投資;正謙益;睿鑫寶;德愛社群;微韻文化;益路同行;山海經;融易通;特色三妹;至尊;阿川;星火草原;恩威商城;CNY金融互助;公益社群掌心眾扶;友錢寶;友義寶;影子銀行;智富寶;雲支付|雲付通;精神傳銷心靈培訓;億加互助;ICA;微韻文化;kdc凱帝幣;流量魔石;雲支付|雲付通;fyb弗益幣;智富寶;星火草原;萬福幣;德愛社群;公益社群掌心眾扶;天使鏈;scc足球幣;影子銀行;lmc檸檬幣;富豪幣;睿鑫寶;友義寶;吉祥幣;恩威商城;CNY金融互助;acc防偽幣;正謙益;金元幣;友錢寶;維卡幣;ICA;綠鏈;特色三妹;恆星幣;視界鏈;至尊;阿川;精神傳銷心靈培訓;益路同行;csc炭匯幣;農業鏈;珍寶幣;融易通;匯擇投資;通盛幣;馬克幣;山海經;億加互助;西遊鏈;萬維幣;高興幣;電能鏈',
'坤吉國際;EQR;FDEX;貴州國際交易中心;廣州西勃商品交易中心;創昇國際期貨;點牛融資融券;信捷策略;眾昇策略;時盛財匯;鼎點策略;錢盈配資;國金策略;嘉露國際;有富策略;東方匯盈;小金橘策略;紅牛策略;真牛科技;中航江南期貨;象嶼期貨;貝贏網;信誠資產;漲悅財金;海慧通;壹恆國際;鼎點策略;錢盈配資;順通線上;國金策略;嘉露國際;迅視資管;期權專車;桑傑股權;花旗資本;BKB;九州金服;中盟國際;中浙金控海博利;創輝國際;海南大宗;諾安期貨;路易澤;安信金控;百益策略;期貨大贏家', '', '易金融;麻袋財富', '理理財', '立刷', '錢保姆;分秒金融;飯飯金服;掌悅理財;黎明國際;金匯微金;一點金庫;金統貸;有融網', '零點礦工', '招財寶;香港安盛投連險;AsiaOne', '平安銀行;江蘇銀行;螞蟻財富;天天基金;陸金所;微交易;嘉合基金', '',
'覓信DEC', '積木盒子;錢來也;錢來也網路借貸;你我貸',
'諾德基金;中天證券;大同證券;山西證券', '廣州承興營銷管理有限公司;諾亞財富',
'恆利金業;FusianGallant;香港富贏通;高盛亞太;菲特爾國際;粒子金融;格蘭特;中泰期權;TRENDS;歐克斯;中首投資;優越投資;嘉晟財富;速匯國際;青島西海岸;豪根國際;保卓國際;Morse;火幣網;奧瑞國際;琥珀帝國;大贏家;星亙國際;富時羅素;嘉蘭待;法納金融;高盛亞太;大贏家期貨;香港優越投資中心;中元天頤;中遠期貨;香港富盈;寶丰國際;火幣網;CFEX;帕克金融;鼎和金控;火幣;中浙金控;彭義昆維權;富通國際;世紀金業;ATTEX', '領航國際資本', '前金融;陸金所;鏈鏈金融;房金所;中金貸;津融貸;車賺', '馬勝金融;普頓PTFX;普頓ptfx;聚寶金融;IGOFX;3M;PTPrutonMegaBerjangka;PrutonCapital', '沃爾克外匯;MMM金融互助;馬勝金融;亨英集團;HIIFX海匯國際;EA智慧交易;IGOFX;HYBX', '紅威投資;金融網;富利寶;豫之興資本;錢富通;競優理財;豐鼎金融;真信匯通;金財富;智慧理財;聚財;全域性金服;榕巨互金;資訊網;天誠財富;星通財富;梵豐投資;國有投資;德眾金融;吉盟財富;永利寶;億企聚財;花橙金融;理財網;吉農投資;儲信理財;火理財',
 '合創', '光子鏈PTN', '京東;蘇寧;唯品會;淘寶;考拉;權健;華林', '京東;蘇寧;唯品會;淘寶;考拉;權健;華林', '天貓;淘寶;京東;優品彙;全返通',
 '融創中國;摩根士丹利;德意志銀行;農銀國際', 'e租寶;錢寶網;江蘇聯寶', 'BitMEX', 'GEC',
 '夏商風信子;時福全球購;恆優國際;寶象商務中心;金淘惠源;沃洋優品;酩悅酒業;歐頌酒業;優傳保稅;跑街',
 '淘寶;京東;網易', '東方證券股份有限公司;花旗環球金融(亞洲)有限公司',
 '神州泰嶽投資;米莊理財;神州泰嶽;圖騰貸;沃時貸;米莊理財', '', 'A股頭條', '',
 '速匯國際;SpeedTrad;新華富時A50;德指DAX30;恆指HSI;泰達幣', '速通寶vpay',
 '悟空理財;晉商貸;銅板街;泰然金融;玖富;融牛線上;可溯金融;微貸網',
 '比特幣;萊特幣;無限幣;夸克幣;澤塔幣;燒烤幣;隱形金條', '優樂商城;淘優樂',
 '米缸金融;富管家;鑫聚天利;富盈;金理財;寧富盈;天安(貴州省)網際網路金融資產交易中心股份有限公司;北京航天浦盛科技中心;天安金交中心',
 '富管家;鑫聚-天利;天安金交所', '寒武創投;熠美投資', '紅嶺創投;PPmoney;樂享寶', '金融投資;風險投資;錢生錢',
 '萊次狗;摩拜鏈(MobikeChain);以太坊;遨遊;共生幣;CNHKC;CEC;ENE;共生幣;遨遊;摩拜鏈', '挖易',
 '玖富數科;友信智投;普惠金融;金融科技;宜人金科;友信金服', '雷達幣;雷達錢包;雷達支付', '未來星球', 'jojomarkets',
'西投控股;西安經開城投;西安城投(集團);西安曲江文化;長安信託;西安金控',
'遠特通訊;遠特喜牛;遠特;喜牛', '華霖財富管理股份有限公司;華霖金服',
'錢寶;百川幣;e租寶;聖商;中晉;e租寶;泛亞;鮮生友請', '伽滿優;富友支付;乾包網',
'伽滿優;富友支付;乾包網', '伽滿優;富友支付;乾包網', '策略通;牛股盈;新紀元期貨;花旗證券;廣匯大宗商品交易中心;貴州西部農產品交易中心;眾生策略;沃倫策;中陽期貨;巨集琳策略;股億訊;萊贏寶;金盛商貿;創投大師;芬吉;牛來了;掌互通;鼎盈信投;滬深689策略;國金策略;神聖策略;益達商城;壹恆國際;復興恆福;神谷策略;江蘇百瑞贏;眾達國際期貨;純手期貨;天興國際期貨;國人期投;超人國際;融盛線上;眾贏投顧;神聖策略;股易融;花旗證券;鴻運信投;眾生策略;財創期選;勁牛期權;華信策略;中訊策略;創期國投;順配寶;香港英聯策略', 'UnWallet', '小九花花', '眾贏;普惠金融;悟空理財;叮噹貸;玖富錢包',
 '小象金融;響噹噹;百仁貸;公眾理財;宜泉資本;信而富;99財富;一起理財;酷盈網;人人愛家', '小諸葛金服;芝麻寶金服;天農金融;有融網;狐小狸理財;城城理財;海星寶理財;易納理財;普益金服;財富中國;小灰熊金服;紅八財富;貸你盈;超人貸;台州貸;百金貸;浣熊理財;銀號理財;偉民金服;啄米理財;麻寶金服;天農金融;有融網;狐小狸理財;城城理財;海星寶理財;易納理財;普益金服;財富中國;小灰熊金服;紅八財富;貸你盈;超人貸;台州貸;百金貸;浣熊理財;銀號理財;偉民金服;啄米理財',
'', '', '中雲國際;E路商城', '京東金融;京東理財;小白理財;年年盈;月月盈;金理財;天天盈;幣基金', '獵金集團;獵金全民影視',
 '巨人理財;掌悅理財;一點金庫;央金所;利利金服;領奇理財;投米樂;領奇理財;一點金庫;利利金服;微米線上;掌悅理財;巨人理財;投米樂;微米線上', '宜信惠民投資管理', '以太雲', '', '寧波甬堅網路科技有限公司;麥穗金服;錢內助;三金線上;民信金服;利民網;巨如眾吧;搶錢通;金投手;壹萬木投資;寧海縣永堅混凝土有限公司;易麥理財',
 '金證科技;新大陸;興業數金;工銀科技;高偉達;國泰君安研究所;民生科技','仁遠資本;貝米錢包;東澤匯順發;人人貸', '啄米理財;快點理財;甬e貸;多米金融;壹佰金融;津啟寶;利魔方;溫州貸;招金貓;易貸線上', '富通環球投資;恆信環球投資;恆信國際;恆信貴金屬;恆信集團', '五星基金;華安策略', '你我貸;玖富普惠;宜人貸;微貸網', '有信錢包;芝麻分貸款', '花生日記;菜鳥;雲集微店;',
 '皮城金融;企查查;海寧民間融資服務中心;海寧皮城', '浙江謝志宇控股集團有限公司;杭州凱藍汽車租賃有限公司', '蘑菇街;飛豬旅行;俠侶聯盟;廈門俠網旅遊服務有限公司;廈門俠網旅遊服務有限公司', '道瓊斯指數;平安證券;HDI', '海貝國際;IGOFX平臺', '光大保德信鼎鑫基金;華泰期貨',
'MoreToken錢包;Coinone;Tokenstore錢包;BossToken錢包;智慧搬磚;BossToken;SecurityToken',
'玖富叮噹貸;馬上金融;招聯好期貸;小鯊易貸', '天津銀行;智聖金服;金融理財;全民理財;廣州智聖大健康投資有限公司', '智聖金服;金融理財',
'紅橙優選;微豪配資;恩聖威;MORSE;易信;新源財經;中北選買;嘉晟財富;恆利金業;ATTEX;優信外匯;速匯國際;威海中元天頤;AJPFX;中元天頤;中泰之星',
'信邦;中贏國際;白象國際;花旗;中瑞財訊;恆利金業;海利國際;嘉晟財富;新源財經優信外匯;環球金融;匯融國際;聚富策略;富通國際;速匯國際', '中信華睿;華安策略;福盛期權;杜德配資;WIRECADD;MALAFY;金田策略;;Helong和隆;銀島配資;世紀金業;鼎盈信投;信融期權;弘基金融;天臣配資;久聯優配;致富配資;鼎澤配資;涵星配資;鑫配資;鼎盈信投;信邦策略;百益策略;安信金控;CFX圓匯;格林期貨;鴻運信投;信邦策略;巨集觀策略;金多多配資;羅賓智投;信溢國際;弘基金融;萬榮國際;多乾國際;合欣國際;EGML;環球金融;HATSKY;速達國際;中陽期貨;豐訊凱國際FDEX',
'華遠國際;撮合網;粒子金融;明道配資;長江期貨;佳銀融資融券;海南大宗商品交易中心;貴州國際商品交易中心;策略資本;穩贏策略;盈策略;川商聯宗商品;外匯投資;天元策略;聚富策略;環海陸港;匯融國際;領航配資;新紀元;廣州西勃商品交易中心;權金匯;東方財經;中遠期貨;誠信配資;方正國際;新源財經;艾利威;大連商品交易所;賽嶽恆配資;弘基金融;創期國投;盛贏期服', '“慧盈”理財;“家和盈”理財;“增盈”理財', '普信金服APP', '投哪網;麻袋財富;東方證券;桔子理財;微貸網;國信證券;小贏理財;分期樂;宜人貸;小贏錢包', '中金珠寶', 'P2B;微金融;芒果金融', '', '',
'股王配資;DBC幣;眾融眾投;新富金融;恆通國際;微交易;大東方國際商品交易集團;鑫匯環球;大東方國際商品交易集團;恆通國際微交易;DBC幣;新富金融;股王配資;眾融眾投;鑫匯環球',
'中航期貨;震泰國際;ainol艾諾;joso聚碩;tfyforex;國峰貴金屬',
'plustoken', '亞馬遜', 'brt房地產信託', '火幣;okex', '嘉盛', '沃客', 'okex', '愛福瑞',
'雲訊通;雲數貿;五行幣;善心匯;LCF專案;雲聯惠;星火草原;雲指商城;世界華人聯合會;世界雲聯;WV夢幻之旅;維卡幣;萬福幣;二元期權;雲夢生活;恆星幣;摩根幣;網路黃金;1040陽光工程;中綠資本;賽比安;K幣商城;五化聯盟;國通通訊網路電話;EGD網路黃金;萬達複利理財;MFC幣理財;微轉動力;神州互聯商城;綠藤理財;綠色世界理財;寶微商城;中晉系;馬克幣;富迪;萬通奇蹟;港潤信貸;CNC九星;世界雲聯;沃客生活;天音網路;萊匯幣;盛大華天;惠卡世紀;開心理財網;貝格邦BGB;FIS數字金庫;SF共享金融;DGC共享幣;易賺寶;豐果遊天下;天獅集團;薪金融;MGN積分寶;光彩幣;億加互助;GemCoin(珍寶幣);老媽樂']  # 對應id的修正實體
id_list = train_df['id'].tolist()
label_list = train_df['unknownEntities'].tolist()

for i, idx in enumerate(id_list):
    if idx in false_get_id :
        label_list[i] = repair_id_label[false_get_id.index(idx)]

# 修復過程中漏了幾個標籤,在這裡補上
label_list[2409] = '金融科技(Fintech)'
label_list[2479] = '玖富錢包;玖富數科集團;玖富錢包APP'
label_list[3596] = '盈盈理財;乾包網;臻理財;蝸牛線上'

(3)將處理後的資料重新儲存

train_df['unknownEntities'] = label_list
train_df = train_df[~train_df['unknownEntities'].isnull()]  # 刪除空標籤
train_df.to_csv('new_train_df.csv')
new_test_df = test_df[:]  # 測試集
new_test_df.to_csv('new_test_df.csv', encoding='utf-8', index=False)

(4)看一下句子長度的分佈

重新載入初步處理好的資料:

import pandas as pd
# 原始資料集
new_train_df = pd.read_csv('./new_train_df.csv', encoding='utf-8')
new_test_df = pd.read_csv('./new_test_df.csv', encoding='utf-8')
def count_text_len(text):
  return len(str(text))
new_train_df['text_len'] = new_train_df['text'].apply(count_text_len)

統計一下每個區間的長度的個數:

import numpy as np
bins = [0,100,500,1000,100000]
labels = ['0-100', '100-500', '500-1000', '1000以上']
tmp = pd.cut(new_train_df['text_len'],bins=bins, right=False, labels=labels)
new_train_df['長度'] = tmp
new_train_df.groupby(by=['長度'])['長度'].agg([('個數',np.size)])

看下總體描述:

最大長度是32212,最小長度是4,75%的資料長度在1357以下。

句子還是比較長的,我們需進分句處理:

def _cut(sentence):
    """
    將一段文字切分成多個句子
    :param sentence:
    :return:
    """
    new_sentence = []
    sen = []
    for i in sentence: # 遍歷句子中的每一個字,如果遇到以下的符號就進行分割
        if i in ['', '', ''] and len(sen) != 0: # 如果這些標點在句子中
            sen.append(i) # 
            new_sentence.append("".join(sen))
            sen = []
            continue
        sen.append(i)
    print(new_sentence)
    if len(new_sentence) <= 1: # 一句話超過max_seq_length且沒有句號的,用","分割,再長的不考慮了。
        new_sentence = []
        sen = []
        for i in sentence:
            if i.split(' ')[0] in ['', ','] and len(sen) != 0:
                sen.append(i)
                new_sentence.append("".join(sen))
                sen = []
                continue
            sen.append(i)
    if len(sen) > 0:  # 若最後一句話無結尾標點,則加入這句話
        new_sentence.append("".join(sen))
    return new_sentence
def cut_train_and_dev_set(text_list, label_list):
    cut_text_list = []
    cut_index_list = []
    cut_label_list = []
    for i, text in enumerate(text_list):
        if label_list[i] != '': # 先判斷標籤是否為空
            text_label_list = label_list[i].split(';')  # 獲取該條資料的實體列表
            temp_cut_text_list = []
            temp_cut_label_list = []
            text_agg = ''
            if len(text) < len_treshold: # 如果當前文字小於512,則直接新增
                temp_cut_text_list.append(text)
                temp_cut_label_list.append(label_list[i])
            else:
            
                sentence_list = _cut(text)  # 一條資料被切分成多句話

                for sentence in sentence_list:
                    if len(text_agg) + len(sentence) < len_treshold: 
                        text_agg += sentence # 當前這句話小於512則加上下一句話
                    else:
                        new_label = []  # 新構成的句子的標籤列表
                        for label in text_label_list:
                            if label in text_agg and label != '':
                                new_label.append(label) # 判斷標籤是否在這句話中,在則加入進來

                        if len(new_label) > 0:
                            temp_cut_text_list.append(text_agg)
                            temp_cut_label_list.append(";".join(new_label))

                        text_agg = sentence
                # 加回最後一個句子
                new_label = []
                for label in text_label_list:
                    if label in text_agg and label != '':
                        new_label.append(label)
                if len(new_label) > 0:
                    temp_cut_text_list.append(text_agg)
                    temp_cut_label_list.append(";".join(new_label))

            cut_index_list.append(len(temp_cut_text_list))
            cut_text_list += temp_cut_text_list
            cut_label_list += temp_cut_label_list

    return cut_text_list, cut_index_list, cut_label_list

刪除掉為Unname的那一列:

new_train_df = new_train_df.loc[:, ~new_train_df.columns.str.contains("^Unnamed")]
# 切分訓練集,分成訓練集和驗證集,在這可以嘗試五折切割
print('Train Set Size:', new_train_df.shape)
new_dev_df = new_train_df[4000:]
frames = [new_train_df[:2000], new_train_df[2001:4000]]
new_train_df = pd.concat(frames)  # 訓練集
new_train_df = new_train_df.fillna('')
new_test_df = new_train_df[:]  # 測試集

同樣的我們要對測試集也進行相應的劃分,這裡的測試集是沒有標籤的:

# 資料切分
def cut_test_set(text_list):
    cut_text_list = []
    cut_index_list = []
    for text in text_list:

        temp_cut_text_list = []
        text_agg = ''
        if len(text) < len_treshold:
            temp_cut_text_list.append(text)
        else:
            sentence_list = _cut(text)  # 一條資料被切分成多句話
            for sentence in sentence_list:
                if len(text_agg) + len(sentence) < len_treshold:
                    text_agg += sentence
                else:
                    temp_cut_text_list.append(text_agg)
                    text_agg = sentence
            temp_cut_text_list.append(text_agg)  # 加上最後一個句子

        cut_index_list.append(len(temp_cut_text_list))
        cut_text_list += temp_cut_text_list

    return cut_text_list, cut_index_list

五折劃分資料(可選)

from sklearn.model_selection import KFold
train_text_list = train_df['text'].values[:,None]
train_label_list = train_df['unknownEntities'].values[:,None]
kf = KFold(n_splits=5)
for train_index,dev_index in kf.split(train_text_list):
  train_x, dev_x = train_text_list[train_index], train_text_list[dev_index]
  train_y, dev_y = train_label_list[train_index], train_label_list[dev_index]

驗證切分是否正確:

"""
測試切分是否正確
"""
flag = True

for i, text in enumerate(train_cut_text_list):
    label_list = train_cut_label_list[i].split(';')
    for li in label_list:
        if li not in text:
            print(i)
            print(li)
            print(text)
            flag = False
            print()
            break
        if li == '':

            print(li)
            print(text)
            flag = False
            print()
if flag:
    print("訓練集切分正確!")
else:
    print("訓練集切分錯誤!")


flag = True
for i, text in enumerate(dev_cut_text_list):
    label_list = dev_cut_label_list[i].split(';')
    for li in label_list:
        if li not in text:
            print(i)
            print(li)
            print(text)
            print()
            flag = False

if flag:
    print("驗證集切分正確!")
else:
    print("驗證集切分錯誤!")

四、儲存資料

# 儲存切分索引
cut_index_dict = {'cut_index_list': cut_index_list}
with open(data_dir + 'cut_index_list.json', 'w') as f:
    json.dump(cut_index_dict, f, ensure_ascii=False)

dev_cut_index_dict = {'cut_index_list': dev_cut_index_list}
with open(data_dir + 'dev_cut_index_list.json', 'w') as f:
    json.dump(dev_cut_index_dict, f, ensure_ascii=False)


train_dict = {'text': train_cut_text_list, 'unknownEntities': train_cut_label_list}
train_df = pd.DataFrame(train_dict)

dev_dict = {'text': dev_cut_text_list, 'unknownEntities': dev_cut_label_list}
dev_df = pd.DataFrame(dev_dict)

test_dict = {'text': test_cut_text_list}
test_df = pd.DataFrame(test_dict)

print('訓練集:', train_df.shape)
print('驗證集:', dev_df.shape)
print('測試集:', test_df.shape)

# 構造訓練集、驗證集與測試集
with codecs.open(data_dir + 'train.txt', 'w', encoding='utf-8') as up:
    for row in train_df.iloc[:].itertuples():
        # print(row.unknownEntities)

        text_lbl = row.text
        entitys = str(row.unknownEntities).split(';')
        for entity in entitys:
            text_lbl = text_lbl.replace(entity, 'Ё' + (len(entity) - 1) * 'Ж')

        for c1, c2 in zip(row.text, text_lbl):
            if c2 == 'Ё':
                up.write('{0} {1}\n'.format(c1, 'B-ORG'))
            elif c2 == 'Ж':
                up.write('{0} {1}\n'.format(c1, 'I-ORG'))
            else:
                up.write('{0} {1}\n'.format(c1, 'O'))
        up.write('\n')

with codecs.open(data_dir + 'dev.txt', 'w', encoding='utf-8') as up:
    for row in dev_df.iloc[:].itertuples():
        # print(row.unknownEntities)
        text_lbl = row.text
        entitys = str(row.unknownEntities).split(';')
        for entity in entitys:
            text_lbl = text_lbl.replace(entity, 'Ё' + (len(entity) - 1) * 'Ж')

        for c1, c2 in zip(row.text, text_lbl):
            if c2 == 'Ё':
                up.write('{0} {1}\n'.format(c1, 'B-ORG'))
            elif c2 == 'Ж':
                up.write('{0} {1}\n'.format(c1, 'I-ORG'))
            else:
                up.write('{0} {1}\n'.format(c1, 'O'))

        up.write('\n')

with codecs.open(data_dir + 'test.txt', 'w', encoding='utf-8') as up:
    for row in test_df.iloc[:].itertuples():

        text_lbl = row.text
        for c1 in text_lbl:
            up.write('{0} {1}\n'.format(c1, 'O'))

        up.write('\n')

參考:https://github.com/ChileWang0228/Deep-Learning-With-Python/