搜狗新聞原始資料處理

阿新 • • 發佈：2019-01-03

簡介：

下載的是搜狗新聞一個月版本的SogouCS.reduced，大約698M，包含128個txt檔案

主要處理包括：轉碼，提取content和URL

處理之前：

每個檔案中每條內容如下xml格式：

<doc>
<url>http://sports.sohu.com/20080627/n257795172_4.shtml</url>
<docno>215799a267c29427-71013306c0bb3300</docno>
<contenttitle>組圖：蕊蕊攔網薛明暴扣　陳忠和釋出會笑逐顏開</contenttitle 
>
<content>跳轉至：Ｒ常擔２６Ｎ依此盜驕潺１本┦奔洌對攏玻啡眨２００８年世界女排大獎賽第二週比賽繼續進行，在中國香港站的一場焦點大戰中，中國女排苦戰五局，以３－２（２５－１８、２５－２７、２１－２５、２５－２１、１５－１３）擊敗了不久前在瑞士女排精英賽３－１戰勝過自己的古巴女排，贏得中國香港站開門紅。圖為比賽精彩畫面。＃ㄔ鶉偽嗉：王燕芳）＞彩圖片</content>
</doc>

處理之後：

共：15類別。資料分佈不均勻，猜測和各類新聞熱度有關。

後續分析：

待補充

程式碼如下：

（1）包括轉碼和提取資料

# -*- coding: utf-8 -*- 


'''
該指令碼用於將搜狗語料庫新聞語料
轉化為按照URL作為類別名、
content作為內容的txt檔案儲存
'''
import os
import re
    
'''字元數小於這個數目的content將不被儲存'''
threh = 30

'''獲取原始語料資料夾下檔案列表'''
def listdir_get(path, list_name):
    """
    :desc: get data of raw data
    :input: data of dir, list of slice data path
    """
    for file in os.listdir(path):
        file_path  
= os.path.join(path, file)
        if os.path.isdir(file_path):
            listdir_get(file_path, list_name)
        else:
            list_name.append(file_path)


'''
#修改檔案編碼為utf-8
from chardet import detect
def code_transfer(list_name):
    for fn in list_name: 
        with open(fn, 'rb+') as fp:
            content = fp.read()
            codeType = detect(content)['encoding']
            content = content.decode(codeType, "ignore").encode("utf8")
            fp.seek(0)
            fp.write(content)
            print(fn, "：已修改為utf8編碼")
'''
def processing(list_name):
    
    '''對每個語料'''
    for path in list_name:
        print(path+'---start---')
        file = open(path, 'rb').read().decode("utf8")

        '''
        正則匹配出url和content
        '''
        patternURL = re.compile(r'<url>(.*?)</url>', re.S)
        patternCtt = re.compile(r'<content>(.*?)</content>', re.S)

        classes = patternURL.findall(file)
        contents = patternCtt.findall(file)

        '''將內容小於30的去除'''
        for i in reversed(range(contents.__len__())): 
            #如果是reversed (len(range(5))),這種索引是按從大到小的順序排列，
            #列表不要隨便刪除，python會自動增補，導致索引變少
            if len(contents[i]) < threh:
                contents.pop(i)
                classes.pop(i) 

        '''進一步取出URL作為樣本標籤'''
        for i in range(classes.__len__()):
            patterClass = re.compile(r'http://(.*?).sohu.com/', re.S)
            classi = patterClass.findall(classes[i])
            classes[i] = classi[0]
            
        '''按照URL作為類別儲存到處理後文件夾'''
        for i in range(len(classes)):
            file = data_original_path + '\\processed\\' + classes[i] + '.txt'
            with open(file, 'a+', encoding='utf-8')as f:
                f.write(contents[i]+'\n')
        print(path+'---success---')
   
if __name__=='__main__':
    print("----tast start----")
    #原始語料路徑
    data_original_path = "D:\\software_study\\nlp_data\\SogouCS.reduced\\"
    #data_original_path = './SogouCS.reduced/'

    #獲取檔案路徑
    list_name = []
    listdir_get(data_original_path,list_name)
    
    #修改編碼
    #code_transfer(listname)
    processing(list_name)
    
    print('----task success----')

（2）主要是轉碼，本人在實際中分開進行的

#-*- coding:utf-8 -*-
import os
from chardet import detect

data_original_path = "D:\\software_study\\nlp_data\\SogouCS.reduced"

'''生成原始語料資料夾下檔案列表'''
def listdir(path, list_name):
    """
    :desc: get data of raw data
    :input: data of dir, list of slice data path
    """
    for file in os.listdir(path):
        file_path = os.path.join(path, file)
        if os.path.isdir(file_path):
            listdir(file_path, list_name)
        else:
            list_name.append(file_path)

'''獲取所有語料'''
list_name = []

listdir('D:\\software_study\\nlp_data\\SogouCS.reduced\\',list_name)
print(list_name)
for fn in list_name:
    with open(fn, 'rb+') as fp:
        content = fp.read()
        codeType = detect(content)['encoding']
        content = content.decode(codeType, "ignore").encode("utf8")
        fp.seek(0)
        fp.write(content)
        print(fn, "：已修改為utf8編碼")

搜狗新聞原始資料處理

簡介：下載的是搜狗新聞一個月版本的SogouCS.reduced，大約698M，包含128個txt檔案主要處理包括：轉碼，提取content和URL 處理之前：每個檔案中每條內容如下xml格式： <doc> <url>http://sports.sohu.com/

spark 大資料搜狗測試資料SogouQ1.txt檔案格式問題說明

為了學習，從網上搞到了SogouQ1.txt,執行到rdd3.count()顯示了一堆亂碼懷疑編碼不對，使用em轉成utf-8ok了結果再執行rdd3.count()，又提示等等 Caused by: java.lang.NumberFormatException: F

RNN文字分類——從原始資料處理到預測類別標籤

這兩天做了一個小專案，是一個文因互聯文字分類的競賽題目，但已經過期了，只是使用它的資料做一下。本次使用的RNN+LSTM模型，最終訓練的正確率為87%，不過每次訓練正確率有些差別，並且還有很多可調引數沒有調整，只是當一個練手的了。由於訓練時間很長，完整的程式碼以

我的貓狗大戰資料集圖片缺失處理

前面找了一份540M的貓狗大戰的資料集，想使用這個資料集在小型資料集上從頭開始訓練一個卷積神經網路，使用了其中的2500個樣本，這個貓狗大戰的資料集總的是25000張圖片，所以在前面2500張圖片缺失的時候我就自己從後面的資料集中拷貝圖片補齊前面的，但是發現缺失圖片比較多，手動去查詢太麻煩，所以乾

對搜狗語料庫進行想要格式編碼的處理

1. 下載資料搜狗語料庫:http://www.sogou.com/labs/resource/cs.php,下載解壓. 2. 資料編碼處理在ubuntu環境下,編寫一個sh檔案: find ./ -type f -name "*.txt"|while read line;

深度學習訓練中關於資料處理方式--原始樣本採集以及資料增廣

好久沒有寫部落格，一直想重新調整自己的部落格，想盡可能寫的前後連貫一點，同時希望自己寫的更通熟易懂些，可是遲遲沒有動筆修改曾經的博文，哎，還是慢慢跟著自己的理解再修改之前的文章吧，今兒就寫寫關於深度學習訓練中最關鍵的一步，資料問題，也就是樣本庫的建立！來

資料庫讀取原始資料插入新表中，對處理原始資料的原則總結

在讀取原始資料的時候會有可能屬性名的名字與要建立的表的名字不符，這個時候就要為讀取到的資料重新命名屬性名。如果資料中存在中文，還要宣告資料庫的編碼。在原始表中可能會有重複資料，需要事先將重複資料進行刪除，然後再做其他處理。在設定主鍵的時候會發現有些資料的主鍵相同，但是其他屬性值不同，需要對已經插入

自學大資料：Hive基於搜狗搜尋的使用者日誌行為分析

前言 ”大資料時代“，“大資料/雲端計算”，“大資料平臺”，每天聽到太多的大資料相關的詞語，好像現在說一句話不跟大資料沾邊都不好意思說自己是做IT的。可能這與整個IT圈子的炒作也有關聯，某一個方面來看其實就是一營銷術語。很多朋友就想問，我想做大資料，但是沒有這個條件，沒有這

資料預處理：原始資料集，特徵數值化，特徵值數值化

原始資料集，特徵數值化在原始資料集中，feature是多種多樣的，為了方便處理，我們必須把feature數值化，而且還需要把特徵值數值化。示例： x=[[黃色,小,成人,用手打] ,[黃色,小,成人,用腳踩] ,[黃色,小,小孩,用手打] ,[黃色,小,小孩,用腳踩] ,[黃

資料預處理：原始資料集快速分類的方法，numpy的使用技巧，資料的row=mask的column

問題假如資料集有3類，怎麼把一個龐大的陣列集3類，放在不同的數組裡。分析首先龐大資料集分類，肯定不能一個一個遍歷，而且強烈避免個人的操作，需要藉助於numpy處理。示例資料集,可以看出資料集為3類，我們要x也分成3類 x = [[1,2],[2,9],[3,

[大資料] 搜尋日誌資料採集系統 flume+hbase+kafka架構（資料搜狗實驗室）

1 採集規劃說明： D1 日誌所在伺服器1 —bigdata02.com D2 日誌所在伺服器2 —bigdata03.com 日誌收集日誌收集日誌整合儲存到kafka 儲存到HBase 2版本 kafka kafka_2.11-0.10

演算法與資料結構——搜狗筆試題

演算法題 64：火眼金睛（搜狗筆試題）現在我們需要查出一些作弊的問答社群中的ID，作弊有兩種：1.A回答了B的問題，同時B回答了A的問題。那麼A和B都是作弊。2.作弊ID使用者A和作弊ID使用者B同時回答了C的問題，那麼C也是作弊。已知每個使用者的ID是一串

使用 ffmpeg 進行網路推流：拉流->解封裝->解碼->處理原始資料（音訊、視訊）->編碼->編碼->推流

簡要說明： 1、可拉流：rtmp、rtsp、http 2、可推流： #include "stdafx.h" extern "C" { #include "libavcodec/avcodec.h" #include "libavformat/avformat.h" #

Javascript操作剪下板資料（支援IE、Chrome、360、搜狗）

近日，專案上需要在WEB頁面上操作剪下板中的資料，經過一頓搜尋，終於找到了一個比較完美的解決辦法。當然，在實際應用時還要自行修改一下。經過測試，目前支援IE、Chrome、360、搜狗等瀏覽器，其它瀏覽器還未驗證。 <!DOCTYPE HTML PUBLIC "-/

搜狗輸入法體驗評測

界面用戶分享內容一個所想體驗天氣選擇搜狗輸入法體驗評測 1.用戶界面截圖：首先，左上有一個導航欄，對搜索的信息分門別類，我並不常用，所以他也沒有占據明顯的位置，右上是天氣和地點等，聊勝於無，中間是醒目的搜索框，簡潔明了 2.記住用戶選擇截圖

對現有輸入法進行評價——搜狗

效果比較 mage 向導自己軟件修改 com 滿足我現在使用的為搜狗輸入法：下面從四個角度來分析它的使用情況：在此聲明，僅屬於個人看法，沒有任何詆毀或打廣告的意思一、用戶界面： 1）搜狗的用戶導航可有多種選擇，顏色、樣式會定期更新，推出新產品，滿足大

49. 搜狗面試題：大數相乘算法

std margin -a pac string out none content ack 分析：大數能大到整形類型存儲不了。須要借助於其它的算法，來完畢乘法運算。能夠使用口算乘法的步驟來模擬乘法操作。例如以下：

IE與搜狗input 默認樣式

眼睛 logs 淺析 lan style 密碼框 .cn com shadow 在IE10 及以上input框會加上默認的X號，密碼框會加上小眼睛去掉的方法： ::-ms-clear,::-ms-reveal{ display:none; } 　在搜狗瀏覽

Ubuntu mate安裝搜狗輸入法

install 添加修復 sougou hat via ppa 比較 conf 學習使用linux不過兩周時間，換了3份發行版，體驗了red hat和devian陣營的版本。因為是給舊筆記本電腦安裝，而且自己是新手，還是選用了Ubuntu陣營的操作系統。Kylin系統是中

[ubuntu16.04]安裝搜狗輸入法

1.0 image 文件 .so pinyin amd64 cnblogs 重啟搜狗 1，搜狗輸入法下載： http://pinyin.sogou.com/linux/ 下載文件：sogoupinyin_2.1.0.0086_amd64.deb 2，安裝方法：（1）直接

搜狗新聞原始資料處理

簡介：

處理之前：

處理之後：

後續分析：

程式碼如下：

相關推薦