用Python3對QQ匯出的文字聊天記錄進行整理。

阿新 • • 發佈：2019-02-11

三個月沒看QQ群了。

群裡有同學分享的近期答辯注意事項，於是乎想把近期QQ聊天記錄從頭到尾過一遍。

匯出聊天記錄文字，發覺上萬行的文字，這麼讀效率有點低，所以用python整理了一下。

這個是整理前的（手機端QQ聊天記錄匯出後的txt檔案）：

這個是整理後的：

附上程式碼：

2016.12.2 加了個自動換行的程式碼，避免單行過長。

2018.1.30 根據lch1251680944、qq_20408711反饋，修正正則表示式

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import re
import codecs


script_name = "QQ聊天記錄整理"

# 1、通過正則語句，提取出所有的記錄頭和記錄內容兩個陣列。一條記錄頭對應一條記錄內容，所以兩個陣列長度應該相等。
# 2、處理記錄內容
#     2.1、windows的換行為'\r\n'，單'\n'體現不出換行效果。手機端匯出的記錄有的換行是\n，需要替換一下。
#     2.2、記錄頭放在了每條記錄末行後面，為了記錄頭整齊美觀，需要計算一下記錄頭前補多少空格。windows記事本顯示中文字元佔兩格，英文佔1格，而python中文字元長度是卻是1，如果想要顯示整齊，還需要計算一下，然後補齊空格數。補齊後記錄頭距離行首位置為100的整數倍。
# 3、讀和寫檔案的時候注意編碼轉換



def length_w(text):
    '''計算字串在windows記事本中的實際顯示長度'''
    # 取文字長度，中文按2格計算。
    length      = len(text)                          # 取其長度(中文字元長度為1，英文1)
    utf8_length = len(text.encode('utf-8'))          # 取其長度(中文長3，英文1)
    length      = int((utf8_length-length)/2)+length # 按(中文2英文1)計算長度
    
    # 這個寫法實際上還是有問題的，有些特殊字元會導致計算長度和實際顯示長度不一致。所以下面計算換行問題的程式碼中換了另一種寫法，避免因特殊字元導致每行實際顯示長度超出限定值，雖然還是不精確，但是不會超出限定值。
    # 比如：
    # '°'在記事本中顯示佔2格，b'\xc2\xb0'utf-8編碼長度為2。
    # '�'在記事本中顯示佔1格，b'\xef\xbf\xbd'utf-8編碼長度為3。
    # ''在記事本中顯示佔2格，b'\x01'utf-8編碼長度為1。（特殊字元無法顯示）
    # 至於特殊'\t'製表符最好最開始就用四個空格替換掉，避免其自動縮排帶來的影響
    
    return length

def chinese_linefeed(text,limit):
    '''中英文混合排版，限制單行長度，超出長度換行'''
    text_format= '' # 結果變數，初始化
    text = text.replace('\t','    ')
    text = text.replace('\r\n','\n')
    text_arr = text.split('\n') # 按行分割文字
    for line in text_arr:
        # 逐行處理
        text_format+='\r\n'
        num = 0 # 長度計數變數，初始化
        for i in line:
            # 從該行第一個字元起計算長度
            # 中文長度為2
            # asc2碼(英文及其字元等)長度為1
            # 其他長度為2（一些特殊）
            if i >= u'\u4e00' and i <= u'\u9fa5':
                char_len=2
            elif i >= u'\u001c' and i <= u'\u00ff':
                char_len=1
            else:
                char_len=2
            # 累計長度小於limit，直接儲存至結果變數，計數變數累加
            # 累計長度大於limit，換行後再儲存，計數變數重置
            if num+char_len<=limit:
                text_format+=i
                num+=char_len
            else:
                text_format+='\r\n'+i
                num=char_len
    return text_format.strip()

# QQ聊天記錄手機端匯出文字
filepath = r'C:\Users\waterd\Desktop\QQ群聊天記錄.txt'

# 讀取檔案
fp = codecs.open(filepath,'r','utf-8')
txt = fp.read()
fp.close()

re_pat = r'20[\d-]{8}\s[\d:]{7,8}\s+[^\n]+(?:\d{5,11}|@\w+\.[comnet]{2,3})\)'  # 正則語句，匹配記錄頭
log_title_arr = re.findall(re_pat, txt) # 記錄頭陣列['2016-06-24 15:42:52  張某(40**21)',…]
log_content_arr = re.split(re_pat, txt) # 記錄內容陣列['\n', '\n選修的\n\n', '\n就怕這次…]
log_content_arr.pop(0)                  # 剔除掉第一個（分割造成的冗餘部分）

# 陣列長度
l1 = len(log_title_arr)
l2 = len(log_content_arr)
print('記錄頭數: %d\n記錄內容: %d'%(l1,l2))

if l1==l2:
    # 整理後的記錄
    log_format = ''
    
    # 開始整理
    for i in range(0,l1):

        title       = log_title_arr[i]                   # 記錄頭
        content     = log_content_arr[i].strip()         # 刪記錄內容首尾空白字元
        content     = content.replace('\r\n','\n')       # 記錄中的'\n'，替換為'\r\n'
        content     = content.replace('\n','\r\n')
        content     = chinese_linefeed(content,100)      # 每行過長自動換行
        lastline    = content.split('\r\n')[-1]          # 取記錄內容最後一行
        length      = length_w(lastline)                 # 取其長度
        space = (100-(length%100))*' ' if length%100!=0 else ''# 該行記錄頭前補空格，變整齊為100整數倍；餘數為0則不用補空格
        log_format += content + space + '['+title+']\r\n'# 拼接合成記錄

    # 寫到檔案
    fp = codecs.open(filepath+'format.txt','w','utf-8')
    fp.write(log_format)
    fp.close()

    print("整理完畢~^_^~")
else:
    print('記錄頭和記錄內容條數不匹配，請修正程式碼')

用Python3對QQ匯出的文字聊天記錄進行整理。

三個月沒看QQ群了。群裡有同學分享的近期答辯注意事項，於是乎想把近期QQ聊天記錄從頭到尾過一遍。匯出聊天記錄文字，發覺上萬行的文字，這麼讀效率有點低，所以用python整理了一下。這個是整理前的（手機端QQ聊天記錄匯出後的txt檔案）：這個是整理後的：附上程

電腦用js呼叫QQ客服聊天阿星小棧

第一種是連結的方式: 注:target=”_blank”在a標籤加上這個,如果對方不線上會提醒開啟qq,如果對方線上會提示新增好友頁面如果a標籤不加target=”_blank”,彈框會閃退 window.location.href = "http://w

用python3對資料庫mysql進行建立庫、表、增刪改查操作

import pymysql import sys # python mysql 建立庫、表增刪改查標準語句 print('----------------------------') print('載入mysql模組完成') con = pymysql.connect(ho

學生類，含學生姓名與成績，用友元函式訪問私有成員，對兩個物件的成績進行比較。（2018.9.19 c++作業）

定義兩個物件，與一個友元函式（使用c++中引用傳遞的方式，實現引數的傳遞） #include using namespace std; class student { private: char name[20]; float grade; public: s

使用MapReduce對Hadoop下的日誌記錄進行分析處理

一. 簡介 MapReduce是一個高效能的批處理分散式計算框架，用於對海量資料進行並行分析和處理。與傳統方法相比較，MapReduce更傾向於蠻力去解決問題，通過簡單、粗暴、有效的方式去處理海量的資料。通過對資料的輸入、拆分與組合（核心），將任務分配到多個節點伺服器上，進

利用Python3對網易的某個話題進行爬取並儲存圖片到本地

__author__ = 'tom' import urllib.request import json import time baseDir = '/Users/tom/netease/{0}' request = 'http://url.163.com/{0}

資料表記錄包含表索引和數值，請對錶索引相同的記錄進行合併，即將相同索引的數值進行求和運算，輸出按照key值升序進行輸出。輸入描述: 先輸入鍵值對的個數然後輸入成對的index和value值，以

輸入描述: 先輸入鍵值對的個數然後輸入成對的index和value值，以空格隔開輸出描述: 輸出合併後的鍵值對（多行）import java.util.Scanner; public class Main { public static void main(

Qt 對QTextEdit的文字編輯器進行查詢操作

具體效果是~~~ like 被高亮顯示出來~~~~~~~~ 具體的程式碼就是void MainWindow::show_findText() { QString findtext=f

all(iterable) any(iterable) 對可叠代對象的每個元素(分子)進行判斷。

結果字符 () 元組列表叠代 all bool iterable 叠代元素：元組、列表結果為真：數值：非0，字符：非空，bool: True. any() 只要可叠代元素的任何一個元素為真，結果為真。叠代元素為空，結果為假。存在元素，每個元素bool結果相或。不存在

Scala--Spark將某網站的爬蟲記錄進行整理

設計思路： 1.將ip截取出來（多種方式）用map組成二元組（注意區分map，flatmap）將相同ip出現次數統計出來分析得出爬蟲ip 2.將多次重複ip且訪問密集的設為訪問黑名單 3.將同一時間訪問某網站的ip整理出來 package Test1225 import org.

P51.2編寫一個程式，對使用者錄入的產品資訊進行格式化。

編寫一個程式，對使用者錄入的產品資訊進行格式化。 #include<stdio.h> int main(void) { int mm, dd, yyyy, a; double b; printf("Enter item num

使用正則表示式對xml檔案中資料字典進行整理

在工作中，需要對xml檔案中資料字典進行整理。 SQL> create table t1(text varchar2(4000)); 表已建立。 SQL> insert into t1 values(' <enumeration id

用python對我和女票的聊天記錄生成心形詞雲

前言最近看到一些利用python製作詞雲的教程，突然想到用自己和女友的聊天記錄做一個詞雲，看看平時我倆最常說的都是啥，然後用愛心的形狀展示出來，以下是成品: 由於匯出的記錄只有最近兩個星期的，再加上這兩個星期我女票她都在備考，因此聊天內容並不是特別多，

怎樣查詢華為p10的QQ聊天記錄

怎樣查詢華為p10的QQ聊天記錄畢竟現在交流溝通都是依靠手機了，QQ，微信可以說算是我們最常用的溝通交流工具了。大大小小的事都是通過它們來傳遞交流的。這畢竟是一款軟件，過多的數據存儲，會導致手機本身的運行減緩，那如果QQ聊天記錄被刪除了該怎麽查看呢？有沒有一款簡單查看器呢？在網上找

騰訊QQ的聊天記錄中的圖片記錄造假

手機 file 圖片說明 clas 獲得一個bug 其中 mmm 　　前不久和朋友在群裏聊天時，突然出現了一個BUG，就是一個群友發了A圖片，但在我這邊顯示得卻是B圖片。當時就猜測，騰訊為了節省流量或者手機資源的原因，給每一張圖片弄了個唯一ID，遇到相同ID的就直接從本

python3-對某目錄下的文字檔案分詞

from pathlib import Path import os import re pathName='./' fnLst=list(filter(lambda x:not x.is_dir(),Path(pathName).glob('**/*.txt'))) print(fnLst) for fn

React 折騰記 - (7) 基於React+Antd封裝聊天記錄(用到memo,lazy, Suspense)這些

前言在重構的路上,總能寫點什麼東西出來這東西不復雜,丟出來,一方面當做筆記,一方面可以給有需要的人; 用到技術點: css module: 包括內建的繼承特性,類似less的巢狀寫法那種用到的react 16.6特性 lazy, Suspense來實現子元件的懶載入

React 折騰記 - (7) 基於React+Antd封裝聊天記錄(用到React的memo,lazy, Suspense這些)

前言在重構的路上,總能寫點什麼東西出來 , 這元件並不複雜,放出來的總覺得有點用處一方面當做筆記,一方面可以給有需要的人; 有興趣的小夥伴可以瞅瞅… 效果圖實現的功能渲染支援圖片,文字,圖文支援刪除條目(並給予父回撥)

小米手機QQ聊天記錄如何還原

相信不少朋友還在使用QQ軟體吧，雖然現在有許多的聊天軟體出現，但我覺得QQ是陪伴最久的那個。自然就會有點小感情了，QQ裡有著許多的聊天記錄，一旦誤刪了該怎麼恢復呢？下面小編帶大家一起來看看簡單的恢復方法吧。具體操作步驟如下：第一步：首先我們可以在手機應用市場或者瀏覽器中找尋“極速資料恢復”這款恢復工具，下載

最詳細的的手機QQ聊天記錄恢復方法

QQ聊天記錄丟失了怎麼辦？人往往是這樣子的，QQ聊天記錄還儲存在手機上的時候，不重視也不珍惜，當QQ聊天記錄莫名其妙的從手機上被刪除了，這時候才覺得QQ聊天記錄是多麼珍貴。想要盡力去找回QQ聊天記錄。那麼怎麼樣才能將刪除的QQ聊天記錄進行恢復呢？找回刪除的QQ聊天記錄也不是難事，下面給大家分享QQ聊天記錄的恢

用Python3對QQ匯出的文字聊天記錄進行整理。

相關推薦