尋找兩個檔案中相同的句子

阿新 • • 發佈：2019-02-02

先介紹問題描述：

已有兩個檔案a.dat和b.dat，每個檔案都包含若干行句子，現在需要你編寫python程式，來找到兩個檔案中相同的句子，完成：

1 將相同的句子列印到common.dat檔案中，每行一句

2 在控制檯打印出程式執行的時長，和相同句子的數量

演算法1：

採用迴圈查詢方法，執行結果為：總共2500個重複的句子，執行總時長：118.077s；

程式碼如下：

import time

fileA = ‘/***/f1.dat’
fileB = ‘/***/f2.dat’
fileC = ‘/***/common2.dat’


def findSameSents(file1, file2, file3):
    f1 = open(file1, 'r')
    fa = f1.readlines()
    f1.close()
    f2 = open(file2, 'r')
    fb = f2.readlines()
    f2.close()
    f3 = open(file3, 'wb')
    time1 = time.time()
    count = 0

    fc = [i for i in fa if i in fb]

    f3.writelines(fc)
    print len(fc)
    time2 = time.time()
    time3 = time2 - time1
    f3.close()
    print time3


if __name__ == '__main__':
    findSameSents(fileA, fileB, fileC)

演算法2:採用集合set，分別將兩個檔案讀入集合，求兩個集合的交集，並將交集寫入檔案common。交集的長度即為所求個數。執行結果：重複句子2500個，執行失常大大縮減至最快190ms。

程式碼如下：

import time

fileA = '/***/data/f1.dat'
fileB = '/***/data/f2.dat'
fileC = '/***/data/common3.dat'


def findSameSents(file1, file2, file3):
    f1 = open(file1, 'r')
    str1 = []
    str2 = []

    for line in f1.readlines():
        str1.append(line.replace('\n', ''))
    set1 = set(str1)
    f1.close()

    f2 = open(file2, 'r')
    for line in f2.readlines():
        str2.append(line.replace('\n', ''))
    set2 = set(str2)
    f2.close()

    set3 = set1 & set2
    print len(set3)
    f3 = open(file3, 'wb')
    for i in set3:
        f3.write(i)

    f3.close()


if __name__ == '__main__':
    time1 = time.time()
    findSameSents(fileA, fileB, fileC)
    time2 = time.time()
    print time2 - time1

演算法3:在演算法2的基礎上，對讀取檔案資料的處理方式進一步改進，下面是改進後的程式碼，改進後執行時間僅一步縮短至100ms左右。

def findSameSents(file1, file2, file3):
    set1 = set()
    set2 = set()

    with open(file1, 'r') as f1:
        for l in f1:
            set1.add(l)

    with open(file2, 'r') as f2:
        for l in f2:
            set2.add(l)

    set3 = set1 & set2
    print len(set3)

    with open(file3, 'wb') as f3:
        for i in set3:
            f3.write(i)

其中，關於演算法2中的f3.write(i)語句，為什麼沒有加入換行符，即f3.wriye(i + ‘\n’)就可以在寫入的檔案中自動換行的問題？通過單步除錯，得出如下原因，如下圖所示。

是因為，原來檔案中每行語句的末尾都包含有一個回車符\r和一個寫入的語句i裡面，而我剛開始在演算法2裡面，只是替換了其中的換行符\n，並沒有對回車符\r進行變換，所以寫入檔案的時候被行末的\r自動換行了。

尋找兩個檔案中相同的句子

先介紹問題描述：已有兩個檔案a.dat和b.dat，每個檔案都包含若干行句子，現在需要你編寫python程式，來找到兩個檔案中相同的句子，完成：1 將相同的句子列印到common.dat檔案中，每行一句2 在控制檯打印出程式執行的時長，和相同句子的數量演算法1：採用迴圈查詢方

linux 統計兩個檔案中相同或不同的行

檔案111： aaaaaaaaaabbb bbbbbbbbbbccc ccccccccccaaabbb aaaaaaaaaabbb ddddddddd 檔案222： aaaaaaaaaabbb sdgsdagdsa bbbbbbbbbbccc ds bbbbbbbbbbcc

Excel中篩選兩個表中相同的資料和快速填充一列的公式

將兩個工作表放在一個檔案中，使用if函式和countif函式判斷 =if(判斷條件countif(區域,條件),真值,[假值]) 例項 =if(countif(Sheet2!$A$1:$A$44,A2),"S","F") "$"的用法 A1相對引用 $A1絕對引用列 A$1絕對引用行 $A$1絕對引用行

orcale 查找出兩個表中相同欄位的不同的值minus

1.user表 SELECT user_id FROM OA_COMPANY_USER 2.專案表中投入過的人員 SELECT DISTINCT a.USER_ID FROM OA_COMPANY_USER a, OA_PM_PERSON_INPUT b WHERE a.

Excel檢索兩個表格中相同的資料

具體方法如下：首先建立Sheet1和Sheet2兩個表格，Sheet1和Sheet2兩個中各有姓名列，現在我們就來查詢Sheet1中的姓名是否與SHeet2中的重複 2.在Sheet1表格中輸入公式"=iferror(vlookup(A2,Sheet2!A:A,1,0),"F

java去除兩個陣列中相同的元素

import java.util.*; /** * 陣列去重 * <p> * Created by Cheung on 2016/4/14. */ public class Test01 { public static void main(String[] args)

JS獲取兩個陣列中相同的元素

<!DOCTYPE html> <html> <head> <meta charset="utf-8" /> <title></title> </head> <body> <

有兩個磁碟檔案A和B,各存放一行字母，要求把這兩個檔案中的資訊合併（按字母順序排列）

#include "stdio.h" main() { FILE *fp; int i,j,n,ni; char c[160],t,ch; if((fp=fopen("A","r"))==NULL) {printf("file A cannot be open

從主檔案中讀取n個子資料夾中的圖片（每一子檔案中有兩個資料夾，每兩個檔案中有18張圖片）

tic clc; clear all; close all; str = 'F:\shijie-test\test-finger\'; pt = dir(str); foldname = []; k = 0; for i = 1 : length(pt) ifstr

找出兩個字串中相同的詞語，返回一個分值

前言：由於筆者工作的需求，給定一個字串，需要從一堆字串中找出與其最相似的字串，網路的一些演算法發現跟自己的需求不匹配，於是自己寫了一個，話不多說，請看下文。目標：給定兩個字串，能將兩個字串中相同詞語的相似度返回一個分值。計分方式：分值跟次數的個數有關，具體

java對List去重並排序、如何快速地去掉兩個List中相同的部分

1：去重並排序 package twolist; import java.util.Collections; import java.util.Comparator; import java.util.HashMap; import java.util.Has

找出list中的不同元素、刪除兩個list中相同的物件

package com.test; import java.util.ArrayList; import java.util.Arrays; import java.util.Collections; import java.util.List; /** * *

找出兩個陣列中相同的元素，不排序直接兩次迴圈取出

import java.util.ArrayList; import java.util.HashMap; import java.util.List; public class Test{ /** * 獲取兩個整型陣列之間的重複元素集合 * @param a

模板函式的宣告和定義為何不能分開放在兩個檔案中?

首先明確：對普通函式來說，宣告放在標頭檔案中，定義放在原始檔中，其它的地方要使用該函式時，僅需要包含標頭檔案即可，因為編譯器編譯時是以一個原始檔作為單元編譯的，當它遇到不在本檔案中定義的函式時，若能夠找到其宣告，則會將此符號放在本編譯單元的外部符號表中，連結的時候自然

c++ 判斷兩個檔案是否相同

作者：MyLinChi 來源：CSDN 原文：https://blog.csdn.net/MyLinChi/article/details/53264342 程式很簡單，主要使用了一個freopen()函式。具體的用法是：函式名：freopen 宣告：FI

【字串操作】尋找兩個字串中的最大公共子串

*題目描述：請編寫一個函式，求2個字串的最長公共子串，n<20，字元長度不超過255. 例如有2個字串為： Name some local bus. local bus is high speed I/O bus close to

替換兩個路徑中相同檔名的圖片的批處理

先貼上批處理@echo off :: 拷貝檔案批處理 :: 想法是：比較目標路徑和批處理路徑(%~dp0)中如果 :: 有相同的檔案，則從批處理路徑拷貝到目標路徑。 :: 設想用if/else來實現 :: ++++++++++++++++++++++++++++++++++

java快速比較兩個檔案是否相同

像百度網盤有秒傳的功能，其實他的原理主要是比較需要上傳的檔案和網盤中的檔案是否一樣，如果不一樣則上傳，如果一樣就沒必要上傳檔案，只是將網盤中的檔案指向你的使用者名稱即可，從而實現了秒傳。通過計算檔案

C語言如何在兩個檔案中訪問同一個全域性變數

方法一：不使用標頭檔案。 1.c 中 int var; 2.c 中 extern int var; 方法二：使用標頭檔案. 1.c 中 int var; 不必新增#include "1.h" 1.h 中 extern int var; 2.c 中新增 #include

python 判斷兩個列表中相同和不同的元素

列表直接 code 數據返回 pytho style exce print 背景：在做接口自動化時，通常會判斷接口返回中的數據信息，與數據庫中返回的數據信息是否一致，比如：將接口返回信息的用戶姓名存放到一個列表中，將數據庫返回的用戶姓名存放到另一個列表中，這時需要判斷

尋找兩個檔案中相同的句子

相關推薦