PAT 基於詞頻的檔案相似度 (set) -- 解題報告

阿新 • • 發佈：2019-02-17

解題思路

每個檔案內的單詞存放到單獨的一個 set 中。詢問時直接遍歷其中一個 set（必須是 size 較小的那個，否則會超時在最後一個測試點），用 count() 查詢另一個 set 中存不存在這個單詞即可。做法類似 PAT 上另一道題目「集合相似度」（連示例輸出都幾乎是一樣的）。

參考程式碼

#include <cstdio>
#include <cstring>
#include <algorithm>
#include <set>
#include <string>
using namespace std;

int 
 main(int argc, char const *argv[]) {
    int n, m, a, b;
    char s[2000], tmp[2000];
    set<string> st[101];
    scanf("%d%*c", &n);
    for(int i=1; i<=n; ++i) {
        while(gets(s)) {
            if(!strcmp(s, "#")) break;
            int last = 0;
            for(int j=0; s[j]; ++j) {
                if 
(s[j]>='A' && s[j]<='Z') s[j] += 32;
                // 分割單詞，符合要求的存進 set
                if(s[j]<'a' || s[j]>'z') {
                    s[j] = 0;
                    strcpy(tmp, s+last);
                    last = j+1;
                    tmp[10] = 0;
                    if(strlen(tmp) >= 3 
) st[i].insert(tmp);
                }
            }
            strcpy(tmp, s+last);
            tmp[10] = 0;
            if(strlen(tmp) >= 3) st[i].insert(tmp);
        }
    }
    scanf("%d", &m);
    while(m--) {
        scanf("%d %d", &a, &b);
        int cnt = 0;
        set<string>::iterator it;
        // !important: 遍歷 size 較小的 set
        if(st[a].size() > st[b].size()) swap(a, b);
        for(it=st[a].begin(); it!=st[a].end(); ++it) {
            if(st[b].count(*it)) cnt++;
        }
        printf("%.1f%%\n", 100.0*cnt/(st[a].size()+st[b].size()-cnt));
    }

    return 0;
}

PAT 基於詞頻的檔案相似度 (set) -- 解題報告

解題思路每個檔案內的單詞存放到單獨的一個 set 中。詢問時直接遍歷其中一個 set（必須是 size 較小的那個，否則會超時在最後一個測試點），用 count() 查詢另一個 set 中存不存在這個單詞即可。做法類似 PAT 上另一道題目「集合相似度」（連

5-11 基於詞頻的檔案相似度（30分）

5-11 基於詞頻的檔案相似度 (30分) 實現一種簡單原始的檔案相似度計算，即以兩檔案的公共詞彙佔總詞彙的比例來定義相似度。為簡化問題，這裡不考慮中文（因為分詞太難了），只考慮長度不小於3、且不超過10的英文單詞，長度超過10的只考慮前10個字母。輸

【NLP】Python實例：基於文本相似度對申報項目進行查重設計

用戶 strip() 字符串執行原創這樣的 string 得到亂碼問題 Python實例：申報項目查重系統設計與實現作者：白寧超 2017年5月18日17:51:37 摘要：關於查重系統很多人並不陌生，無論本科還是碩博畢業都不可避免涉及論文查重問題，這也

影象處理之積分圖應用三（基於NCC快速相似度匹配演算法）

影象處理之積分圖應用三（基於NCC快速相似度匹配演算法）基於Normalized cross correlation(NCC)用來比較兩幅影象的相似程度已經是一個常見的影象處理手段。在工業生產環節檢測、監控領域對物件檢測與識別均有應用。NCC演算法可以有效降低光照對影象比較結果的影響。而

基於Word2Vec的相似度計算（python）

前言此篇文章的基礎知識部分總結了一些別人的文章解釋，環境為Windows10下的python3.5版本，需要的包為gensim。程式碼很簡要，不足之處請說明。一．背景知識1.1詞向量詞向量（word2vec）是一個將單詞轉換成向量形式的工具。可以把對文字內容的處理簡

PTAL2-005 集合相似度解題報告---set查詢

L2-005 集合相似度

基於編輯距離來判斷詞語相似度方法（scala版）

使用 ref ray 只需要 art 算法位置 spark else 詞語相似性比較，最容易想到的就是編輯距離，也叫做Levenshtein Distance算法。在Python中是有現成的模塊可以幫助做這個的，不過代碼也很簡單，我這邊就用scala實現了一版。編輯

基於使用者歷史位置的使用者相似度度量

1.概述定位獲取技術發展(GPS，GSM網路等)使人們可以方便地記錄他們用時空資料訪問的位置歷史。收集大量與個人的軌跡有關地理資訊，也給我們從這些軌跡中發現有價值的知識帶來了我們機遇和挑戰。在本文中，我們目的是基於他們的軌跡挖掘相似性使用者之間。這樣的使用者相似性對於個人

基於WMD（詞移距離）的句子相似度分析簡介

word2vec word2vec是隻有一個隱層的全連線神經網路,對語料中的所有詞彙進行訓練並生成相應的詞向量（Word Embedding）WI 的大小是VxN, V是單詞字典的大小, 每次輸入是一個單詞, N是設定的隱層大小。word2vec的模型通過一種神經網路語言模型（Neu

從零開始的文字TF-IDF向量構造和基於餘弦相似度的文字分類

一、任務需求 1、給定資料庫裡面的N行資料每行代表一篇文章，屬性分別是[id, title, summuary,content] ，從mysql資料庫獲取資料並生成DataFrame格式的資料，有兩列，分別是id 和con

基於神經網路的文字相似度計算【醫療大資料】

任務描述問句匹配是自然語言處理的最基本任務之一，是自動問答，聊天機器人，資訊檢索，機器翻譯等各種自然語言處理任務基礎。問句匹配的主要目的是判斷兩個問句之間的語義是否等價。判別標準主要根據主句（即提問者）所蘊含的意圖來判斷兩個語句是否等價，而不直接判斷兩個語句是否表達相

【NLP】Python例項：基於文字相似度對申報專案進行查重設計

作者：白寧超 2017年5月18日17:51:37 摘要：關於查重系統很多人並不陌生，無論本科還是碩博畢業都不可避免涉及論文查重問題，這也對學術不正之風起到一定糾正作用。單位主要針對科技專案申報稽核，傳統的方式人力物力比較大，且伴隨季度性的繁重工作，效率不高。基於此，單位覺得開發一款可以達到實用的

（NLP）基於分詞標籤的中文短文字相似度

基於分詞標籤的中文短文字相似度最近接觸到了一些關於中文短文字相似度的演算法，將它們總結在此：中文編輯距離基於詞頻的餘弦相似度 Python difflib github傳送門：https://github.com/gongpx20069/DIY

基於句子相似度的FAQ問答系統

總結一波我的專案之一，歷史久遠，要把它理清一下。 Introduce：日趨增多的網路資訊使使用者很難迅速從搜尋引擎返回的大量資訊中找到所需內容。自動問答系統為人們提供了以自然語言提問的交流方式，為使用者直接返回所需的答案而不是相關的網頁，具有方便、快捷、高效等特點。

基於pearson（皮爾遜）相似度的使用者推薦演算法

最近因為寫一些資料分析報告，把寫部落格的進度耽誤了一點，不過不要緊，我最近優化了一下做出的推薦演算法，用pearson相似度替換了歐氏距離相似度，優化了推薦演算法程式碼，另外將700多個使用者的推薦投資品迴圈計算了。先說一下pearson相似度： pearson相似度與

基於《知網》的詞彙語義相似度計算（上）（作者：劉群李素建）

基於《知網》的詞彙語義相似度計算劉群李素建 {liuqun,lisujian}@ict.ac.cn † 中國科學院計算技術研究所 ‡ 北京大學計算語言學研究所摘要：《知網》是一部比較詳盡的語義知識詞典。在基於例項的機器翻譯中，詞語相似度計算是一個重要的環節。不過

PathSim：異構資訊網路中基於元路徑的Top-K相似度搜索（一）

2018年到啦，祝大家新年快樂~~時間過得真快，一年又這樣匆匆過去了，回想2017年，我。。。確實也沒怎麼努力學習，我深刻檢討，所以，先立個flag，2018年，我要認真鑽研，順利畢業，找個好工作，恩！好了，閒話到此為止，下面進入正題~ 這篇部落格總結了異質

基於Lucene、TF-IDF、餘弦相似性實現長文字相似度檢測

什麼是TF-IDF TF-IDF(Term Frequency-Inverse Document Frequency)，漢譯為詞頻-逆文字頻率指數。 TF指一個詞出現的頻率，假設在一篇文章中某個詞出現的次數是n，文章的總詞數是N，那麼TF=n/N 逆文字頻率指數IDF一

基於CNN的人臉相似度檢測

人臉相似度檢測主要是檢測兩張圖片中人臉的相似度，從而判斷這兩張圖片的物件是不是一個人。在上一篇文章中，使用CNN提取人臉特徵，然後利用提取的特徵進行分類。而在人臉相似度檢測的工作中，我們也可以利用卷積神經網路先提取特徵，然後對提取的特徵進行利用。我們取fc7提取的409

L2-005 集合相似度（25 分) （STL——set）

-h line pin scripts 正整數判斷 gin can 們的鏈接：https://pintia.cn/problem-sets/994805046380707840/problems/994805070149828608 題目：給

PAT 基於詞頻的檔案相似度 (set) -- 解題報告

解題思路

參考程式碼

相關推薦