基於sklearn庫，搭建一個簡單的問答系統

阿新 • • 發佈：2018-12-24

第一部分：在這部分裡，首先需要去讀取給定的檔案，並把檔案裡的內容讀取到list裡面。這部分的任務主要需要檔案IO操作方面的基本知識。

# 讀取檔案
def read_corpus(file):
    with open(file) as f:
        list = []
        lines = f.readlines()
        for i in lines:
            list.append(i)
    return list
questions = read_corpus('./Question_combined.dat')
answers = read_corpus('./Answer_combined.dat')
assert len(questions)==len(answers), "問題和答案列表的大小不一樣，請檢查讀入資料是否有誤!"

第二部分：處理已有的字串資料，並把它們轉換成詞袋向量。這部分內容涉及到一些簡單的字串預處理技術（比如過濾掉一些沒用的字元、分詞等），還有就是基於sklearn的把字串轉換向量的過程。本部分的內容需要字串操作、分詞、詞袋模型相關的基礎知識。

import re
import jieba
from sklearn.feature_extraction.text import CountVectorizer

def filter_out_category(input):
    new_input = re.sub('[\u4e00-\u9fa5]{2,5}\\/','',input)
    return new_input

def filter_out_punctuation(input):
    new_input = re.sub('([a-zA-Z0-9])','',input)
    new_input = ''.join(e for e in new_input if e.isalnum())
    return new_input

def word_segmentation(input):
    new_input = ','.join(jieba.cut(input))
    return new_input

def conver2BOW(data):
    new_data = [] 
    for q in data:
        q = filter_out_category(q)  
        q = filter_out_punctuation(q)
        q = word_segmentation(q)
        new_data.append(q)
    vectorizer = CountVectorizer() 
    X = vectorizer.fit_transform(new_data)
    return vectorizer, X
vectorizer, X = conver2BOW(questions)

第三部分：對於使用者的新輸入，返回答案。這是最後一部分，也就是等我們建立完詞袋向量之後，我們就可以輸入一些新的問題，然後從庫中找出最合適的答案。這部分的任務涉及到餘弦相似度、簡單搜尋排序等方面基礎知識。

import numpy as np
def idx_for_largest_cosine_sim(input, questions):
    list = []
    input = (input.toarray())[0]
    for question in questions:
        question = question.toarray()
        num = float(np.matmul(question, input))
        denom = np.linalg.norm(question) * np.linalg.norm(input)
        cos = num / denom
        list.append(cos)

    best_idx = list.index(max(list))
    return best_idx

def answer(input):
    input = filter_out_punctuation(input)
    input = word_segmentation(input)
    bow = vectorizer.transform([input])
    best_idx = idx_for_largest_cosine_sim(bow, X)
    return answers[best_idx]

輸入問題，檢視結果

print(answer("誰知道網上找兼職工作的網站"))

搜尋結果如下：

這裡沒有對返回資料進行過清洗，否則體驗會更好一些…

原始碼及測試資料已上傳至git，點選這裡可直接檢視，有疑問的同學可提Issues或在部落格下方留言~

基於sklearn庫，搭建一個簡單的問答系統

第一部分：在這部分裡，首先需要去讀取給定的檔案，並把檔案裡的內容讀取到list裡面。這部分的任務主要需要檔案IO操作方面的基本知識。 # 讀取檔案 def read_corpus(file): with open(file) as f: list = []

在Linux中搭建一個簡單的dns伺服器 --------基於centos 6.5，以我做的一個實驗為例子。

Experimental environment： dns server : 192.168.200.254 http server :192.168.200.202 client :192.168.200.203 Experimental steps： fir

超詳細，新手都能看懂！使用SpringBoot+Dubbo 搭建一個簡單的分散式服務

Github 地址：https://github.com/Snailclimb/springboot-integration-examples ，歡迎各位 Star。目錄：使用 SpringBoot+Dubbo 搭建一個簡單分散式服務實戰之前，先來看幾個重要的概念

使用SpringBoot+Dubbo 搭建一個簡單的分散式服務，超詳細，新手都能看懂！

使用 SpringBoot+Dubbo 搭建一個簡單分散式服務實戰之前，先來看幾個重要的概念開始實戰之前，我們先來簡單的瞭解一下這樣幾個概念：Dubbo、RPC、分散式、由於本文的目的是帶大家使用SpringBoot+Dubbo 搭建一個簡單的分散式服務，所以這些概念我只會簡

Ubuntu Linux 搭建一個簡單的ftp伺服器，用於上傳和下載檔案

第一步，安裝軟體 $ sudo apt-get update $ sudo apt-get install vsftpd 第二步，修改配置檔案 $ sudo vi /etc/vsftpd.conf

如何搭建一個簡單的表白網站（Django，win10，雲伺服器，pycharm）

一、前言這個網站是我為商英176班的shiny寫的，2018年11月我已經深深喜歡上她了，打算在拍畢業照（2018.12.06）前跟她告白。由於專業上的自尊，我想用IT來告白。但是，一開始花了很多時間在python的GU

自己動手搭建一個簡單的基於Hadoop的離線分析系統之一——網路爬蟲

自己動手搭建一個簡單的基於Hadoop的離線分析系統之一——網路爬蟲之前對大資料頗感興趣，在學習了一個月的相關原理和應用後，感覺自己需要動手一個實戰專案來鞏固之前學到的東西，加之很早之前就接觸過一些爬蟲知識，因此利用手上現有的資源（一臺膝上型電腦）來搭建一個關於房屋租賃的簡

Netty學習：搭建一個簡單的Netty服務(JAVA NIO 類庫的非同步通訊框架)

http://wosyingjun.iteye.com/blog/2303296 Netty學習：搭建一個簡單的Netty服務 Netty 是一個基於 JAVA NIO 類庫的非同步通訊框架，它的架構特點是：非同步非阻塞、基於事件驅動、高效能、高可靠性和高可定製性。換句

從零開始搭建一個簡單的基於webpack的vue開發環境

都8102年了，現在還來談webpack的配置，額，是有點晚了。而且，基於vue-cli或者create-react-app生成的專案，也已經一鍵為我們配置好了webpack，看起來似乎並不需要我們深入瞭解。不過，為了學習和理解webpack解決了前端的哪些痛點，還是有必要從零開始自己

造輪子：搭建一個簡單的nodejs伺服器，從零開始搭建一個自用網站（0）

伺服器用的是阿里雲最早期的伺服器低配版本1Gcpu，512M記憶體，20G硬碟，1M頻寬，平常只是用來做測試，目前只處理業務邏輯，網站的設計上儘量避免佔用太多的頻寬，靜態檔案的儲存用的是阿里雲oss，100G空間，夠放視訊，圖片什麼的， html/js/c

基於Idea從零搭建一個最簡單的vue專案

轉載地址：https://www.jianshu.com/p/9c1d4f8ed068 基於Idea從零搭建一個最簡單的vue專案 node.js Node.js是一個Javascript執行環境(runtime)，釋出

第一篇、搭建前後端環境，開發一個簡單的登入功能

## 一、環境準備 + 作業系統：支援 macOS，Linux，Windows + 執行環境：建議選擇 LTS 版本，最低要求 8.x。 ## 二、快速初始化服務端eggjs專案 **Egg.js 為企業級框架和應用而生**，我們希望由 Egg.js 孕育出更多上層框架，幫助開發團隊和開發人員降低開發

基於ABP做一個簡單的系統——實戰篇：4.基於富文字編輯器，Razor模板引擎生成內容並匯出Word 填坑記錄

起因需求是這樣的，有一種協議需要生成，協議的模板是可配置的，在生成過程中，模板中的內容可以根據約定的標記進行替換（就像mvc的razor模板一樣）。生成後的內容還需要匯出成word或pdf。常見的使用場景比如租賃協議生成，郵件內容模板生成等等，不要傻傻的hard-code像‘#name#’這樣的標記了。

從第一次在家聽了一點小迪培訓寫起，搭建一個IIS服務器

htm 服務 asp環境 web管理信息 6.0 int win 結果今天回家終於考慮好了，學滲透。說做就做，開了電腦聽小迪培訓第二天，開頭說的是搭建IIS，我記得我那本書上有，但是書上的是XP。於是我百度了一下“WIN7下搭建IIS服務器”。搜索結果很詳細，有配圖，但

Tinyhttpd - 超輕量型Http Server，使用C語言開發，全部代碼只有502行(包括註釋)，附帶一個簡單的Client

net 事件驅動免費好評 lua ansi c tor 這一通過 - 2. Tinyhttpd tinyhttpd是一個超輕量型Http Server，使用C語言開發，全部代碼只有502行(包括註釋)，附帶一個簡單的Client，可以通過閱讀這段代碼理解一個 Htt

【轉】使用webmagic搭建一個簡單的爬蟲

class 直接了解 pid 個數粘貼 body 教程相關配置【轉】使用webmagic搭建一個簡單的爬蟲剛剛接觸爬蟲，聽說webmagic很不錯，於是就了解了一下。 webmagic的是一個無須配置、便於二次開發的爬蟲框架，它提供簡單靈活的API，只需少量代碼

搭建LAMP架構— 測試：搭建一個簡單的Discuz論壇

Linux LAMP Discuz 在前面三篇文檔中，我們分別完成了Apache、MySQL、PHP的安裝，現在讓我們玩個遊戲，在已經完成的LAMP上搭建一個簡單的Discuz論壇。軟件包同樣在我之前上傳的百度網盤中。編譯安裝Apache 編譯安裝MySQL 編譯安裝PHP 百度網盤軟件壓縮包

搭建一個簡單的Eureka程序

stc pen AD ont web容器 pid tap app 但是 Eureka集群主要有三個部分Eureka服務器，服務提供者，服務調用者簡單的來說就是服務提供者將服務註冊到Eureka服務器，服務調用者對其服務進行查找調用。 Eureka服務程序的搭建可參考官方文

python網絡編程基礎--socket的簡介,以及使用socket來搭建一個簡單的udp小程序

流程發送消息 lose 1.10 軟件搬運我們 arm 進程間 socket介紹： socket(簡稱套接字)，是進程間通訊的一個工具，他能實現把數據從一方傳輸到另一方，完成不同電腦上進程之間的通訊，它好比數據的搬運工。socket應用:不誇張來說，只要跟網絡相關的應

基礎項目構建，引入web模塊，完成一個簡單的RESTful API 轉載來自翟永超

web ron hello return 是否 word fun 結構 class 簡介在您第一次接觸和學習Spring框架的時候，是否因為其繁雜的配置而退卻了？在你第n次使用Spring框架的時候，是否覺得一堆反復粘貼的配置有一些厭煩？那麽您就不妨來試試使用Spring

基於sklearn庫，搭建一個簡單的問答系統

第一部分： 在這部分裡，首先需要去讀取給定的檔案，並把檔案裡的內容讀取到list裡面。這部分的任務主要需要檔案IO操作方面的基本知識。

輸入問題，檢視結果

相關推薦

第一部分：在這部分裡，首先需要去讀取給定的檔案，並把檔案裡的內容讀取到list裡面。這部分的任務主要需要檔案IO操作方面的基本知識。