多執行緒提速

阿新 • • 發佈：2020-10-22

對於請求反饋使用執行緒來提速

"""
    Function: get similarity query
    Author: dengyx
    DateTime: 20201019
"""
import jieba
import time
import tqdm
import threading
import queue
import numpy as np
from gensim.models import KeyedVectors
import logging
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s 
', level=logging.INFO)
from utils.soaring_vector.soaring_vector.soaring_vector import SoaringVectorClient, IndexType, FieldType, IndexData, SearchQuery, Vector, FloatVector

client = SoaringVectorClient("172.16.24.150", 8098, 1000)
print("health : ", client.health())

index_name = "seo-query-v10dim"
if client.exist(index_name):
    api_index  
= client.get(index_name)
    print(index_name + " is exist")
else:
    schema = {'query': FieldType.STRING_TYPE, 'id': FieldType.STRING_TYPE}
    api_index = client.create(index_name, "query search match", IndexType.FloatFlatIP, 'query', schema, 10, thread=12)
    client.set_alias(index_name, "seo-phrase-match 
")

print(api_index.info)


class QuerySimilarity(object):
    def __init__(self,):
        # self.query_path = r'data/test.txt'
        self.query_path = r'data/seo_search_word_copy.txt'
        self.w2c_path = r'resources_10dim/word2vec.model'
        self.query_features = r'resources/features.pkl'
        self.tables = r'resources/hashtables.pkl'
        self.table_num = 3
        self.Hashcode_fun = 6
        self.query2id = {}
        self.thread_num = 8

        print('載入詞向量...')
        t1 = time.time()
        self.model = KeyedVectors.load(self.w2c_path, mmap='r')
        t2 = time.time()
        print('詞向量載入時間：{:.2f}s'.format(t2-t1))
        with open(self.query_path, 'r', encoding='utf8') as fr:
            self.content = fr.readlines()

        for each in self.content:
            item = each.strip().split('\t')
            query_id = item[0]
            query = item[-1]
            self.query2id[query] = query_id

    def cosine_sim(self, x, y):
        num = x.dot(y.T)
        denom = np.linalg.norm(x) * np.linalg.norm(y)
        return num / denom

    def feature_extract(self, query):
        """ word -> feature
        :param query:
        :return:
        """
        vec = []
        tokens = jieba.lcut(query)
        for word in tokens:
            if word in self.model:
                vec.append(self.model[word])
            else:
                vec.append([0]*10)
                # print('{}\n{}\n{} not in word2vec'.format(query, tokens, word))
        vec = np.array(vec)
        mean_vec = np.mean(vec, axis=0)
        if len(mean_vec) != 10:
            print('向量緯度不是100')
        return mean_vec

    def upload_data(self):
        """ clean segment stopwords
        :return:
        """
        self.counter = 0
        # self.query2id = {}
        data_map_buffer = dict()
        for each in self.content:
            item = each.strip().split('\t')
            query_id = item[0]
            query = item[-1]
            # self.query2id[query] = query_id
            current_feature = self.feature_extract(query)
            vector = self.l2_norm(current_feature).tolist()
            data = {'query': query, 'id': query_id}
            data_map_buffer[query] = IndexData(data, vector)
            if len(data_map_buffer) > 1000:
                api_index.put(data_map_buffer)
                self.counter += len(data_map_buffer)
                data_map_buffer = dict()
                logging.info('put ' + str(self.counter))
        if len(data_map_buffer) > 0:
            api_index.put(data_map_buffer)
            self.counter += len(data_map_buffer)
            logging.info('put ' + str(self.counter))
            data_map_buffer = dict()
        print('資料上傳完成')

    def l2_norm(self, m):
        dist = np.sqrt((m ** 2).sum(-1))[..., np.newaxis]
        m /= dist
        return m

    def download(self):
        with open(self.query_path, 'r', encoding='utf8') as fr:
            content = fr.readlines()
            new_content = []
            for each in tqdm.tqdm(content):
                each_item = each.strip().split('\t')
                phrase = each_item[-1]

                api_vector = dict(api_index.get(phrase).data.vector.vector).get(phrase).floatVector.values
                query = SearchQuery(vector=Vector(floatVector=FloatVector(values=api_vector)))
                res = api_index.search(query, 0, 40)
                line = ''
                for ret in res.result:
                    items = sorted(ret.item, key=lambda v: v.score, reverse=True)
                    for item in items[1:31]:
                        line += self.query2id[item.key] + '，'
                to_save = each.strip() + '\t' + line[:-1] + '\n'
                new_content.append(to_save)

        save_path = r'data/query_top30_20201021.txt'
        with open(save_path, 'w', encoding='utf8') as fw:
            fw.writelines(new_content)
        print('資料儲存成功:{}'.format(save_path))

    def run(self, q, fw):
        while True:
            if q.empty():
                return
            else:
                sample = q.get()
                each_item = sample.strip().split('\t')
                phrase = each_item[-1]
                api_vector = dict(api_index.get(phrase).data.vector.vector).get(phrase).floatVector.values
                query = SearchQuery(vector=Vector(floatVector=FloatVector(values=api_vector)))
                res = api_index.search(query, 0, 40)
                line = ''
                # result = []
                for ret in res.result:
                    items = sorted(ret.item, key=lambda v: v.score, reverse=True)
                    for item in items[1:31]:
                        line += self.query2id[item.key] + '，'
                        # result.append(item.key)
                to_save = sample.strip() + '\t' + line[:-1] + '\n'
                # print(result)
                # print(to_save)
                print(each_item[0])
                fw.write(to_save)

    def main(self, data_path):
        q = queue.Queue()
        save_path = r'data/query_top30_20201022.txt'
        fw = open(save_path, 'a', encoding='utf8')

        # split_num = 250000
        # with open(self.query_path, 'r', encoding='utf8') as fr:
        #     content = fr.readlines()
        #     for i in range(0, len(content), split_num):
        #         split_data = content[i:i+split_num]
        #         with open('data/split_data/group_{}.txt'.format(i), 'w', encoding='utf8') as fw:
        #             fw.writelines(split_data)

        with open(data_path, 'r', encoding='utf8') as fr:
            content = fr.readlines()
            for d in tqdm.tqdm(content):
                q.put(d)
            print('資料放入佇列完畢')
        t1 = time.time()
        threads = []
        print('資料預測中...')
        for i in range(self.thread_num):
            t = threading.Thread(target=self.run, args=(q, fw))
            threads.append(t)
        for i in range(self.thread_num):
            threads[i].start()
        for i in range(self.thread_num):
            threads[i].join()
        t2 = time.time()
        print('處理速度：{:.4f}sample/s'.format(len(content)/(t2-t1)))
        print('資料寫入完畢')


# Press the green button in the gutter to run the script.
if __name__ == '__main__':
    data_path = r'data/seo_search_word_copy.txt'
    qs = QuerySimilarity()
    qs.main(data_path)
    # qs.upload_data()

多執行緒提速

對於請求反饋使用執行緒來提速 \"\"\" Function: get similarity query Author: dengyx DateTime: 20201019

網盤多執行緒提速下載利器：JDownloader 2 for Mac(v2.0.44678中文版）

JDownloader 2 Mac版是一款非常受歡迎的高速下載軟體。JDownloader 2 for Mac擁有常規的下載以外，還支援百度雲等網盤的高速下載。速度非常不錯，更支援中文，若您嫌棄平時下載速度太慢，不妨試試JDownloader 2 Mac

網盤多執行緒提速下載利器：JDownloader 2 for Mac(v2.0.44704中文）

網盤多執行緒提速下載利器：JDownloader 2 for Mac(v2.0.44759中文版）

如何讓爬蟲提速？多執行緒爬蟲一秒50圖瞭解一下

前言本文的文字及圖片來源於網路,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯絡我們以作處理。

總結：iOS中多執行緒的經典崩潰

前言 iOS崩潰是讓iOS開發人員比較頭痛的事情，app崩潰了，說明程式碼寫的有問題，這時如何快速定位到崩潰的地方很重要。除錯階段是比較容易找到出問題的地方的，但是已經上線的app並分析崩潰報告就比較麻煩了。

阿里、位元組：一套高效的iOS面試題（八 - 多執行緒 GCD）

多執行緒擼面試題中，文中內容基本上都是搬運自大佬部落格及自我理解，可能有點亂，不喜勿噴！！！

iOS | 面試知識整理 - 多執行緒 (六)

前言: 最近公司專案不怎麼忙,閒暇時間把iOS 在面試中可能會遇到的問題整理了一番,一部分題目是自己面試遇到的,一部分題目則是網上收錄的,方便自己鞏固複習,也分享給大家! 知識點比較多,比較雜,這裡做了分類,下面是分

Java 多執行緒基礎（二）

簡介在上篇 Java 多執行緒基礎（一）我們提到了一些執行緒的常用方法，這篇我們具體看看其中一些方法的使用以及方法的區別，讓我們在工作中更好的使用。

.NET進階篇06-async非同步、thread多執行緒2

知識需要不斷積累、總結和沉澱，思考和寫作是成長的催化劑內容目錄一、執行緒Thread

面試中經常被JAVA多執行緒虐的看過來！

前言 Java多執行緒即時面試中進行被問及到的高階知識點，也是衡量一名Java程式設計師是否資深的關鍵標準之一。今天這篇文章作者將對Java多執行緒進行一次全面的總結，希望能夠對各位朋友進一步理解Java多執行緒起到幫

2019百度阿里Java面試題（基礎+框架+資料庫+分散式+JVM+多執行緒）

前言很多朋友對面試不夠瞭解，不知道如何準備，對面試環節的設定以及目的不夠瞭解，因此成功率不高。通常情況下校招生面試的成功率低於1%，而社招的面試成功率也低於5%，所以對於候選人一定要知道設立面試的初衷以及

多執行緒-java 比較然後設定compareAndSet

核心類是Unsafe 核心方法 compareAndSet(舊值,新值); 如何應用？ 1.Unsafe.compareAndSet(舊值,新值);

Java 多執行緒基礎（一）

簡介在接觸多執行緒之前，在我們程式中在任意時刻都只能執行一個步驟，稱之為單執行緒。在單執行緒開發的程式中所有的程式路徑都是順序執行的，前面的必須先執行，後面的才會執行。單執行緒的優點也很明顯，相對於多

iOS底層學習 - 多執行緒之中的鎖?

通過之前篇章的學習，我們對整個GCD從使用到原理，都有了一定的理解。這篇主要講解一下iOS開發中的鎖是什麼情況

整理多執行緒:GCD詳解

一、GCD簡介 Grand Central Dispatch(GCD) 是 Apple 開發的一個多核程式設計的較新的解決方法。

iOS之多執行緒：執行緒的生命週期，NSThread、GCD、NSOperation的使用與總結

前言：我負責努力，其餘交給運氣。正文：閒暇之餘，把執行緒的問題整理一下，感覺可能會有點長，所以先自分一下章節，我將會按照以下幾個小節來展開描述：

多執行緒|深入淺出執行緒核心知識

1.多執行緒簡介 1.1 什麼是執行緒執行緒是作業系統能夠進行運算排程的最小單位，它被包含在程式中，是程式中的實際運作單位。程式設計師可以通過它進行多處理器程式設計。你可以通過使用多執行緒對運算密集的任務提

學會多執行緒程式設計看這篇

1. Java程式執行原理 1. JVM執行時資料區 JVM執行時資料區可以分為兩部分：執行緒共享部分和執行緒獨佔部分。執行緒共享部分主要包括方法區和堆記憶體；執行緒獨佔部分主要包括虛擬機器器棧，本地方法棧和程式計數器

java多執行緒程式設計核心技術

一,共享資源使用sleep()觀察資料紊亂 **注意:**以下幾份程式碼其中生產者(Producer.java),消費者(Consumer.java),和測試類(TestDemo.java)都完全一樣主要對共享資原始檔(Resource.java)操作

多執行緒提速

相關推薦