vivo工具開發線上計算語言模型打分

阿新 • • 發佈：2021-10-09

import json
import time
import uuid
from tqdm import tqdm
from json import JSONDecodeError
from flask import Flask, jsonify, request
import logging

from call_tokenize import get_tokenize_and_query

app = Flask(__name__)

kv_dict = {}


def arpa_read(files):
    with open(files, mode='r', encoding=' 
UTF-8') as f1:

        arpa_list = f1.readlines()

        for line in tqdm(arpa_list):
            try:
                splitList = line.strip("\n").split("\t")
                if len(splitList) == 2:
                    key = splitList[1]
                    v1 = float(splitList[0])
                    v2  
= 0
                elif len(splitList) == 3:
                    key = splitList[1]
                    v1 = float(splitList[0])
                    v2 = float(splitList[2])
                else:
                    continue

                kv_dict[key] = (v1, v2)
            except Exception:
                 
continue

        return kv_dict


#arpa_read("D:\\Users\\72152411\\Documents\\vchat\\ChatFiles\\trainfile.lm")  # 呼叫函式arpa檔案轉換成字典
arpa_read("./1_9_arpa")  # 呼叫函式arpa檔案轉換成字典


def _score(sentence):

    def calculate_sentence_start(word_0, word_1):
        key = word_0 + " " + word_1
        if key in kv_dict:
            return kv_dict[key][0]
        else:
            return kv_dict[word_1][0] + kv_dict[word_0][1]

    def score_bigram_prob(w1,w2):
        s2 = 0
        if w1 == "<s>":
            calculate_sentence_start(w1,w2)
        else:
            key = w1 + " " + w2
            if key in kv_dict:
                s2 += kv_dict[key][0]
                return s2
            else:
                s2 += kv_dict[w2][0] + kv_dict[w1][1]
                return s2

    def score_trigram_prob(trigram_list):
        first, second, third = trigram_list

        tri_key = " ".join(trigram_list)
        if tri_key in kv_dict:
            return kv_dict[tri_key][0]
        # 需要回退
        else:
            bi_key = second + " " + third
            bi_bow_key = first + " " + second
            # 回退到bigram
            if bi_key in kv_dict:
                bi_prob = kv_dict[bi_key][0]
                bi_bow = 0
                # 後面的二元有, 前面上文的backoff可以查到
                if bi_bow_key in kv_dict:
                   bi_bow = kv_dict[bi_bow_key][1]
                bi_prob += bi_bow
                return bi_prob
            # 回退到unigram
            else:
                if third not in kv_dict:
                    raise ValueError
                bi_bow = 0
                uni_bow = 0
                # 前面上文的backoff可以查到
                if bi_bow_key in kv_dict:
                    bi_bow = kv_dict[bi_bow_key][1]
                if second in kv_dict:
                    uni_bow = kv_dict[second][1]
                uni_prob = kv_dict[third][0] + uni_bow + bi_bow
                return uni_prob

    try:
        sentence = ("<s> " + sentence).strip()
        wordArr = sentence.strip().split(" ")  # 對輸入語料進行切分

        wordArrK = tuple(wordArr)  # 轉換成元組  因為字典的k不能是list  將切分好的語料和字典的k匹配

        total_score = 0

        if len(wordArrK) == 1:  # <s>
            return kv_dict.get(wordArrK[0])[0]
        elif len(wordArrK) == 2:  # <s> 今天
            return calculate_sentence_start(wordArrK[0], wordArrK[1])
        else:
            total_score += calculate_sentence_start(wordArrK[0], wordArrK[1])
            for i in range(0, len(wordArrK) - 2):
                total_score += score_trigram_prob(wordArrK[i:i + 3])
            return total_score

    except Exception as e:
        app.logger.exception(e)
        return -1


@app.route('/ngram_score', methods=['POST'])
def score():
    try:

        parameters = request.form
        print(parameters)
        sentence = parameters['sentence']
        print(sentence)
        score_result = _score(sentence)

        response = {"score": score_result}

        response = jsonify(response)
    except Exception:
        response = 'Internal error', 500

    return response


@app.route('/input_score', methods=['POST'])
def input_score():
    try:

        parameters = request.form
        user_input = parameters['user_input']
        keyboard_type = parameters['keyboard_type']
        
        tokenize_result = get_tokenize_and_query(user_input, keyboard_type)
        
        result = []
        for words, score in tokenize_result:
            sent = " ".join(words)
            score_result = _score(sent)
            result.append((sent, score_result, score))

        response = result

        response = jsonify(response)
    except Exception as e:
        app.logger.exception(e)
        response = 'Internal error', 500

    return response


if __name__ == '__main__':
    app.run(host='0.0.0.0', port=9494)

vivo工具開發線上計算語言模型打分

import json import time import uuid from tqdm import tqdm from json import JSONDecodeError from flask import Flask, jsonify, request

函式計算進階-IP查詢工具開發

本場景介紹如何使用函式計算服務開發一個IP查詢工具。體驗目標本場景將提供一臺配置了CentOS 7.7的ECS例項（雲伺服器）。通過本教程的操作，您可以基於已有的環境開發一個基於函式計算的IP查詢工具。

在Pytorch中計算自己模型的FLOPs方式

https://github.com/Lyken17/pytorch-OpCounter 安裝方法很簡單： pip install thop 基本用法： from torchvision.models import resnet50from thop import profile

《pytorch 入門學習——2. 詞向量和語言模型》

fizz buzz 遊戲 https://zhuanlan.zhihu.com/p/105924322 word2vec：skip-gram https://zhuanlan.zhihu.com/p/105955900

如何使用BigDecimal實現Java開發商業計算

前言今天群裡一個初級開發者問為什麼測試人員測出來他寫的價格計算模組有計算偏差的問題，他檢查了半天也沒找出問題。這裡小胖哥要提醒你，商業計算請務必使用BigDecimal,浮點做商業運算是不精確的。因為計算機無法

自然語言處理4-3:語言模型之n-gram模型

n-gram模型 unigram模型：假設每個單詞的出現概率和前面的單詞無關，寫成表示式就是：

自然語言處理4-4：語言模型之模型評估perplexity

perplexity可以用來評估訓練的語言模型的好壞，其實就是下面這個公式 $$perplexity = 2^{-x}\\qquad x表示的是平均的log likelihood，也可以理解為平均的概率啦$$

自然語言處理4-5：語言模型之平滑操作

為什麼需要平滑操作假設有一個預料集我喜歡喝奶茶我喜歡吃巧克力我喜歡健身

馬斯克指責微軟“俘獲 OpenAI ”：微軟此前獲 GPT-3 自迴歸語言模型獨家授權

9月27日訊息前幾天有報道稱，微軟已經獲得OpenAI的GPT-3（Generative Pretrained Transformer 3）開創性的自迴歸語言模型獨家授權。

xlm跨語言模型

Models like BERT (Devlin et. al.) or GPT (Radford et. al.) have achieved the state of the art in language understanding. However, these models are pre-trained only on one language. Recen

HL7標準V3開發框架中個模型的關係

>>> HL7標準V3的開發過程是一個模型驅動的過程，不同階段應用不同的模型。

Liferay7 BPM門戶開發之22: Liferay7模型監聽器（Model Listeners

參考：https://www.cnblogs.com/starcrm/p/6047323.html Liferay7 BPM門戶開發之22: Liferay7模型監聽器（Model Listeners）

直播預告：探究句法資訊對於基於句法距離的語言模型影響 | AI TIME PhD

⬆⬆⬆ 點選藍字關注我們 AI TIME歡迎每一位AI愛好者的加入！ AI TIME PhD 《探究句法資訊對於基於句法距離

批量nslookup工具_線上nslookup工具和應用程式

批量nslookup工具 nslookup is a tool used to resolve DNS name into IP address or IP address to DNS name. nslookup provides a lot of different features during DNS resolution. nslookup comma