利用roberta和macbert的onnx格式進行推理

阿新 • • 發佈：2022-05-25

專案地址：https://github.com/jiangnanboy/model2onnx

一.將roberta模型轉為onnx，並對[MASK]進行推理預測。

二.將macbert模型轉為onnx，並對中文進行拼寫糾錯。

一.roberta-onnx（對中文句子[MASK]預測）

將模型轉為onnx

模型在從這裡下載。

def load_model():
    tokenizer = BertTokenizer.from_pretrained("../model/chinese_roberta_L-2_H-512")
    model = BertForMaskedLM.from_pretrained("../model/chinese_roberta_L-2_H-512")
    return model, tokenizer

def convert2onnx(model, tokenizer, save_path):
    convert('pt', model, Path(save_path), 11, tokenizer)

測試用例

def onnx_test(onnx_path, topk=5):
    tokenizer = BertTokenizer.from_pretrained("../model/chinese_roberta_L-2_H-512")
    sent = '中國的首都是' + tokenizer.mask_token + '京。'
    tokenized_tokens = tokenizer(sent)
    mask_idx = tokenized_tokens["input_ids"].index(tokenizer.convert_tokens_to_ids("[MASK]"))
    input_ids = np.array([tokenized_tokens['input_ids']], dtype=np.int64)
    attention_mask = np.array([tokenized_tokens['attention_mask']], dtype=np.int64)
    token_type_ids = np.array([tokenized_tokens['token_type_ids']], dtype=np.int64)

    model = onnx.load(onnx_path)
    sess = ort.InferenceSession(bytes(model.SerializeToString()))
    result = sess.run(
        output_names=None,
        input_feed={"input_ids": input_ids,
                    "attention_mask": attention_mask,
                    "token_type_ids": token_type_ids}
    )[0]
    predicted_index = np.argsort(-result[0][mask_idx])[:topk]
    for index in predicted_index:
        predicted_token = tokenizer.convert_ids_to_tokens([index])[0]
        print('index : {} -> token : {}'.format(index, predicted_token))

結果：
    index : 1266 -> token : 北
    index : 1298 -> token : 南
    index : 691 -> token : 東
    index : 4242 -> token : 燕
    index : 3307 -> token : 望

二.macbert-onnx（中文拼寫糾錯）

將模型轉為onnx

模型在從這裡下載。

def load_model():
    tokenizer = BertTokenizer.from_pretrained("../model/macbert4csc-base-chinese")
    model = BertForMaskedLM.from_pretrained("../model/macbert4csc-base-chinese")
    return model, tokenizer

def convert2onnx(model, tokenizer, save_path):
    convert('pt', model, Path(save_path), 11, tokenizer)

測試用例

def onnx_test(onnx_path):
    tokenizer = BertTokenizer.from_pretrained("../model/macbert4csc-base-chinese")
    sent = '你找到你最喜歡的工作，我也很高心。'
    tokenized_tokens = tokenizer(sent)
    input_ids = np.array([tokenized_tokens['input_ids']], dtype=np.int64)
    attention_mask = np.array([tokenized_tokens['attention_mask']], dtype=np.int64)
    token_type_ids = np.array([tokenized_tokens['token_type_ids']], dtype=np.int64)

    model = onnx.load(onnx_path)
    sess = ort.InferenceSession(bytes(model.SerializeToString()))
    result = sess.run(
        output_names=None,
        input_feed={"input_ids": input_ids,
                    "attention_mask": attention_mask,
                    "token_type_ids": token_type_ids}
    )[0]
    _text = tokenizer.decode(np.argmax(result[0], axis=-1), skip_special_tokens=True).replace(' ', '')
    print('_text: {}'.format(_text))
    corrected_text = _text[:len(sent)]
    corrected_text, details = get_errors(corrected_text, sent)
    print(sent, ' => ', corrected_text, details)

結果：
    你找到你最喜歡的工作，我也很高心。  =>  你找到你最喜歡的工作，我也很高興。 [('心', '興', 15, 16)]

利用roberta和macbert的onnx格式進行推理

專案地址：https://github.com/jiangnanboy/model2onnx 一.將roberta模型轉為onnx，並對[MASK]進行推理預測。

機器學習深度學習 ai_利用AI和機器學習進行製圖綜合

機器學習深度學習 ai The process of cartographic generalization is used to produce a harmonized picture at different scales of geospatial features.

利用光學和SAR資料進行亞馬遜熱帶雨林監測

亞馬遜熱帶雨林，670萬平方公里，物種豐富，森林歷史悠久。巴西環保局用光學和SAR資料進行森林監測，主要監測森林砍伐範圍、人為破壞、非法採礦和隱蔽的飛機跑道。

前端利用formData格式進行資料上傳，前端formData 傳值和 json傳值的區別？

contentType 常見的格式 text/plain ：純文字格式 application/json： JSON資料格式 application/x-www-form-urlencoded中預設的encType，form表單資料被編碼為key/value格式傳送到伺服器（表單預設的提交資料的格式

後端返回檔案流和json格式的方式進行檔案下載匯出

1. 介面返回的型別是檔案流的格式 fetch({ url: this.exportUrl, method: \"post\", data: obj, noFormat: true,

利用請求分發和反射技術進行程式碼優化

package com.csn.web; import com.csn.pojo.vo.PageBean; import com.csn.pojo.vo.Pagination; import com.csn.pojo.vo.Result;

利用光學和SAR資料的進行森林量測和製圖

SAR資料可以全天候對研究區域進行拍攝，可作為光學遙感的有力補充。本例子就是利用RapidEye影像和PALSAR資料進行森林量測，獲得如森林範圍、針葉林範圍、蓄積量、樹高、胸徑等資訊。

利用SARscape對日本填海造陸和天然氣開採進行地表形變監測

日本千葉市，是日本南部重要的工業港市。位於西部的浦安市是一個典型的\"填海造田\"城市，東南部的東金區有一片天然氣開採區域，本文利用SARscape，用干涉疊加的方法，即PS和SBAS，對這兩個區域進行地表沉降現象的監

Oracle調優之利用max與leftjoin來進行不同表之間匹配

需求有兩個不同的表，A表是基礎資料，B表根據A表的某個不重複關鍵字加其他一些條件查詢出一條或幾條資料，取其中一條資料。並且利用此資料某個關鍵字再在B表中查詢下一層級資料，最終將A表的對應一條資料，B表查詢出

利用c++和easyx圖形庫做一個低配版掃雷遊戲

遊戲介面由於這個遊戲是我抱著玩一玩的心態做出來的，所以沒有過多的去設計介面，也沒有去找遊戲的資源（圖片、遊戲音效等）。僅使用了不同顏色的方塊來表示遊戲中方塊的狀態和種類。（綠色為初始狀態（未翻轉的狀態

Python使用SQLite和Excel操作進行資料分析

昨日，女票拿了一個Excel文件，裡面有上萬條資料要進行分析，剛開始一個欄位分析，Excel用的不錯，還能搞定，到後來兩個欄位的分析，還有區間比如年齡段的資料分析，實在是心疼的不行，於是就想給她程式處理之。

Pytorch Tensor 輸出為txt和mat格式方式

假設result1為tensor格式，首先將其化為array格式（注意只變成numpy還不行），之後存為txt和mat格式

python 利用已有Ner模型進行資料清洗合併程式碼

我就廢話不多說了，直接上程式碼吧！ # -*- coding: utf-8 -*- from kashgari.corpus import DataReader

利用OpenCV和Python實現查詢圖片差異

使用OpenCV和Python查詢圖片差異 flyfish 方法1 均方誤差的演算法（Mean Squared Error,MSE）

Python中xml和dict格式轉換的示例程式碼

在做介面自動化的時候，請求資料之前都是JSON格式的，Python有自帶的包來解決。最近在做APP的介面，遇到XML格式的請求資料，費了很大勁來解決，解決方式是：介面文件拿到的是XML，線上轉化為json格式（目的是拿到xml

淺談Python3識別判斷圖片主要顏色並和顏色庫進行對比的方法

【更新】主要提供兩種方案：方案一：（參考網上程式碼，感覺實用性不是很強）使用PIL擷取影象，然後將RGB轉為HSV進行判斷，統計判斷顏色，最後輸出RGB值

通過正則表示式驗證IP和埠格式的正確性

在網頁開發中可能會遇到需要對在頁面輸入的ip和埠進行正確性驗證，那麼正則表示式就是最有力的工具：

利用python實現.dcm格式影象轉為.jpg格式

如下所示： import pydicom import matplotlib.pyplot as plt import scipy.misc import pandas as pd import numpy as np

php獲取本年、本月、本週時間戳和日期格式的例項程式碼

時間戳格式： //獲取今日開始時間戳和結束時間戳 $beginToday=mktime(0,date(\'m\'),date(\'d\'),date(\'Y\'));

tensorflow 利用expand_dims和squeeze擴充套件和壓縮tensor維度方式

在利用tensorflow進行文字挖掘工作的時候，經常涉及到維度擴充套件和壓縮工作。比如對文字進行embedding操作完成之後，若要進行卷積操作，就需要對embedded的向量擴充套件維度，將[batch_size,embedding_dims]擴充套

利用roberta和macbert的onnx格式進行推理

一.roberta-onnx（對中文句子[MASK]預測）

將模型轉為onnx

測試用例

二.macbert-onnx（中文拼寫糾錯）

將模型轉為onnx

測試用例

相關推薦