比正則快N倍的新姿勢，用Python替換字串

阿新 • • 發佈：2022-04-04

假期就要好好利用，不然怎麼卷死同齡人，今天給大家分享替換字串。

FlashText 演算法是由 Vikash Singh 於2017年發表的大規模關鍵詞替換演算法，這個演算法的時間複雜度僅由文字長度（N）決定，演算法時間複雜度為O（N）

而對於正則表示式的替換，演算法時間複雜度還需要考慮被替換的關鍵詞數量（M），因此時間複雜度為O（MxN）

簡而言之，基於FlashText演算法的字串替換比正則表示式替換快M倍以上，這個M是需要替換的關鍵詞數量，關鍵詞越多，FlashText演算法的優勢就越明顯

下面就給大家介紹如何在 Python 中基於 flashtext 模組使用 FlashText 演算法進行字串查詢和替換。

搞錯了，重來。

1.準備

請選擇以下任一種方式輸入命令安裝依賴：

Windows 環境開啟 Cmd (開始-執行-CMD)。
MacOS 環境開啟 Terminal (command+空格輸入Terminal)。
如果你用的是 VSCode編輯器或 Pycharm，可以直接使用介面下方的Terminal.

pip install flashtext

2.基本使用

提取關鍵詞

一個最基本的提取關鍵詞的例子如下：

Python學習交流Q群：906715085###
from flashtext import KeywordProcessor
 
#1. 初始化關鍵字處理器
keyword_processor = KeywordProcessor()
#2. 新增關鍵詞
keyword_processor.add_keyword('Big Apple', 'New York')
keyword_processor.add_keyword('Bay Area')
#3. 處理目標句子並提取相應關鍵詞
keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')
#4. 結果
print(keywords_found)
#['New York', 'Bay Area']

其中 add_keyword 的第一個引數代表需要被查詢的關鍵詞，第二個引數是給這個關鍵詞一個別名，如果找到了則以別名顯示。

替換關鍵詞

如果你想要替換關鍵詞，只需要呼叫處理器的 replace_keywords 函式：

from flashtext import KeywordProcessor
#1. 初始化關鍵字處理器
keyword_processor = KeywordProcessor()
#2. 新增關鍵詞
keyword_processor.add_keyword('New Delhi', 'NCR region')
#3. 替換關鍵詞
new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')
#4. 結果
print(new_sentence)
#'I love New York and NCR region.'

關鍵詞大小寫敏感

如果你需要精確提取，識別大小寫字母，那麼你可以在處理器初始化的時候設定 sensitive 引數:

from flashtext import KeywordProcessor
#1. 初始化關鍵字處理器, 注意設定大小寫敏感(case_sensitive)為TRUE
keyword_processor = KeywordProcessor(case_sensitive=True)
#2. 新增關鍵詞
keyword_processor.add_keyword('Big Apple', 'New York')
keyword_processor.add_keyword('Bay Area')
#3. 處理目標句子並提取相應關鍵詞
keywords_found = keyword_processor.extract_keywords('I love big Apple and Bay Area.')
#4. 結果
print(keywords_found)
#['Bay Area']

標記關鍵詞位置

如果你需要獲取關鍵詞在句子中的位置，在 extract_keywords 的時候新增 span_info=True 引數即可：

from flashtext import KeywordProcessor
#1. 初始化關鍵字處理器
keyword_processor = KeywordProcessor()
#2. 新增關鍵詞
keyword_processor.add_keyword('Big Apple', 'New York')
keyword_processor.add_keyword('Bay Area')
#3. 處理目標句子並提取相應關鍵詞, 並標記關鍵詞的起始、終止位置
keywords_found = keyword_processor.extract_keywords('I love big Apple and Bay Area.', span_info=True)
#4. 結果
print(keywords_found)
#[('New York', 7, 16), ('Bay Area', 21, 29)]

獲取目前所有的關鍵詞

如果你需要獲取當前已經新增的所有關鍵詞，只需要呼叫處理器的 get_all_keywords 函式：

from flashtext import KeywordProcessor
#1. 初始化關鍵字處理器
keyword_processor = KeywordProcessor()
#2. 新增關鍵詞
keyword_processor.add_keyword('j2ee', 'Java')
keyword_processor.add_keyword('colour', 'color')
#3. 獲取所有關鍵詞
keyword_processor.get_all_keywords()
#output: {'colour': 'color', 'j2ee': 'Java'}

批量新增關鍵詞

批量新增關鍵詞有兩種方法，一種是通過詞典，一種是通過陣列：

from flashtext import KeywordProcessor
#1. 初始化關鍵字處理器
keyword_processor = KeywordProcessor()
#2. （第一種）通過字典批量新增關鍵詞
keyword_dict = {
    "java": ["java_2e", "java programing"],
    "product management": ["PM", "product manager"]
}
keyword_processor.add_keywords_from_dict(keyword_dict)
#2. （第二種）通過陣列批量新增關鍵詞
keyword_processor.add_keywords_from_list(["java", "python"])
#3. 第一種的提取效果如下
keyword_processor.extract_keywords('I am a product manager for a java_2e platform')
#output ['product management', 'java']

單一或批量刪除關鍵詞

刪除關鍵詞也非常簡單，和新增類似：

from flashtext import KeywordProcessor
#1. 初始化關鍵字處理器
keyword_processor = KeywordProcessor()
#2. 通過字典批量新增關鍵詞
keyword_dict = {
    "java": ["java_2e", "java programing"],
    "product management": ["PM", "product manager"]
}
keyword_processor.add_keywords_from_dict(keyword_dict)
#3. 提取效果如下
print(keyword_processor.extract_keywords('I am a product manager for a java_2e platform'))
#['product management', 'java']
#4. 單個刪除關鍵詞
keyword_processor.remove_keyword('java_2e')
#5. 批量刪除關鍵詞，也是可以通過詞典或者陣列的形式
keyword_processor.remove_keywords_from_dict({"product management": ["PM"]})
keyword_processor.remove_keywords_from_list(["java programing"])
#6. 刪除了java programing關鍵詞後的效果如下
keyword_processor.extract_keywords('I am a product manager for a java_2e platform')
#['product management']

3.高階使用

支援額外資訊

前面提到在新增關鍵詞的時候第二個引數為其別名，其實你不僅可以指示別名，還可以將額外資訊放到第二個引數中：

from flashtext import KeywordProcessor
#1. 初始化關鍵字處理器
kp = KeywordProcessor()
#2. 新增關鍵詞並附帶額外資訊
kp.add_keyword('Taj Mahal', ('Monument', 'Taj Mahal'))
kp.add_keyword('Delhi', ('Location', 'Delhi'))
#3. 效果如下
kp.extract_keywords('Taj Mahal is in Delhi.')
#[('Monument', 'Taj Mahal'), ('Location', 'Delhi')]

這樣，在提取關鍵詞的時候，你還能拿到其他一些你想要在得到此關鍵詞時輸出的資訊。

支援特殊單詞邊界

Flashtext 檢測的單詞邊界一般侷限於 \w [A-Za-z0-9_] 外的任意字元，但是如果你想新增某些特殊字元作為單詞的一部分也是可以實現的：

from flashtext import KeywordProcessor
#1. 初始化關鍵字處理器
keyword_processor = KeywordProcessor()
#2. 新增關鍵詞
keyword_processor.add_keyword('Big Apple')
#3. 正常效果
print(keyword_processor.extract_keywords('I love Big Apple/Bay Area.'))
#['Big Apple']
#4. 將 '/' 作為單詞一部分
keyword_processor.add_non_word_boundary('/')
#5. 優化後的效果
print(keyword_processor.extract_keywords('I love Big Apple/Bay Area.'))
#[]

4.結尾

個人認為這個模組已經滿足我們的基本使用了，如果你有一些該模組提供的功能之外的使用需求，可以給 flashtext 貢獻程式碼：
https://github.com/vi3k6i5/flashtext

附 FlashText 與正則相比查詢關鍵詞所花費的時間之比：

附 FlashText 與正則相比替換關鍵詞所花費的時間之比：

這篇文章到這裡就結束了，喜歡的話記得點贊收藏，有疑問的話記得評論留言。

比正則快N倍的新姿勢，用Python替換字串

假期就要好好利用，不然怎麼卷死同齡人，今天給大家分享替換字串。 FlashText 演算法是由 Vikash Singh 於2017年發表的大規模關鍵詞替換演算法，這個演算法的時間複雜度僅由文字長度（N）決定，演算法時間複雜度

汽車車牌JS正則表示式驗證(含新能源車牌)

/** * 第一：普通汽車 * 車牌號格式：漢字 + A-Z + 5位A-Z或0-9( 車牌號不存在字母I和O防止和1、0混淆)

fasthttp：比net/http快十倍的Go框架(server 篇)

轉載請宣告出處哦~，本篇文章釋出於luozhiyun的部落格：https://www.luozhiyun.com/archives/574

比超級計算機快千萬倍，中國量子計算研究獲重要進展

10 月 26 日訊息，據央視報道，中科院量子資訊與量子科技創新研究院科研團隊近日在超導量子和光量子兩種系統的量子計算方面取得重要進展，使我國成為目前世界上唯一在兩種物理體系達到“量子計算優越性”里程碑的國

英特爾：銳炫顯示卡提供完整的 AV1 硬體加速，比軟體編碼快 50 倍

4 月 5 日訊息，日前，英特爾釋出新款銳炫獨顯，包括 A300M、A500M 和 A700 系列。英特爾表示，新款銳炫獨顯採用了全新的 Xe 媒體引擎，擁有專用的硬體加速，支援主流視訊軟體。英特爾 Xe 媒體引擎支援最高 VP9、AV

肝了兩天IntelliJ IDEA 2020，解鎖11種新姿勢，真香！！！

IDEA2020版本正式釋出已經有3個月了，當時由於各方面原因（太懶）也沒有去嘗試新功能。於是這個週末特意去在另一個電腦上下載了最新版的IDEA，並嘗試了一下。總的來說呢，體驗上明顯的提升。

《原神》正開發次世代版本 + 新內容，暫不計劃登陸 Xbox

10 月 7 日訊息據 IGN 訊息，米哈遊正在為遊戲《原神》開發更多的新角色、地點以及該作的次世代版本。

C#正則表示式如何取反結果，想要結果的反集

技術標籤：C# 如題，正則表示式如何取反結果，想要結果的反集。有人說用C#程式碼將結果取出來後，寫段程式碼迴圈排除一下，就是反集。嗯，是一個方法，就是不太靈光了些。

曝微軟第一方工作室 343 正開發未公佈的新遊戲，可能是《光環》新作

11 月 22 日訊息，據 Windows Central 的記者 Jez Corden 最新爆料，微軟旗下第一方工作室 343 除了開發《光環：無限》外，還在開發另一款新遊戲。並行開發兩個遊戲對遊戲開發商來說比較正常，343 工作室是微軟最大

據說比Spring快44倍的web開發框架，不妨試試

該框架稱為：**light-4j **。官方網站簡介：A fast, lightweight and more productive microservices framework。很簡單，翻譯過來就是：一個快速、輕量級和更高效的微服務框架.

牛！一個比傳統資料庫快 100-1000 倍的資料庫：ClickHouse

ClickHouse 是 Yandex（俄羅斯最大的搜尋引擎）開源的一個用於實時資料分析的基於列儲存的資料庫，其處理資料的速度比傳統方法快 100-1000 倍。ClickHouse 的效能超過了目前市場上可比的面向列的 DBMS，每秒鐘每臺伺

牛x！一個比傳統資料庫快 100-1000 倍的資料庫!

一、ClickHouse 是什麼？ ClickHouse：是一個用於聯機分析(OLAP)的列式資料庫管理系統(DBMS)

LeetCode 236. 二叉樹的最近公共祖先極限效能演算法比LeetCode 99%還快50倍

技術標籤：解題演算法leetcode LeetCode 236. 二叉樹的最近公共祖先給定一個二叉樹, 找到該樹中兩個指定節點的最近公共祖先。

華為楊超斌：5G 比 4G 快十倍目標已達成，未來肯定會有殺手級應用

9 月 27 日下午訊息，2021 年中國國際資訊通訊展覽會今日舉行，華為副總裁、無線網路產品線總裁楊超斌在開幕論壇上發表演講。他表示，全球 5G 發展進入快車道，中頻頻段成為主流。目前全球建成了 176 張 5G 網路，15

好的開始！Xbox Series X|S日本銷量超過10萬臺比前任Xbox快了4倍

Xbox Series X|S在日本的銷量超過了10萬臺，不到一年時間就即將超過Xbox One在日本的總銷量成績。

python 根據正則表示式查詢文字資訊寫入新檔案

功能查詢當前目錄下符合正則表示式的的檔案的文字將該文字寫入到新的資料夾

有黑客帝國那味了：人腦細胞在培養皿中學會打遊戲，比 AI 學習速度快 18 倍還省電

大約 100 萬個活體腦細胞在培養皿中生長出來。外界看來它們被放在物理世界的一個容器裡。但它們會認為自己“生活”在一個截然不同的世界。這個世界裡只有復古的乒乓球電子遊戲 Pong，他們整天都在打這個遊戲。科學家

英偉達聲稱其 Arm Grace CPU 超級晶片比英特爾 Ice Lake 快 2 倍，效率高 2.3 倍

4 月 10 日訊息，上個月，英偉達在 GTC 上推出了其最新的 144 核 Grace CPU Superchip，這是其第一款專為資料中心設計的基於 Arm 架構的CPU 晶片。英偉達之前並沒有給出這款 CPU 的效能標準，不過曾提到領先 AMD 的

[解鎖新姿勢] 兄dei 我感覺你在寫bug

前言: 繼上篇 [解鎖新姿勢] 兄dei，你程式碼需要優化了介紹一些程式碼的優化的小技巧。

JDK13新特性，讓開發效率更快一步

JDK13到今天已經發布快2個月了，之前有零零散散的試過一些新的特性，但卻沒有整體的整理一下。想到作為Java開發，連使用的JDK(Java Developerment Kit)有什麼特性都不清楚，實在是有些不應該，想要進階為更有價值的J

比正則快N倍的新姿勢，用Python替換字串

1.準備

2.基本使用

提取關鍵詞

替換關鍵詞

標記關鍵詞位置

獲取目前所有的關鍵詞

批量新增關鍵詞

3.高階使用

支援額外資訊

支援特殊單詞邊界

4.結尾

相關推薦