pandas 利用正則表示式從文字中提取數字

阿新 • • 發佈：2019-02-04

需要從text特徵中提取形如 13.5/10 這樣的字串，再分別提取分子分母。
1）可以利用 str.extract() 方法。
2）利用正則表示式 \d+\.?\d*\/\d+ 進行匹配
3）再利用 .split() 方法提取分子分母

程式碼：
這裡寫圖片描述

test.text.tolist()

# output
['This is Bella. She hopes her smile made you smile. If not, she is also offering you her favorite monkey. 13.5/10 https://t.co/qjrljjt948',
 "This is Logan, the Chow who lived. He solemnly swears he's up to lots of good. H*ckin magical af 9.75/10 https://t.co/yBO5wuqaPS" 
,
 "This is Sophie. She's a Jubilant Bush Pupper. Super h*ckin rare. Appears at random just to smile at the locals. 11.27/10 would smile back https://t.co/QFaUiIHxHq",
 'Here we have uncovered an entire battalion of holiday puppers. Average of 11.26/10 https://t.co/eNm2S6p9BD']

test['rating'] = test['text'].str.extract(r'(\d+\.?\d*\/\d+)' 
, expand=False)

# 提取分子
test['rating_numerator'] = test.rating.apply(lambda x: eval(x.split('/')[0]))
# 提取分母
test['rating_denominator_fix'] = test.rating.apply(lambda x: eval(x.split('/')[1]))
# 刪除中間量
test.drop(['rating'], axis=1, inplace=True)

這裡寫圖片描述

pandas 利用正則表示式從文字中提取數字

需要從text特徵中提取形如 13.5/10 這樣的字串，再分別提取分子分母。 1）可以利用 str.extract() 方法。 2）利用正則表示式 \d+\.?\d*\/\d+ 進行匹配 3）再

python正則表示式從字串中提取數字

python從字串中提取數字使用正則表示式，用法如下： ## 總結 ## ^ 匹配字串的開始。 ## $ 匹配字串的結尾。 ## \b 匹配一個單詞的邊界。 ## \d 匹配任意數字。 ## \D

利用正則表示式從檔案路徑中匹配檔名

第一種，檔名不包含副檔名：正則表達寫法：([^<>/\\\|:""\*\?]+)\.\w+$ java中的寫法： …… String reg = "([^<>/\\\\|:\"\"\\*\\?]+)\\.\\w+$+"; Matcher m = P

QT 用正則表示式從tableView中篩選出某一日期範圍內的資料

QDate date1,date2; date1=ui->dateEdit_2->date();//提取開始時間 date2=ui->dateEdit_3->date();//提取結束時間 data_filter->

java 利用正則表示式去處字串中的所有空格

轉載自xcmercy的部落格目標去除字串中所有的空白字元，包括空格、製表符、回車符等所有空白字元思路根據字串長度，利用迴圈遍歷字串此方法太笨拙。這裡利用正則表示式，匹配所有的空白字元，然後將匹配到的空白字元替換為 “” 空串即可。程式碼 private St

python 正則表示式去除文字中標籤內容

print re.sub("<[^>]*>","",text) 輸出正確結果，而 print t.replace("<[^>]*>","")不能輸出正確結果 import re t = "<text>jsdkjfsgn&l

利用正則表示式去除字串中的空格

\s* 表示若干個空格（可以是0個）。 \s+ 表示一個或多個空格 public class Test { public static void main(String[] args) {

使用正則表示式從字串中查詢子字串

直接上程式碼： String string = "asdasd#_%12.gifdadsa#_%2324.gif"; String regx = "#_%\\d+.gif"; Patter

轉 python正則表示式判斷文字中是否有中文

原址如下： http://outofmemory.cn/code-snippet/2818/python-regular-expression-decide-text-shifou-exist-zhongwen python正則表示式判斷文字中是否有中文 pyth

Web Scraper 高階用法——利用正則表示式篩選文字資訊 | 簡易資料分析 17

![](https://image-1255652541.cos.ap-shanghai.myqcloud.com/images/20200317225112.png) 這是簡易資料分析系列的**第 17 篇**文章。學習了這麼多課，我想大家已經發現了，web scraper 主要是用來爬取**

正則表示式擷取字串中的數字

方法一： String str="fsdfdsf12315f15哈12的"; String regEx="[^0-9]"; Pattern p = Pattern.compile(regEx); Matcher m = p.matcher(str); String n

Java 正則表示式匹配括號中的數字

第一種： String line = "+！！！0(100000000073);+！！！0(100000000071);"; String pattern = "(?<=\$)\\d+(?=\$)"; pattern = "(\\d{1

正則表示式取出字串中的數字

public static void main(String[] args) {String a="love23next234csdn3423javaeye";String regEx="[^0-9]"; Pattern p = Pattern.compile(regEx)

java使用正則表示式從一長串字元中獲取一段特徵字串

只能說String工具類太強大，導致一直以來，幾乎沒怎麼用到過正則表示式，現在突然要用到，參考正則表示式語法，摸索一上午才搞出來。記錄分享一下，以免忘記從一長串字元中，截取出邀請碼，我想很多人都遇到過。 String s = "邀請您加入隨心購，自動搜尋淘寶天貓優惠券！先領券，再購

Python中利用正則表示式用逗號分割資料，但是忽略引號中的逗號的方法

一.問題描述：我在做一個網站搜尋記錄的分割工作，原始資料如下： x= '{"嬌妻有毒路明": "0.013", "嬌妻有毒%2c陸少寵上癮": "0.078",\ "嬌妻有毒老公你放鬆點": "0.021", "嬌妻有毒陸明白芬": "0.011", "嬌妻有毒:陸少,寵上癮": "0.

java利用正則表示式提取字串中的整數和小數部分

最近開發遇到一個新的東西，就是前端傳過來一個字串，需要將裡面的數字提取出來，倒騰了一天，最後還是沒有倒騰出來，最後還是借鑑大佬的方法。記錄一下。首先是前端傳來的字串“小明通過掃碼向你付款100000.566元”其中暱稱和金額不是固定的，其他是固定的。於是便考慮使用“通過掃碼向你付

如何使用 awk 和正則表示式過濾文字或檔案中的字串

當我們在 Unix/Linux 下使用特定的命令從字串或檔案中讀取或編輯文字時，我們經常需要過濾輸出以得到感興趣的部分。這時正則表示式就派上用場了。什麼是正則表示式? 正則表示式可以定義為代表若干個字元序列的字串。它最重要的功能之一就是它允許你過濾一條命令或一個檔案的輸出

【python學習筆記】用正則表示式從含中文的網頁中提取資料（含編碼轉換）

目標：用正則表示式從含中文的網頁中提取資料 1、獲得網頁全部資料 1.1思考過程確定我們要操作的網頁：url = 'http://q.stock.sohu.com/cn/603077/cwzb.shtml' 開啟要操作的網頁：req = urllib2.open(url)

Python 正則表示式從Windows路徑中獲取資料夾

<pre name="code" class="python">1. Regular Expression ^([a-zA-Z]:|\\\\[a-zA-Z0-9_.$ -]+\\[a-z0-9_.$ -]+)?((?:\\|^)(?:[^\\/:*?"<&

Coursera-Getting and Cleaning Data-week4-R語言中的正則表示式以及文字處理

補上第四周筆記，以及本次課程總結。第四周課程主要針對text進行處理。裡面包括 1.變數名的處理 2.正則表示式 3.日期處理（參見swirl lubridate包練習）首先，變數名的處理，奉行兩個原則，1）統一大小寫tolower/toupper；2）去掉在匯入資料時，因為特殊字元導致的合併變

pandas 利用 正則表示式 從文字中提取數字

相關推薦

pandas 利用正則表示式從文字中提取數字