python自動提取文字中的時間(包含中文日期)
阿新 • • 發佈:2020-09-01
有時在處理不規則資料時需要提取文字包含的時間日期。
dateutil.parser模組可以統一日期字串格式。
datefinder模組可以在字串中提取日期。
datefinder模組實現也是用正則,功能很全 但是對中文不友好。
但是這兩個模組都不能支援中文及一些特殊的情況;所以我用正則寫了段程式碼可進行中文日期及一些特殊的時間識別
例如:
'2012年12月12日','3小時前','在2012/12/13哈哈','時間2012-12-11 12:22:30','日期2012-13-11','測試2013.12.24','今天12:13'
import re import chardet from datetime import datetime,timedelta # 匹配正則表示式 matchs = { 1:(r'\d{4}%s\d{1,2}%s\d{1,2}%s \d{1,2}%s','%%Y%s%%m%s%%d%s %%H%s%%M%s%%S%s'),2:(r'\d{4}%s\d{1,'%%Y%s%%m%s%%d%s %%H%s%%M%s'),3:(r'\d{4}%s\d{1,'%%Y%s%%m%s%%d%s'),4:(r'\d{2}%s\d{1,'%%y%s%%m%s%%d%s'),# 沒有年份 5:(r'\d{1,'%%m%s%%d%s %%H%s%%M%s%%S%s'),6:(r'\d{1,'%%m%s%%d%s %%H%s%%M%s'),7:(r'\d{1,'%%m%s%%d%s'),# 沒有年月日 8:(r'\d{1,'%%H%s%%M%s%%S%s'),9:(r'\d{1,'%%H%s%%M%s'),} # 正則中的%s分割 splits = [ {1:[('年','月','日','點','分','秒'),('-','-','',':',''),('\/','\/',('\.','\.','')]},{2:[('年','分'),{3:[('年','日'),{4:[('年',{5:[('月',{6:[('月',{7:[('月',{8:[('點',(':',{9:[('點',] def func(parten,tp): re.search(parten,parten) parten_other = '\d+天前|\d+分鐘前|\d+小時前|\d+秒前' class TimeFinder(object): def __init__(self,base_date=None): self.base_date = base_date self.match_item = [] self.init_args() self.init_match_item() def init_args(self): # 格式化基礎時間 if not self.base_date: self.base_date = datetime.now() if self.base_date and not isinstance(self.base_date,datetime): try: self.base_date = datetime.strptime(self.base_date,'%Y-%m-%d %H:%M:%S') except Exception as e: raise 'type of base_date must be str of%Y-%m-%d %H:%M:%S or datetime' def init_match_item(self): # 構建窮舉正則匹配公式 及提取的字串轉datetime格式對映 for item in splits: for num,value in item.items(): match = matchs[num] for sp in value: tmp = [] for m in match: tmp.append(m%sp) self.match_item.append(tuple(tmp)) def get_time_other(self,text): m = re.search('\d+',text) if not m: return None num = int(m.group()) if '天' in text: return self.base_date - timedelta(days=num) elif '小時' in text: return self.base_date - timedelta(hours=num) elif '分鐘' in text: return self.base_date - timedelta(minutes=num) elif '秒' in text: return self.base_date - timedelta(seconds=num) return None def find_time(self,text): # 格式化text為str型別 if isinstance(text,bytes): encoding =chardet.detect(text)['encoding'] text = text.decode(encoding) res = [] parten = '|'.join([x[0] for x in self.match_item]) parten = parten+ '|' +parten_other match_list = re.findall(parten,text) if not match_list: return None for match in match_list: for item in self.match_item: try: date = datetime.strptime(match,item[1].replace('\\','')) if date.year==1900: date = date.replace(year=self.base_date.year) if date.month==1: date = date.replace(month=self.base_date.month) if date.day==1: date = date.replace(day=self.base_date.day) res.append(datetime.strftime(date,'%Y-%m-%d %H:%M:%S')) break except Exception as e: date = self.get_time_other(match) if date: res.append(datetime.strftime(date,'%Y-%m-%d %H:%M:%S')) break if not res: return None return res def test(): timefinder =TimeFinder(base_date='2020-04-23 00:00:00') for text in ['2012年12月12日','今天12:13']: res = timefinder.find_time(text) print('text----',text) print('res---',res) if __name__ == '__main__': test()
測試執行結果如下
text---- 2012年12月12日
res--- ['2012-12-12 00:00:00']
text---- 3小時前
res--- ['2020-04-22 21:00:00']
text---- 在2012/12/13哈哈
res--- ['2012-12-13 00:00:00']
text---- 時間2012-12-11 12:22:30
res--- ['2012-12-11 12:22:30']
text---- 日期2012-13-11
res--- None
text---- 測試2013.12.24
res--- ['2013-12-24 00:00:00']
text---- 今天12:13
res--- ['2020-04-23 12:13:00']
到此這篇關於python自動提取文字中的時間(包含中文日期)的文章就介紹到這了,更多相關python自動提取時間內容請搜尋我們以前的文章或繼續瀏覽下面的相關文章希望大家以後多多支援我們!