字符串、文件操作,英文詞頻統計預處理
阿新 • • 發佈:2019-03-04
ima post 本體 預處理 eight 固定 密鑰 圖片 行政區
print(url)
1.字符串操作:解析身份證號:生日、性別、出生地等。
地址碼: 表示編碼對象常住戶口所在縣(市、旗、區)的行政區劃代碼。
出生日期碼:表示編碼對象出生的年、月、日,年、月、日代碼之間不用分隔符,格式為YYYYMMDD,如19880328。
順序碼: 表示在同一地址碼所標識的區域範圍內,對同年、同月、同日出生的人編定的順序號,順序碼的奇數分配給男性,偶數分配給女性。
校驗碼: 根據本體碼,通過采用ISO 7064:1983,MOD 11-2校驗碼系統計算出校驗碼。前面有提到數字校驗碼,我們知道校驗碼也有X的,實質上為羅馬字符X,相當於10.
2.凱撒密碼編碼與解碼
凱撒加密法的替換方法是通過排列明文和密文字母表,密文字母表示通過將明文字母表向左或向右移動一個固定數目的位置。例如,當偏移量是左移3的時候(解密時的密鑰就是3)
3.網址觀察與批量生成
比如學校官網的新聞模塊,每一頁都有相對應在html頁面,比如第一頁,網址就為:http://news.gzcc.cn/html/xiaoyuanxinwen/1.html 以此類推。可以直接使用for循環輸出網址。
for i in range(1,6):
url=‘http://news.gzcc.cn/html/xiaoyuanxinwen/{}.html‘.format(i)
英文詞頻統計預處理
通過文件讀取字符竄
讀取文件
運行結果
詞語統計
字符串、文件操作,英文詞頻統計預處理