用python對modern family 摩登家庭 1~11季劇本臺詞的詞頻分析

阿新 • • 發佈：2022-03-25

摩登家庭這部美劇學英語應該不模式，某寶上買了1~11季的臺詞，想對裡面得單詞出現頻率做個統計，高頻出現的單詞應該就是日常常用的，應該牢牢記住。出現次數太低的也可以不用學了。

分析程式用的是python語言。

其中單詞總量：23298個，分析結果以txt文字檔案儲存。詞頻結果下載

按流水號，單詞，出現頻率記錄。如下：

1 i 32743
2 you 30923
3 the 23733
4 a 21256
5 to 20402
6 and 13428
7 it 12405
8 that 12020
9 of 9744

....

23291 conspiring 1
23292 subletting 1
23293 coughed 1
23294 overnighted 1
23295 biologist 1
23296 waitressing 1
23297 secret's 1
23298 muriel 1

出現次數最高的單詞依然是i,you,the這類的。

程式碼如下：

 1 import os
 2 import re
 3 
 4 from docx import Document
 5 
 6 word_dic = {}
 7 for root, dirs, files in os.walk(r'H:\english study'):
 8     for file in files:
 9         file_path = '{}\\{}'.format(root, file)
10         print(file_path)
11         doc = Document(file_path)
 
12         for para in doc.paragraphs:
13             # print(para.text)
14             rst = re.findall(r'\b[a-zA-Z\']+\b', para.text)
15             if rst:
16                 for word in rst:
17                     word = word.lower()
18                     count = word_dic.get(word)
19                     if 
 count:
20                         word_dic[word] = count + 1
21                     else:
22                         word_dic[word] = 1
23 sort_list = sorted(word_dic.items(), key=lambda x: x[1], reverse=True)
24 i = 1
25 
26 with open('e:\\modern famile word sort.txt',mode='w',encoding='utf-8') as f:
27     for word in sort_list:
28         line='{} {} {}\n'.format(i, word[0], word[1])
29         f.write(line)
30         i = i + 1
31 print('done, 單詞總量:{}'.format(len(sort_list)))

用python對modern family 摩登家庭 1~11季劇本臺詞的詞頻分析

小夥子不講武德，竟用Python爬取了B站上1.4萬條馬老師視訊資料來分析

看到標題，啪的一下你就進來了吧！如果有經常刷B站的小夥伴，肯定都知道B站鬼畜現在的頂流是誰？

用python對oracle進行簡單效能測試

一、概述 dba在工作中避不開的兩個問題，sql使用繫結變數到底會有多少的效能提升？資料庫的審計功能如果開啟對資料庫的效能會產生多大的影響？最近恰好都碰到了，索性做個實驗。

用python對excel查重

最近媳婦工作上遇到一個重複性勞動，excel表格查重，重複的標記起來，問我能不能寫個程式讓它自動查重標記

用python對excel進行操作(讀,寫,修改)

一、對excel的寫操作例項：將一個列表的資料寫入excel,第一行是標題，下面行數具體的資料

用Python對Excel資料進行分列處理

split用法以下例項展示了 split() 函式的使用方法： #!/usr/bin/python3 str = \"this is string example....wow!!!\"print (str.split( )) # 以空格為分隔符print (str.split(\'i\',1)) # 以 i 為分隔符print (st

用Python對各種程式語言進行原始碼高亮

下邊程式碼段是關於用Python對各種程式語言進行高亮的程式碼。 easy_install pygments

疫情在校學生之——用python對某校園熱水服務app進行測試，實現自動免費用水（僅供參考）

寫在前面的過場話：本文只是對某校園熱水服務app做個測試，其實本人並沒有做大壞事，並未傳播相關技術，文章以下內容的敏感部分會打碼，並且相關廠商已經正在進行漏洞修復，大家看看就好。文章後會提供“Python簡

手把手教你用Python爬取某網小說資料，並進行視覺化分析

網路文學是以網際網路為展示平臺和傳播媒介，藉助相關網際網路手段來表現文學作品及含有一部分文字作品的網路技術產品，在當前成為一種新興的文學現象，並快速興起，各種網路小說也是層出不窮，今天我們使用seleniu

實操 | 從0到1教你用Python來爬取整站天氣網

Scrapy Scrapy是Python開發的一個快速、高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。

2020-10-21 用anaconda對python的numpy解除安裝與安裝

解除安裝比較簡單，開啟cmd直接pip uninstall numpy. 重新安裝，需要在開始–所有程式——anaconda prompt右鍵，以管理員身份執行，輸入conda install numpy即可自動安裝最新版，點選y確認即可。

用python向mysql新增1萬條資料最精簡的方法

廢話不說，上乾貨 #coding=utf-8 import time import pymysql #pip install pymysql dbinfo = { \"host\": \"192.168.1.105\",

用Python標記資料出現次數超快 coutif(B$1:B1,B1)

技術標籤：Pythonpython 目的:標記資料第幾次出現在工作中,會經常遇到需要標記資料第幾次出現的情況，之前我用Excel時公式是這樣寫的【=count($b$1:b1,b1)】然後下拉,但是資料量超過20萬,就要等10分鐘以上。

python對字串base64解碼後用Inflater解壓縮（demo）

技術標籤：pythonpapimysqlpythonjson字串首先匯入包 import base64 import zlib import json 然後編寫程式碼進行對字串的解碼和解壓縮

用python輸出1到100的奇數、偶數、5的倍數、奇數和、偶數和、總和

list1 = []list2 = []list3 = []list4 = []list5 = []for i in range(1, 101):if i % 2 == 0:list1.append(i)else:list2.append(i)if i % 5 == 0:list3.append(i)print(\'1到100的偶數有：\', list1, \'\\n偶數和為