Python獲得一篇文件的不重複詞列表

阿新 • • 發佈：2018-12-22

def loadDataSet():
    postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],
                   ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],
                   ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],
                   ['stop', 'posting', 'stupid', 'worthless', 'garbage'],
                   ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],
                   ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]
    return postingList

def createVocabList(dataSet):
    vocabSet = set([])  # 建立空集合
    for document in dataSet:
        vocabSet = vocabSet | set(document) # 取並集
    return list(vocabSet)

word = loadDataSet()
word_set = createVocabList(word)
print(word_set)

輸出：（可以看到輸出沒有重複詞彙）

['stop', 'not', 'stupid', 'how', 'food', 'him', 'posting', 'worthless', 'I', 'has', 'please', 'dalmation', 'licks', 'problems', 'help', 'garbage', 'buying', 'maybe', 'my', 'to', 'quit', 'flea', 'so', 'mr', 'dog', 'park', 'is', 'love', 'steak', 'ate', 'take', 'cute']

Python獲得一篇文件的不重複詞列表

def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],

python logging 日誌輪轉文件不刪除問題的解決方法

sage lis 方法 rmi example audio [] tin lse 項目使用了 logging 的 TimedRotatingFileHandler ： #!/user/bin/env python # -*- coding: utf-8 -*- impo

Python切分文字（將文字文件切分為詞列表）

對於一個句子，一種簡單的方法是使用split() a = 'This is an apple. Do you like apple?' b = a.split() print(b) # ['This', 'is', 'an', 'apple.', 'Do', 'you', 'like', '

python學習（十一）文件和流

內存無緩沖 abcd 連接 sss 文件操作打開文件 while 3.5 11.1 打開文件　　>>> f = open(r‘c:\text\somefile.txt‘)，第一個參數是文件名，必須有；第二個是模式；第三個參數是緩沖。　　11.1

讀書筆記--《Python基礎教程第二版》--第十一章文件和素材

ja第十一章文件和素材11.1 打開文件 open函數用來打開文件，語法如下： open(name[,mode[,buffering]]) f = open(r‘/home/python/somefile.txt‘)11.1.1 文件模式r 讀模式w 寫模式a 追加模式b 二進制模式（可添加到其他的模式

python基礎篇(文件操作)

str con 視頻 alt 而不是 mage 字符 hang 數據 Python基礎篇(文件操作) 一.初始文件操作使用python來讀寫文件是非常簡單的操作. 我們使用open()函數來打開一個文件, 獲取到文件句柄. 然後通過文件句柄就可以進行各種各樣的操作了. 根

Java 寫一段字元到指定的文字文件中，如果該文字文件不存在，則建立該文字文件

寫一段字元到指定的文字文件中，如果該文字文件不存在，則建立該文字文件 1 import java.io.File; 2 import java.io.FileNotFoundException; 3 import java.io.FileOutputStream; 4 import java.

織夢文件標題重複時不允許發文章

其實後臺是有個重複檢測功能(系統 - 系統基本引數-其它選項 -釋出文件時是否檢測重複標題：是否)，但是新增文章的時候都能新增成，這顯然沒什麼用原來的檢測功能，現在我們要做的是在點選新增文章儲存按鈕之前，做下檢測重複文件的操作，判斷如果存在重複文件，提示，並且退出儲存文章的

Pycharm下同一目錄的py文件不能相互調用的原因分析

-s sans har 而不是 mic 互調 file 相互調用 str 1.首先確保所在目錄是Python Package而不是一般的New Stratch File 　Python Package下有__init___.py或自己建空的__init___.py

Blender Python API中文介紹文件一

前言：Blender Python API沒有中文教程，嘗試翻譯了官網的入門文件，因英文水平有限，很多是直譯，希望各位能夠多多指正，也希望這篇翻譯對你多少有一絲作用指令碼和擴充套件 Pytho

GCC優化選項：一般的文件裡不容易找到的-Os

在研究編譯驅動的makefile的時候，發現GCC的命令列裡面有一個-Os的優化選項。遍查GCC文件，發現了-O0, -O1, -O2, -O3，就是沒有發現-Os。祭出GOOGLE大法搜了一下，終於發現這篇文章說明了-Os的作用：http://www.lin

python 讀寫txt文件並用jieba庫進行中文分詞

mage 亂碼技術分享流行 ictclas 函數結果 class 配置 python用來批量處理一些數據的第一步吧。對於我這樣的的萌新。這是第一步。 #encoding=utf-8 file=‘test.txt‘ fn=open(file,"r") print f

Python 之讀取txt文件

open new python pro 文件 div content 調用 close 本文直接給出三種實現方法，代碼例如以下。方法一： f = open("Proc_Data.txt") # 返回一個文件對象 line = f.readl

python之import子目錄文件

人的 arch 問題： admin 創建 pro 最簡 pack erro 問題：在pre_tab.py文件下： print("AA") from test.te import login1 login1() from test.te impo

python實現修改配置文件

odi 並且 mode info ack hide 配置 rdf 讀取 python實現修改配置文件原配置文件 global log 127.0.0.1 local2 daemon maxconn 256

Python基礎：Python函數、文件操作、遞歸

文件處理 r+ lose 獲取表示 pyw 全部 truncate 模塊函數參數函數參數包括位置參數，關鍵字參數，動態參數（*args, **args）三種。傳參的過程是形式參數的賦值。*args傳入的參數是元組形式，**args傳入的參數是字典形式。示例代碼如下：(這

Python Day2 基礎操作文件流

font -a 方式復制定義 count 較高的 pri 字典 1.列表、元組操作推薦書籍追風箏的人白鹿原

Python（day5）文件操作

second 速度引號 day5 blog 區別返回我們 log 一、文件處理流程打開文件，得到文件句柄並賦值給一個變量通過句柄對文件進行操作關閉文件二、文件打開模式打開文件時，需要指定文件路徑和以何等方式打開文件，打開後，即可獲取該文件句柄，日後通過此

python json及mysql——讀取json文件存sql、數據庫日期類型轉換、終端操縱mysql及python codecs讀取大文件問題

temp extra log urn xtra mysql 程序 pre 安裝mysql preface: 近期幫師兄處理json文件，須要讀到數據庫裏面，以備其興許從數據庫讀取數據。數據是關於yelp站點裏面的: https://github.com/Yelp/d

os.path python使用遍歷文件夾文件

root 文件信息 lba arc 輸出 import nsh ive oot import os import os.path rootdir = “d:\data” # 指明被遍歷的文件夾 for p

Python獲得一篇文件的不重複詞列表

相關推薦