用python拆分文章

阿新 • • 發佈：2018-11-11

菜雞的日誌，非常簡單和基礎的內容，不確定會更新多少,目的是自動做英語閱讀匹配題

涉及到的知識：

python
pandas和numpy庫
tf-idf的運用

需要準備

若干篇現成的英語閱讀和答案（不是機器學習，只是自己測試準確率）
個人使用jupyter_notebook

cell 1 18/10/17 對文章拆分

import numpy as np
import pandas as pd
symbol=[".","'",'']
presymbol=[("\'s"," is"),('\'re'," are"),('n\'t'," not"),('\'ve',' have'),("\'m",' |am')##縮寫
                   ,("\'",""),(","," "),('\"',""),("?","."),("!",".")]

text=[]
with open("1.txt") as file:
    text=file.read().strip().lower()
    for j in presymbol:
        text=text.replace(j[0],j[1])
    paragraphs=text.split("\n")
    
raw_passage=[]
sentence=[]
for i in paragraphs:
    if i!="":   ##i是一段
        temp_paragraph=[]
        for j in i.split("."):
            if j!="":
                sentence=[ word for word in j.split(" ") if (word not in symbol and word!="")]
                if sentence!=[]:
                    print (sentence)
                    temp_paragraph.append(sentence)
        raw_passage.append(temp_paragraph)

拆分三個疊加的列表，依次為段落-句子-單詞，需要預處理一下壓縮的單詞和一些符號，非常簡單

cell 2 18/10/18 統計出現的單詞

appeared_word=set()
for rp in raw_passage:
    for rs in rp:
        for word in rs:
            appeared_word.add(word)

非常簡單基礎，就是為了便於直接底部加上appear_word檢視，才作為一個單獨的cell

cell 3 18/10/18 初始化DataFrame並計算單詞個數

word_count=pd.DataFrame(np.zeros((len(raw_passage),len(appeared_word))).astype(int),index=range(len(raw_passage)+1),columns=appeared_word)
for i,rp in enumerate(raw_passage):
    for rs in rp:
        for word in rs:
            word_count[word][i+1]+=1
words_data=pd.DataFrame(np.sum(np.array(word_count.iloc[1:]),axis=0).reshape((1,919)),index=[1],columns=appeared_word).append(word_count)

由於個人比較菜，這塊花了好久查閱pandas的函式，可能有更簡便的寫法

為了降低在文字匹配時少受到and這類詞影響，可以使用tf-idf

用python拆分文章

菜雞的日誌，非常簡單和基礎的內容，不確定會更新多少,目的是自動做英語閱讀匹配題涉及到的知識： python pandas和numpy庫 tf-idf的運用需要準備若干篇現成的英語閱讀和答案（不是機器學習，只是自己測試準確率）個人使用jupyter_noteboo

用python統計文章單詞詞頻

import re with open("text.txt") as f: #讀取檔案中的字串 txt = f.read() #去除字串中的標點、數字等 txt = re.sub('[,\.()":;[email pr

微信PK10平臺開發與用python爬取微信公眾號文章

網址谷歌瀏覽器 pytho google http 開發微信安裝python rom 本文通過微信提供微信PK10平臺開發[q-21528-76294] 網址diguaym.com 的公眾號文章調用接口，實現爬取公眾號文章的功能。註意事項 1.需要安裝python s

用Python寫了個色情文章檢測器！投放各大自媒體！就年薪百萬了？

但是，有些作者發表的文章充斥著色情與暴力，一旦被青少年看到，會產生難以想象的後果。我們需要對網路上的文章進行檢測，以標記出其是否為色情文章，如果是，那麼我們就要將其過濾不予顯示。而人工檢測在資訊爆炸的今天幾乎不可能實現。所以，我們提出了基於神經網路的色情文章檢測。具體的

用python統計你的文章裡每個英文單詞的數量

p=''' i heared a story about you ''' #你的文章段 lines=p.strip().split('\n') words_cnt={} for line in lines: line=line.replace(',','').lower() #逗號都用英

為什麼人工智慧用Python開發？從沒有一篇文章講的這麼詳細！

https://baijiahao.baidu.com/s?id=1589653400264045732 為什麼人工智慧用Python？ Python作為指令碼語言，執行速度沒有Java，C++快。 Python到底有啥優勢？為什麼人工智慧的主流語言是Python？ Py

用python爬取微信公眾號文章

本文通過微信提供的公眾號文章呼叫介面，實現爬取公眾號文章的功能。 # -*- coding: utf-8 -*- from selenium import webdriver import time import json import reques

用Python爬取更加有價值的文章

前言在瞭解了python的語法之後，我就開始嘗試寫第一個爬蟲，並且在網上也找了很多教程，發現有幾個模組在Python爬取網頁時，特別常用，例如：BeautfulSoup,Requests, csv, re。BeautfulSoup是一個方便解析html

用python爬蟲方式：刷文章閱讀量

利用python爬蟲來抓取你要的網頁內容，實際上是對該內容的一次閱讀，這樣可以帶來閱讀量的增加。這次以爬去CSDN部落格為例，其他的網站也許要另外設定。使用python第三方包有：bs4、requests、time 這裡間歇時間設定為2秒採用heade

用python爬取文章連結並分類

環境： OS：win10 x64 Python：3.5.1 PyCharm：5.0.3 為了方便學習，根據關鍵字過濾資料爬取下來，並做分類。爬取jobbole import requests from bs4 import BeautifulSoup import

用Python實現去掉文章中特定的段落

有一份試題,每個問題以QUESTION NO開始，然後是該題的答案，以Answer:開始。為了摘出一份只包含問題，不包含答案的試題，嘗試用ultraedit的正則表示式替換，但不支援跨行替換。於是寫了下面的Python程式。from sys import*fp=open(argv[1],'r')fo=open

用Python寫了個檢測文章抄襲，詳談去重演算法原理

在網際網路出現之前，“抄”很不方便，一是“源”少，而是釋出渠道少；而在網際網路出現之後，“抄”變得很簡單，鋪天蓋地的“源”源源不斷

用Python向部落格園釋出新文章

　　最近在開發一個部落格系統，經常把寫的東西放在自己網站的部落格上（之前寫在Onenote），然後我在部落格園也申請了一個部落格，就有了同樣一篇文章，我需要複製貼上排版分別提交兩次的情況。於是我就想能不能在我的網站內提交後直接把這篇文章同步提交至部落格園甚至是其他第三方部落格呢，所以花點時間實現了這個功能。本

R 調用 python

比較 ons 類庫 app 表示開發 task 發現傳遞　　上一篇說了python使用 rpy2 調用 R，這裏介紹R如何調用python。R的強項在於統計方面，尤其是專業的統計分析，統計檢驗以及作圖功能十分強大，但是在通用性方面，就遠不如Python了，比如pyth

用Python進行網頁抓取

google 神奇顯示 rss 遍歷 ecb data- 可用 appdata 引言　　從網頁中提取信息的需求日益劇增，其重要性也越來越明顯。每隔幾周，我自己就想要到網頁上提取一些信息。比如上周我們考慮建立一個有關各種數據科學在線課程的歡迎程度和意見的索引。我們不僅需要

python小工具：用python操作HP的Quality Center

over cti 步驟 response headers 服務器登錄 chm format 背景是這樣的：這個組的測試人員每跑一個case都要上傳測試結果附件到QC。每個待測功能模塊可能包含幾十上百的case。於是手工上傳測試結果變成了繁重的體力勞動。令人驚訝的是我們的工

黑客和逆向工程師都是這麽用Python的

研究 follow 撰寫逆向分析同時 mini get tar bsp Python灰帽子：黑客與逆向工程師的Python編程之道》是由知名安全機構Immunity Inc的資深黑帽Justin Seitz先生主筆撰寫的一本關於編程語言Python如何被廣泛應用於黑客與

用python闡釋工作量證明(proof of work)

import trac 挖礦 hash 耗電 hid bre 方程 ng- 了解比特幣的都知道挖礦非常耗電,這是由於比特幣用到了工作量證明. 工作量證明是指系統為達到某目標而設置的工作度量方法.一開始是用在網絡攻防上,大大提高攻擊者的計算量,攻擊成本也就上去了. 工作

用Python玩微信（非常詳細）

tree dir colors 位置 echarts 拼接 spl 表示開源項目代碼放在這裏：wzyonggege/python-wechat-itchat 詞雲那裏可以換成小黃人圖片 -----------------------------------------

Java調用Python程序

com -1 http 開始 ima mave idt 方式技術最近，需要在應用中，需要使用Java程序去調用Python代碼，主要有兩種實現方式。一、使用Jython架包因為調用的Python代碼中需要使用Json對象，開始使用jython2.5.2，發現不支持j

用python拆分文章

菜雞的日誌，非常簡單和基礎的內容，不確定會更新多少,目的是自動做英語閱讀匹配題

涉及到的知識：

需要準備

cell 1 18/10/17 對文章拆分

cell 2 18/10/18 統計出現的單詞

cell 3 18/10/18 初始化DataFrame並計算單詞個數

由於個人比較菜，這塊花了好久查閱pandas的函式，可能有更簡便的寫法

相關推薦