1. 程式人生 > >Python 將HTML轉換為TXT

Python 將HTML轉換為TXT

CODE:

#!/usr/bin/python 
# -*- coding: utf-8 -*-

'''
Created on 2014-9-5
@author: guaguastd
@name: html_to_text.py
'''

from login import google_api_request
from html import cleanHtml

while True:
    query = raw_input("Input query(None to quit): ")
    if query.strip() == '':
        break
    
    #people_feed = google_login_http("people", "query", query)
    #people_feed = google_api.people().search(query=query).execute()
    #print json.dumps(people_feed['items'], indent=1)
    people_feed = google_api_request(0, action='search', query=query)
    
    for user in people_feed['items']:
        userId = user['id']
        activity_feed = google_api_request(1, action='list', collection='public', maxResults='100', userId=userId)
        #print json.dumps(activity_feed, indent=1)
        print '\nPrimary content including HTML tag:'
        print activity_feed['items'][0]['object']['content']
        print '\nConverted content without HTML tag:'
        print cleanHtml(activity_feed['items'][0]['object']['content'])

RESULT:
Input query(None to quit): Tim O'Reilly

Primary content including HTML tag:
ABC World News covers @HomeDepot credit card data breach, recommends @BillGuard to protect yourself! <a href="https://www.youtube.com/watch?v=_ynH_rvWHXw">BillGuard on ABC World News Tonight With David Muir</a> … (Minute <a href="https://www.youtube.com/watch?v=_ynH_rvWHXw&t=1m25s">1:25</a>)

Converted content without HTML tag:
ABC World News covers @HomeDepot credit card data breach, recommends @BillGuard to protect yourself! BillGuard on ABC World News Tonight With David Muir … (Minute 1:25 )


相關推薦

Python HTML轉換TXT

CODE: #!/usr/bin/python # -*- coding: utf-8 -*- ''' Created on 2014-9-5 @author: guaguastd @name: html_to_text.py ''' from login impor

[Python]HTML轉換TXT的指令碼

朋友給我發了一些文章,是HTML格式的。但是我的A1200手機只適合看txt格式的書,所以寫了一個指令碼,把某個目錄下的所有.htm檔案轉換成txt,並放到txt目錄下。 formatter AbstractForma

C# HTML 轉換圖片或 PDF

ont gif completed 字段 sed pad cli 滾動條 lose 首先是把 HTML 轉換為圖片。 public partial class Form1 : Form { public Form1() {

Python IP轉換int

soc main spa == style print int 127.0.0.1 toa import socket import struct if __name__ == ‘__main__‘: ip = ‘127.0.0.1‘ int

python 圖片轉換base64編碼轉儲進數據庫

join 圖片轉換 exce 中間 sof com sys hal ims # _*_ coding: utf-8 _*_#中間件:拓展工具遍歷文件夾,對文件夾圖片進行base64編碼,寫入數據庫,並且讀取查找方法__author__ = ‘wf15038‘__date__

使用pythonseq轉換影象image格式,

需要修改的 rootdir = "set資料夾的路徑\set01" import os.path import fnmatch import shutil   def open_save(file,savepath):     # read .seq file, a

python str轉換dict

1、使用ast包 >>> import ast >>> ast.literal_eval("{'muffin' : 'lolz', 'foo' : 'kitty'}

基於Spire.PDFHTML轉換PDF

將HTML轉換為PDF幾乎與每個人或群體相關,因為PDF是安全分發或共享的最佳格式。那麼我們應該如何輕鬆地將html轉換為PDF並且安全地變得非常重要。線上HTML到PDF轉換器真的很方便,但可能會導致隱私洩露,這可能是致命的,特別是對於合作,公司和組織。一個合理的解決方案是我們可以自己定製html

iText – 使用JavaHTML轉換PDF

iText “XML Worker”允許開發人員以一種程式設計師友好的方式將XML檔案轉換成PDF檔案。iText還可以將包含CSS樣式的HTML轉換為PDF格式的文件。 目標: 實現如何利用iText Java庫將HTML檔案轉換成PDF文件?

python 漢字轉換拼音

xpinyin提供把漢字轉為漢語拼音的功能。  安裝此模組 pip install xpinyin簡單用例: from xpinyin import Pinyin pin = Pinyin() test1 = pin.get_pinyin("大河向東流") #預設分割符為- print(t

JAVA常用API或程式設計工具001---ITEXT把html轉換成pdf的jar包,使用JavaHTML轉換PDF

iText “XML Worker”允許開發人員以一種程式設計師友好的方式將XML檔案轉換成PDF檔案。iText還可以將包含CSS樣式的HTML轉換為PDF格式的文件。 目標: 實現如何利用iText Java庫將HTML檔案轉換成PDF文件? Environment &

如何HTML轉換純文字格式Text

可以完成HTML到Text的轉換,但是不能將表格轉換成HTML這是一個大困難。到現在都沒有找到一個比較好的實現。 HtmlAgilityPack.dll 這兒是一個用perl實現的將html表格轉換成純文字。 http://www.vbforums.com/sho

python pdf轉換txt

由於上篇中的一個模組要求是將pdf中的文字內容給讀取出來,因為大部分的畢設文件都是pdf格式的,而python自帶的file I/O是沒法實現從pdf格式的檔案中讀取內容的,因此需要匯入第三方的package來完成。起

html2text: HTML 轉換 Markdown 格式文字

安裝: pip install html2text Option Description –version Show program’s version numb

如何提取pdf中的文字並轉換TXT文件

對於畢業論文以及一些學術論文,公文,可能會涉及到較多的文字,較長的篇幅,較泛跟較精細的內容。所以很多朋友會選擇通過部分引用的方式來增加自己文章論點論據的說服力。 但是現在很多學術文章為了保護自己的著作權,會選擇將文章文件轉換為PDF文件之後再加以上傳。但是這樣並不能防止他

使用python圖片轉換字元圖片

“因吹斯汀” 簡介 一個簡單的python程式,將圖片轉換為字元圖片。 (為了簡便,很多引數寫死了,自己看著改吧。 (←∀←)) 正文 原圖(侵刪) 結果圖 原始碼 [更多細節]——>戳這裡 #-*- co

JShtml轉換txt

//將html轉換成txt function css_js_html($str,$encode = 'GB2312'){ $str = preg_replace("/<style .*?<\/style>/is", "", $str); $str

C#關於iTextSharphtml轉換pdf不支援中文問題

使用iTextSharp的XMLWorker來解析帶html標籤的文字修改iTextSharp\iTextSharp\textFontFactoryImp.cs中的public virtual int RegisterDirectories()方法使其掃描自己所需要的中文字

通過freemarker模板,使用jsouphtml轉換word,包含圖片

實現思路: 一、製作模板 1、在word中無非三種格式,文字、圖片、表格,目前我所涉及到的業務中只有這三個,其他情況沒涉及到沒研究,首先需要準備一個模板檔案,即xml格式的模板,通過開啟一個空白的word文件,另存為xml檔案,即可得到一個空白的word模板(可使用not

python生成pdf報告、python實現html轉換pdf報告[python3]

import pdfkit pdfkit.from_url('http://google.com','out.pdf') pdfkit.from_file('test.html','out.pdf') pdfkit.from_string('Hello!','out.pdf')