1. 程式人生 > >Python:提取網頁中的電子郵箱

Python:提取網頁中的電子郵箱

import requests, re

#regex = r"([a-zA-Z0-9_.+-][email protected][a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)"
#這個正則表示式過濾掉了qq郵箱
regex = r"([a-zA-Z0-9_.+-][email protected][a-pr-zA-PRZ0-9-]+\.[a-zA-Z0-9-.]+)"
#基於隱私,使用了“XXXXXXXXXXXXXX”
url = 'http://blog.sina.com.cn/s/XXXXXXXXXXXXXXXXXX.html'
html = requests.get(url).text
#print(html)
emails = re.findall(regex,html)
i = 0
for email in emails:
    i += 1
    if i < 16:
        print("{} :{}".format(i,email))


相關推薦

Python:提取網頁電子郵箱

import requests, re #regex = r"([a-zA-Z0-9_.+-][email protected][a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+)" #這個正則表示式過濾掉了qq郵箱 regex = r"([a-zA-Z0-9_.+-][email

python學習筆記——爬蟲提取網頁的信息

個數 傳輸 自由 tro 不一定 很多 set 字符串 2.4 1 數據類型 網頁中的數據類型可分為結構化數據、半結構化數據、非結構化數據三種 1.1 結構化數據 常見的是MySQL,表現為二維形式的數據 1.2 半結構化數據 是結構化數據的一種形式,並不符合關系型數據

[python]獲取網頁內容為漢字的字符串的判斷

vsr rbo ats art htm acad for swe lin IPerf%E2%80%94%E2%80%94%E7%BD%91%E7%BB%9C%E6%B5%8B%E8%AF%95%E5%B7%A5%E5%85%B7%E4%BB%8B%E7%BB%8D%E4%B

python解析網頁js動態添加的內容

pytho log hive .cn article gree html .com .html https://www.cnblogs.com/asmblog/archive/2013/05/07/3063809.html https://www.zhihu.com/q

python提取字串的數字

字串儲存在string.txt中,將字串中的數字提取出來,組成心得字串,並列印輸出。 #!/usr/bin/env python3 file=open('/home/user/string.txt') file_context=file.read() i=0 string='' wh

Python 提取字串的數字

方法*正則表示式. re.findall >>> import re >>> str1="this book is 99 yuan 8" >>> a=re.findall(r'\d',str1) #在字串中找到正則表示式所匹配的所

python提取文字的數字, 文字複製

提取文字中的數字 #!/usr/bin/env python3 with open(r'/home/shiyanlou/Code/String.txt', 'r') as f:     f1 = f.read() s = [] for w in f1:   &nbs

Delphi提取網頁的圖片

無意中,在csdn論壇中看到關於“提取網頁中的圖片資源”的帖子,特摘抄之。 simonhehe提供相關程式碼如下:  procedure TfrmMain.DomImg2Image(wb:TWebBrowser); var i:Integer; rang:IHTMLContro

python解析網頁javascript動態新增的內容 一

最近,想從中國天氣網上抓取資料,其中的網頁上的實時天氣是使用javascript生成的,用簡單的標籤解析不到。原因是,那個標籤壓根就沒再網頁當中。 所以,google了下python怎麼區解析動態網頁,下面文章對我很有幫助。 因為我只希望在mac下解析,所以我並沒有使用擴

python 提取一行任意路徑

import os.path f2= open('1.txt', 'w') fopen=open("point.txt","r") lines=fopen.readlines() for line

python 提取redis所有的keys 和資料

import redis   pool = redis.ConnectionPool(host='127.0.0.1', port=6379, db=0)   r = redis.Redis(connection_pool=pool)   pipe = r.pipeline()   pipe_

python提取檔案的關鍵詞及部分上下文內容

也包含了資料夾中檔案遍歷 # -*- coding: utf-8 -*- #允許中文註釋 #需要提取文字夾下所有文字的一些資訊(***有些需要轉換格式****),存到一個新檔案res.txt中 import re #正則模組 import os #檔案處

Python提取PDF的圖片

# 2018/08/16更新: 有些同學不知道fitz庫是什麼,它是pymupdf中的一個模組,操作PDF非常舒服,只需要pip安裝即可: pip install pymupdf Python提取word中的圖片(需要的自取): 最近專案需要把word、PDF中的

python提取文字的中文

# -*- coding: utf-8 -*- import re import sys reload(sys) sys.setdefaultencoding("utf8") def translate(str): line = str.strip().decod

Python提取圖片的文字資訊,騰訊內部技術,一行程式碼搞定!

用過手機QQ就知道,點選一個圖片會彈出一個小功能,那就是提取圖片中的文字。非常方便實用,那麼很難實現嗎?利用Python提取圖片中的文字資訊,只需要一行程式碼就能搞定!當然,這是吹牛皮的,但是真正的Python程式碼也就第4行,說是一行程式碼搞定也沒錯。示例:效果儘管執行Py

HtmlParser提取網頁的純文字資訊-java

    HTMLParser 一個解析web頁面的開源類庫。         準備學習下搜尋方面的技術,就學習了些網路爬蟲的知識。最近一直在一個點上困惑,如何提取一個網頁上的純文字資訊。要使用正則表示式的話呢,需要考慮很多因素,而且標籤也太多,不是很方便,效果也不好。就準備利用開源包,最後選擇了HtmlPar

python學習筆記】用正則表示式從含中文的網頁提取資料(含編碼轉換)

目標:用正則表示式從含中文的網頁中提取資料 1、獲得網頁全部資料 1.1思考過程 確定我們要操作的網頁:url = 'http://q.stock.sohu.com/cn/603077/cwzb.shtml' 開啟要操作的網頁:req = urllib2.open(url)

Python readability提取網頁正文的優化

lib 使用 網站 內容 ear [0 resp strip 獲得 Python readability的使用: from readability.readability import Document import urllib html = urllib.urlope

win服務器安裝開源電子郵箱服務端

email 同事發來需求,需要幾百個真實的郵箱賬號,用於WEB測試註冊時使用,不需要用來發送郵件,僅是後端做驗證而已。 燃鵝,手頭上沒有多的服務器可以用,咋辦? VM + 開源郵箱服務端方案靈光一閃。VM沒啥好說的,在win機器上安裝workstation ,安裝win2008R2, 內存4G,虛擬

Python+Selenium之摘取網頁上全部郵箱

utf 返回 ive 但是 匹配 希望 aid 不同 class 本文轉載:http://blog.csdn.net/u011541946/article/details/68485981 練習場景:在某一個網頁上有些字段是我們感興趣的,我們希望摘取出來,進行其他操作。但是