day 18 - 2 re 模組練習

阿新 • • 發佈：2018-12-12

1、爬蟲的例子

#爬蟲的例子（方法一）
import re
import urllib,request import urlopen

def getPage(url):
    response = urlopen(url)
    return response.read().decode('utf-8')

def parsePage(s):
    ret = re.findall(
        '<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span> 
'
       '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)評價</span>',s,re.S)
    return ret

def main(num):
    url = 'https://movie.douban.com/top250?start=%s&filter=' % num
    response_html = getPage(url)
    ret = parsePage(response_html)
     
print(ret)

count = 0
for i in range(10):   # 10頁
    main(count)
    count += 25

# url 從網頁上把程式碼搞下來
# bytes decode ——> utf-8 網頁內容就是我的待匹配字串
# ret = re.findall(正則，帶匹配的字串)  #ret是所有匹配到的內容組成的列表

#爬蟲的例子（方法一）
import requests

import re
import json

def getPage(url):

    response=requests.get(url)
     
return response.text

def parsePage(s):
    
    com=re.compile('<div class="item">.*?<div class="pic">.*?<em .*?>(?P<id>\d+).*?<span class="title">(?P<title>.*?)</span>'
                   '.*?<span class="rating_num" .*?>(?P<rating_num>.*?)</span>.*?<span>(?P<comment_num>.*?)評價</span>',re.S)

    ret=com.finditer(s)
    for i in ret:
        yield {
            "id":i.group("id"),
            "title":i.group("title"),
            "rating_num":i.group("rating_num"),
            "comment_num":i.group("comment_num"),
        }

def main(num):

    url='https://movie.douban.com/top250?start=%s&filter='%num
    response_html=getPage(url)
    ret=parsePage(response_html)
    print(ret)
    f=open("move_info7","a",encoding="utf8")

    for obj in ret:
        print(obj)
        data=json.dumps(obj,ensure_ascii=False)
        f.write(data+"\n")

if __name__ == '__main__':
    count=0
    for i in range(10):
        main(count)
        count+=25

1、計算器

#待完成
a = '1 - 2 * ( ( 6 0 -3 0  +(-40/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2) )'

day 18 - 2 re 模組練習

1、爬蟲的例子 #爬蟲的例子（方法一） import re import urllib,request import urlopen def getPage(url): response = urlopen(url) return response.read().decode('ut

day 4 - 2 資料型別練習

1. 在字串中數字相連的為一組，輸出數字共有幾組如: 123sdf456sdf789 數字為：3組 info = input(">>>") for i in info: if i.isalpha(): info = info.r

day 11 - 2 裝飾器練習

1、編寫裝飾器，為多個函式加上認證的功能（使用者的賬號密碼來源於檔案）要求登入成功一次，後續的函式都無需再輸入使用者名稱和密碼 FLAG = False def login(func): def inner(*args,**kwargs): global FLAG

day 22 - 2 面向物件練習

練習一在終端輸出如下資訊小明，10歲，男，上山去砍柴小明，10歲，男，開車去東北小明，10歲，男，最愛大保健老李，90歲，男，上山去砍柴老李，90歲，男，開車去東北老李，90歲，男，最愛大保健老張… class Person: def __init__(self,name,age,se

day 18 - 1 正則與 re 模組

正則表示式官方定義：正則表示式是對字串操作的一種邏輯公式，就是用事先定義好的一些特定字元、及這些特定字元的組合，組成一個 “規則字串”，這個 “規則字串” 用來表達對字串的一種過濾邏輯。我們先來看一個正則與 re 模組的例子判斷手機號是否合法 #while 實現 while True:

python進階（2）——re模組：正則表示式1

實驗結果輸出文件，包括多項引數（大約幾百個），想把所有的loss value對應的值提取出來，畫出曲線圖，這就需要用到正則表示式，基於此，開始學習正則表示式。正則表示式：可匹配文字片段的模式萬用字元：句點.(.ython與jpython與python與 ython都匹配，但不與ython

python進階（2）——re模組：正則表示式2

re.split 根據模式來分割字串 import re text='a, b,,,,c d' print(re.split('[, ]+', text)) #re.split:以空格和字串分割字元 re.findall 返回列表，包含所有與給定模式匹配的子串 import re

day 23 re模組正則表示式

一 . 正則表示式元字元：除了換行符外的任意字元 . : 匹配除了換行符意外的任意字元 /w ：匹配數字，字母，

day 14 - 2 生成器練習

相關練習 1、處理檔案，使用者指定要查詢的檔案和內容，將檔案中包含要查詢內容的每一行都輸出到螢幕 #比較 low 的方法 def check_file(filename,aim): with open(filename,encoding='utf-8') as f: #控制代碼 : hand

day 15 - 2 內建函式練習

內建函式練習編寫 sql 查詢語句功能 # 待完成面試題：閱讀程式碼，說出輸出結果 def extendList(val,list=[]): list.append(val) return list list = extendList(10) lis

day 16 - 2 內建函式（二）練習

內建函式（二）練習 1、用map來處理字串列表,把列表中所有人都變成sb,比方alex_sbname=['alex','wupeiqi','yuanhao','nezha'] name=['alex','wupeiqi','yuanhao','nezha'] def func(n):

day 17 - 2 遞迴函式練習

1、斐波那契問第n個斐波那契數是多少 #這個效率是低的，最好不要使用雙遞迴 def fib(n): if n == 1 or n == 2: return 1 return fib(n-1) + fib(n-2) print(fib(10)) prin

【python】re模組的用法（2）—— 提取字串中括號內的內容

Python使用re模組正則提取字串中括號內的內容示例這篇文章主要介紹了Python使用re模組正則提取字串中括號內的內容,結合例項形式分析了Python使用re模組進行鍼對括號內容的正則匹配操作,並簡單解釋了相關修正符與正則語句的用法,需要的朋友可以參考下本文例項講述

day 30 1.作業系統原理 2. Process 模組學習

程序: 起源:程序的概念起源於作業系統，是作業系統最核心的概念，也是作業系統提供的最古老也是最重要的抽象概念之一。作業系統的其他所有內容都是圍繞程序的概念展開的。所以想要真正瞭解程序，必須事先了解作業系統. 　　什麼是作業系統? 　　#一作業系統的作用：　　1：隱藏醜陋複雜的硬體介面，提供良

day 17 re模組

RE模組 import re 對一個大篇幅的字串，按照你的規則找出想要的字串 # 單個字元匹配 import re # \w 與 \W #字母數字下劃線，非 # print(re.findall('\w', '太白jx 12*() _')) # ['太', '白', 'j', 'x',

Python3，通過re模組中的sub()和findall()2個方法提升爬蟲提取資料的效率

直接上Demo：測試資料 - HTML： '''<div id=\"songs-list\">" "<h2 class=\"title\">各種汽車</h2>" "<p class=\"introduction\"&

3.2 re--正則表達式操作（Regular expression operations）

rac code trac ont 性能 font reg 解決字符串查找本模塊提供了正則表達式的匹配操作，它的功能跟Perl語言裏的功能一樣。不管是Unicode字符串還是單字節8位組成的字符串，都能夠使用模式匹配和字符串查找的功能。只是要註意的是Unicode字

Python基礎day-18[面向對象:繼承,組合,接口歸一化]

ini 關系 acl 報錯子類 wan 使用 pytho 減少繼承: 　　在Python3中默認繼承object類。但凡是繼承了object類以及子類的類稱為新式類(Python3中全是這個)。沒有繼承的稱為經典類(在Python2中沒有繼承object以及他的子類都是

POJ 3683 Priest John's Busiest Day（2-SAT+方案輸出）

lines else if 不能挑戰 leg ros lang 如果 std Priest John‘s Busiest Day Time Limit: 2000MS Memory Limit: 65536K Total Submiss

linux mint 18.2 安裝wireshark

-s sudo uri wire rep class conf comm via Method 1: Via PPA Step 1: Add the official PPA sudo add-apt-repository ppa:wireshark-dev/sta

day 18 - 2 re 模組練習

相關推薦