學習的一點爬蟲小例項

阿新 • • 發佈：2018-12-22

def function():
    pat="[a-zA-Z]+://[^\s]*[.com|.cn]"
    string='<a herf="http://www.baidu.com>haafdsg</a>'
    res=re.compile(pat).findall(string)
    print(res)


def function3():
    pat='<p class="fl">\w*(.*?)</p>'
    pat2='<span>(.*?)</span>'
    data=urllib.request.urlopen("http://edu.51cto.com/mic-position/420.html?source=wzq").read()
    data2=urllib.request.urlopen("http://www.boc.cn/bcservice/").read()
    result=re.compile(pat2).findall(str(data2,"utf-8"))
    print(result)
    #方法一：
    with open("./爬蟲練習.txt", "w+",encoding="utf-8") as f:
        f.write(str(result))
        f.close()

def function2():
    pat = "yue"
    string = "http:/yum.iqianyue.com"
    string2 = "fhajghajdgh"
    result1 = re.search(pat, string)
    res2 = re.search(pat, string2)
    print(result1)
    print(res2)
    pat2 = "\n"
    string3 = """aljgagghaskghka
        gkhasgkas"""
    res3 = re.search(pat2, string3)
    print(res3)
    # \w是通用字元   匹配的任意的一個字母、下劃線、數字
    # \d 匹配十進位制數
    # \s 匹配空白字元
    # \W 和匹配與小寫的相反的字元
    # \S
    pat4 = "\w\dpython\w"
    string4 = "ahgdhgaghasfjg8pythonhdsga;sdgdhgaus9pythonhdjvcxcjvbagdsfsa"
    res4 = re.search(pat4, string4)  # 只是進行了一次匹配
    print(res4)
    # 原子表定義一組平等的原子表示一個同等原子的地位
    pat5 = "pyth[jsz]n"
    string5 = "akgdhahgpythjsnaewurqpdvpythzn"
    print(re.search(pat5, string5))
    # 元字元就是正則表示式中一些具有特殊的含義的字元 比如重負N次前面的字元
    # 一點 匹配任意的字元 ^ 匹配字串的開始的位置 $ 用來匹配結束的意思
    # "s*"0 1 多次都可以匹配的
    # +匹配前面的一次和多次的原則
    # ？匹配1或者0次
    # {3}表示出現只有三次 t{6}6個t連續出現的次數 t{n,}至少出現的n次數t{4,7}出現的至少4次最多7次
    # | 模式選擇符 或者    ()用於提取某一個內容上面
    pat6 = "python....."  # 表示除了換行符都可以進行匹配
    string6 = "hgahgapythongapgpre"
    res6 = re.search(pat6, string6)
    print("6-----", res6)
    pat7 = "python|php"  # 表示除了換行符都可以進行匹配
    string7 = "hgphpahg526pythongapgpre"
    res7 = re.search(pat7, string7)
    print("7-----", res7)
    # 模式修正符號 I 表示不區分大小寫 M進行多行匹配  L本地化識別匹配 U根據uniode解析我們的字元 S讓點號也能夠匹配模式換行符
    pat8 = "python"
    pst8 = "python"
    string8 = "jha;gh;dsghadgahghrhegaosidgPython"
    print("8-----", re.search(pat8, string8, re.I))
    # 貪婪模式的匹配
    # 懶惰模式的匹配
    pat10 = "p.*y"  # 貪婪模式
    pat11 = "p.?y"  # 懶惰模式
    string11 = "pfafasydfasdfydaspthonpysdapfsy"
    print("11----1", (re.match(pat10, string11)))  # 範圍更廣
    print("11----2", (re.search(pat11, string11)))  # 範圍準確
    # re.match()從頭開始搜尋 開始沒有匹配的直接退出了
    # re.search()
    # 全域性匹配函式
    print("12--------", re.compile(pat11).findall(string11))


if __name__ == '__main__':
    function3()

執行的截圖：

學習的一點爬蟲小例項

def function(): pat="[a-zA-Z]+://[^\s]*[.com|.cn]" string='<a herf="http://www.baidu.com>haafdsg</a>' res=re.compi

爬蟲小例項

1.網頁資訊爬取 import requests try: kv={'user-agent': 'Mozilla/5.0'} url='http://www.baidu.com/' r=requests.get(url,headers=kv) r.rais

python爬蟲小例項

1、python爬取貼吧桌布 1.1、獲取整個頁面資料 #coding=utf-8 import urllib def getHtml(url): page = urllib.urlopen(url) html = page.read() return html html

React學習之旅----專案小例項----無人點餐二---詳情頁渲染

App.js /* react路由的配置： 1、找到官方文件 https://reacttraining.com/react-router/web/example/basic 2、安裝 cnpm install react-router-dom --save 3、找

React學習之旅----專案小例項----無人點餐一

App.js /* react路由的配置： 1、找到官方文件 https://reacttraining.com/react-router/web/example/basic 2、安裝 cnpm install react-router-dom --s

React學習之旅----專案小例項----無人點餐二---路由模組化-中小型專案

routes陣列配置動態路由表 import React, { Component } from 'react'; import logo from './logo.svg'; import './App.css'; import { BrowserRouter as Ro

[記錄]Java網路爬蟲基礎和抓取網站資料的兩個小例項

前段時間在學習爬蟲，並從網路抓取了一些簡單的資料，記錄一下。抓取分成下面3個部分： 1、網路請求 2、解析抓取下來的頁面，並且處理亂碼或者解壓程式碼的問題 3、拿到指定的資料、資源完整程式碼如下：第一個例項： /** * 從某網站查詢所有帖子標題 * 把所有

Python爬蟲小白學習心得（一

四、BeautifulSoup中使用Find和Find_all方法提示想要的內容。如例項物件soup.find_all("div",class_="xxx")#注意class屬性在這裡有個下劃線，要獲取某屬性的值如get('href')的用法。另外還需要了解soup.select的css選擇器方法，最主要

R爬蟲小白例項教程

一入爬蟲深似海，從此複製是路人。都說在這一行混，多多少少都要會點爬蟲，畢竟自己動手豐衣足食，本文記錄小鑫第一次練習爬蟲的過程。僅供參考，歡迎各路朋友指點。（E-mail：[email protected]）文末有原始碼及

爬蟲入門學習貼吧小案例

爬蟲入門 code 請求 color baidu bsp 客戶 d+ 編碼 1 import urllib.request 2 import urllib.parse 3 import random 4 5 #目標地址 6 url="http://tieba

給學習Linux系統小白的兩三個建議

性價比 linux 前段時間看過一個針對國內Linux使用情況的調研表，有了不少感慨。現在聽說過linux,會一點linux基本操作的人多如牛毛,然而真正能用linux做一點事情的確少之又少。無論是公司還是學校，辦公基本上都基於win。這也造成了國人不習慣接觸linux的主要原因。看到好多人，學了點基

爬蟲小探-Python3 urllib.request獲取頁面數據

text height urlopen -s mozilla 使用 pri 爬蟲 size 使用Python3 urllib.request中的Requests()和urlopen()方法獲取頁面源碼，並用re正則進行正則匹配查找需要的數據。 #forex.py#co

python批量下載色影無忌和蜂鳥的圖片爬蟲小應用

exce pen 應用 content 沒有 str1 .com pat tar 有些冗余信息。由於之前測試正則表達式。所以沒有把它們給移走。只是不影響使用。# -*- coding:utf-8 -*- import re,urllib,sys,os,time de

js學習總結----經典小案例之選項卡

scrip ges div 視頻內容 mil line 學習總結 images ul li <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8">

Python爬蟲小白---（二）爬蟲基礎--Selenium PhantomJS

decode bject windows beautiful 結構由於 target header 速度一、前言　　前段時間嘗試爬取了網易雲音樂的歌曲，這次打算爬取QQ音樂的歌曲信息。網易雲音樂歌曲列表是通過iframe展示的，可以借助Selenium獲

[知了堂學習筆記]_JS小遊戲之打飛機（3）-飛機之間的互相撞擊，boss的出現，以及控制boss死亡

時間 i++ score console function sss 間隔 app tint 我的小飛機和敵軍小飛機撞擊的效果的實現： 1 /** 2 * 定義我的飛機與敵機碰撞的方法： 3 */ 4 function destoryMyPlane(){ 5

爬蟲小例

展示 col 結果 url beautiful 網頁 time ext form 中國大學排名爬蟲輸入：大學排名URL鏈接輸出：大學排名信息的屏幕輸出（排名，大學名稱，總分）技術路線：requests-bs4 定向爬取：僅對輸入URL進行爬取，不進行擴展爬取程序

學習python的小隨筆

c語言微信學習語言 align 註意小白 text 重要 Python在課表中的名字是高級語言程序設計。上了兩周的專業課，我想說我真的是想來學教育的，現在成了計算機了。我還想說，有沒有一種可以用中文寫程序的軟件，有誌向的大佬們趕緊弄個吧！

Python爬蟲小實踐：尋找失蹤人口，爬取失蹤兒童信息並寫成csv文件，方便存入數據庫

python tor enc mini 執行 gem view 獲取但是前兩天有人私信我，讓我爬這個網站，http://bbs.baobeihuijia.com/forum-191-1.html上的失蹤兒童信息，準備根據失蹤兒童的失蹤時的地理位置來更好的尋找失蹤兒童，這

爬蟲小技巧

反爬蟲很多一個簡單的站點它的能力 -c 自動 1、何為爬蟲爬蟲的概念就是能按照給定的目標及規則實現自動化采集網絡數據的程序或腳本。通俗的來說，就是通過程序來模擬人登陸網站去獲取想要數據，就是這麽簡單。爬蟲的本質是直接用程序腳本去實現http請求，訪問目標網

學習的一點爬蟲小例項

相關推薦