Py爬蟲項目

阿新 • • 發佈：2018-06-17

sflow like quest html += ted AD mozilla ash

爬取內涵段子：
#encoding=utf-8
import urllib2

import re


class neihanba():
    def spider(self):
        ‘‘‘
        爬蟲的主調度器
        ‘‘‘
        isflow=True#判斷是否進行下一頁
        page=1
        while isflow:
            url="http://www.neihanpa.com/article/list_5_"+str(page)+".html"
            html 
=self.load(url)
            self.deal(html,page)
            panduan=raw_input("是否繼續(y/n)!")
            if panduan=="y":
                isflow=True
                page+=1
            else:
                isflow=False
    def load(self,url):
        ‘‘‘
        針對url地址進行全部爬去
        :param url: url地址
        :return: 返回爬去的內容
         
‘‘‘
        header = {
            "User-Agent": " Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36"
        }
        request = urllib2.Request(url, headers=header)
        response = urllib2.urlopen(request)
        html = response.read()
         
return html
    def deal(self,html,page):
        ‘‘‘
        對之前爬去的內容進行正則匹配，匹配出標題和正文內容
        :param html:之前爬去的內容
        :param page: 正在爬去的頁碼
        ‘‘‘
        parrten=re.compile(‘<li class="piclist\d+">(.*?)</li>‘,re.S)
        titleList=parrten.findall(html)
        for title in titleList:
            parrten1=re.compile(‘<a href="/article/\d+.html">(.*)</a>‘)
            ti1=parrten1.findall(title)
            parrten2=re.compile(‘<div class="f18 mb20">(.*?)</div>‘,re.S)
            til2=parrten2.findall(title)
            for t in ti1:
                tr=t.replace("<b>","").replace("</b>","")
                self.writeData(tr,page)
            for t in til2:
                tr=t.replace("<p>","").replace("</p>","").replace("<br>","").replace("<br />","").replace("&ldquo","\"").replace("&rdquo","\"")
                self.writeData(tr,page)
    def writeData(self,context,page):
        ‘‘‘
        將最終爬去的內容寫入文件中
        :param context: 匹配好的內容
        :param page: 當前爬去的頁碼數
        ‘‘‘
        fileName = "di" + str(page) + "yehtml.txt"
        with open(fileName, "a") as file:
            file.writelines(context + "\n")
if __name__ == ‘__main__‘:
    n=neihanba()
    n.spider()

爬取智聯：

#encoding=utf-8
import urllib
import urllib2

import re


class zhiLian():
    def spider(self,position,workPlace):
        ‘‘‘
        爬蟲的主調度器
        :param position: 職位
        :param workPlace: 工作地點
        ‘‘‘
        url="http://sou.zhaopin.com/jobs/searchresult.ashx?"
        url+=urllib.urlencode({"jl":workPlace})
        url+="&"
        url+=urllib.urlencode({"kw":position})
        isflow=True#是否進行下一頁的爬去
        page=1
        while isflow:
            url+="&"+str(page)
            html=self.load(url)
            self.deal1(html,page)
            panduan = raw_input("是否繼續爬蟲下一頁(y/n)!")
            if panduan == "y":
                isflow = True
                page += 1
            else:
                isflow = False
    def load(self,url):
        ‘‘‘
        針對url地址進行全部爬去
        :param url: url地址
        :return: 返回爬去的內容
        ‘‘‘
        header = {
            "User-Agent": " Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36"
        }
        request = urllib2.Request(url, headers=header)
        response = urllib2.urlopen(request)
        html = response.read()
        return html
    def deal1(self,html,page):
        ‘‘‘

        對之前爬去的內容進行正則匹配，匹配職位所對應的鏈接
        :param html:之前爬去的內容
        :param page: 正在爬去的頁碼
        ‘‘‘
        parrten=re.compile(‘<a\s+style="font-weight:\s+bold"\s+par="ssidkey=y&amp;ss=\d+&amp;ff=\d+&amp;sg=\w+&amp;so=\d+"\s+href="(.*?)" target="_blank">.*?</a>‘,re.S)
        til=parrten.findall(html)#爬去鏈接
        for t in til:
            self.deal2(t,page)
    def deal2(self,t,page):
        ‘‘‘
        進行二次爬蟲，然後在新的頁面中對公司、薪資、工作經驗進行匹配
        :param t: url地址
        :param page: 當前匹配的頁數
        ‘‘‘
        html=self.load(t)#返回二次爬蟲的內容
        parrten1=re.compile(‘<a\s+onclick=".*?"\s+href=".*?"\s+target="_blank">(.*?)\s+.*?<img\s+class=".*?"\s+src=".*?"\s+border="\d+"\s+vinfo=".*?"></a>‘,re.S)
        parrten2=re.compile(‘<li><span>職位月薪：</span><strong>(.*?)&nbsp;<a.*?>.*?</a></strong></li>‘,re.S)
        parrent3=re.compile(‘<li><span>工作經驗：</span><strong>(.*?)</strong></li>‘,re.S)
        til1=parrten1.findall(html)
        til2=parrten2.findall(html)
        til3=parrent3.findall(html)
        str=""
        for t in til1:
            t=t.replace(‘<img title="專屬頁面" src="//img03.zhaopin.cn/2012/img/jobs/icon.png" border="0" />‘,"")
            str+=t
            str+="\t"
        for t in til2:
            str+=t
            str += "\t"
        for t in til3:
            str+=t
        self.writeData(str,page)
    def writeData(self,context,page):
        ‘‘‘
        將最終爬去的內容寫入文件中
        :param context: 匹配好的內容
         :param page: 當前爬去的頁碼數
        ‘‘‘
        fileName = "di" + str(page) + "yehtml.txt"
        with open(fileName, "a") as file:
            file.writelines(context + "\n")
if __name__ == ‘__main__‘:
    position=raw_input("請輸入職位：")
    workPlace=raw_input("請輸入工作地點：")
    z=zhiLian()
    z.spider(position,workPlace)

爬取貼吧：

#encoding=utf-8
import urllib
import urllib2

import re


class teiba():
    def spider(self,name,startPage,endPage):
        url="http://tieba.baidu.com/f?ie=utf-8&"
        url+=urllib.urlencode({"kw":name})
        for page in range(startPage,endPage+1):
            pn=50*(page-1)
            urlFull=url+"&"+urllib.urlencode({"pn":pn})
            html=self.loadPage(url)
            self.dealPage(html,page)

    def loadPage(self,url):
        header={
            "User-Agent":" Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.79 Safari/537.36"
        }
        request=urllib2.Request(url,headers=header)
        response=urllib2.urlopen(request)
        html=response.read()
        return html
    def dealPage(self,html,page):
        partten=re.compile(r‘<a\s+rel="noreferrer"\s+href="/p/\d+"\s+title=".*?"\s+target="_blank" class="j_th_tit\s+">(.*?)</a>‘,re.S)
        titleList=partten.findall(html)
        rstr=r‘<span\s+class="topic-tag"\s+data-name=".*?">#(.*?)#</span>‘
        for title in titleList:
            title=re.sub(rstr,"",title)
            self.writePage(title,page)
    def writePage(self,context,page):
        fileName="di"+str(page)+"yehtml.txt"
        with open(fileName,"a") as file:
            file.writelines(context+"\n")
if __name__ == ‘__main__‘:
    name=raw_input("請輸入貼吧名：")
    startPage=raw_input("請輸入起始頁：")
    endPage=raw_input("請輸入終止頁：")
    t=teiba()
    t.spider(name,int(startPage),int(endPage))

Py爬蟲項目

sflow like quest html += ted AD mozilla ash 爬取內涵段子：#encoding=utf-8 import urllib2 import re class neihanba(): def spider(

012 Python 爬蟲項目1

python 爬蟲 tor url post strong port pytho .com http # Python 爬蟲項目1 　　● Python 網頁請求　　　　requests 　　　　　　POST 　　　　　　GET 　　　　網頁狀態碼 1 # -

爬蟲項目 (知識點)

red php isp 設計線程模塊 pytho html one 一. 基本介紹什麽是爬蟲？ - 就是抓取網頁數據的程序怎麽抓取網頁數據網頁三大特征: - 每個網頁都有自己的URL (統一資源定位符) 來進行定位 - 網頁都是用

30天搞定大數據爬蟲項目

jquery 監控原理分析 redis myba 掌握算法與數據結構報表 nic 詳情請交流 QQ 709639943 00、30天搞定大數據爬蟲項目 00、零基礎實戰機器學學習 00、企業級實戰 Spark離線和實時電影推薦系統 00、三大項目掌握Sto

股票爬蟲項目總結

python end taf 登入 pan IT OS 使用折線通過爬取雅虎財經上的股票數據，並繪制出股價的K-折線圖，實現了買入\賣出股票時機的分析。在這個過程中發現了幾個以前新問題，記錄如下： 1、python中日期與時間處理模塊(date和datatime) ti

Python爬蟲項目班（七月在線）

命令行布隆 apach .net 函數 href 登陸 tel bit 磨刀不誤砍柴工夯實基礎第1課環境準備與入門知識點1：環境準備，安裝Virtual Box與Ubuntu系統知識點2：Python以及PyEnv、PIP的安裝配置知識點3： MySQL安裝配置知識點

python爬蟲項目（新手教程）之知乎（requests方式）

ror eas 點擊 elif 原因 ffffff 文章重點 F12 -前言之前一直用scrapy與urllib姿勢爬取數據，最近使用requests感覺還不錯，這次希望通過對知乎數據的爬取為各位爬蟲愛好者和初學者更好的了解爬蟲制作的準備過程以及requests請求方

Python爬蟲項目--爬取自如網房源信息

xml解析 quest chrom 當前 b2b cal 源代碼 headers 判斷本次爬取自如網房源信息所用到的知識點: 1. requests get請求 2. lxml解析html 3. Xpath 4. MongoDB存儲正文 1.分析目標站點 1. url:

Python爬蟲項目--爬取鏈家熱門城市新房

聲明 rules nal logging 命令行 -- new exec 狀態本次實戰是利用爬蟲爬取鏈家的新房(聲明: 內容僅用於學習交流, 請勿用作商業用途) 環境 win8, python 3.7, pycharm 正文 1. 目標網站分析通過分析, 找出相關url

如何通過 Scrapyd + ScrapydWeb 簡單高效地部署和監控分布式爬蟲項目

配置修改 servers size 發送批量部署 image 行操作 term 來自 Scrapy 官方賬號的推薦需求分析初級用戶：只有一臺開發主機能夠通過 Scrapyd-client 打包和部署 Scrapy 爬蟲項目，以及通過 Scrapyd JS

scrapy抓取拉勾網職位信息（一）——scrapy初識及lagou爬蟲項目建立

報錯中間鍵方式 set 分享圖片生成 pytho 薪酬 color 本次以scrapy抓取拉勾網職位信息作為scrapy學習的一個實戰演練 python版本：3.7.1 框架：scrapy（pip直接安裝可能會報錯，如果是vc++環境不滿足，建議直接安裝一個visua

水木社區爬蟲項目介紹

一個對象 req 文本解析 request 得到文件中切分 1、爬蟲 1、用urllib.request庫請求一個url的內容。 2、用 beautifulsoup解析request庫請求得到的內容。 3、在網頁上右鍵-檢查，閱讀html代碼，歸納出想爬到信

給新手推薦幾個實用又適合上手的Python爬蟲項目

9.png htm 推薦 resp 語法網頁 ges 怎麽代碼 1、爬取網站美圖爬取圖片是最常見的爬蟲入門項目，不復雜卻能很好地熟悉Python語法、掌握爬蟲思路。加python學習交流qun 784758214 各種Python新手項目資料包免費領取，不定時

32個Python爬蟲項目讓你一次吃到撐

com music air 進行使用 shee c-s 客戶端查詢整理了32個Python爬蟲項目。整理的原因是，爬蟲入門簡單快速，也非常適合新入門的小夥伴培養信心。所有鏈接指向GitHub，祝大家玩的愉快~O(∩_∩)O WechatSogou [

簡單爬蟲項目實戰（一）

int htm val target 組類型 resp inf 內容爬蟲概述　　最近自己想搞一個小的項目，這個項目我們就先從爬蟲開始，爬取直播吧的NBA滾動新聞，再存入數據庫。先寫個簡單點的，後期再不斷的優化下。準備　　直播吧對於喜歡看球的朋友肯定不陌生，http

關於Scrapy爬蟲項目運行和調試的小技巧（下篇）

art follow 選擇思路 note ont dir 表達 url對應前幾天給大家分享了關於Scrapy爬蟲項目運行和調試的小技巧上篇，沒來得及上車的小夥伴可以戳超鏈接看一下。今天小編繼續沿著上篇的思路往下延伸，給大家分享更為實用的Scrapy項目調試技

30天搞定大數據爬蟲項目，數據爬蟲、全文檢索、數據可視化、爬蟲項目監控

eat 增刪改發現 zabb 來講命令 oca create zabbix 好，開始今天的文章。今天主要是來說一下怎麽可視化來監控你的爬蟲的狀態。相信大家在跑爬蟲的過程中，也會好奇自己養的爬蟲一分鐘可以爬多少頁面，多大的數據量，當然查詢的方式多種多樣。今天我

Forward團隊-爬蟲豆瓣top250項目-需求分析

利用進行程序 ref war 參考資料豆瓣api per 運用一、　　需求：1、爬取豆瓣電影top250. 　　　　　2、獲取電影名稱,排名,分數,簡介,導演,演員。　　　　　3、將爬取到的數據保存，以便隨時查看。　　　　　3、可以將獲取到的數據展示給用戶。

Forward團隊-爬蟲豆瓣top250項目-團隊編程項目開發環境搭建過程

es2017 搭建項目開發需要爬蟲編程搭建過程 pycha 開發需要python環境開發軟件、開發環境安裝： python2.7.5：安裝pycharm（社區版）： Forward團隊-爬蟲豆瓣top250項目-團隊編程項目

23個Python爬蟲開源項目代碼：爬取微信、淘寶、豆瓣、知乎、微博等

公眾 mon 成交個人標簽 req 不同數據存儲百度雲盤來源：全球人工智能作者：SFLYQ 今天為大家整理了23個Python爬蟲項目。整理的原因是，爬蟲入門簡單快速，也非常適合新入門的小夥伴培養信心。所有鏈接指向GitHub，祝大家玩的

Py爬蟲項目

相關推薦