爬蟲---------scrapy------瀏覽器爬取（）

阿新 • • 發佈：2018-11-17

# -*- coding: utf-8 -*-
import scrapy
# from scrapy.linkextractors import LinkExtractor
# from scrapy.spiders import CrawlSpider, Rule
from Zhilian.items import ZhilianItem
class ZhilianSpider(scrapy.Spider):
    name = 'zhilian'
    allowed_domains = ['zhaopin.com']
    start_urls = ["https://sou.zhaopin.com/?pageSize=60&jl=北京" + "&kw=python" + "&kt=3&p=" + str(i) for i in
                  range(int(input("起始：")), int(input("終止：")))]


    # rules = (
    #     Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    # )
    def parse(self, response):
        job_list = response.xpath("//div[@id='listContent']/div")
        # print(job_list)
        for job in job_list:
            item = ZhilianItem()
            item["name"] = job.xpath(".//span/@title").extract_first()
            item["salary"] = job.xpath(".//p/text()").extract_first()
            item["fuli"] = job.xpath(".//div[contains(@class,'welfare')]/text()").extract()
            item["address"] = job.xpath(".//ul/li[1]/text()").extract_first()
            item["jingyan"] = job.xpath(".//li[contains(@class,'demand')][2]/text()").extract_first()
            item["company"] = job.xpath(".//div/a/@title").extract_first()
            next_url = job.xpath(".//div[contains(@class,'jobName')]//a/@href").extract_first()#獲取第二頁連結
            # yield item
            yield scrapy.Request(url=next_url,callback=self.parse_next,meta={"item":item})
    def parse_next(self,response):
        item = response.meta["item"]
        item["job_info"] = r"\n".join(response.xpath("//div[@class='pos-ul']/p").exract())
        item["company_info"] = r"\n".join(response.xpath("//div[@class='intro-content']/p/text()")).extract()
        yield item

爬蟲---------scrapy------瀏覽器爬取（）

# -*- coding: utf-8 -*- import scrapy # from scrapy.linkextractors import LinkExtractor # from scrapy.spiders import CrawlSpider, Rule from Zhilia

使用爬蟲scrapy庫爬取58同城出租房的聯絡方式地址

一 .建立一個爬蟲工程　　scrapy startproject tongcheng 　　#建立一隻爬蟲　　scrapy genspider zufang 域名（xa.58.com/zufang/）二.配置setting檔案

Python爬蟲scrapy框架爬取動態網站——scrapy與selenium結合爬取資料

scrapy框架只能爬取靜態網站。如需爬取動態網站，需要結合著selenium進行js的渲染，才能獲取到動態載入的資料。如何通過selenium請求url，而不再通過下載器Downloader去請求這個url?方法：在request物件通過中介軟體的時候，在中介軟體內部開始

[Python爬蟲]Scrapy框架爬取bilibili個人資訊

啟動檔案main.py from scrapy.cmdline import execute execute('scrapy crawl bili_gr_xx'.split()) 執行spider下的爬取檔案 # -*- coding: ut

scrapy框架爬取豆瓣讀書（1）

tin rap 豆瓣 pipe 網頁 xpath from lin tor 1.scrapy框架 Scrapy，Python開發的一個快速、高層次的屏幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的數據。Scrapy用途廣泛，可以用於數據挖掘、監測和自動化

python爬蟲設計刷部落格訪問量（刷訪問量，贊，爬取圖片）

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

python:爬蟲之Post請求以及動態Ajax資料的爬取（3）

#爬蟲的post方式作用：對引數進行打包反饋給伺服器 import urllib.request import urllib.parse #對引數打包 url = "http://www.sunck.wang:8085/form" data = { "use

Python3_爬蟲實踐（爬取電子書）

一、我的小書屋　　這個爬蟲能爬取　　http://mebook.cc/　　網站的電子書下載路徑。（只是小練習，侵刪）　　爬取網站使用了　　BeautifulSoup　　進行解析，二、爬取原始碼 1 #!/usr/bin/python 2 # -*- c

利用python爬蟲技術動態爬取地理空間資料雲中的元資料（selenium）

python爬取地理空間資料雲selenium動態點選爬取的網址秀一下：爬取的資訊是什麼呢？這個資訊的爬取涉及到右邊按鈕的點選，這屬於動態爬取的範疇，需要用到selenium 好了，那麼開始寫程式碼吧首先匯入selenium from seleni

Scrapy+Splash爬取京東python書本資訊（遇到的問題記錄）

今天用splash進行京東的圖書的爬蟲。有了以下幾點的錯誤總結: （1）按照參考書上的方式，寫好lua_script檔案。但是自己在lua_script檔案後面加了幾個中文註釋，結果執行時一直出錯，後來意識到了問題，將這些中文註釋給刪除了，這時候才沒有提示剛剛出現的錯誤。

Python3.X 爬蟲實戰（動態頁面爬取解析）

1 背景不知不覺關於 Python 3.X 爬蟲系列已經介紹瞭如下系列：到此關於 Python3.x 靜態頁面爬蟲的基礎核心基本已經介紹的差不多了，剩下的就是一些自己個性化的需求了，譬如爬取資料分析等，這種我們後面還會專門來說的。然而我們在該

Python3爬蟲小程式——爬取各類天氣資訊（3）

經過前面靜態頁面的爬取已經收集到很多資訊了。最近在看怎麼從動態頁面上爬取資訊，主要用到的還是selenium+phantomJS工具（如何安裝？點選這裡檢視），雖然存在一些缺點（效率不是很高），但是還算不錯。於是乎，前面從天氣網（http://www.tianqi.com

爬蟲1.1爬取鬥圖啦圖片（關於open函式和urlretrieve函式）

文章只是我作為NewBird ٩꒰▽ ꒱۶⁼³₌₃ 學習的一小點小點的進步還請不要笑我⁄(⁄ ⁄•⁄ω⁄•⁄ ⁄)⁄ 我就直接貼程式碼了，我不會說很技術的話。 1.建立專案命令： scrapy startproject <project_nam

Scrapy-Splash爬取淘寶排行榜（三）

五寫spider 1.知道了要爬取的內容，所以，我們首先在start_urls中設定如下： start_urls=['https://top.taobao.com/index.php?topId=TR_FS&leafId=50010850'

python3.6爬蟲案例：爬取某網站所有PPT（下）。

上篇部落格：python3.6爬蟲案例：爬取某網站所有PPT（上）給大家介紹了爬取（http://www.1ppt.com/）網站中的ppt檔案，爬下來的檔案如下：所以，我們就要考慮將其名稱修改為其在網頁中顯示的名字，並將其批量解壓到指定資料夾。一、批量修改壓縮檔名稱。細心的

scrapy框架爬取資料入庫（附詳細介紹）

在論壇上看過很多的scrapy資料入庫（mysql）的例子，但是我嘗試之後總是出現一些莫名其妙的錯誤，搞得自己走了很多彎路，於是我將我認為是最簡單易懂的方法和程式碼展示給大家，歡迎大家吐槽1.建立scrapy專案（安裝scrapy框架和mysql資料庫就不在這討論了，論壇上也

爬蟲]利用xpath爬取豆瓣電影top250（轉）

今天學習了一下xpath 感覺功能非常的強大，但是如果不太懂前端的小夥伴們可能比較吃力，建議看一下html的一些語法結構，程式碼如下： #!/usr/bin/env python import re import requests import lxml.html url

爬蟲記錄（6）——爬蟲實戰：爬取知乎網站內容，儲存到資料庫，並匯出到Excel

前面幾篇文字我們介紹了相關的爬蟲的方法爬取網站內容和網站的圖片，且儲存到資料庫中。今天呢，我們來次實戰練習，爬取知乎網站跟話題網站top的幾個問題和答案，然後儲存到資料庫中，最後把資料庫中的所有內容再匯出到Excel中。我們還是繼續之前的程式碼，同樣的程式碼

python 爬蟲實戰專案--爬取京東商品資訊（價格、優惠、排名、好評率等）

利用splash爬取京東商品資訊一、環境window7python3.5pycharmscrapyscrapy-splashMySQL二、簡介為了體驗scrapy-spla

python爬蟲--利用xpath爬取圖片（虛擬機器ubuntu16.04）

此篇爬蟲的背景是：虛擬機器剛裝好的ubuntu 16.04，系統環境還需配置，爬蟲的程式是之前幾個月前在windows上寫的，今天放到虛擬機器上跑一跑！（安裝了VMware Tools就可以把宿主機上的檔案拉進虛擬機器中！） xpath爬取用到了urllib2與lxml庫，

爬蟲---------scrapy------瀏覽器爬取（）

相關推薦