利用scrapy獲取抽屜新熱榜的標題和內容以及新聞地址儲存到本地

阿新 • • 發佈：2018-11-09

1、安裝scrapy

　　pip3 install scrapy

2、開啟terminal，cd 到想要建立程式的目錄下

3、建立一個scrapy專案

　　在終端輸入：scrapy startproject my_first_scrapy（專案名）

4、在終端輸入：cd my_first_scrapy 進入到專案目錄下

5、新建爬蟲：

　　輸入： scrapy genspider chouti chouti.com （chouti: 爬蟲名稱， chouti.com : 要爬取的網站的起始網址）

6、在pycharm中開啟my_first_scrapy，就可以看到剛才建立的專案:

7、開啟settings.py可以對專案相關引數進行設定，如設定userAgent:

8、開啟chouti.py編寫程式碼：

# -*- coding: utf-8 -*-
"""
獲取抽屜新熱榜的標題和內容以及新聞地址儲存到本地
"""
import scrapy
from scrapy.http.response.html import HtmlResponse


class ChoutiSpider(scrapy.Spider):
    name = 'chouti'
    allowed_domains = ['chouti.com 
']
    start_urls = ['http://chouti.com/']

    def parse(self, response):
        # print(response, type(response))  # <class 'scrapy.http.response.html.HtmlResponse'>
        # print(response.text)
        # 解析文字內容， 提取標題和簡介,地址

        # 去頁面中找id=content-list的div標籤,再去這個div下找class=item的div 


        with open("news.txt", "a+", encoding="utf-8") as f:
            items = response.xpath("//div[@id='content-list']/div[@class='item']")
            # "//"表示從html檔案的根部開始找。"/"表示從兒子裡面找。".//"表示相對的，及當前目錄下的兒子裡面找
            for item in items:
                # 當前目錄下找class=part1的div標籤，再找div標籤下的a標籤的文字資訊text(),並且只取第一個
                # a標籤後面可以加索引，表示取第幾個a標籤，如第一個：a[0]
                title = item.xpath(".//div[@class='part1']/a/text()").extract_first().strip()  # 去掉標題兩端的空格
                href = item.xpath(".//div[@class='part1']/a/@href").extract_first().strip()  # 取href屬性
                summary = item.xpath(".//div[@class='area-summary']/span/text()").extract_first()
                # print(1, title)
                # print(2, href)
                # print(3, summary)

                f.write(title + "\n" + href + "\n" + summary + "\n" + "------------" + "\n")

View Code

9、在終端輸入：

　　scrapy crawl chouti（會列印日誌）或者 scrapy crawl chouti --nolog （不列印日誌）

　　執行爬蟲專案。

利用scrapy獲取抽屜新熱榜的標題和內容以及新聞地址儲存到本地

1、安裝scrapy 　　pip3 install scrapy 2、開啟terminal，cd 到想要建立程式的目錄下 3、建立一個scrapy專案　　在終端輸入：scrapy startproject my_first_scrapy（專案名） 4、在終端輸入：cd my_first_

抽屜新熱榜頁面之html

sheet complete 客戶端 png charset toc ref clas 發現 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8">

抽屜新熱榜之css

url oat drawer head pla style ack one span *{ margin: 0; padding: 0; /*background-color: whi

爬蟲之抽屜新熱榜點贊基本示例

此處有一個注意事項在第一次請求的時候已經返回cookie import requests from bs4 import BeautifulSoup #模擬首次開啟 r0 = reque

爬取知乎熱榜標題和連接（python，requests，xpath）

app 分享圖片 dea -a mar margin 瀏覽器判斷 agen 用python爬取知乎的熱榜，獲取標題和鏈接。環境和方法：ubantu16.04、python3、requests、xpath 1.用瀏覽器打開知乎，並登錄 2.獲取cookie

利用PHP獲取網頁的原始碼或標題

獲取網頁原始碼： <?php $lines = file('http://www.gotogame.com.cn'); foreach ($lines as $line_num => $line) { echo "Line <b>{$line_nu

總結Jquery中獲取自定義屬性使用.attr()和.data()以及.prop()的區別

p.p1 { margin: 0.0px 0.0px 2.0px 0.0px; font: 14.0px ".PingFang SC" } p.p2 { margin: 0.0px 0.0px 0.0px 0.0px; font: 12.0px ".PingFang SC" } p.p3 { margin:

Oracle 儲存過程中傳送郵件，並支援使用者驗證中文標題和內容

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

C# winfrom 寫的一個搜尋助手，可以按照標題和內容搜尋，支援doc,xls,ppt,pdf,txt等格式的檔案搜尋

C# winfrom 寫的一個搜尋助手，可以按照標題和內容搜尋，指定目錄後，遍歷搜尋檔案和子目，現在只寫了支援.DOC.DOCX.XLS.XLSX.PPT.PPTX.PDF.HTML.HTM.TXT等格式的檔案搜尋，讀取execl 內容使用的是NPOI元件，doc,html,txt 格式的

dede配置Sphinx 根據關鍵詞標題和內容優先匹配問題

我之前用的coreseek的版本好像是3.1有些舊需要下載新版本我用的是4.1的版本如何配置請自行百度，配置好了之後需要找到include的目錄找arc.searchview.class.php檔案下的CountRecordSphinx函式在 if($this->mi

Android-PickerView 三級聯動選擇器的標題和內容的字型大小、顏色設定

Android-PickerView這個開源專案已經轉交給我負責繼續維護，目前我已經更新優化一部分，填補了一些不足之處，推出了3.x新版本，使用起來更加靈活方便，定製性更強。歡迎提Issue ,Pull Request 更新時間：2017-2-24日

PHPCMS V9頻道頁迴圈子欄目內容（子欄目為單頁則輸出標題和內容，為列表則輸出欄目名稱和分頁列表）

注意：頻道下的子欄目最多隻能有一個分頁列表欄目（否則分頁會有問題），單頁面不限。效果如下圖：頻道頁模板如下：<div class="prointro"> <?php $page = $

UIAlertController設定自定義的標題和內容

我們知道，UIAlertController的標題和內容都是黑色的，但是在很多場景下都需要修改他們的顏色，比如在輸入錯誤時把提示資訊變為紅色，或者自定義標題的

java讀取word文檔，提取標題和內容

replace schema all stack int fonts ooxml pid spa 使用的工具為poi，需要導入的依賴如下 <dependency> <groupId>org.apache.poi<

2018 - Python 3.7 爬蟲之利用 Scrapy 框架獲取圖片並下載（二）

一、通過命令構建一個爬蟲專案二、定義 item 三、啟用 pipeline 管道四、編寫爬蟲 Spider 五、執行爬蟲六、結果檢視未安裝 Scrapy 框架，見上一篇文章：框架安裝及配置一、通過命令構建一個爬蟲專

python爬蟲之利用scrapy框架抓取新浪天氣資料

scrapy中文官方文件：點選開啟連結Scrapy是Python開發的一個快速、高層次的螢幕抓取和web抓取框架，用於抓取web站點並從頁面中提取結構化的資料。Scrapy用途廣泛，可以用於資料探勘、監測和自動化測試，Scrapy吸引人的地方在於它是一個框架，任何人都可以根據

了不起的 Deno：帶你極速獲取各大平臺今日熱榜

摘要：Deno 是一個 JavaScript/TypeScript 的執行時，預設使用安全環境執行程式碼，有著卓越的開發體驗。有人的地方就有江湖，有江湖的地方就有爭論。前些天，繼《[譯]為什麼如今 Deno 正全面取代 Node.js》之後，又有了《【譯】Deno 已經死了嗎？》，也許這便是江湖。說回標題”

php利用curl獲取網頁title內容

charset 釋放 tput head func reg 文字編碼 top titles <?php $url = ‘http://www.k7wan.com‘; echo getTitle_web_curl($url); function getTitl

利用python獲取nginx服務的ip以及流量統計信息

服務 open contex int bin line define pytho repeat #!/usr/bin/python #coding=utf8 log_file = "/usr/local/nginx/logs/access.log" with open

微信分享鏈接獲取標題和小圖片

flow over aid mar 自動 show 圖片 gin 內部一、標題微信分享鏈接的小標題：自動拉取title標簽的內容。二、鏈接的小圖標今天測試的時候發現，網頁鏈接在QQ瀏覽器上打開，分享的小圖片是有顯示的，自動獲取網頁上的一張圖片，但是為什

利用scrapy獲取抽屜新熱榜的標題和內容以及新聞地址儲存到本地

相關推薦