神箭手雲爬蟲平臺 如何在1小時內編寫簡單爬蟲
既然你來到了這裡,想必你肯定已經知道了神箭手雲爬蟲平臺是幹什麼的,目的也是非常的明確。
那麼接下來的過程中,我將給你演示如何在最快時間內編寫一個簡單的爬蟲,每一個屬性的講解,將會讓你一路順風。
進入爬蟲市場
首先進入爬蟲市場,登入,連結在這–爬蟲市場。
在這裡也可以使用別人的爬蟲和API,但是這不是我們的目的,況且博主自己把大部分爬蟲看了,很少會有人將爬蟲的程式碼開源出來,只有去官方的GitHub能看到幾個例子,但是對於初學者來說,還是稍微難了一點。
這裡是神箭手的開發文件,如果你想真的寫爬蟲,最好還是先過一遍文件,連結在這–開發文件。
第一遍應該能瞭解個大概,但是又不知從何入手,沒關係,主題來了。
建立爬蟲
進入我的控制檯或者我的爬蟲,點選新建應用。
然後彈窗中選擇自己開發,輸入名字,點選建立。
進入到專案中。
編輯程式碼
這裡是我一個採集名叫牛人微信的一個小網站。
var configs = {
domains: ["weixin.niurenqushi.com"],
//定義爬蟲爬取哪些域名下的網頁, 非域名下的url會被忽略以提高爬取速度
scanUrls: ["http://weixin.niurenqushi.com/"],
//定義爬蟲的入口連結, 爬蟲從這些連結開始爬同時這些連結也是監控爬蟲所要監控的連結
contentUrlRegexs: "http://weixin\\.niurenqushi\\.com/article/list\\-\\d+.html" ,
//定義”內容頁”url的規則“內容頁”是指包含要爬取內容的網頁, 比如,“http://www.qiushibaike.com/article/117844937“就是糗事百科一個”內容頁”
helperUrlRegexes: ["http://weixin\\.niurenqushi\\.com/article/2016-11-30/\\d+.html"],
//定義”列表頁”url的規則對於有列表頁的網站, 使用此配置可以大幅提高爬蟲的爬取速率“列表頁”是指包含”內容頁”列表的網頁, 比如,“http://www.qiushibaike.com/8hr/page/2/?s=4867046“就是糗事百科的一個”列表頁”
enableJS: false,
//是否使用JS渲染預設值是false, 如果需要使用JS渲染, 可以設定此項為true
interval: 3000,
//爬蟲爬取每個網頁的時間間隔單位: 毫秒
fields: [
//定義”內容頁”的抽取規則規則由一個個field組成, 一個field代表一個數據抽取項
{
name: "article_title",//名稱欄位,可以隨便取
selector: "//div[contains(@class,'contitle')]/h1",//指的是你要抓取的內容在哪個標籤中,這裡就是在一個名叫contitle的div中的h1中抓取內容
required: false//是否能為空
},
{
name: "article_content",
selector: "//div[contains(@id,'contentbody')]",
required: false
},
{
name: "article_publish_time",
selector: "//div[contains(@class,'contitle')]//div",
required: false
},
{
name: "article_topic",
selector: "//a[contains(@class,'ly')]",
required: false
}
]
};
//下面這個方法,當一個field的內容被抽取到後進行的回撥, 在此回撥中可以對網頁中抽取的內容作進一步處理
configs.afterExtractField = function(fieldName, data, page){
if (fieldName == "article_content") {
return cacheImg(data); // 返回可被託管到圖片雲伺服器上的url,如果你只想將資料儲存在本地,那麼這個可以不寫。
}
if(fieldName=="article_publish_time"){
data = Date.parse(new Date())/1000+"";//將抓取到的時間轉換成2016-12-4形式
}
return data;
};
var crawler = new Crawler(configs);
crawler.start();//開啟爬蟲
可以在右邊測試欄先測試。
抓取結果
點選左側總覽,然後右上角啟動。
稍作等待。
點選左側爬取結果。
釋出結果
不論你是想釋出到網站上還是儲存資料下來,平臺都有方法。
如果想要匯出Excel表格形式,點選左側匯出到檔案。按需求選擇,點選生成檔案即可。
如果是想釋出到網站上,點選這裡,會有很好的解釋。–資料釋出
這裡有很多整合式網站的介面,可以直接使用,博主就是用的wecenter釋出的資料,www.nicesunny.com,網站沒啥東西。
如果在釋出過程後,資料被髮布了,但是其中的圖片沒有顯示出來,那麼可以試試神箭手平臺的圖片託管,有三種,阿里,七牛,神箭手,為了方便,我用的神箭手。
好了,如果有其他的問題,隨時可以聯絡博主,郵箱[email protected]。
如果喜歡的話,請在GitHub上給上一顆star吧!
相關推薦
神箭手雲爬蟲平臺 如何在1小時內編寫簡單爬蟲
既然你來到了這裡,想必你肯定已經知道了神箭手雲爬蟲平臺是幹什麼的,目的也是非常的明確。 那麼接下來的過程中,我將給你演示如何在最快時間內編寫一個簡單的爬蟲,每一個屬性的講解,將會讓你一路順風。 進入爬蟲市場 首先進入爬蟲市場,登入,
Python爬蟲(一):編寫簡單爬蟲之新手入門
最近學習了一下python的基礎知識,大家一般對“爬蟲”這個詞,一聽就比較熟悉,都知道是爬一些網站上的資料,然後做一些操作整理,得到人們想要的資料,但是怎麼寫一個爬蟲程式程式碼呢?相信很多人是不會的,今天寫一個針對新手入門想要學習爬蟲的文章,希望對想要學習的你能有所幫助~~廢話不多說,進入正文!
神箭手爬蟲學習筆記(二)
暫存 自動 表達 eve doc 常用 學習 數據 .sh 一,可以使用神劍手已經做好的爬蟲市場直接跑,不需要自己定義爬取規則 二,爬蟲市場裏沒有的網站,需要自己去定義規則來爬數據。 三,爬取的數據可以先存放在神劍手,也可以放到七牛暫存。(提醒下,網站需要數據備份如果數量不
爬蟲技術(05)神箭手爬蟲回撥函式
回撥函式是在神箭手應用爬取並處理網頁的過程中設定的一些系統鉤子, 通過這些鉤子可以完成一些特殊的處理邏輯. 回撥函式需要設定到configs物件中才起作用 下圖是採集爬蟲爬取並處理網頁的流程圖, 矩形方框中標識了採集爬蟲執行過程中所使用的重要回調函式:
牛客小白月賽7 誰是神箭手
題目描述 有一天,MWH突然來了興致,想和CSL比比誰槍法好。於是他們找來了一個瓶子,比比看誰先打中這個瓶子。 給定MWH的命中率和CSL的命中率。 兩人輪流射擊,MWH先手,問誰獲勝的概率大? 輸
【健康】下蹲5分鐘,等於步行1小時!最簡單實用的鍛煉方法
relative 地面 提醒 mps 靈活性 ica 剛才 order 次數 【健康】下蹲5分鐘,等於步行1小時!最簡單實用的鍛煉方法2017-07-19人民日報“人老腳先衰,樹枯根先竭”。如果你不想過早衰老,便要保證腳部不衰老,所謂“養生先養腳”、“腿勤人長壽”,重視腿部
爬蟲2.1-scrapy框架-兩種爬蟲對比
目錄 scrapy框架-兩種爬蟲對比和大概流程 1. 傳統spider爬蟲 2. crawl型爬蟲 3. 迴圈頁面請求 4. scrapy框架爬蟲的大致流程 scrapy框架-兩種爬蟲對比和大概流程 注:spider.py指使用命令列建立的爬蟲主檔
1小時內打造你自己的PHP MVC框架
簡介 MVC框架在現在的開發中相當流行,不論你使用的是JAVA,C#,PHP或者IOS,你肯定都會選擇一款框架。雖然不能保證100%的開發語言都會使用框架,但是在PHP社群當中擁有最多數量的MVC框架。今天你或許還在使用Zend,明天你換了另一個專案也許就會轉投
每個程式設計師1小時內必須解決的5個程式設計問題之難題
昨天看到一篇文章說,軟體開發人員應一小時完成的5道題,其中第5道題,還是比較難的。看了一下作者的原來解題思路,就是採用治減法,這是一類問題的演算法題,如果沒有接觸過,確實有點難度。作者提供了JAVA的原
爬蟲教程」Python做一個簡單爬蟲,小白也能看懂的教程
俗話說“巧婦難為無米之炊”,除了傳統的資料來源,如歷史年鑑,實驗資料等,很難有更為簡便快捷的方式獲得資料,在目前網際網路的飛速發展寫,大量的資料可以通過網頁直接採集,“網路爬蟲”應運而生,本篇將會講解簡單的網路爬蟲編寫方法。 開發環境 每個人的開發環境各異,下面上是我的開發
「爬蟲教程」Python做一個簡單爬蟲,小白也能看懂的教程
俗話說“巧婦難為無米之炊”,除了傳統的資料來源,如歷史年鑑,實驗資料等,很難有更為簡便快捷的方式獲得資料,在目前網際網路的飛速發展寫,大量的資料可以通過網頁直接採集,“網路爬蟲”應運而生,本篇將會講解簡單的網路爬蟲編寫方法。 開發環境 每個人的開發環境各異,下面上是我的開發
Python編寫簡單爬蟲之新手入門(一)
最近學習了一下python的基礎知識,大家一般對“爬蟲”這個詞,一聽就比較熟悉,都知道是爬一些網站上的資料,然後做一些操作整理,得到人們想要的資料,但是怎麼寫一個爬蟲程式程式碼呢?相信很多人是不會的,今天寫一個針對新手入門想要學習爬蟲的文章,希望對想要學習的你能有所幫助~~廢
爬蟲基礎20%知識,開發簡單爬蟲
1.輕量級爬蟲,不需要登入、頁面不會使用Ajax非同步載入方法,只是簡單的靜態頁面。 2.爬蟲排程端——>URL管理器——>網頁下載器——>頁面解析器——>有效資料 3.URL管理器實現方式:記憶體、關係資料庫SQL 、快取資料庫Redis。 4.頁面下載器:使用ur
WSWP(用python寫網路爬蟲)筆記 一:實現簡單爬蟲
wswp中的程式碼是通過python2的語法來寫的,在學習的過程中個人比較喜歡python3,因此準備將wswp的示例程式碼用python3重寫一遍,以加深映像。 開始嘗試構建爬蟲 識別網站所用技術和網站所有者 構建網站所使用的技術型別的識別和尋找
Beautiful編寫簡單爬蟲實驗
from urllib.request import urlopen from urllib.error import HTTPError from bs4 import BeautifulSoup
【充分利用你的Azure】將Azure用作雲計算平臺(1)
遠程 spa http pac 雲計算 學習 .com xshel 利用 本文將圍繞幾個步驟來講。 因為本人是MSP,微軟送了150刀的額度給我隨便使用。這篇文章是要講將Azure用作雲計算平臺,對於我來說,我是做機器學習的,那麽Azure就要有機器學習的平臺。 本文的目的
機智雲物聯網平臺1:資料收集
機智雲物聯網平臺:https://accounts.gizwits.com/zh-cn/login?redirect_url=https%3A//dev.gizwits.com/zh-cn/developer/product/&set_token_url=https://dev.gizwits.com
知乎爬蟲(scrapy預設配置下單機1小時可爬取60多萬條資料)
前言: 學了爬蟲差不多快一年了,然而由於專案原因,這還是第一次發爬蟲的部落格,在學習的過程中,受益最大的就是看了九茶的微博爬蟲吧,所以在這裡特別鳴謝。 他的程式碼裡涉及了很多:自動化技術、模擬登入、分散式、redis、mongodb等都有涉及,而且還講了程式碼的
1小時教你把javaweb部署到騰訊雲上詳細教程(centOS6.6版本,jdk1.7+tomcat8+mysql)
最近想要把自己寫的web專案部署到騰訊雲上進行訪問,但是騰訊雲也不出一個官方的配置教程,像我們這種剛入門的新手完全懵逼。在百度上面搜了很久都沒有詳細的教程,都是在過程中出現各種各樣的問題,所以現在我就把我自己對騰訊雲的配置過程一步步的寫下來,希望大家能夠少走一些彎路。 其實
手把手教你寫網路爬蟲(1):網易雲音樂歌單
Selenium:是一個強大的網路資料採集工具,其最初是為網站自動化測試而開發的。近幾年,它還被廣泛用於獲取精確的網站快照,因為它們可以直接執行在瀏覽器上。Selenium 庫是一個在WebDriver 上呼叫的API。WebDriver 有點兒像可以載入網站的瀏覽器,但是它也可以像BeautifulSoup