RCurl汽車之家抓取

阿新 • • 發佈：2019-01-26

汽車之家抓取

2016年4月20日

參考：http://blog.sina.com.cn/s/blog_6f2336820102v13n.html

汽車之家抓取

library(RCurl)

## Loading required package: bitops

#install.packages("XML")
library(XML)
library(reshape)

#偽裝報頭
myheader=c(
"User-Agent"="Mozilla/5.0(Windows;U;Windows NT 5.1;zh-CN;rv:1.9.1.6",
"Accept"="text/htmal,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8" 
,
"Accept-Language"="en-us",
"Connection"="keep-alive",
"Accept-Charset"="GB2312,utf-8;q=0.7,*;q=0.7"
)

#1）微型車抓取測試
a00url <- "http://www.autohome.com.cn/a00/"
temp <- getURL(a00url, httpheader=myheader, .encoding = "gb2312")

#轉碼
temp1 <- iconv(temp, "gb2312", "UTF-8")
Encoding(temp1)

## [1] "UTF-8"

#選擇UTF-8進行網頁的解析 

k <- htmlParse(temp1, asText = T, encoding = "UTF-8")

#檢視doc的內容時顯示有亂碼，但沒關係，table的解析結果沒有亂碼
tables <- readHTMLTable(k, header = F)
#getNodeSet(k,'//div[@class="uibox"]')

#汽車公司
#getNodeSet(k,'//div[@class="h3-tit"]/text()')

#汽車車型（greylink，灰色連結即非上市車型）
model<-getNodeSet(k,'//a[contains(@class,"greylink")]/text()' 
)

#汽車車型（包含上市），這個Xpath會出現同輛車重複4次這種情況，我沒找到最好的xpath=-=
model<-getNodeSet(k,'//li/h4/a/text()')
class(model)

## [1] "XMLNodeSet"

#從XMLNodeSet轉化為character格式
a00 <- sapply(model, xmlValue)
class(a00)

## [1] "character"

a00 <- as.data.frame(a00)
a00$tips <- rep("a00/", length(a00$a00))

#重新命名列名
a00 <- rename(a00, c(a00="model", tips="tips"))
data1 <- a00
write.csv(a00, file = "E:\\新技術\\爬蟲\\汽車之家/微型車.csv")

#2)################各車型的URL#######################
#微型車 http://www.autohome.com.cn/a00/
#小型車 http://www.autohome.com.cn/a0/
#緊湊型車 http://www.autohome.com.cn/a/
#中型車 http://www.autohome.com.cn/b/
#中大型車 http://www.autohome.com.cn/c/
#豪華車 http://www.autohome.com.cn/d/
#MPV http://www.autohome.com.cn/mpv/
#跑車 http://www.autohome.com.cn/s/
#皮卡 http://www.autohome.com.cn/p/
#微面 http://www.autohome.com.cn/mb/
#輕客 http://www.autohome.com.cn/qk/
#小型suv http://www.autohome.com.cn/suva0/
#緊湊型suv http://www.autohome.com.cn/suva/
#中型suv http://www.autohome.com.cn/suvb/
#中大型suv http://www.autohome.com.cn/suvc/
#全尺寸suv http://www.autohome.com.cn/suvd/

series<-c("a0/","a/","b/","c/","d/","mpv/","s/","p/","mb/","qk/","suva0/","suva/","suvb/","suvc/","suvd/")

#構建urllist，若寫成function的話，貌似不需要構建urllist
urllist <- 0
for(i in 1:length(series)){
  url <- "http://www.autohome.com.cn/"
  urllist[i] <- paste0(url, series[i], sep="")
}

#構建抓取迴圈
for (i in 1:length(series)){
  url<-paste0("http://www.autohome.com.cn/",series[i],sep="")
  temp<-getURL(url,httpheader=myheader,.encoding="gb2312")
  temp1<-iconv(temp,"gb2312","UTF-8") #轉碼
  k<-htmlParse(temp1,asText=T,encoding="UTF-8") #選擇UTF-8進行網頁的解析
  model<-getNodeSet(k,'//li/h4/a/text()')
  table<-sapply(model,xmlValue) #從XMLNodeSet轉化為character格式
  table<-as.data.frame(table)
  table$tips<-rep(series[i],length(table$table))
  table<-rename(table,c(table="model",tips="tips")) #重新命名列名
  data2<-table
  data1<-rbind(data1,data2)
}

#匯出結果後再去重處理下吧.
write.csv(data1, file="E:\\新技術\\爬蟲\\汽車之家/auto全車型.csv")

RCurl汽車之家抓取

汽車之家抓取 2016年4月20日參考：http://blog.sina.com.cn/s/blog_6f2336820102v13n.html 汽車之家抓取 library(RCur

汽車之家店鋪數據抓取 DotnetSpider實戰[一]

@class 詳情 nbsp 實體比較 request else post 好的一、背景春節也不能閑著，一直想學一下爬蟲怎麽玩，網上搜了一大堆，大多都是Python的，大家也比較活躍，文章也比較多，找了一圈，發現園子裏面有個大神開發了一個DotNetSpider的開源

汽車之家店鋪數據抓取 DotnetSpider實戰

xv6 pan req time 大神 -i xib lac context 一、背景春節也不能閑著，一直想學一下爬蟲怎麽玩，網上搜了一大堆，大多都是Python的，大家也比較活躍，文章也比較多，找了一圈，發現園子裏面有個大神開發了一個DotNetSpider的開源庫，

使用Java抓取解析汽車之家車型配置資料

因為公司業務需求，需要獲取汽車之家的車型配置資料如下圖：由於汽車之家沒做防爬策略，只是資料給混淆了，這裡主要說解析資料。通過儲存頁面，配置項的資料是通過JS動態生成的。在頁面的第572行左右，有配置項的json格式資料主要的配置

使用python抓取汽車之家車型資料

import requests import pymysql HOSTNAME = '127.0.0.1' USERNAME = 'root' PASSWORD = 'zyndev' DATABASE = 'zyndev_new' brand = 'ht

汽車之家店鋪資料抓取 DotnetSpider實戰[一]

一、背景春節也不能閒著，一直想學一下爬蟲怎麼玩，網上搜了一大堆，大多都是Python的，大家也比

java 開發用到網路爬蟲，抓取汽車之家網站全部資料經歷

經歷了兩個禮拜的折騰，某某知名網站的資料終於到手了。犯罪沒被發現這種心情感覺很爽。說一下我的犯罪經歷，之前公司總是抓取某某網站資料，可能是被發現了。某某網站改變了策略。通過各種技術終止了我們的行為，導致我們的抓取功能報錯，逐步跟蹤，發現我們之前是在人家的網站，通過Webh

python入門-----爬取汽車之家新聞,---自動登錄抽屜並點贊,

ike color div標簽 pla spa art com col 3-9 爬取汽車之家新聞,代碼如下 import requests res=requests.get(url=‘https://www.autohome.com.cn/news/‘) #向汽車直接

爬取汽車之家

ref article brush att split channel odin lazy com import requests from bs4 import BeautifulSoup response = requests.get(‘https://www.aut

python3 爬取汽車之家所有車型操作步驟

題記: 　　網際網路上關於使用python3去爬取汽車之家的汽車資料（主要是汽車基本引數，配置引數，顏色引數，內飾引數）的教程已經非常多了，但大體的方案分兩種：　　1.解析出汽車之家某個車型的網頁，然後正則表示式匹配出混淆後的資料物件與混淆後的js，並對混淆後的js使用pyv8進行解析返回

python網路爬蟲爬取汽車之家的最新資訊和照片

實現的功能是爬取汽車之家的最新資訊的連結題目和文章中的照片爬蟲需要用到我們使用了 requests 做網路請求，拿到網頁資料再用 BeautifulSoup 進行解析首先先檢查是否安裝了pip，如果已經安裝了pip,直接pip install requests,pip uninstal

爬取汽車之家北京二手車資訊

爬取汽車之家北京二手車資訊經測試，該網站：https://www.che168.com/beijing/list/ 反爬機制較低，僅需要偽造請求頭設定爬取速率，但是100頁之後需要登入，登入之後再爬要慎重，一不小心就會永久封號。爬取的資料以各種型別存放，下面展示儲存到mysql資料

汽車之家網站為例-爬蟲的編寫，爬取圖片

汽車之家圖片的爬取汽車之家有很多汽車的點評、價格、圖片等資訊，那麼怎麼才能編寫一個爬蟲來獲得我們所需要的資訊呢，很簡單，兩個工具便可以了，一個網頁解析工具requests，一個正則匹配工具re

汽車之家資料爬取:文章連結//圖片//標題

(1)打印出來的東西亂碼,如何處理這個問題? import requests response=requests.get( url='https://www.autohome.com.cn/beijing/' #最新的地址是可以出來的 # url='https://

Python爬取最新反爬蟲汽車之家口碑

本人剛學Python沒幾天,程式碼可能比較醜陋, 大牛不要噴用的Python2.7.2, 因為PyV8最高支援2.7.2, js混淆部分用的PyV8直接執行的js 原理已經寫過一篇了,這裡不再贅述了.可以看我的這篇目錄結構如下: fonts資料夾負責存放下載的字型檔案

python爬蟲實戰爬取汽車之家上車型價格

相關庫 import pymysql import pymysql.cursors from bs4 import BeautifulSoup import requests import random

WebMagic爬蟲入門教程（三）爬取汽車之家的例項-品牌車系車型結構等

本文使用WebMagic爬取汽車之家的品牌車系車型結構價格能源產地國別等；java程式碼備註，只是根據url變化爬取的，沒有使用爬取script頁面具體的資料，也有反爬機制，知識簡單爬取html標籤爬取的網頁：需要配置pom.xml <!-

python爬蟲——爬取汽車之家新聞

按F12審查一下元素：找到了對應的資訊。而且發現要爬取的圖片都在id=auto-channel-lazyload-article的div標籤下的li標籤裡。 li標籤下的a標籤就是新聞的url；image標籤，src就是獲取圖片的url；請求圖片地

Python3[爬蟲實戰] scrapy爬取汽車之家全站連結存json檔案

昨晚晚上一不小心學習了崔慶才，崔大神的部落格，試著嘗試一下爬取一個網站的全部內容，福利吧網站現在已經找不到了，然後一不小心逛到了汽車之家 (http://www.autohome.com.cn/beijing/) 很喜歡這個網站，女人都喜歡車，更何況男人呢。（

Python練習 scrapy 爬取汽車之家文章

autohome.py #spider檔案 # -*- coding: utf-8 -*- import scrapy from Autohome.items import AutohomeItem class AutohomeSpider(scrapy.Spider)

RCurl汽車之家抓取

汽車之家抓取

2016年4月20日

汽車之家抓取

相關推薦