基於requests庫和lxml庫爬取瓜子二手車

阿新 • • 發佈：2018-11-26

工具：lxml和requests

# coding:utf-8
import requests
import time
import MySQLdb
import MySQLdb.cursors
from lxml import etree
from urllib import parse

name_url = "https://www.guazi.com/gz/buy/"
start_url = ["https://www.guazi.com/gz/buy/"]
filter_url = []
header = {
	'Host':'www.guazi.com',
	#'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36',
	'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:63.0) Gecko/20100101 Firefox/63.0',
	'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
	'Accept-Language':'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
	'Accept-Encoding':'gzip, deflate, br',
	'Cookie':'antipas=094703B749B567s35A20579Y709c;', 
	#'Cookie':'antipas=5762035O8S689054651568416;',
}

session = requests.Session()

def start_request(url):
	response = session.get(url=url,headers=header)
	response.encoding = 'utf-8'
	text = response.text
	return text

def get_request(url):
	for j in url:
		if j in filter_url:
			pass
		else:
			filter_url.append(j)
			text = start_request(j)
			return text

def select_url(text):
	html = etree.HTML(text,etree.HTMLParser())
	next_nodes = html.xpath('//ul[contains(@class,"carlist")]//a[@class="car-a"]/@href')
	next_one = html.xpath('//div[@class="pageBox"]//a[@class="next"]/@href')
	for t in next_one:
		next_one = parse.urljoin(name_url,t)
		start_url.append(next_one)
	for next_node in next_nodes:
		next_url = parse.urljoin(name_url,next_node)
		yield next_url
	

def parse_detail(do_url):
	for i in do_url:
		time.sleep(3)
		text = start_request(i)
		html = etree.HTML(text,etree.HTMLParser())
		data = {}
		data['title'] = html.xpath("//h2[@class='titlebox']/text()")[0]
		data['register_time'] = html.xpath("//ul[contains(@class,'assort')]/li[@class='one']/span/text()")[0]
		data['miles'] = html.xpath("//ul[contains(@class,'assort')]/li[@class='two']/span/text()")[0]
		data['city'] = html.xpath("//ul[contains(@class,'assort')]/li[@class='three'][1]/span/text()")[0]
		data['oil_mount'] = html.xpath("//ul[contains(@class,'assort')]/li[@class='three'][2]/span/text()")[0]
		data['speed_box'] = html.xpath("//ul[contains(@class,'assort')]/li[@class='last']/span/text()")[0]
		data['price'] = html.xpath("//div[contains(@class,'pricebox')]/span[@class='pricestype']/text()")[0]

		yield data

def data_clean(datas):
	for data in datas:
		data['title'] = data['title'].strip()
		data['price'] = data['price'].strip() + '萬'
		yield data

def insert_into_sql(data):
	conn = MySQLdb.connect('localhost','root','9901914846','guazi',charset='utf8',use_unicode=True)
	cursor = conn.cursor()
	insert_sql = """
		insert into guazi_data(title,register_time,miles,city,oil_mount,speed_box,price)
		VALUES(%s,%s,%s,%s,%s,%s,%s)
	"""
	params = (data['title'],data['register_time'],data['miles'],data['city'],data['oil_mount'],data['speed_box'],data['price'])

	cursor.execute(insert_sql,params)
	conn.commit()

def main():
	while filter_url != start_url:
		text = get_request(start_url)
		do_url = select_url(text)
		datas = parse_detail(do_url)
		for i in data_clean(datas):
			if i:
				insert_into_sql(i)
				print('插入成功')
			else:
				print('插入失敗')
			
if __name__ == '__main__':
	main()

CSDN：https://blog.csdn.net/weixin_43698874/article/details/84555778

github:https://github.com/mechaelyoung/guazi_spider

基於requests庫和lxml庫爬取優信二手車

工具：lxml庫和requests庫 # _*_ coding:utf-8 _*_ import requests import re import time import MySQLdb import MySQLdb.cursors from lxml import etree from urlli

基於requests庫和lxml庫爬取瓜子二手車

工具：lxml和requests # coding:utf-8 import requests import time import MySQLdb import MySQLdb.cursors from lxml import etree from urllib import parse name

Python爬蟲之爬取瓜子二手車資訊- requests方法

最近在做二手車市場資料分析，試著爬取瓜子二手車在售車輛資訊，做一下記錄大致思路如下： 2、從a連結頁面獲取每輛車詳情頁的連結b 3、進入b抓取我需要的車輛資訊： car_model = Field() # 車型資訊 registe

Python scrapy框架爬取瓜子二手車資訊資料

專案實施依賴： python，scrapy ，fiddler scrapy安裝依賴的包：可以到https://www.lfd.uci.edu/~gohlke/pythonlibs/ 下載 pywin32，lxml，Twisted，scrapy然後pip安裝專案實施開始： 1、建立scrapy專

用requests庫和BeautifulSoup4庫爬取新聞列表

ont contents req style quest 新聞列表 soup itl .html import requests from bs4 import BeautifulSoup jq=‘http://news.gzcc.cn/html/2017/xiaoyua

requests庫和BeautifulSoup4庫爬取新聞列表

blog 結果分析代碼 ner eba etime 包裝 mat 畫圖顯示： import jieba from wordcloud import WordCloud import matplotlib.pyplot as plt txt = open("zui

python語言用requests庫和BeautifulSoup庫爬取京東商品資訊

分析網頁程式碼後寫出程式碼程式碼如下： import requests from bs4 import BeautifulSoup def gettext(url): try: r=requests.get(url) r.e

利用requests庫和pyquery庫爬取指定頁數的京東商品資訊

大概思路：首先利用requests庫獲取京東商品搜尋的頁面資訊，然後利用pyquery庫對爬取的資料進行分析，然後利用格式化輸出的方法輸出所爬取的資料。要爬取的頁面截圖為對前幾頁的網址進行分析可觀察出相應的規律第一頁：https://search.jd.

筆記——用Requests庫和BeautifulSoup庫爬取酷狗音樂資料

酷狗音樂top500榜單鏈接：http://www.kugou.com/yy/rank/home/1-8888.html觀察每頁的url，將第一頁url中home/後的1改成2，就恰好是第二頁的url。首先匯入相應的庫，同時設定好瀏覽器的header：import reque

使用Requests庫和BeautifulSoup庫來爬取網頁上需要的文字與圖片

Pythone現在已經成為全球最火爆的語言了，它的強大之處想必不需要我多說吧。接下來我就Python網路爬蟲來談一談本渣渣的見解。 -----------------------------------------------------------------------

使用Python的BeautifulSoup庫實現一個可以爬取1000條百度百科數據的爬蟲

otto 提取數據 tps summary 簡介標題格式段落字典如果 BeautifulSoup模塊介紹和安裝 BeautifulSoup BeautifulSoup是Python的第三方庫，用於從HTML或XML中提取數據，通常用作於網頁的解析器 Beauti

python使用requests庫和re庫寫的京東商品資訊爬蟲

1 import requests 2 import re 3 4 def getHTMLText(url): 5 try: 6 r = requests.get(url, timeout=30) 7 r.raise_for_status()

python使用requests庫和re庫寫的京東商品信息爬蟲

fin 搜索 goods tle 爬取 val timeout stat for 1 import requests 2 import re 3 4 def getHTMLText(url): 5 try: 6 r = reques

用面向物件的思想程式設計思想使用requests、lxml模組爬取酷我音樂榜單的音樂，並用json格式匯出檔案。

首先匯入響應的模組： import requests from lxml import etree import json 然後新建一個class類，並建立需要的例項： class KuwoSpider: def __init__(self):

requests和正則爬取貓眼的資料

用requests爬取貓眼網站的top100榜單，再用正則提取所需的資料，並將資料儲存 #成功抓取所有資料，並存為檔案（參考程式碼：https://github.com/Germey/TouTiao/blob/master/spider.py） import request

mac下給python3安裝requests庫和scrapy庫

眾所周知，Mac自帶python2，但無奈我們想使用新版本，因此我們需要安裝python3 安裝python3我使用了homebrew，網上也有很多教程，這裡不多說為python3安裝第三方庫其實也很簡單，在安裝python3之後，系統自動安裝了pip3 因此我們只需

利用requests和正則爬取貓眼電影top100榜單

環境：win10， anaconda3（python3.5）用python的requests庫和正則將貓眼電影top100榜單資訊抓取下來，儲存資料並做了點簡單的分析。（貓眼電影top100榜單網頁的原始碼可能發生了改變，程式里正則那邊可能不適用了，需要修改。）下面

ffmpeg的ubuntu的編譯過程（編譯靜態庫和動態庫）

ffmpeg第一步源碼下載通過git下載git clone https://git.ffmpeg.org/ffmpeg.git ffmpeg或者直接下載wget http://ffmpeg.org/releases/ffmpeg-3.3.tar.bz2如果是下載的ffmpeg-3.3.tar.bz2 需要進

關於Linux靜態庫和動態庫的分析

所在 mis color 先後 main 技術哪些共享協議關於Linux靜態庫和動態庫的分析關於Linux靜態庫和動態庫的分析 1.什麽是庫在windows平臺和linux平臺下都大量存在著庫。本質上來說庫是一種可運行代碼的二進制形式。能夠被操作系

靜態庫和動態庫的使用

window != 函數調用 img clas 處理 dllexport void 再看 1.靜態庫使用比較簡單，就兩步 @1包含靜態庫頭文件#include "文件名" @2預處理加載靜態庫 #pragma comment(lib,"庫文件名") 2.再看動態庫 @1首先

基於requests庫和lxml庫爬取瓜子二手車

相關推薦