使用python爬取8684.cn公交資訊

阿新 • • 發佈：2018-12-19

使用庫
如果庫缺失請自行下載

import requests
import time
from bs4 import BeautifulSoup
import json

原始碼

import requests
import time
from bs4 import BeautifulSoup
import json


headers = {
	'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36',
}

def parse_first_page(url):
	r = requests.get(url, headers=headers)
	soup = BeautifulSoup(r.text, 'lxml')
	# 查詢得到所有的以數字開頭的連結
	number_a_list = soup.select('.bus_kt_r1 > a')
	char_a_list = soup.select('.bus_kt_r2 > a')
	# 提取a裡面的href
	a_list = number_a_list + char_a_list
	href_list = []
	for oa in a_list:
		href = url.rstrip('/') + oa['href']
		href_list.append(href)
	return href_list

def parse_second_page(url, href):
	r = requests.get(url=href, headers=headers)
	soup = BeautifulSoup(r.text, 'lxml')
	# 查詢得到所有的公交連結
	bus_a_list = soup.select('#con_site_1 > a')
	href_list = []
	for oa in bus_a_list:
		href = url.rstrip('/') + oa['href']
		href_list.append(href)
	return href_list

def parse_third_page(href, fp):
	r = requests.get(href, headers=headers)
	soup = BeautifulSoup(r.text, 'lxml')
	# 線路名稱
	route_name = soup.select('.bus_i_t1 > h1')[0].string
	print('正在爬取---%s---...' %route_name)
	# 執行時間
	run_time = soup.select('.bus_i_content > p')[0].string.lstrip('執行時間：')
	# 票價資訊
	price_info = soup.select('.bus_i_content > p')[1].string.lstrip('票價資訊：')
	# 公交公司
	company = soup.select('.bus_i_content > p > a')[0].string
	# 更新時間
	update_time = soup.select('.bus_i_content > p')[-1].string.lstrip('最後更新：')
	# 上行總個數
	up_total = soup.select('.bus_line_top > span')[0].string.strip('共站').strip()
	# 上行總站牌
	up_name_list = []
	number = int(up_total)
	up_a_list = soup.select('.bus_site_layer > div > a')[:number]
	for oa in up_a_list:
		up_name_list.append(oa.string)
	# 下行總個數
	# 下行總站牌
	down_a_list = soup.select('.bus_site_layer > div > a')[number:]
	down_total = len(down_a_list)
	down_name_list = []
	for oa in down_a_list:
		down_name_list.append(oa.string)
	
	# 儲存到字典中
	item = {
		'線路名稱': route_name,
		'執行時間': run_time,
		'票價資訊': price_info,
		'公交公司': company,
		'更新時間': update_time,
		'上行個數': up_total,
		'上行站牌': up_name_list,
		'下行個數': down_total,
		'下行站牌': down_name_list,
	}
	string = json.dumps(item, ensure_ascii=False)
	fp.write(string + '\n')
	print('結束爬取---%s---' %route_name)
	# time.sleep(1)

def main():
	url = 'http://beijing.8684.cn/'
	number_char_list = parse_first_page(url)
	fp = open('北京.txt', 'w', encoding='utf8')
	# 解析二級頁面
	for href in number_char_list:
		bus_href_list = parse_second_page(url, href)
		# 遍歷所有的公交詳情頁，獲取每一路公交的詳細資訊
		for href_detail in bus_href_list:
			parse_third_page(href_detail, fp)

	fp.close()

if __name__ == '__main__':
	main()

使用python爬取8684.cn公交資訊

使用庫如果庫缺失請自行下載 import requests import time from bs4 import BeautifulSoup import json 原始碼 import requests import time from bs4

Python爬取安居客經紀人資訊

Python爬取安居客經紀人資訊 Python2.7.15 今天我們來爬取安居客經紀人的資訊。這次我們不再使用正則，我們使用beautifulsoup。不瞭解的可以先看一下這個文件，便於理解。https://beautifulsoup.readthedocs.io/zh_CN/v4.4.

Python爬取淘寶商品資訊

頁面分析開啟淘寶搜尋衛衣男檢視原始碼我們這裡可以找到幾個關鍵詞通過分析我們可以找到價格，郵費，商家地址，付款人數，商家ID，店鋪名稱。分析URL 我們可以看到第一頁url：https://s.taobao.com/search?q=%E5%8D%AB%E

用python爬取二手房交易資訊並進行分析

用python爬取二手房交易資訊並分析第一步：編寫爬蟲爬取某平臺上海市十個區共900條二手房的交易資訊 #爬取上海十個區的二手房價資訊 import requests from bs4 import BeautifulSoup import csv #

Python爬取淘寶店鋪資訊

1.採用Chrome無頭瀏覽模式，後臺自動執行 2.函式結構化，易於擴充套件改變 3.異常重啟，防止崩潰已經封裝完畢 import re from selenium import webdriver from selenium.webdriver.common.by

利用高德API + Python爬取鏈家網租房資訊 01

看了實驗樓的專案發現五八同城爬取還是有點難度所以轉戰鏈家實驗程式碼如下 from bs4 import BeautifulSoup from urllib.request import urlopen import csv url = 'https://gz.lia

python爬取自如房間資訊(二)

主要是針對自如房價的爬取。以下程式碼對房價圖片進行處理，將裡面的數字提取出來，然後用knn最近鄰演算法去對圖片上的資料進行分類。 import sys import cv2 import numpy as np ####### training part ###########

python爬取自如房間資訊(一)

使用python和selenium+Chrome Headless爬取自如房間資訊，並將結果儲存在MongoDB中。其中最麻煩的應該是每間房的價格，因為自如是用一張圖片和offset來顯示價格，所以不能直接獲得。但我們可以通過將圖片轉為文字，再通過偏移量將數字組合為價格。在這裡我們使用的是Ch

用python爬取拉勾網招聘資訊並以CSV檔案儲存

爬取拉勾網招聘資訊 1、在網頁原始碼中搜索資訊，並沒有搜到，判斷網頁資訊使用Ajax來實現的 2、檢視網頁中所需的資料資訊，返回的是JSON資料； 3、條件為北京+資料分析師的公司一共40087家，而實際拉勾網展示的資料只有 15條/頁 * 30頁 = 450條，所以需要判斷

python實戰之網路爬蟲（爬取新聞內文資訊）

（1）前期準備：開啟谷歌瀏覽器，進入新浪新聞網國內新聞頁面，點選進入其中一條新聞，開啟開發者工具介面。獲取當前網頁資料，然後使用BeautifulSoup進行剖析，程式碼： import requests from bs4 import BeautifulSoup res = requests.

Python爬蟲實戰專案2 | 動態網站的抓取（爬取電影網站的資訊）

1.什麼是動態網站？動態網站和靜態網站的區別在於，網頁中常常包含JS，CSS等動態效果的內容或者檔案，這些內容也是網頁的有機整體。但對於瀏覽器來說，它是如何處理這些額外的檔案的呢？首先瀏覽器先下載html檔案，然後根據需要，下載JS等額外檔案，它會自動去下載它們，如果我們要爬取這些網頁中的動態

Python，自己修改的爬去淘寶網頁的程式碼解決Python爬蟲爬取淘寶商品資訊也不報錯，也不輸出資訊

程式碼部分：下面是正確的： import requests import re def getHTMLText(url): try: r = requests.get(url, timeout = 30) r.raise_for_stat

python+itchat 爬取微信好友資訊

專案環境語言：Python3 編輯器：Pycharm 導包：matplotlib、numpy、wordCloud、PIL、jieba、itchat 前言近朱者赤，近墨者黑。微信已成為我們生活中必不可少的通訊社交工具，朋友圈一個分享我們生活的平臺，接下來先拿我的微信好友開刀，一

Python爬取天氣資訊並定時傳送給微信好友(異地戀神器)！！

效果前言中國天氣網： http://www.weather.com.cn/ 點選右上角的具體的天氣資料想獲取哪個城市的天氣，就搜尋城市進行切換這裡以青島為例可以看到此時url為： http://www.weather.com.cn/weat

Python爬蟲專案--爬取某寶男裝資訊

本次爬取用到的知識點有: 1. selenium 2. pymysql 3 pyquery 正文 1. 分析目標網站 1. 開啟某寶首頁, 輸入"男裝"後點擊"搜尋", 則跳轉到"男裝"的搜尋介面. 2. 空白處"右擊"再點選"檢查"審查網頁元素, 點選"Network". 1) 找到對應的URL, URL

python爬取豆瓣電影Top250的資訊

python爬取豆瓣電影Top250的資訊 2018年07月25日 20:03:14 呢喃無音閱讀數：50 python爬取豆瓣電影Top250的資訊。初學，所以程式碼的不夠美觀和精煉。如果程式碼有錯，請各位讀者在評論區評論，以免誤導其他同學。（

python爬取杭州市幼兒園資訊

一、爬取前準備 1、IDE使用pycharm 2、安裝相關的庫，requests，re，xlsxwritter，beautifulsoup 如圖看到，網頁由頂部的區域，中間的學校列表和底部的分頁等幾個重要的部分組成。檢視網頁原始碼，可以看到上述的三個部分都

python爬取網易雲歌曲資訊及下載連結並簡單展示

我們選取的爬取目標是歌單這一塊兒 chrome瀏覽器 f12抓包經過簡單的解析，拿到歌曲分類名字 create_table_sql = 'create table ’ + i + ‘(id int auto_increment primary key,song_name varch

python爬取知乎專欄使用者評論資訊

工具：python3，pycharm，火狐瀏覽器模組：json，requests，time 登入知乎，進入專欄。進入後隨便選擇一個專欄，我們選擇一個粉絲比較多的。點選進去。其實，我們可以爬取這個專欄的所有文章，開啟開發者工具F12，點選重新整理找

Python資料爬蟲學習筆記（21）爬取京東商品JSON資訊並解析

一、需求：有一個通過抓包得到的京東商品的JSON連結，解析該JSON內容，並提取出特定id的商品價格p，json內容如下： jQuery923933([{"op":"7599.00","m":"9999.00","id":"J_5089253","p":"7099.00"}

使用python爬取8684.cn公交資訊

相關推薦