<爬蟲>常見網址的爬蟲整理

阿新 • • 發佈：2020-07-16

借鑑Kr1s77大佬的爬蟲資料，GitHbub連結：https://github.com/Kr1s77/awesome-python-login-model

整理一下，給自己學習爬蟲使用

001.百度貼吧

# 是告訴作業系統執行這個指令碼的時候，呼叫/usr/bin下的python3直譯器；
# !/usr/bin/python3
# -*- coding: utf-8 -*-


"""
請求URL分析	https://tieba.baidu.com/f?kw=魔獸世界&ie=utf-8&pn=50
請求方式分析	GET
請求引數分析	pn每頁50發生變化，其他引數固定不變
請求頭分析	只需要新增User-Agent
"""

# 程式碼實現流程
# 1. 實現面向物件構建爬蟲物件
# 2. 爬蟲流程四步驟
# 2.1 獲取url列表
# 2.2 傳送請求獲取響應
# 2.3 從響應中提取資料
# 2.4 儲存資料

import requests


class TieBa_Spier():

	def __init__(self, max_page, kw):
		# 初始化
		self.max_page = max_page  # 最大頁碼
		self.kw = kw  # 貼吧名稱
		self.base_url = "https://tieba.baidu.com/f?kw={}&ie=utf-8&pn={}"
		self.headers = {
			"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"
		}

	def get_url_list(self):
		"""獲取url列表"""
		# 根據pn每50進入下一頁，構建url列表
		return [self.base_url.format(self.kw, pn) for pn in range(0, self.max_page * 50, 50)]

	def get_content(self, url):
		"""傳送請求獲取響應內容"""
		response = requests.get(
			url=url,
			headers=self.headers
		)
		# print(response.text)
		return response.content

	def save_items(self, content, idx):
		"""從響應內容中提取資料"""
		with open('{}.html'.format(idx), 'wb') as f:
			f.write(content)
		return None

	def run(self):
		"""執行程式"""
		# 獲取url_list
		url_list = self.get_url_list()
		for url in url_list:
			# 傳送請求獲取響應
			content = self.get_content(url)

			# 儲存資料，按照url的索引+1命名儲存的檔案
			items = self.save_items(content, url_list.index(url) + 1)

			# 測試
			# print(items)


if __name__ == '__main__':
	# 最大頁碼，貼吧名
	spider = TieBa_Spier(2, "神無月")
	spider.run()

<爬蟲>常見網址的爬蟲整理

借鑑Kr1s77大佬的爬蟲資料，GitHbub連結：https://github.com/Kr1s77/awesome-python-login-model

<爬蟲>反反爬蟲的各種知識

1.代理伺服器（中間人） # -*- coding: utf8 -*- import requests if __name__ == \'__main__\':

<scrapy爬蟲>Spiders的用法

1、能夠建立scrapy專案、編寫個簡單的蜘蛛並執行蜘蛛；2、能夠簡單的使用scrapy shell 除錯資料；3、能夠使用scrapy css選擇器提取簡單資料；4、除了能夠提取一頁資料，還要能提取下一頁、在下一頁。

<爬蟲>必應翻譯爬蟲

1.基本資訊目標網站：必應翻譯網址：https://cn.bing.com/translator/ 2.網址分析輸入單詞實時在下方生成翻譯（區域性AJAX）

Python常見反爬蟲機制解決方案

1、使用代理適用情況：限制IP地址情況，也可解決由於“頻繁點選”而需要輸入驗證碼登陸的情況。

<資料結構>常見的資料結構和演算法

001.二分查詢 # 二分查詢 \'\'\' 1.end問題 2.44對應的end<start 找不到情況 3.返回值遞迴的情況

爬蟲中常見問題

1、爬取內容顯示亂碼 1、原因：比如網頁編碼是gbk編碼的，但是我們用了錯誤的方式比如utf-8解碼，因而出現亂碼

一文帶你瞭解Python 四種常見基礎爬蟲方法介紹

一、Urllib方法 Urllib是python內建的HTTP請求庫 import urllib.request #1.定位抓取的url url=\'http://www.baidu.com/\'

爬蟲從入門到入獄(5)——多執行緒爬蟲與常見搜尋演算法

文章內容均出自《python爬蟲開發》文章目錄5.1 多執行緒爬蟲5.1.1 多執行緒的優勢5.1.2 多程序庫：multiprocessing5.1.3 多執行緒爬蟲開發5.2 爬蟲的常見搜尋演算法5.2.1 深度優先搜尋5.2.2 廣度優先搜尋5.2.3 演算法

mybatis 中<if>標籤bool值型別為false判斷

mybatis 中<if>標籤bool值型別為false判斷對百度的某些文章深惡痛絕，只是ctrl+c和ctrl+v。並且還不能解決問題。

爬蟲技術之分散式爬蟲架構的講解

分散式爬蟲架構並不是一開始就出現的。而是一個逐步演化的過程。最開始入手寫爬蟲的時候，我們一般在個人計算機上完成爬蟲的入門和開發，而在真實的生產環境，就不能用個人計算機來執行爬蟲程式了，而是將爬蟲程式部

Python反爬蟲偽裝瀏覽器進行爬蟲

對於爬蟲中部分網站設定了請求次數過多後會封殺ip，現在模擬瀏覽器進行爬蟲，也就是說讓伺服器認識到訪問他的是真正的瀏覽器而不是機器操作

MySQL必備的常見知識點彙總整理

本文例項總結了MySQL必備的常見知識點。分享給大家供大家參考，具體如下：

ODBC 常見資料來源配置整理

目錄 1. 簡介 1.1 ODBC和JDBC 1.2 ODBC配置工具 1.3 ODBC 資料來源連線配置 2. MySQL 資料來源配置

Selenium+Python調Chrome瀏覽器時報Traceback (most recent call last): File "C:/Users/EDZ/Desktop/selenium_demo/demo001.py", line 12, in <module>

上次使用Selenium+Python還是好幾個月前了今天想再用一下，結果寫個開啟網站的小demo報錯，報錯如下：

Java泛型<T> T與T的用法

泛型（Generic type 或者 generics）是對 Java 語言的型別系統的一種擴充套件，以支援建立可以按型別進行引數化的類。可以把型別引數看作是使用引數化型別時指定的型別的一個佔位符，就像方法的形式引數是執行時傳遞

解析Consummer<T>函式式介面中的andThen方法

事例程式碼： 1 public static void main(String[] args) { 2Consumer<Integer> consumer = x -> System.out.println(x);

linux系統 <font color="red">rsync結合inotify實時同步</font>

rsync結合inotify實時同步 # 客戶端下載inotify yum install -y inotify-tools # 安裝完成就有了一個inotifywait命令，這個命令是用來做監控的，下面是關於這個命令的引數

Java基礎<精簡>

1.JVM新加“即時編譯”，將熱點程式碼直接編成底層程式碼，減少增加翻譯之後可能存在的通訊歧義或效率問題；

mybatis中的<include>標籤作用(轉載)

MyBatis中sql標籤定義SQL片段，include標籤引用，可以複用SQL片段 sql標籤中id屬性對應include標籤中的refid屬性。通過include標籤將sql片段和原sql片段進行拼接成一個完整的sql語句進行執行。