python之旅-日記4(記錄零基礎自己的每天學習)
番外篇 (爬蟲scrapy框架) 2018/9/19
scrapy
1.>scrapy startproject aaa 建立一個爬蟲專案
2.>items.py 修改容器
3.>pipelines.py 修改管道
4.>settings.py 設定 開啟pipelines 禁止cookies
下載延遲 下載中介軟體(ip池 標頭檔案)
robots.txt檔案限制
5.>genspider命令建立spider爬蟲檔案 aaa.py
XMLFeed(iterator選擇那個迭代器,itertag開始迭代的節點設定)
CSVFeed(header提取欄位的行資訊的列表,delimiter主要存放欄位之間的間隔符)
crawl (rules設定自動爬行規則,LinkExtractor連結提取器)
basic
6>除錯與執行 scrapy crawl
7.>寫入資料庫
多執行緒爬蟲
相關推薦
python之旅-日記4(記錄零基礎自己的每天學習)
番外篇 (爬蟲scrapy框架) 2018/9/19 scrapy 1.>scrapy startproject aaa 建立一個爬蟲專案 2.>items.py 修改容器 3.>pipelines.py 修改管道 4.>settings.py 設定 開啟pipe
python之旅-日記9(記錄零基礎自己的每天學習)
CMD 操作命令 win+R 開啟執行面板 dir 當前目錄 date 當前系統日期 time 當前時間 (cd 新路徑) ver win版本 (copy 檔案 目標路徑 ) shutdown -s關閉 (-t 時間) -r重啟 通過python程式執行cmd os.system(‘命令
python之旅-日記8(記錄零基礎自己的每天學習)
str().zfill(n) 一共n長,向右對齊,不夠補0 eg:0000zzz str().strip() 移除字串頭尾指定的字元(預設空格) ord()對應的ascii碼 hex()整數轉為十六進位制字串 oct()返回一個整數的八進位制 chr()ascii對應的。與ord相反 z
python之旅-日記7(記錄零基礎自己的每天學習)
函式 物件 類 1.>包(__init__標記為一個包) 2.>函式 f(*l)*l可變長度的引數 **l為字典引數 還有列表引數 預設引數 3.>模組 4.>面向物件程式設計 1)多型 封裝 繼承 2)建構函式,解構函式 3)私有屬性(__asdf
python之旅-日記6(記錄零基礎自己的每天學習)
異常除錯 1.>try…except try…except…else 2.>try…1.finally…2. 1程式碼無異常執行並跳轉2程式碼 1程式碼異常 仍然執行2 3.>raise 異常物件,異常資訊標識 4.>assert 斷言 檢測某個條件表
python之旅-日記5(記錄零基礎自己的每天學習)
檔案互動 1.> 開啟檔案 open(檔名稱,開啟方式) 開啟方式 r讀 w讀寫 a寫 b二進位制打來 U支援換行符 +讀或寫 2.>讀取檔案 read()讀取所有資料 readline()只讀一行 rradlines()讀取每一行,返回列表集 3.>檔案寫
python之旅-日記3(記錄零基礎自己的每天學習)
2018/9/14 基礎知識 字串 正則表示式 xpath 字串 1.> len() 2.> eval(n’+'m)字串計算 3.> ord()單個字元轉為ASCII chr()整數轉為字元 4.> raw_input()輸入轉為字元型別 input()基礎型別 5.
Linux之旅-日記3(記錄零基礎自己的每天學習)
linux 許可權管理命令 1.chmod 2.chown [使用者][檔案] 改變檔案或目錄的所有者 新增使用者useradd 3.chgrp [使用者][檔案] 改變檔案或目錄所屬組 新增所屬組groupadd 4.umask [-S] 顯示,設定檔案的預設許可權 -S
Linux之旅-日記2(記錄零基礎自己的每天學習)
linux 基本操作 修改口令 passwd 退出互動 ctrl+d 重啟 reboot 關閉 shutdown now 立刻重啟 shutdown + 時間 普通使用者 $ root使用者 # 刪除整行 ctrl+u \ 續行符 Tab 命令補齊 who 命令 顯示已經登入
Linux之旅-日記1(記錄零基礎自己的每天學習)
linux 檔案處理命令 1.目錄處理命令 ls -a隱藏檔案 -l詳細資訊 -d 目錄屬性 -h人性化顯示 -i 檔案id鏈 2.檔案處理命令 1- mkdir目錄建立 -p遞迴建立 2- cd目錄切換 cd …上級 3- pwd顯示當前目錄 4- rmdir刪除空目錄 5
web之旅-日記2(記錄零基礎自己的每天學習
2018/9/14(昨天忘記儲存了,太氣人了) 基礎知識html 1.> 圖片 img(usename,isname,longdesc) map(id name) area(alt(一定要) 區域 coodrs座標 shape【poly,circle,default,rect】,her
python之面向對象(繼承的實現原理及封裝)
let 基類 什麽 isp odi speed utf-8 賦值 類名 一、繼承的實現原理 繼承的順序 class A(object): def test(self): print(‘from A‘) class B(A): def t
Python之旅-Python基礎4-數據類型
都是 指定 hello double 裏的 移除 空間 class 字符數組 1. 數字 2是一個整數的例子。長整數不過是大一些的整數,3.23和52.3E-4是浮點數的例子。E標記表示10的冪。在這裏,52.3E-4表示52.3 * 10-4. (-5+4j)和(2.3-
Python之旅.第四章.模塊與包 4.02
ack 包含 sql mod 名稱空間 app mysql 一次 true 一、模塊的使用之import 1 什麽是模塊?模塊就一系統功能的集合體,在python中,一個py文件就是一個模塊,比如module.py,其中模塊名module2 使用模塊2.1 import 導
Python之旅.第四章.模塊與包.總結(未完待遇)
standard 後綴 att 擔心 lse 綁定 做的 業務 搜索 一、模塊 模塊: 一系列功能的集合體,在python中一個py文件就是一個模塊,模塊名就是py文件的文件名; 模塊的好處: 1.減少重復的代碼 2.拿來主義 定義模塊: 就是創建一個py文件;
Python之旅.第四章.模塊與包4.09
port 換行符 earch re模塊 shel bytes fda count sub 一、shelve模塊 Shelve(了解),是更高程度的封裝。使用時只針對之前設計生成的文件,可以無視不同平臺自動生成的其他文件。 Json的中間格式為字符串,用w寫入文件 Pic
Python 命令列之旅 —— 深入 argparse (一)
作者:HelloGitHub-Prodesire HelloGitHub 的《講解開源專案》系列,專案地址:https://github.com/HelloGitHub-Team/Article 前言 在第一篇“初探 argparse”的文章中,我們初步掌握了使用 argparse 的四部曲,
python之路——第二塊(裝飾器、生成器、叠代器)
技術 調用 效果 替換 循環 while 數據類型 exit 新功能 裝飾器 def deco(count): def func(num): if num < 10: count(num) else:
python之面向對象(接口和抽象類)
抽取 高層 per 常常 typeerror app 具體細節 同仁 接口 一、接口 什麽是接口 繼承有兩種用途: 1:繼承基類的方法,並且做出自己的改變或者擴展(代碼重用)。 2:聲明某個子類兼容於某基類,定義一個接口類Interface,接口類中定義了一些接口名(就是函
Python之字符編碼(Day10)
方式 encode 編輯器 字符串類型 python文件 介質 odin 進制 mage 1. python解釋器執行py文件的原理 ,例如python test.py 第一階段:python解釋器啟動,此時就相當於啟動了一個文本編輯器 第二階段:p