1. 程式人生 > 其它 >python爬蟲入門例項

python爬蟲入門例項

一、DNS域名服務基礎

1、定義

  DNS是“域名系統”的英文縮寫。它作為將域名和IP地址相互對映的一個分散式資料庫,能夠使人更方便地訪問網際網路。

  DNS服務使用TCP和UDP的53埠用於連線DNS伺服器,UDP的53埠用於解析DNS。

  每一級域名長度的限制是63個字元,域名總長度則不能超過253個字元。

2、域名結構

  http://www.sina.com.cn. /

  http://主機名.子域.二級域.頂級域 根域/

  樹狀結構最頂層稱為根域,用“.”表示,相應伺服器稱為根伺服器,整個域名空間解析權都歸根伺服器所有,但根伺服器無法承擔龐大的負載,採用“委派”機制,在根域下設定了–些頂級域,然後將不同頂級域解析權分別委派給相應的頂級域伺服器,如將com域的解析權委派給com域伺服器,以後但凡根伺服器收到以com結尾的域名解析請求,都會轉發給com域伺服器,同樣道理,為了減輕頂級域的壓力,又下設了若干二級域,二級域又下設三級域或主機。

  根域:處於域名結構的最頂端,一般用一個“ . ” 表示;

  頂級域:一般代表一種型別的組織機構或者國家地區,如:
  .net(網路供應商)
  .com(工商企業)
  .org(團體組織)
  .edu(教育機構)
  .gov(政府部門)
  .cn(中國國家域名)
  二級域:用來標明頂級域內的一個特定的組織,國家頂級域下面的二級域名由國家網路部門統一管理,頂級域名下面設定的是二級域名,如:
  .com.cn
  .net.cn
  .edu.cn
  子域:二級域下所建立的各級域統稱為子域,各個組織或使用者可以自由申請註冊自己的域名;
  主機:主機位於域名結構的最下層,就是一臺具體的計算機,如:www、mail都是具體的計算機名字,可以用www.baidu.com.cn.來表示,這種方式稱為FQDN(完全合格域名),也是這臺主機在域名中的全名

3、DNS系統的作用

  • 正向解析:根據域名查詢對應的IP地址
  • 反向解析:根據IP地址檢視對應的域名

4、DNS系統的分散式資料結構

5、DNS伺服器的型別

5.1 主域名伺服器

  負責維護一個區域的所有域名資訊,是特定的所有資訊的權威資訊源,資料可以修改;構建主域名伺服器時,需要自行建立所負責區域的地址資料檔案。

5.2 從域名伺服器

  起備用域名伺服器的作用,當主域名伺服器出現故障、關閉或者負責過重時,從域名伺服器作為備份伺服器提供域名解析服務。從域名伺服器提供的解析結果不是由自已決定的,而是來自於主域名伺服器。構建從域名伺服器時,需要指定主域名伺服器的位置,以便伺服器能自動同步區域的地址資料庫。

5.3 快取域名伺服器

  快取域名伺服器:只提供域名解析結果的快取功能,目的在於提高查詢速度和效率,但沒有域名資料庫。它從某個遠端伺服器取得每次域名伺服器查詢的結果,並將它放在快取記憶體中,以後查詢相同的資訊時用它予以響應。快取域名伺服器不是權威性伺服器,因為提供的所有資訊都是間接資訊。構建快取域名伺服器時,必須設定根域或指定其他DNS伺服器作為解析來源。

5.4 轉發域名伺服器

  負責所有非本地域名的本地查詢。轉發域名伺服器接到查詢請求後,在其快取中查詢,如找不到就將請求依次轉發到指定的域名伺服器,直到查詢到結果為止,否則返回無法對映的結果。

6、DNS域名解析過程

  首先要知道域名的結構有:主機名、子域、二級域、頂級域、根域

  客戶端發出請求後,首先找到根域伺服器,根域伺服器會委派給頂級域伺服器,頂級域伺服器再委派給二級域伺服器,二級域伺服器再委派給子域伺服器,子域伺服器根據主機名的對映解析,解析出對應的IP地址,返還給客戶端,客戶端再使用IP地址進行訪問

6.1 遞迴查詢

  遞迴查詢是一種DNS 伺服器的查詢模式,在該模式下DNS 伺服器接收到客戶機請求,必須使用一個準確的查詢結果回覆客戶機。如果DNS 伺服器本地沒有儲存查詢DNS 資訊,那麼該伺服器會詢問其他伺服器,並將返回的查詢結果提交給客戶機。

6.2 迭代查詢

  DNS 伺服器另外一種查詢方式為迭代查詢,DNS 伺服器會向客戶機提供其他能夠解析查詢請求的DNS 伺服器地址,當客戶機發送查詢請求時,DNS 伺服器並不直接回複查詢結果,而是告訴客戶機另一臺DNS 伺服器地址,客戶機再向這臺DNS 伺服器提交請求,依次迴圈直到返回查詢的結果為止。

6.3 遞迴查詢與迭代查詢的示意圖

二、使用BIND構建域名伺服器

1、構建域名伺服器準備工作

1.1 BIND(Berkeley Internet Name Daemon)

  • BIND是應用最廣泛的DNS服務程式
  • 官方站點:https://www.isc.org/

1.2 相關軟體包

  • bind-9.9.4-37.el7.x86_64.rpm
  • bind-utils-9.9.4-37.el7.x86_64.rpm
  • bind-libs-9.9.4-37.el7 .x86_ 64.rpm
  • bind-chroot-9.9.4-37.el7.x8664.rpm

1.3 BIND伺服器端程式

  • 主要執行程式:/usr/sbin/named
  • 預設監聽埠:53
  • 主配置檔案
    • /etc/named.conf
  • 儲存DNS解析記錄的資料檔案位於
    • /var/named/

1.4 BIND服務控制

  • systemctl [status|startlstoplrestart] named.service

三、構建DNS域名解析伺服器步驟

1、安裝bind軟體包,檢視需要修改的配置檔案所在路徑

rpm -qc bind                    //查詢bind軟體配置檔案所在路徑yum install -y bind 沒有就安裝bind程式
/etc/ named. conf                    //主配置檔案
/etc/ named.rfc1912.zones            //區域配置檔案
/var/named/named.localhost          //區域資料配置檔案

2、修改主配置檔案

vim /etc/ named.conf
options {
   listen-on port 53 { 192.168.80.10; };                            //監聽53埠,ip地址使用提供服務的本地IP,也可用any表示所有
   1isten-on-v6 port 53 { ::1; };                                   //ipv6行如不使用可以註釋掉或者刪除
directory    "/var/named";                  //區域資料檔案的預設存放位置
dump-file    "/var/named/data/ cache dump.db";                     //域名快取資料庫檔案的位置
statistics-file "/var/ named/data/named_stats.txt";                //狀態統計 檔案的位置
memstatistics-file "/var/named/data/named_mem_stats. txt";        //記憶體統計檔案的位置
allow-query    { 192.168.80.0/24; 172.16.100.0/24; };             //允許使用本DNS解析服務的網段,也可用any代表所有
.....
}
 
zone "." IN {                            //正向解析“."根區域
    type hint;                          //型別為根區域
    file "named.ca";                   //區域資料檔案為named.ca,記錄了13臺根域伺服器的域名和IP地址等資訊
};
include "/etc/named.rfc1912.zones";                                  //包含區域

3、修改區域配置檔案、新增正向區域配置

vim /etc/named.rfc1912.zones                //檔案裡有模版,可複製粘貼後修改
zone "benet.com" IN  {                          //正向解析"benet.com"區域
type master;                                         //型別為主區域
file "benet.com.zone";                        //指定區域資料檔案為benet.com.zone
allow-update { none; } ;
};

  新增反向區域配置

vim /etc/named.rfc1912.zones                    //檔案裡有模版,可複製粘貼後修改
zone "80.168.192.in-addr.arpa" IN {               //反向解析的地址倒過來寫,代表解析192.168.116段的地址
    type master;
    file "benet. com. zone. local";                  //指定區域資料檔案為benet.com.zone.local
    allow-update { none; } ;
};

4、配置正向區域資料檔案

cd  /var/named/
cp -p named. localhost benet. com. zone                          //保留原始檔的許可權和屬主的屬性複製
vim /var/ named/benet .com.zone
$TTL 1D                                           //有效解析記錄的生存週期
@       IN SOA benet.com.admin.benet.com. (                              //“@"符號表示當前的DNS區域名
                                      0     ; serial                     //更新序列號,可以是10位以內的整數
                                     1D     ; refresh                    //重新整理時間,重新下載地址資料的間隔
                                     1H     ; retry                      //重試延時,下載失敗後的重試間隔
                                     1W     ; expire                     //失效時間,超過該時間仍無法下載則放棄
                                     3H )   ; minimum                    //無效解析記錄的生存週期
                                     
        NS    benet. com.                                //記錄當前區域的DNS伺服器的名稱
        A     192.168.80.10                                 //記錄主機IP地址 
IN   MX 10    mail.benet.com.                          //Mx為郵件交換記錄,數字越大優先順序越低
www  IN A     192. 168.80.10                //記錄正向解析www.benet.com對應的IP
mail IN A     192. 168.80.11
ftp  IN CNAME WWW                              //CNAME使用別名,ftp是www的別 名
*    IN A     192.168.80.100              //泛域名解析,“*"代表任意主機名 
 
//“@"這裡是一個變數,當前DNs區域名
//SOA記錄中的更新序列號用於同步主、從伺服器的區域資料,當從伺服器判斷區域更新時,若發現主伺服器中的序列號與本地區域資料中的序列號相同,則不會進行下載
// "benet.com.”此為完全合格域名(FQDN) ,後面有個“. "不能漏掉
//“admin. benet. ccm.”表示管理員郵箱,這裡的“@”符號已有其他含義,所以用“."代替

  配置反向區域資料檔案

cd /var/ named/
cp -p named. localhost benet .com.zone.local
 
vim /var/named/benet.com.zone.local
$TTL 1D
@   IN SOA benet.com.admin.benet.com. (                     //這裡的“@”代表192.168.116段地址
                                  0    ; serial
                                 1D    ; refresh
                                 1H    ; retry
                                 1W    ; expire
                                 3H )  ; minimum
      NS      benet. com.
      A       192.168.80. 10
200 IN PTR    WWW.benet.com.
100 IN PTR    mail.benet.com.
 
//PTR為反向指標,反向解析192.168.80.200地址結果為www.benet.com.

5、啟動服務,關閉防火牆