Python-爬蟲工程師-面試題總結

阿新 • • 發佈：2019-02-11

1、對ifname__ == 'main'的理解陳述

__name__是當前模組名，當模組被直接執行時模組名為_main_，也就是當前的模組，當模組被匯入時，模組名就不是__main__，即程式碼將不會執行。

2、python是如何進行記憶體管理的？

a、物件的引用計數機制
python內部使用引用計數，來保持追蹤記憶體中的物件，Python內部記錄了物件有多少個引用，即引用計數，當物件被建立時就建立了一個引用計數，當物件不再需要時，這個物件的引用計數為0時，它被垃圾回收。
b、垃圾回收
1>當一個物件的引用計數歸零時，它將被垃圾收集機制處理掉。
2>當兩個物件a和b相互引用時，del語句可以減少a和b的引用計數，並銷燬用於引用底層物件的名稱。然而由於每個物件都包含一個對其他物件的應用，因此引用計數不會歸零，物件也不會銷燬。（從而導致記憶體洩露）。為解決這一問題，直譯器會定期執行一個迴圈檢測器，搜尋不可訪問物件的迴圈並刪除它們。
c、記憶體池機制

Python提供了對記憶體的垃圾收集機制，但是它將不用的記憶體放到記憶體池而不是返回給作業系統。
1>Pymalloc機制。為了加速Python的執行效率，Python引入了一個記憶體池機制，用於管理對小塊記憶體的申請和釋放。
2>Python中所有小於256個位元組的物件都使用pymalloc實現的分配器，而大的物件則使用系統的malloc。
3>對於Python物件，如整數，浮點數和List，都有其獨立的私有記憶體池，物件間不共享他們的記憶體池。也就是說如果你分配又釋放了大量的整數，用於快取這些整數的記憶體就不能再分配給浮點數。

3、請寫出一段Python程式碼實現刪除一個list裡面的重複元素

# 1.使用set函式
list = [1, 3, 4, 5, 51, 2, 3]
set(list)
# 2.使用字典函式，
>>> a = [1, 2, 4, 2, 4, 5, 6, 5, 7, 8, 9, 0]
>>> b = {}
>>> b = b.fromkeys(a)
>>> c = list(b.keys())
>>> c

4、Python裡面如何拷貝一個物件？（賦值，淺拷貝，深拷貝的區別）

賦值（=），就是建立了物件的一個新的引用，修改其中任意一個變數都會影響到另一個。
淺拷貝：建立一個新的物件，但它包含的是對原始物件中包含項的引用（如果用引用的方式修改其中一個物件，另外一個也會修改改變）{1,完全切片方法;2，工廠函式，如list();3，copy模組的copy()函式}
深拷貝：

建立一個新的物件，並且遞迴的複製它所包含的物件（修改其中一個，另外一個不會改變）{copy模組的deep.deepcopy()函式}

5、介紹一下except的用法和作用？

try…except…except…else…
執行try下的語句，如果引發異常，則執行過程會跳到except語句。對每個except分支順序嘗試執行，如果引發的異常與except中的異常組匹配，執行相應的語句。如果所有的except都不匹配，則異常會傳遞到下一個呼叫本程式碼的最高層try程式碼中。
try下的語句正常執行，則執行else塊程式碼。如果發生異常，就不會執行如果存在finally語句，最後總是會執行。

6、Python中new與__init方法的區別

__new__:它是建立物件時呼叫，會返回當前物件的一個例項，可以用_new_來實現單例
__init__:它是建立物件後呼叫，對當前物件的一些例項初始化，無返回值

7、常用的網路資料爬取方法

正則表示式
Beautiful Soup
Lxml

8、遇到過得反爬蟲策略以及解決方法

1.通過headers反爬蟲
2.基於使用者行為的發爬蟲：(同一IP短時間內訪問的頻率)
3.動態網頁反爬蟲(通過ajax請求資料，或者通過JavaScript生成)
4.對部分資料進行加密處理的(資料是亂碼)
解決方法：
對於基本網頁的抓取可以自定義headers,新增headers的資料
使用多個代理ip進行抓取或者設定抓取的頻率降低一些，
動態網頁的可以使用selenium + phantomjs 進行抓取
對部分資料進行加密的，可以使用selenium進行截圖，使用python自帶的pytesseract庫進行識別，但是比較慢最直接的方法是找到加密的方法進行逆向推理。

9、urllib 和 urllib2 的區別

urllib 和urllib2都是接受URL請求的相關模組，但是urllib2可以接受一個Request類的例項來設定URL請求的headers，urllib僅可以接受URL。urllib不可以偽裝你的User-Agent字串。
urllib提供urlencode()方法用來GET查詢字串的產生，而urllib2沒有。這是為何urllib常和urllib2一起使用的原因。

10、設計一個基於session登入驗證的爬蟲方案

11、列舉網路爬蟲所用到的網路資料包，解析包

網路資料包 urllib、urllib2、requests
解析包 re、xpath、beautiful soup、lxml

12、熟悉的爬蟲框架

Scrapy框架根據自己的實際情況回答

13、Python在伺服器的部署流程，以及環境隔離

14、Django 和 Flask 的相同點與不同點，如何進行選擇？

15、寫一個Python中的單例模式

class Singleton(object):
    _instance = None
    def __new__(cls, *args, **kw):
        if not cls._instance:
            cls._instance = super(Singleton, cls).__new__(cls, *args, **kw)  
        return cls._instance  
class MyClass(Singleton):  
    a = 1
one = MyClass()
two = MyClass()
id(one) = id(two)
>>> True

16、Linux部署服務指令碼命令(包括啟動和停止的shell指令碼)

17、你用過多執行緒和非同步嘛？除此之外你還用過什麼方法來提高爬蟲效率？

scrapy-redis 分散式爬取
對於定向爬取可以用正則取代xpath

18、POST與 GET的區別

GET資料傳輸安全性低，POST傳輸資料安全性高，因為引數不會被儲存在瀏覽器歷史或web伺服器日誌中；
在做資料查詢時，建議用GET方式；而在做資料新增、修改或刪除時，建議用POST方式；
GET在url中傳遞資料，資料資訊放在請求頭中；而POST請求資訊放在請求體中進行傳遞資料；
GET傳輸資料的資料量較小，只能在請求頭中傳送資料，而POST傳輸資料資訊比較大，一般不受限制；
在執行效率來說，GET比POST好

19、什麼是lambda函式？它有什麼好處?

lambda 表示式，通常是在需要一個函式，但是又不想費神去命名一個函式的場合下使用，也就是指匿名函式
lambda函式：首要用途是指點短小的回撥函式

lambda [arguments]:expression
>>> a=lambdax,y:x+y
>>> a(3,11)

Python-爬蟲工程師-面試題總結

1、對__if__name__ == 'main'的理解陳述__name__是當前模組名，當模組被直接執行時模組名為_main_，也就是當前的模組，當模組被匯入時，模組名就不是__main__，即程式碼將不會執行。2、python是如何進行記憶體管理的？a、物件的引用計數機制

python爬蟲工程師面試題

python爬蟲使用什麽設置本地寫入工程師完成取數一、這家公司主要對亞馬遜商品進行數據采集，問的問題比較雜。是否了解線程的同步和異步？是否了解網絡的同步和異步？鏈表和順序表儲存時各自有什麽優點？使用redis搭建分布式系統時如何處理網絡延遲和網絡異常？

Java高級工程師面試題總結及參考答案

排序算法 move ner 隔離級別這一 aid 是我分析操作一、面試題基礎總結 1、 JVM結構原理、GC工作機制詳解答：具體參照：JVM結構、GC工作機制詳解，說到GC，記住兩點：1、GC是負責回收所有無任何引用對象的內存空間。註意:垃圾回收回收的

大廠測試工程師面試題總結

一面：面試官問的面試題： 1、首先自我介紹，然後問了簡歷上熟悉的自動化測試框架的使用過程，自動化測試框架的優缺點 2、用棧實現佇列 3、資料庫的死鎖問題 4、三次握手，四次握手 5、程序執行緒的區別

大廠測試工程師面試題總結-一面（附參考答案）

一面：面試官問的面試題： 1、首先自我介紹，然後問了簡歷上熟悉的自動化測試框架的使用過程，自動化測試框架的優缺點 2、用棧實現佇列 3、資料庫的死鎖問題死鎖：是指兩個或兩個以上的程序在執行過程中，因爭奪資源而造成的一種互相等待的現象，若無外力作用，它們都將無法推進下去

Java高階工程師面試題總結及參考答案

一、面試題基礎總結 1、 JVM結構原理、GC工作機制詳解答：具體參照：JVM結構、GC工作機制詳解，說到GC，記住兩點：1、GC是負責回收所有無任何引用物件的記憶體空間。注意:垃圾回收回收的是無任何引用的物件佔據的記憶體空間而不是物件本身，2、GC回收機制

java高階工程師面試題總結

、面試題基礎總結 1、 JVM結構原理、GC工作機制詳解答：具體參照：JVM結構、GC工作機制詳解，說到GC，記住兩點：1、GC是負責回收所有無任何引用物件的記憶體空間。注意:垃圾回收回收的是無任何引用的物件佔據的記憶體空間而不是物件本身，2、GC回收機制的

Linux運維工程師-面試題總結

1.linux 如何掛在 windows 下的共享目錄mount.cifs //192.168.1.3/server /mnt/server -o user=administrator,pass=123456linux 下的 server 需要自己手動建一個後面的 use

linux運維工程師面試題總結（一）

1為什麼要有swap分割槽？工作原理是什麼？ Linux核心為了提高讀寫效率與速度，會將檔案在記憶體中進行快取，這部分記憶體就是Cache Memory(快取記憶體)。即使你的程式執行結束後，Cache Memory也不會自動釋放。這就會導致你在Linux系統中程式頻繁讀

【面試題】Python高級開發工程師面試題

http ges log com .com blog mage 回復 image 線上面試題，有空整理答案，歡迎大家回復答案【面試題】Python高級開發工程師面試題

面試題總結——走向JAVA高級工程師

sdn activemq gic 優缺點 tis 實現 ibatis 權限級別自己近期考慮換工作的問題，於是投簡歷面試，面試5家公司的高級Java工程師，有4家給了我offer，想著總結一下面試經驗，方便最近正在尋求機會的你們一、無筆試題不知道是不是職位原因

面試題總結 —— JAVA高級工程師

activemq bat 簡單 spring 解決辦法權限級別 java工程師哪些文件上傳面試題總結——JAVA高級工程師近期考慮換工作的問題，於是投簡歷面試，面試5家公司的高級Java工程師，有4家給了我offer，想著總結一下面試經驗，方便最近正在尋求機會的你們

爬蟲工程師熬夜寫了這篇文章，關於Python爬蟲的一些方法總結！

爬蟲原理與資料抓取 Requests簡單使用新增 headers 和查詢引數學習Python中有不明白推薦加入交流群

python 面試題總結

生成器函式生成器有兩種，分別是生成器函式和生成器表示式生成器函式 - yield 定義：含有yield語句的函式為生成器，該函式被呼叫會返回一個生成器物件。表示式： yield 表示式用法： yield表示式用於def函式中，目

年薪50萬的阿里巴巴Python工程師面試題曝光

作為Python工程師，進入大公司是開啟職業新起點的關鍵，今天小編特別分享了其在阿里巴巴面試Python工程師的題目和經歷，希望對廣大Python工程師的求職者有一個幫助。學習資料也可以加下Python扣扣裙：3零4零5零799自己下載學習下首先我們來看下阿里巴巴對Python工程師招聘

python面試題總結(1)

1、描述一下python語言 Python是一種程式語言，它有物件、模組、執行緒、異常處理和自動記憶體理。它簡潔、簡單、方便、容易擴充套件，有許多自帶的資料結構，而且它開源。 2、程式設計：寫出你所瞭解的排序演算法，並且使用python實現一種排序的方法有：插入排序

Python面試題總結

1、反轉字串 import collections #方法一'''直接使用字串切片功能逆轉字串''' def fun1(one_str): a1 = one_str[::-1] print(a1) fun1("abcde") #方法二：reverse(

面試題總結 —— JAVA高階工程師

面試題總結——JAVA高階工程師近期考慮換工作的問題，於是投簡歷面試，面試5家公司的高階Java工程師，有4家給了我offer，想著總結一下面試經驗，方便最近正在尋求機會的你們一、無筆試題不知道是不是職位原因還是沒遇到，面試時，都不需要做筆試題

爬蟲面試題總結

反爬有哪些？ 1、識別使用者身份： user_agent、 cookies、 referer、驗證碼 2、識別使用者行為：併發量（IP和cookies）、線上時間、只請求html或ajax等部分型別資料、

面試題總結——JAVA高階工程師（三）

三、面試題基礎總結 1、 JVM結構原理、GC工作機制詳解答：具體參照：JVM結構、GC工作機制詳解，說到GC，記住兩點：1、GC是負責回收所有無任何引用物件的記憶體空間。注意:垃圾回收回收的是無任何引用的物件佔據的記憶體空間而不是物件本身，2、GC回收

Python-爬蟲工程師-面試題總結

1、對__if__name__ == 'main'的理解陳述

2、python是如何進行記憶體管理的？

3、請寫出一段Python程式碼實現刪除一個list裡面的重複元素

4、Python裡面如何拷貝一個物件？（賦值，淺拷貝，深拷貝的區別）

5、介紹一下except的用法和作用？

6、Python中__new__與__init方法的區別

7、常用的網路資料爬取方法

8、遇到過得反爬蟲策略以及解決方法

9、urllib 和 urllib2 的區別

10、設計一個基於session登入驗證的爬蟲方案

11、列舉網路爬蟲所用到的網路資料包，解析包

12、熟悉的爬蟲框架

13、Python在伺服器的部署流程，以及環境隔離

14、Django 和 Flask 的相同點與不同點，如何進行選擇？

15、寫一個Python中的單例模式

16、Linux部署服務指令碼命令(包括啟動和停止的shell指令碼)

17、你用過多執行緒和非同步嘛？除此之外你還用過什麼方法來提高爬蟲效率？

18、POST與 GET的區別

19、什麼是lambda函式？它有什麼好處?

相關推薦

1、對ifname__ == 'main'的理解陳述

6、Python中new與__init方法的區別