1. 程式人生 > >python爬蟲工程師面試題

python爬蟲工程師面試題

python爬蟲 使用 什麽 設置 本地 寫入 工程師 完成 取數

一、這家公司主要對亞馬遜商品進行數據采集,問的問題比較雜。

是否了解線程的同步和異步?
是否了解網絡的同步和異步?
鏈表和順序表儲存時各自有什麽優點?
使用redis搭建分布式系統時如何處理網絡延遲和網絡異常?
數據倉庫是什麽?
假設有一個爬蟲,從網絡上獲取數據的頻率快,本地寫入數據的頻率慢,使用什麽數據結構好?
你是否了解谷歌的無頭瀏覽器?
你是否了解MySQL數據庫的幾種引擎?
redis數據庫有哪幾種數據結構?
二、這家是做網絡電視應用(教育/遊戲等)的後臺(.APK)

是否了解django中的manage.py自定義的用法?
django的常用功能有哪些?
django有哪些優勢?
是否對django的admin進行定制過?

在django中有使用過原生sql語句嗎?(查了一下可能是涉及到ORM的性能優化)
三、做大數據征信業務的公司,招django工程師

django有什麽優點?
是否了解django admin定制?
描述一下你的項目。
四、做銀行/金融業決策系統,招django工程師

詳細描述一下做某個項目的過程,描述的是一個爬蟲項目的過程
是否有對爬蟲采集結果進行數據分析,有哪些?
假設現在數據已經爬取完成,需要開發一個接口給用戶,你會設置哪些篩選維度?(薪資,地點,職位關鍵詞等)
篩選維度設計好後,現在需要在用戶輸入某個維度的條件後查詢與用戶查詢目標最為匹配的條目,如何設計查詢邏輯算法?(拿薪資舉例,以500為區間建立引索,將薪資的下限和上限存入每個區間裏面,不能有冗余空間。以用戶查詢值為基準,逆序查詢指定個數的條目,前端顯示最相關的數據。需要處理非500倍數的值。)

據實際例子去想解決思路,喜歡這種面試方式。
決策系統的某個模塊的數據結構如何設計?(使用向量集)

python爬蟲工程師面試題