10家大廠面試題精選 ---阿里篇（小米、京東、中興、華為、滴滴、騰訊、頭條、阿里、百度、美團）含答案

阿新 • • 發佈：2021-01-20

準備工作

假如我們想把京東內衣類商品的圖片全部下載到本地，通過手工複製貼上將是一項非常龐大的工程，此時，可以用python爬蟲實現。

第一步：分析網頁地址

起始網頁地址

https://search.jd.com/Search?keyword=%E5%86%85%E8%A1%A3%E5%A5%B3&suggest=4.def.0.base&wq=%E5%86%85%E8%A1%A3%E5%A5%B3&page=1&s=56&click=1

（在這裡你會看到，明明在瀏覽器URL欄看到的是中文，但是複製url，貼上到記事本或程式碼裡面，就會變成如下這樣？）

在很多網站的URL中對一些get的引數或關鍵字進行編碼，所以我們複製出來的時候，會出現問題。但複製過來的網址可以直接開啟。本例子不用管這個。

那麼，怎樣才能自動爬取第一頁以外的其他頁面，開啟第三頁，網頁地址如下，分析發現和第一頁區別在於：第一頁最後&page=1，第三頁&page=3

我們可以想到自動獲取多個網頁的方法，可以for迴圈實現，每次迴圈後，page+1

第三頁網址如圖

https://search.jd.com/Search?keyword=%E5%86%85%E8%A1%A3%E5%A5%B3&suggest=4.def.0.base&wq=%E5%86%85%E8%A1%A3%E5%A5%B3&page=3&s=56&click=1

很多人學習python，不知道從何學起。

很多人學習python，掌握了基本語法過後，不知道在哪裡尋找案例上手。

很多已經做案例的人，卻不知道如何去學習更加高深的知識。

那麼針對這三類人，我給大家提供一個好的學習平臺，免費領取視訊教程，電子書籍，以及課程的原始碼！

QQ群：810735403

第二步：分析網頁圖片連結

在每頁中，我們都要提取對應的圖片，可以使用正則表示式匹配原始碼中圖片的連結部分，然後通過urllib.request.urlretrieve()將對應連結的圖片儲存到本地。

但是這裡有一個問題，該網頁中的圖片不僅包括列表中的圖片，還包括旁邊一些無關圖片。所以我們可以進行資訊過濾。我們需要找到寶貝圖片所在區域

操作步驟1：審查元素，找到第一頁，第一個寶貝圖片。元素如圖

操作步驟2：空白處單擊檢視原始碼
CTRL+F （搜尋操作步驟1圖片的最後幾個字母）定位到寶貝1圖片所在部分

我們通過幾次定位，找到寶貝圖片原始碼格式如下

圖片1原始碼

<img width="220" height="220" data-img="1" data-lazy-img="//img13.360buyimg.com/n7/jfs/t1/88198/38/15103/241083/5e6ef386E75f87219/0945cd20a8d40904.jpg" />

圖片2原始碼

<img width="220" height="220" data-img="1" data-lazy-img="//img10.360buyimg.com/n7/jfs/t1/62113/37/10114/445422/5d7a2269E8e2e7ed3/4b90428b88320241.jpg" />

於是我們可以定義正則規則

pat1='<img width="220" height="220" data-img="1" data-lazy-img="//(.+?\.jpg)'

知識點.找到本機電腦網路的headers
有的時候，我們無法爬取一些網頁，會出現403錯誤，因為這些網頁為了防止別人惡意採集資訊所以進行了一些反爬蟲的設定。

我們可以設定一些Headers資訊，模擬成瀏覽器去訪問這些網站，就能解決這個問題。

首先，單擊網頁中的百度一下，即讓網頁發生一個動作，下方窗口出現了很多資料，如圖。

此時單擊圖中的www.baidu.com,出現如圖

在Headers，往下拖動，找到User-agent

這一串資訊就是我們下面模擬瀏覽器用到的資訊，複製出來。

程式碼實現

語言：python

from urllib.parse import quote
import string
import re
from urllib import request
import  urllib.request

#讀取網頁

def craw(url,page):
    # 模擬成瀏覽器
    headers = ("User-Agent",
               "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3947.100 Safari/537.36")
    opener = urllib.request.build_opener()
    opener.addheaders = [headers]
    # 將opener安裝為全域性
    urllib.request.install_opener(opener)

    url_request = request.Request(url)
    html1 = request.urlopen(url_request, timeout=10)
    html1 = html1.read().decode('utf-8')  # 加編碼，重要！轉換為字串編碼，read()得到的是byte格式的
    html=str(html1)
    #print(html)

    #定點陣圖片
    pat1='<img width="220" height="220" data-img="1" data-lazy-img="//(.+?\.jpg)'
    imagelist=re.compile(pat1).findall(html)
    #print(imagelist)
    x=1
    for each in imagelist:
        print(each)
        try:
            imagename='D:\\deeplearn\\xuexicaogao\\圖片\\'+str(page)+str(x)+'.jpg'
            imageurl="http://"+each #補全圖片網頁地址
            request.urlretrieve(imageurl, filename=imagename)  # 爬下載的圖片放置在提前建好的資料夾裡
        except Exception as e:
            print(e)
            x+=1
        finally:
            print('下載完成。')
        x+=1

for i  in range(1,30):#遍歷網頁1-29
    url="https://search.jd.com/Search?keyword=%E5%86%85%E8%A1%A3%E5%A5%B3&suggest=4.def.0.base&wq=%E5%86%85%E8%A1%A3%E5%A5%B3&page="+str(i)+"&s=56&click=1"
    craw(url,i)
print('結束')

結果資料夾

資料夾裡有800多張圖

在這裡還是要推薦下我自己建的Python開發交流學習（qq）群:810735403，群裡都是學Python開發的，如果你正在學習

Python ，歡迎你加入，大家都是軟體開發黨，不定期分享乾貨（只有Python軟體開發相關的），包括我自己整理的一份2021最新的

Python進階資料和高階開發教程，歡迎進階中和想深入Python的小夥伴！

10家大廠面試題精選 ---阿里篇（小米、京東、中興、華為、滴滴、騰訊、頭條、阿里、百度、美團）含答案

技術標籤：JavaC/C++Linux面試程式人生 10家大廠面試題精選 2020 年阿里精選面試題及答案1. 使用 mysql 索引都有哪些原則？索引什麼資料結構？ B+tree 和 B tree 什麼區別？2. Mysql 有哪些儲存引擎？請詳細列

大廠面試題系列：過載（Overload）和重寫（Override）的區別。過載的方法能否根據返回型別進行區分

面試題：過載（Overload）和重寫（Override）的區別。過載的方法能否根據返回型別進行區分

2022最新Android面試題及答案整理（包含騰訊、位元組、百度、小米、阿里等大廠面試真題）

前言最近在準備面試，然後複習下之前寫過的專案，書籍，筆記，文章。一看很多知識點都沒有印象，最可拍的是連自己為了防止忘記寫的文章竟然都感覺不是自己寫的。有些開始懷疑人生了。

騰訊、百度、小米、網易等前端實習面經（含面試題及解析）

樓主21屆的，因為34月份才開始學的前端，所以秋招的時候還在找實習，打算準備春招。9、10月份是有在海康實習（能學到的東西不多），離職之後，10月底開始投一些好點的網際網路公司實習崗。不得不說壓力還是挺大的，有

大廠面試題第二季(周陽）

文章目錄 1、Volatile1.1什麼是volatile1.2volatile的特性1.2.1volatile保證可見性1.什麼是JMM(java記憶體模型)2、可見性程式碼驗證

python基礎面試題之型別轉換（字典篇）

問如何將一個字典字串轉換成字典； user_info=\'{\"name\" : \"rianley\", \"gender\" : \"male\", \"age\": 18}\'

位元組跳動Java面試：阿里P8架構師的Java大廠面試題總結

位元組跳動Java面試：阿里P8架構師的Java大廠面試題總結 Part1 SpringIOC 學習Spring最重要的無非是Spring IOC以及Spring AOP，首先咱們把Spring IOC吃透，以下內容將截圖展示。

位元組跳動面試：阿里P8架構師的Java大廠面試題總結

位元組跳動面試：阿里P8架構師的Java大廠面試題總結螞蟻一面 ??就做了?道演算法題，要求兩?時內完成，給了?度為N的有重複元素的陣列，要求輸出第10?的數。典型的TopK問題，快排演算法搞定。演算法題要注意的是合

阿里P8架構師的Java大廠面試題總結，統統給你解決！

阿里P8架構師的Java大廠面試題總結，統統給你解決！ 8-22 投遞簡歷 8-24 一面（大概1h50min）

androidwebview白色，Android阿里等大廠面試題彙總，先睹為快

開頭我屬於半路出家型程式設計師。我的本科專業學的是新媒體，偏向營銷策劃類，但是我所在的學校只是一個普通的二本，這個專業在學校裡還很年輕，發展並沒有其他專業成熟，於是就導致課程內容不充實，學生多出來大

2022年Android大廠面試題（面經）總結（小紅書、快手、愛奇藝、微信、抖音.....）

小紅書Android一面 Java篇靜態變數和例項變數的區別靜態變數有static關鍵字修飾

Python自動化測試筆試面試題精選

前言隨著行業的發展，程式設計能力逐漸成為軟體測試從業人員的一項基本能力。因此在筆試和麵試中常常會有一定量的編碼題，主要考察以下幾點。

Spring Cloud面試題萬字解析（2020面試必備）

1、什麼是 Spring Cloud？ Spring cloud 流應用程式啟動器是於 Spring Boot 的 Spring 整合應用程式，提供與外部系統的整合。Spring cloud Task，一個生命週期短暫的微服務框架，用於快速構建執行有限資料處理的應用

面試題精選

資料型別 java中基本資料型別各佔多少位元組? byte：1位元組 short：2位元組 int：4位元組

面試題精選:兩個執行緒按順序交替輸出1-100

陸陸續續，各個公司的校招季都開始了，我也成為了我司的校招面試官，最近也面了不少同學了，面試過程中也發現了很多問題，即有面試者的、也有面試官的、更有自己的問題，這裡先挖個坑，後續寫個部落格詳細聊聊，感興

php面試題之面向物件（一）

本篇文章給大家帶來的內容是關於php面試之面向物件的相關知識介紹，有一定的參考價值，有需要的朋友可以參考一下，希望對你有所幫助。

php面試題之面向物件（二）

繼上一篇“php面試題之面向物件（一）”發表後，今天繼續更新。整個面向物件文章的結構涉及的內容模組有：

測試面試題合集3（測試相關）

1、cookie 和 session 的區別 http 請求無狀態 session 在伺服器端，cookie 在客戶端（瀏覽器）

測試面試題合集2（測試場景）

以此為模板，覆蓋各個點。確認大前提：需求內容，需求背景，需求目標，物件使用者，使用裝置，使用環境

面試題精選:字串替換

字串處理在程式猿日常工作工作中非常常見，常見到幾乎各種語言中都已經封裝好了字串相關的API，我們只需要直接拿過來用就好。就拿Java為例，jdk中的String()類幾乎封裝了所有字串相關的操作，其方法數量有近百個，幾

10家大廠面試題精選 ---阿里篇（小米、京東、中興、華為、滴滴、騰訊、頭條、阿里、百度、美團）含答案

準備工作

程式碼實現

相關推薦