拒做背鍋俠!如何利用網站效能優化驅動產品體驗提升
簡介:對於運維工程師而言,如果要票選五大最抓狂運維支撐場景,花樣繁多的各種促銷活動一定榜上有名。每個促銷季上線都是忐忑不安的不眠夜。大量內容更新、大量客戶湧入,大量資料讀寫,雖有著各種技術方案或工具服務保障著大促順利進行。但仍有可能收到譬如“商品圖片載入不出來”、“頁面開啟緩慢”、“無法完成訂單支付”等諸多各地使用者投訴。這些由於使用者體驗與網站效能造成的使用者轉化低、業務增長緩慢等糟糕結果,最終都會讓運維工程師成為“眾望所歸”的背鍋俠。
白嶼
對於運維工程師而言,如果要票選五大最抓狂運維支撐場景,花樣繁多的各種促銷活動一定榜上有名。每個促銷季上線都是忐忑不安的不眠夜。大量內容更新、大量客戶湧入,大量資料讀寫,雖有著各種技術方案或工具服務保障著大促順利進行。但仍有可能收到譬如“商品圖片載入不出來”、“頁面開啟緩慢”、“無法完成訂單支付”等諸多各地使用者投訴。這些由於使用者體驗與網站效能造成的使用者轉化低、業務增長緩慢等糟糕結果,最終都會讓運維工程師成為“眾望所歸”的背鍋俠。
針對「使用者體驗與網站效能」問題,我們與眾多企業運維工程師以及獨立站長展開訪談,發現大家的觀點集中在以下方面:
(一)「產品與使用者體驗之間的差距」帶來的效能與體驗問題
由於網際網路紅利消退,產品功能與使用者體驗設計越發內卷。產品功能邏輯設計與使用者使用時的理解存在差距,大量秒殺活動、推廣活動、UGC內容讓產品邏輯愈發複雜,哪怕提供了各種引導與說明文件,使用者仍然需要時間理解並培養使用習慣。與此同時,為了讓功能模組進一步豐富,大量富媒體、第三方元件、客戶廣告不斷被新增進來,對外合作內容過多且不合理,加重系統負載,拖累產品效能。既要、又要、還要,最終的代價就是不得不犧牲一定的網站效能與使用者體驗。
(二)「錯綜複雜的網路環境」帶來的效能與體驗問題
眾所周知,全國各地充斥著各種各樣一級、二級運營商,這大幅提升了全國網路環境複雜度,由於運營商基礎架構更新慢、突發性人為問題多,造成會經常性的IDC故障,企業只能安撫使用者並躺平等待修復,而這些問題的排查耗時都只能聽天由命。與此同時,廣闊的地域分佈、零散的使用者分佈及個性化入網方式造成接入網路複雜,企業對於使用者使用環境無法有效估量。哪怕藉助廣泛分佈的資料中心以及多線BGP接入,想要解決網路環境問題仍舊捉襟見肘,這進一步加劇了網路環境的優化難度,讓真實使用者的實際使用體驗更加難以預測。
(三)「差異明顯的PC端環境」差異帶來的效能與體驗問題
作為世界上擁有最大網民規模的國家,我國這些海量使用者規模背後是巨大的使用者端硬體配置差異,可能有人使用著 i9-11900K+RTX3080 Ti 在 bilibili 上看 4K 高清直播視訊,也有人用著千禧年釋出的 Pentium 4 與整合顯示卡在入口網站瀏覽文字新聞。這造成不同瀏覽器版本、自身渲染機制、本地主機效能差異的不同群體,存在譬如訪問異常、慢速、本地資源消耗等使用者體驗差異。面對這一狀況,如何去了解廣大使用者實際體驗情況,平衡或評估使用者端體驗差異,在其中進行取捨成了每個網站運維與研發必須面對的難題。
(四)「追求迭代速度的後遺症」帶來的系統可用性保障問題
由於網際網路競爭瘋狂內卷,產品在功能視窗期與精細調優這道選擇題上,不得不選擇性忽視產品架構與穩定性。架構不嚴謹、業務發展超越架構支撐能力造成系統負載過載、導致系統崩潰、響應超時等問題,造成這一問題的因素很多:
首先,業務迭代速度非常快,侵入式監控手段無法在短時間落地,但業務系統出現故障時需要快速感知;
其次,開發資源緊張或不配合,基礎設施相關監控又不能直接反應業務問題,應用監控實施成本太高。
最後,自身應用呼叫第三方API介面,第三方API介面的可用性無法保障,出故障了無法及時響應和處理。
拆解來看,我們會覺得這些都是單點問題,但業務上量後出現連鎖反應,就會將這些問題疊加放大,直接影響使用者體驗。
(五)「缺乏使用者視角的監控手段」導致應對客訴比較被動
雖然產品功能在上線時會經過各種測試,運營團隊也持續關注使用者使用情況。但對運維團隊而言,只有客戶投訴後才知道系統發生了問題,應對起來十分被動,甚至異常復現、定位問題可能就要花費一天時間,嚴重影響NPS;常見監控手段也大多從自身視角出發,無法直觀反映使用者的問題。
那麼,面對這麼多的影響因素,我們到底該如何以真實使用者視角去對自己網站進行測試,量化網站使用者體驗,定位網站效能瓶頸?這裡,我們以電商行業營銷活動舉例。隨著競爭越發激烈,雙十一、618 等促銷活動成為電商等泛交易行業的年度重要營銷活動。但大量使用者的短時間湧入,會造成網站載入延遲,或業務服務卡頓等影響使用者體驗的問題。
具體問題包括:
上線前,無法模擬真實使用者,測試峰值使用者高併發訪問時的產品實際體驗情況。
對於使用者實際的瀏覽路徑路程沒有準確評估,無法定位轉化瓶頸環節,不知道如何優化。
大促階段商品資訊更新較頻繁,更新後經常收到各地使用者投訴“商品圖片載入不出來”、“頁面開啟緩慢”等投訴。
同業競品活動效能情況無法獲取,沒法瞭解競品營銷態勢變化。
在過往,以上問題都難以解決,具體難以解決的原因包括:
雖然有任務牆等方式,但運維團隊無法找到足夠多且符合實際需求的真實流量進行產品使用者體驗測試,採購相關流量又耗時又昂貴。
營銷大促普遍產品上線視窗期十分緊迫,留給研發團隊的交付時間相對有限。想要加入相關侵入式探針來進行監測,既拖慢產品交付速度又可能影響產品穩定性。
運維團隊無法主動測試相關,導致問題只能在實際使用者體驗過程中發現,只能被動排障。但問題復現以及故障定位,可能就會拖住整個運維團隊,導致修復時間無限期拖長。
因此,運營團隊與運維團隊需要一個能夠解決上述問題的產品或者解決方案。雲撥測作為面向業務的非侵入式雲原生監測產品,成為最佳的選擇。通過阿里雲遍佈全球的服務網路,模擬真實使用者行為,全天候持續監測網站及其網路、服務、API埠可用性與效能。實現頁面元素級、網路請求級、網路鏈路級細顆粒度問題定位。豐富的監測關聯項與分析模型,幫助企業及時發現與定位效能瓶頸與體驗暗點,壓降運營風險,提升服務體驗與效能。
(一)全球監測節點覆蓋
全球超過20萬LM,500餘個IDC終端監測節點,海內外400+運營商以及數十萬量級註冊會員,確保監測規模滿足日益龐大的業務規模。
(二)無需嵌碼,開箱即用
零侵入式監測,只需輸入URL並進行簡單配置即可,無需研發支援。數分鐘即可獲得完整的網站效能資料分析報告。資源包&按量付費多種購買模式,滿足運維測試需求。
(三)面向業務,預置多種分析模型
監測週期精細至分鐘級別,7大類20餘項監測關聯引數設定、支援多種主流協議,為站點和業務埠等提供7×24小時細顆粒度故障實時監測、告警及效能分析服務。以最終客戶視角,通過地域、運營商等多維度組合分析,下鑽分析單樣本詳情,利用豐富的指標體系與圖表型別,直觀定位問題、受影響範圍及其根因,壓降分析時間,提升運維效率。真正做到精細化監測。
(四)智慧告警,精準定位
針對首屏用時、整體效能、可用性實現實時告警,豐富的告警策略設定,與阿里雲告警中心深度整合,有效縮短MTTR。支援發現頁面元素級錯誤,問題歸因精準定位至單次網路請求過程,提升問題定位效率。
以某電商企業的營銷大促舉例,該網站月活使用者數超百萬,使用者群體主要分佈在全國三四五線城市,每年網站運營維護支出費用超過200萬元。但由於大促階段商品資訊更新較頻繁,更新後經常收到各地使用者投訴“商品圖片載入不出來”、“頁面開啟緩慢”,造成使用者轉化低,也導致運維團隊被投訴。
面對這一困境,我們通過雲撥測產品完成解決這一問題並進一步優化網站效能,以便支撐業務大促。
(一)壓力測試
在企業的營銷活動或新系統上線前,使用雲撥測選取全國不同城市運營商的監測點,設定瀏覽和網路任務,即時獲取第一線的真實使用者訪問體驗資料,精準定位出現問題的頁面元素,幫助技術團隊及時修復問題。模擬峰值使用者高併發訪問,通過增加峰值壓力,觀察主要效能指標變化情況,挖掘效能瓶頸。
(二)使用者體驗優化
通過首屏監測以及即時監測功能可以立刻進行問題驗證和故障復現,對網站效能進行評估與優化。並通過事務流分析,瞭解使用者真實體驗流程,優化瀏覽路徑,挖掘轉化瓶頸環節,提升轉化率。
(三)競品分析迭代
藉助零侵入特性,收集分析同行業競品營銷活動效能情況,瞭解競品營銷態勢變化以及應對方案,並針對進行鍼對性IT投入以及調優迭代,彌補營銷短板,穩固領先地位。
經過以上相關措施,網站效能大幅提高,使用者體驗相關量化指標提升30%以上,有效驅動業務增長。除上述場景外,雲撥測還可廣泛應用於網路介面、服務可用性監測、CDN服務監控與選型、DNS解析狀態、劫持分析等眾多場景。
原文連結
本文為阿里雲原創內容,未經允許不得轉載。