NEON 指令集並行技術優化矩陣旋轉【Android】

阿新 • • 發佈：2018-12-24

目標：將輸入矩陣順時針旋轉90度，如下圖所示：

輸入矩陣輸出矩陣

以 8x8x8bit 的矩陣（更大的矩陣可以分塊為 8x8x8bit）為例，基本的思路就是，逐漸擴大粒度（8bit 到 32bit）的 2x2 矩陣旋轉

vtrn 示意圖，可以看作是 2x2 矩陣的轉置

原始的資料的位元組表示形式

以 8 bit 為單位進行旋轉：

temp1 = vtrn_u8(mat1.val[1], mat1.val[0]);
temp2 = vtrn_u8(mat1.val[3], mat1.val[2]);
temp3 = vtrn_u8(mat2.val[1], mat2.val[0]);
temp4 = vtrn_u8(mat2.val[3], mat2.val[2]);

結果以 16 bit 看作一個數（大端儲存）

再次進行旋轉得到

temp9 = vtrn_u16(temp6.val[0], temp5.val[0]);
temp10 = vtrn_u16(temp6.val[1], temp5.val[1]);
temp11 = vtrn_u16(temp8.val[0], temp7.val[0]);
temp12 = vtrn_u16(temp8.val[1], temp7.val[1]);

旋轉的結果對應的位元組表示形式為（大端儲存）

接著，把 32bit 當做一個數來旋轉

temp17=vtrn_u32(temp15.val[0],temp13.val[0]);
temp18=vtrn_u32(temp15.val[1],temp13.val[1]);
temp19=vtrn_u32(temp16.val[0],temp14.val[0]);
temp20=vtrn_u32(temp16.val[1],temp14.val[1]);

旋轉的結果為

對應的位元組表示形式為

即最初矩陣的順時針 90 ° 旋轉的結果

程式碼如下：

            uint8x8x4_t mat1, mat2;
            mat1.val[0] = vld1_u8(srcImg + i * width + j);  // vec8，每個元素 8 bit
            mat1.val[1] = vld1_u8(srcImg + (i + 1) * width + j);
            mat1.val[2] = vld1_u8(srcImg + (i + 2) * width + j);
            mat1.val[3] = vld1_u8(srcImg + (i + 3) * width + j);// 4*vec8
            mat2.val[0] = vld1_u8(srcImg + (i + 4) * width + j);
            mat2.val[1] = vld1_u8(srcImg + (i + 5) * width + j);
            mat2.val[2] = vld1_u8(srcImg + (i + 6) * width + j);
            mat2.val[3] = vld1_u8(srcImg + (i + 7) * width + j);

            uint8x8x2_t temp1, temp2, temp3, temp4;
            temp1 = vtrn_u8(mat1.val[1], mat1.val[0]);
            temp2 = vtrn_u8(mat1.val[3], mat1.val[2]);
            temp3 = vtrn_u8(mat2.val[1], mat2.val[0]);
            temp4 = vtrn_u8(mat2.val[3], mat2.val[2]);

            // ==============================================

            uint16x4x2_t temp5, temp6, temp7, temp8;
            temp5.val[0] = vreinterpret_u16_u8(temp1.val[0]);
            temp5.val[1] = vreinterpret_u16_u8(temp1.val[1]);
            temp6.val[0] = vreinterpret_u16_u8(temp2.val[0]);
            temp6.val[1] = vreinterpret_u16_u8(temp2.val[1]);
            temp7.val[0] = vreinterpret_u16_u8(temp3.val[0]);
            temp7.val[1] = vreinterpret_u16_u8(temp3.val[1]);
            temp8.val[0] = vreinterpret_u16_u8(temp4.val[0]);
            temp8.val[1] = vreinterpret_u16_u8(temp4.val[1]);

            uint16x4x2_t temp9, temp10, temp11, temp12;
            temp9 = vtrn_u16(temp6.val[0], temp5.val[0]);
            temp10 = vtrn_u16(temp6.val[1], temp5.val[1]);
            temp11 = vtrn_u16(temp8.val[0], temp7.val[0]);
            temp12 = vtrn_u16(temp8.val[1], temp7.val[1]);

            // ==============================================

            uint32x2x2_t temp13, temp14, temp15, temp16;
            temp13.val[0]= vreinterpret_u32_u16(temp9.val[0]);
            temp13.val[1]= vreinterpret_u32_u16(temp9.val[1]);
            temp14.val[0]= vreinterpret_u32_u16(temp10.val[0]);
            temp14.val[1]= vreinterpret_u32_u16(temp10.val[1]);
            temp15.val[0]= vreinterpret_u32_u16(temp11.val[0]);
            temp15.val[1]= vreinterpret_u32_u16(temp11.val[1]);
            temp16.val[0]= vreinterpret_u32_u16(temp12.val[0]);
            temp16.val[1]= vreinterpret_u32_u16(temp12.val[1]);

            uint32x2x2_t temp17, temp18, temp19, temp20;
            temp17=vtrn_u32(temp15.val[0],temp13.val[0]);
            temp18=vtrn_u32(temp15.val[1],temp13.val[1]);
            temp19=vtrn_u32(temp16.val[0],temp14.val[0]);
            temp20=vtrn_u32(temp16.val[1],temp14.val[1]);

            // ==============================================

            temp1.val[0]= vreinterpret_u8_u32(temp17.val[0]);
            temp1.val[1]= vreinterpret_u8_u32(temp19.val[0]);
            temp2.val[0]= vreinterpret_u8_u32(temp18.val[0]);
            temp2.val[1]= vreinterpret_u8_u32(temp20.val[0]);
            temp3.val[0]= vreinterpret_u8_u32(temp17.val[1]);
            temp3.val[1]= vreinterpret_u8_u32(temp19.val[1]);
            temp4.val[0]= vreinterpret_u8_u32(temp18.val[1]);
            temp4.val[1]= vreinterpret_u8_u32(temp20.val[1]);

            vst1_u8 (dstImg + j * height + i, temp1.val[0]);
            vst1_u8 (dstImg+ (j+1) * height + i, temp1.val[1]);
            vst1_u8 (dstImg+ (j+2) * height + i, temp2.val[0]);
            vst1_u8 (dstImg+ (j+3) * height + i, temp2.val[1]);
            vst1_u8 (dstImg+ (j+4) * height + i, temp3.val[0]);
            vst1_u8 (dstImg+ (j+5) * height + i, temp3.val[1]);
            vst1_u8 (dstImg+ (j+6) * height + i, temp4.val[0]);
            vst1_u8 (dstImg+ (j+7) * height + i, temp4.val[1]);

NEON 指令集並行技術優化矩陣旋轉【Android】

參考連結：利用neon技術對矩陣旋轉進行加速目標：將輸入矩陣順時針旋轉90度，如下圖所示：輸入矩陣 &nb

NEON 指令集並行技術優化矩陣轉置【Android】

核心程式碼如下：轉置一個 4*4的矩陣，更大的矩陣（不能被4整除的需要特殊處理邊界）都可以通過分塊來進行轉置 void transpose32x4x4(float32x4_t *q0, float32x4_t *q1, float32x4_t *q2, float32x4_

NEON 指令集並行技術優化彩色影象轉灰度圖【Android】

參考原文： android平臺的neon優化策略 Neon Intrinsics各函式介紹目前市面上主流的旗艦android手機搭載的Soc都是64位的CPU，常見的armv7指令集的公版架構如Cortex-A8，Cortex-A9，Cortex-A15，常見的

AVX 指令集並行技術優化中值濾波

利用 AVX 向量化技術優化的中值濾波程式碼和註釋如下： void medianFilterAVX(int height, int width, unsigned char *__restrict src, unsigned char *__restrict dst) { // 注

AVX 指令集並行技術優化積分計算圓周率 π

通過 AVX 指令集並行技術優化積分計算圓周率 π 完整程式碼和解釋如下 // AVX_PI.cpp : 定義控制檯應用程式的入口點。 // #include "stdafx.h" #include <iostream> #include <immintrin.h&g

ARM平臺NEON指令的編譯和優化

ARM平臺NEON指令的編譯和優化本文介紹了ARM平臺基於ARM v7-A架構的ARM Cortex-A系列處理器(Cortex-A5, Cortex-A7,Cortex-A8, Cortex-A9, Cortex-A15)上的NEON多媒體處理硬體加速器針對

shell監控網站是否自動運行並自動重啟【原創】

自動重啟 aid func 服務腳本 date null com 監控網頁 moni shell監控網站是否自動運行並自動重啟 #!/bin/bash wget --spider -q -o /dev/null --tries=1 -T 5 www.baidu.co

leetcode 240. 搜尋二維矩陣 II【陣列】【Medium】&&劍指Offer面試題4：二維陣列中的查詢

題目：編寫一個高效的演算法來搜尋 m x n 矩陣 matrix 中的一個目標值 target。該矩陣具有以下特性：每行的元素從左到右升序排列。每列的元素從上到下升序排列。示例: 現有矩陣 matrix 如下： [

【Android】實現XML解析的幾種技術

轉載地址：http://www.cnblogs.com/hanyonglu/archive/2012/02/28/2370675.html 謝謝。本文介紹在Android平臺中實現對XML的三種解析方式。 XML在各種開發中

【Android】效能優化：電量消耗統計

電量的消耗和使用對於移動裝置非常重要，一項調查問卷顯示，電池的容量和壽命是手機最重要的營銷點：所謂“the one thing that you can't do without”。硬體從硬體的角度看，Android電量的消耗主要來自螢幕，CPU，網路裝置和各樣的感測器：指紋，亮度

【Android】三行程式碼實現一個輪播BannerView

自己簡單封裝了一個帶hint的輪播ViewPager，用來展示app首頁的Banner，先看效果圖吧。 ezgif-1-437f7aee24.gif dependencies（依賴） compile 'com.coldmoqiuli:banners:1.0.0'

【Android】自定義FlowLayout，支援多種佈局優化--android-flowlayout

前言 flow layout，流式佈局，這個概念在移動端或者前端開發中很常見，特別是在多標籤的展示中，往往起到了關鍵的作用。然而Android 官方，並沒有為開發者提供這樣一個佈局，於是有很多開發者自己做了這樣的工作，github上也出現了很多自定義

【Android】RelativeLayout效能優化，避免畫面卡頓

今天在照著書寫拖動seekbar來改變圖片的色調、飽和度和亮度的demo的時候，發現自己的demo在拖動seekbar的時候比書上的demo要有明顯的卡頓。一開始以為是SeekbarAPI更新的問題，我用的是26的API，書上的是21的API，但很快這種懷疑的念頭就被

【Android】開發優化之——調優工具：TrackView,Method Profiling

TraceView介面資訊介紹 TraceView介面包括時間面板和方法面板 (1) 時間面板(Timeline Panel) 時間面板展示了每個執行緒的執行情況，其中的[1]main即為ui主執行緒。移動到某個位置可以檢視該點對應的方法的執行資訊，點選方法面板則會選中相應的方法。可以左鍵按住不放選中區域

【Android】旋轉的圓形按鈕

以前想到的按鈕樣式，學了一段時間Android後終於有能力實現了。點選白色螢幕就旋轉繪製一個按鈕，隨機顏色和文字。按按鈕彈出訊息框顯示你按下的按鈕。 Button.java package com.example.button; import andro

[新手版]DIY Xubuntu （含優化美化）【轉】--根據我的機器作了修改

在這裡我便簡單說說我的ubuntu安裝。一系統安裝將(k/ed)ubuntu安裝CD 放入光碟機，鍵入server-expert進入伺服器專家安裝模式。按照提示安裝。注意，儘量跳過 “apt檢測”，那個會花很多時間似乎沒什麼用。經過充滿希望的等待，"login:_"出現了。二軟體安裝

【Android】開發乾貨-技術分享之AndResGuard資源混淆的使用

AndResGuard是微信團隊的開源專案，它的作用就是將apk中的資原始檔如layout等檔名進行混淆處理，增加逆向難度。 1.下載AndResGuard 2.下載完成後，修改配置檔案，此處因

大資料技術原理與應用【筆記】

環境前言個人筆記視訊筆記正文大資料思路的轉變：全樣而非抽樣效率而非精確相關而非因果核心技術分散式儲存和分散式處理雲端計算解決了：分散式儲存、分散式處理、虛擬化和多租戶； Hadoo

【Android】adb常用指令整理

1.列舉當前連線的所有android裝置 adb devices 2.進入shell模式 adb shell 3.獲取root許可權 su 4.安裝應用程式 adb install [apk檔案的完整路徑] 5.解除安裝應用程式 adb

關於首屏效能優化的總結【原創】

這兩天一直在看首屏優化的文章，所以將其總結歸納一下，方便以後使用。相對於移動端的首屏優化，PC在有些方面要苛刻得多，主要是因為PC端有太多的東西想要讓使用者看到，這就難免PC端的頁面大而“重”，與我們現在“富客戶端”的概念想相呼應。本文目錄 1. 什麼是首屏？ 2.

NEON 指令集並行技術優化矩陣旋轉【Android】

相關推薦