《Binary Multi-View Clustering》論文閱讀

阿新 • • 發佈：2018-12-16

出自：IEEE Trans. on Pattern Analysis and Machine Intelligence, 2018.

一、主要解決的問題

1、多視角的大尺度的資料集聚類效能表現欠佳；

2、實值聚類消耗較大的記憶體資源和計算資源；

2、編碼和聚類是獨立的，不能相互作用。

二、創新點

1、BMVC是第一個使用二進位制編碼技術解決大規模多檢視聚類問題的方法，BMVC同時從多個檢視和聯合優化二進位制編碼和聚類。

2、提出了一種交替優化演算法用於解決離散的優化問題，。針對二值聚類中心學習的關鍵子問題，還提出了一種自適應離散近似線性方法(ADPLM)。

3、BMVC具有較好的聚類效能，還明顯更少的計算時間和記憶體開銷，記憶體和時間上快的不止一點，這一點真的很好。

三、文章概要：

文章是編碼的多視角聚類問題。首先說明什麼是多視角和如何編碼，然後從雜湊編碼聯合聚類模型、優化以及實驗分析三個方面簡述文章主要思想和實驗設計。

所謂多視角，引用原文：1. Different to single-view clustering using singular data descriptor, in this paper, we first describe each data point (e.g., an image) by various features (e.g., different image descriptors, such as HOG, Color Histogram and GIST) and then feed these features from multiple descriptors into our clustering. It is noteworthy that the “Multiview” in our paper indicates multiple image descriptors of features rather than multiple modalities. 簡單來說：本文多視角就是多種特徵。

1、雜湊編碼

為什麼要進行編碼呢？

第一，針對實值聚類需要較大的記憶體資源，尤其是譜聚類方法，對較大尺度的影象資料集需要佔用很大的記憶體，編碼能夠對資料特徵進行降維處理，儘可能的保留了樣本的自身特徵。第二、計算機能夠更容易處理編碼資料，降低計算複雜度。

如何編碼：對於任意一個視角（一種特徵），n為資料集中影象的數目，m是選取的錨點數。具體或稱如下圖。

怎麼樣讓編碼更好的體現特徵，設計瞭如下代價函式：

希望多視角學習得到的 M 個雜湊向量與二值編碼B 能夠相似，最小化編碼和雜湊向量的L2正規化；
希望得到的投影轉換矩陣約簡單越好，最小化U的L2正規化；
希望資料點的二值碼分佈均衡，最大化其方差；

不同視角扮演的分量不同，不同視角優化不同權重。

2、雜湊編碼聯合聚類模型

聚類模型使用的是矩陣分解的方法，希望每個編碼b可以用一個聚類中心C和指示向量g（權重）的乘積來表示，希望分解的誤差最小。方法化較為常見，話不多說代價函式詳見下式：

文章的一個主要創新點體現再此，作者將編碼和聚類同時進行優化，將兩者目標方程結合在一起，在學習過程中，相對於pipeline的方法更能將編碼和聚類相互作用體現出來。於是總的代價函式：

3、優化

面對如此複雜的代價函式（涉及到離散約束條件的np hard問題），如何進行優化訓練？

作者，使用了一個交替優化策略，即更新某個變數時，固定其它變數不變的迴圈更新方法。

更新U ,固定其它量不變，總代價函式變為：

可見該項不含約束項，直接求導，令其倒數為0，得到此時最優U；

其中，

更新B , 總代價函式變為：

包含有離散約束量，怎麼辦呢，先化簡看看啦：

化簡到此，是不是有種“柳暗花明又一村“的感覺，第一項是常數，因為B轉置和B之間的項是一常數乘以單位陣，又因B轉置乘以B為常數，故第一項為常數。於是就變為求第二項的最小值，前面有（-）符號，使得B轉置乘以一項的值最大，這一項就為B。因為B為編碼，所以取符號操作，B為：

找出每個b到任何聚類中心的hamming距離，最近的給權值g為1，其它置為0。

4、實驗分析

作者在Caltech101, NUS-WIDE-Obj, Cifar-10, Sun-397 YouTube Faces 實驗驗證。

以Caltech101為例，精度上對比如圖，在多view上作者演算法是最高的，並且提升幅度較大。

效率上的對比，作者演算法相對於K-means時間上提升了60倍的速度，是不是相當驚人！

記憶體資源佔用對比，記憶體降低近1500倍，是不是更加驚人！

有人可能會有疑問，為什麼編碼後聚類效能能夠提升？？來看編碼後的特徵分佈，如下兩圖，相同簇用同種顏色表示，編碼後的特徵簇間分佈更加分散，簇內分佈更加緊密，這就更容易對其進行聚類。以至於效果能夠提升。

引數靈敏度分析：

手動調整引數較多，作者實驗分析了這些引數對效能的影響，好在模型對這些引數不敏感。引數在一定大範圍內能夠保持穩定的聚類效能！

四、總結

Contributions：

1. 提出了一種能夠降低計算複雜度和記憶體開銷的多視角聚類演算法；

2. 提供了一種編碼和聚類同時優化的思想；

Limitations：

1. 文章中所提，手動調整引數太多（源於太多的約束項）。

張亞超

2018年10月22日

《Binary Multi-View Clustering》論文閱讀

出自：IEEE Trans. on Pattern Analysis and Machine Intelligence, 2018. 一、主要解決的問題 1、多視角的大尺度的資料集聚類效能表現欠佳； 2、實值聚類消耗較大的記憶體資源和計算資源； 2、編碼和聚類是獨立的，不能相互作用。二、創新點 1、BM

2017-06-Deep Network Flow for Multi-Object Tracking-論文閱讀筆記

摘要：資料關聯是很多計算機視覺應用的重要組成部分，多目標跟蹤就是其中的一個例子。典型的資料跟蹤方法是找到一個圖匹配方式或者一個網路流使得配對連線的代價最小，然而經常使用的是手工設計特徵或者固定特徵的線性函式。本文指出通過將優化問題表示為可微的函式反向傳播學習資料關聯的特徵是必要。本文用上述

1705.Person Re-Identification by Deep Joint Learning of Multi-Loss Classification 論文閱讀筆記

Person Re-Identification by Deep Joint Learning of Multi-Loss Classification 本文采用多loss分類聯合訓練同時學習行人條紋區域性特徵和全域性特徵，受益於區域性和全域性學習到的特徵具有

『論文閱讀』A Multi-View Deep Learning Approach for Cross Domain User Modeling in Recommendation Systems

AbstractMULTI-VIEW-DNN聯合了多個域做的豐富特徵，使用multi-view DNN模型構建推薦，包括app、新聞、電影和TV，相比於最好的演算法，老使用者提升49%，新使用者提升110%。並且可以輕鬆的涵蓋大量使用者，解決冷啟動問題。主要做user embedding的過程，通多使用者在多

論文閱讀之FaceNet: A Unified Embedding for Face Recognition and Clustering

深度 clust 識別傳統創新圖像進行 rec 大創名稱：FaceNet: A Unified Embedding for Face Recognition and Clustering 時間：2015.04.13 來源：CVPR 2015 來自谷歌的

論文閱讀 | MIX: Multi-Channel Information Crossing for Text Matching

MIX: Multi-Channel Information Crossing for Text Matching （騰訊2018 KDD）主要特點： 1.本文中對於句子匹配，考慮了很多不同層面的：詞，短語，句法，詞頻和權重，語法信心等資訊 2.通過多通道將所有資

論文閱讀 | Multi-Cast Attention Networks for Retrieval-based Question Answering and Response Prediction

Multi-Cast Attention Networks for Retrieval-based Question Answering and Response Prediction （KDD 2018） 1.主要特點：通常，一個句子應用一次attention，然後學習最終表

《Context Contrasted Feature and Gated Multi-Scale Aggregation for Scene Segmentation》論文閱讀

動機第一個工作的動機，（context contrasted local (CCL) model ）作者認為獲得有判別力的語義特徵以及多尺度融合是提升效能的關鍵；上下文通常具有平滑的表示，並且由顯著物件的特徵支配，這對於標記不顯眼的物件和東西是

論文閱讀筆記二十：MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS（ICRL2016）

論文源址：https://arxiv.org/abs/1511.07122 tensorflow Github:https://github.com/ndrplz/dilation-tensorflow 摘要該文提出了空洞卷積模型，在不降低解析

論文筆記 Memory Fusion Network for Multi-view Sequential Learning (AAAI2018)

這是卡內基梅隆大學與新加坡南洋理工大學在AAAI上發表的一篇利用memory network來處理序列建模的文章。文章中的multi view其實指代可以很廣泛，許多地方也叫做multi modal，對於多模態序列學習而言，模態往往存在兩種形式的互動（1）模態內關聯（view-sp

【論文閱讀】Clustering Convolutional Kernels to Compress Deep Neural Networks

文章：Clustering Convolutional Kernels to Compress Deep Neural Networks 連結：http://openaccess.thecvf.com/content_ECCV_2018/papers/Sanghyun_Son_Clustering_Kern

【論文閱讀】Deep Adversarial Subspace Clustering

導讀：　　本文為CVPR2018論文《Deep Adversarial Subspace Clustering》的閱讀總結。目的是做聚類，方法是DASC=DSC（Deep Subspace Clustering）+GAN（Generative Adversarial Networks）。本文從以下四個方面來

論文 3DMV: Joint 3D-Multi-View Prediction for 3D Semantic Scene Segmentation

Dataset: ScanNet 獲取方式：簽署協議書(http://dovahkiin.stanford.edu/scannet-public/ScanNet_TOS.pdf)後傳送至郵箱：[email protected] Data Organization <

【論文閱讀筆記】MULTI-SCALE DENSE NETWORKS FOR RESOURCE EFFICIENT IMAGE CLASSIFICATION

Gao Huang(Cornell University), ICLR 2018 best Papers 文章連結：https://arxiv.org/pdf/1703.09844.pdf 程式碼連結：https://github.com/gaohuang/MSDNet

Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks 論文閱讀

一、概述本文提出了一個多工的人臉檢測模型，可以同時進行人臉檢測和人臉特徵點提取。這個框架主要由三個CNN級聯的方式實現。 stage1：通過一個淺的CNN來產生一些候選框 stage2：通過一個較複雜的CNN，對候選框進一步刪選得到更精細的區域 stage3：通過一個強大

【論文閱讀】Learning Spatial Regularization with Image-level Supervisions for Multi-label Image Classification

分享圖片 xiv onf class 編碼 isp conf caf 策略轉載請註明出處：https://www.cnblogs.com/White-xzx/ 原文地址：https://arxiv.org/abs/1702.05891 Caffe-code：https:/

multi-agent 控制類論文閱讀

多個體協調控制問題綜述,2012 綜述　多個體協調控制的基本問題包括一致性控制、會合控制、聚結控制和編隊控制。　多個體系統區別於單體系統最本質的要素在於其通過網路進行資訊傳遞

Multi-View Gait Recognition Based on A Spatial-Temporal Deep Neural Network論文翻譯和理解

Multi-View Gait Recognition Based on A Spatial-Temporal Deep Neural Network論文翻譯和理解翻譯格式：一句英文，一句中文結合圖來講解 ABSTRACT ABSTRACT This paper p

論文翻譯：Multi-view People Tracking via Hierarchical Trajectory Composition

Abstract 本文提出了多視點物件跟蹤的分層組合方法。其關鍵思想是自適應地利用二維和三維的多重線索，例如地面佔有一致性，外觀相似性，運動相干性等，這些線索在追蹤行人軌跡的過程中相互補充。雖然在過去的文獻中已經廣泛地研究了特徵聯機選擇，但是如何有效地排程這些提

[論文解讀]Multi-View 3D Object Detection Network for Autonomous Driving

問題引入在無人駕駛場景中，物體的3D檢測(或者說是bounding-box)的重要性不言而喻。從2D檢測到3D檢測，主要的難點是提取深度資訊，因此總體上可以將其分為四種，分別為：基於單目影象(Mono) 基於雙目影象(Stereo) 基於雷達(LIDA