欢迎光临JDL人脸检测/识别研究组
Paper Reading
主页

 

PPT模版

2009年之前的报告内容请点此处

 

   

120

   

谢月雷

报告时间

2011.05.06

文章信息

Lixin Duan, Dong Xu, Wai-Hung Tsang, and Jiebo Luo.

Visual Event Recognition in Videos by Learning from Web Data.  CVPR2010.

资料下载

文章     PPT 

文章摘要

◆提出了一种面向用户个人视频的事件识别框架,该框架可以利用大量弱标注网络视频(Youtube

◆提出了一种新的时空对齐的金字塔匹配方法,该方法使用整数流推土机距离(Integer-flow Earth Mover’s distance)显示的匹配两个视频片段,可以有效的度量视频片段之间的距离。

◆提出了一种新的跨域的学习方法-自适应多核学习方法(Adaptive Multiple Kernel Learning),该方法可以

a) 融合多个金字塔级别以及多种特征的信息(SIFTSTIP)

b) 有效处理不同域之间视频特征分布的变化。

c) 提出了一种新的目标优化函数,可以同时最小化结构风险泛函(structural risk functional)和不同域之间特征分布的不匹配。

简单评述

 

 

   

119

   

武斌

报告时间

2011.04.29

文章信息

Devi Parikh, C.Lawrence Zitnick. The role of features, algorithms and data in visual recognition. CVPR2010.

资料下载

文章     PPT 

文章摘要

◆在视觉识别(场景以及物体)领域存在很多基于计算机视觉的相关算法。为了取得更好的识别效果,有的系统着眼于复杂的学习算法,一些则利用大量的训练数据,还有一些考虑对更有效的特征进行建模。然而遗憾的是,所有这些系统都远远无法达到人类的识别能力。如果我们了解了人类在视觉识别上的响应方式,那么就能对上述三种方式的有效性产生更深刻的认识,从而发现究竟是什么造就了人类优越的识别能力。

◆本文通过对人类学习和机器学习的一系列实验,朝着这个方向前进了一小步。我们发现,没有任何证据证明人类的学习算法要优于标准的机器学习算法。另外,人类也不依赖于增加大量的训练样本来提高识别能力。在本文实验的基础上,通过统计分析发现,影响识别精度的最重要的因素在于特征的选择。

简单评述

 

 

   

118

   

吉娜烨

报告时间

2011.04.15

文章信息

Qingxiong Yang, Kar-Han Tan and Narendra Ahuja. Real-time O(1) Bilateral Filtering. CVPR2009.

资料下载

文章     PPT 

文章摘要

◆本文提出了一个新的双边滤波算法,其计算复杂度在不同的滤波核大小下恒定不变,即通常所说的O(1)/常数时间。因一个双边滤波器可以被分解为一组常数时间的空间滤波器,我们的方法在任意空间和任意核幅值内产生了一类新的常数时间的双边滤波器。而现今已有的常数时间算法都要求使用特定的空间或者特定范围的核。并且,我们的算法可以并行实现,这使其成为已知的第一个实时的O(1)算法。我们的算法通过量化幅度函数替代同时量化幅度函数以及输入图像,从能产生高质量的结果。

◆观察实验表明我们的算法不仅能得到高的PSNR,而且比state-of-the-art快大约10倍。同时,对内存存储的需求上很小,仅需state-of-the-art方法在获取同样质量的8-bit图像结果所需内存的2%
◆另外,本文说明了我们的算法可以很简单地扩展为O(1)中值滤波。该双边滤波算法在许多应用上测试过,包括高清视频会议、视频提取、高亮去除以及多焦点成像。

简单评述

 

 

   

117

   

都大龙

报告时间

2011.04.08

文章信息

Jilin Tu , Brandon Laften, Xiaoming Liu , Musodiq Bello, Jens Rittscher , Peter Tu. LPSM: Fitting Shape Model by Linear Programming. FG 2011.

资料下载

文章     PPT 

文章摘要

◆提出了一种利用线性规划优化策略的形状模型匹配算法。

◆大多数形状模型匹配算法(例如ASMAAM)是基于梯度下降局部搜索优化策略的,于是通常会陷入局部极小。与之相反的是,线性规划技术给出了针对线性问题的全局优化解决方案。在[1]中,我们提出了基于连续凸化的线性规划(LP)方案来匹配复杂背景下的静态对象形状,并取得了很好的效果。本文中,我们严格推导出了在LP方案下的形状模型匹配问题的线性形式,并提出了LP形状模型匹配算法(LPSM)。

◆实验中,在PUT数据库的测试集上,我们对比了LPSMLP图匹配算法(LPGM),ASM以及基于CONDENSATIONASM算法的性能。实验表明,LPSM能够达到更高的形状匹配精度。我们也评价了算法在真实环境下人脸图像的性能,这些人脸图像从互联网上收集而来。结果显示LPSM能够处理各种各样的异常表观图像并且能非常好的避免局部极小问题,这是因为匹配是通过带有L1范式的鲁棒代价函数线性规划优化来完成的。

简单评述

 

 

   

116

   

缑丹

报告时间

2011.03.25

文章信息

Unsang Park and Anil K. Jain. Face Matching and Retrieval Using Soft Biometrics.  IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY, VOL. 5, NO. 3, SEPTEMBER 2010.

资料下载

文章     PPT 

文章摘要

◆脸部皮肤上的特异性区域(Facial Marks),例如痦子、雀斑等,虽然不能作为精确进行人脸识别的依据,但它们对提高人脸识别精度有着重要意义。同时,它对于有遮挡的视频监控、区分双胞胎以及法庭作证等方面都有着重要意义。

◆本文提出了一种Facial Marks的自动检测算法和融合Facial Marks的人脸识别算法,证明了Facial Marks能提高人脸识别精度。

简单评述

 

 

   

115

   

陈静

报告时间

2010.12.24

文章信息

Anders Eriksson and Anton van den Hengel.Efficient Computation of Robust Low-Rank Matrix Approximations in the Presence of Missing Data using the L1 Norm. CVPR 2010.

资料下载

文章     PPT 

文章摘要

矩阵低秩近似计算是许多计算机视觉应用的一项基本运算。一直以来,解决该问题的主要方法是奇异值分解。然而,在缺少数据和存在outliers时,奇异值分解的方法并不适用,而且不幸的是,实际应用中我们常常需要面对这种情况。
在本文中,我们提出了一种方法,计算在数据丢失的情况下最小化L1范数的矩阵低质分解。Wiberg算法是在L2范数下进行矩阵分解的许多令人信服的方法之一。我们的方法是该方法的一个泛化。通过利用线性规划的可微性,我们将该方法扩张到L1范数下。
我们的研究表明,使用现有的优化软件,可以有效地实现该算法。我们还提供了在合成数据
以及现实世界的数据上,有着非常令人信服结果的初步实验。

 

简单评述

 

 

   

114

   

阚美娜

报告时间

2010.12.20

文章信息

Xiaodong Yu and Yiannis Aloimonos. Attribute-Based Transfer Learning for Object Categorization with Zero/One Training Example. ECCV 2010.

资料下载

文章     PPT 

文章摘要

本文研究了one-shot zero-shot learning问题。

我们提出了一个基于物体属性的迁移学习框架。物体属性是对物体类别的高级描述,比如颜色,纹理,形状等。他们是不同类别的共有属性,可以用来将源类别的信息迁移到目标类别上。首先建立一个产生式模型,针对每个属性学习它对应的图像特征的概率分布,这将被视作先验。属性先验可以用来解决zero-shot learning问题以及提升one-shot learning问题的性能
我们的方法在Animal with Attributes 数据集的zero-shot one-shot任务上取得了state-of-the-art的性能。

 

简单评述

 

 

   

113

   

赵小伟

报告时间

2010.12.20

文章信息

Yang Wang, Simon Lucey, Jeffrey F. Cohn. Enforcing Convexity for Improved Alignment with Constrained Local Models. CVPR 2008.

资料下载

文章     PPT 

文章摘要

与基于全局的方法相比(例如AAM),带有局部约束的模型(CLMs: Constrained Local Models)在非刚性物体的对齐和跟踪方面展示了更好的性能。对于非刚性物体的对齐和跟踪,一个主要的阻碍CLMs进一步发展的问题是:"如何根据局部搜索的响应,对全局形变的更新参数(Global warp update)进行联合优化?"之前的方法要么采用general的优化方式(例如单纯形法),要么采用基于图的优化技术。不幸的是,当应用于CLMs时,这些方法都存在问题.
本文提出了一种新的方法,强制每个局部patch的响应曲面为凸,这样就可以以一种高效的方式对全局形状更新进行优化。进一步,我们证明经典的基于Lucas-Kanade方法进行梯度下降的图像对齐可以看做本文提出的框架的一个特例.最后,在非刚性的人脸对齐和跟踪方面,我们的方法在Multi-PIEUNBC-McMaster数据库上取得了更好的性能。

简单评述

 

 

   

112

   

王丹

报告时间

2010.11.26

文章信息

Eran Borenstein and Shimon Ullman.Learning to Segment. ECCV 2004.

资料下载

文章     PPT 

文章摘要

我们提出了一种新的方法,该方法利用未分割的训练样本,学习如何进行特定类(class-based)的分割。
和之前的方法一样,我们首先利用训练图片提取包含物体部件的碎片(fragment)。然后介绍如何通过一个自动学习过程,将这些片段分割为前景和背景区域。相比之下,之前工作则要求训练集合的完全手动分割。
本文的前背景学习融合了自顶向下和自底向上的过程,分两个步骤进行:初始的粗分割和之后的迭代改进。初始的分割是利用未分割的训练图片,学习产生单个图像碎片的前背景标定。这一步骤基于一个事实:平均而言,覆盖于物体上的fragment数目比覆盖在物体外的多。而后,初始的分割通过最多3步迭代改进,即可收敛。每一步中,各个fragment的前背景标定产生训练图片的完整物体分割;这些随即用以改进单个fragment标定。
通过这种方式,我们得到了一个由未标定的训练集开始,学习图像碎片的前背景标定,然后利用这种标定分割新的图片的策略。我们的实验表明,和使用手动分割图片进行学习的分割相比,本文学习到的分割取得了同等水平的精度,产生了一种自动、鲁棒的自顶向下的分割。

简单评述

 

 

   

111

   

马志国

报告时间

2010.11.19

文章信息

L'ubor Ladický, Paul Sturgess, Karteek Alahari, Chris Russell, and Philip H.S. Torr. What,Where & How Many? Combining Object Detectors and CRFs. ECCV 2010.

资料下载

文章     PPT 

文章摘要

针对单独任务(如物体识别、检测和分割)的计算机视觉算法,在近几年取得很大的进步。下一个挑战是整合这些算法,解决场景理解的问题,本篇文章是向此目标前进的一步。

我们提出了一种概率性框架用于推断区域、物体及其属性(如物体类别,位置及空间范围等)。

我们的模型是一个定义在像素、区域、物体上的条件随机场。模型定义了一个全局能量函数,整合来自滑动窗口物体检测器、底层像素级的一元和二元信息。

我们的一个主要贡献是展示这个能量函数可以被有效地求解。

CamVidPASCAL VOC数据集上的结果显示,我们的模型比基准算法获得了很大的性能提升。

简单评述

 

 

   

110

   

赵小伟

报告时间

2010.10.22

文章信息

Michel Valstar, Brais Martinez, Xavier Binefa, Maja Pantic. Facial Point Detection using Boosted Regression and Graph Models. CVPR 2010.

资料下载

文章     PPT 

文章摘要

在具有丰富的自然面部行为的视频帧中进行面部关键特征点的定位是一个尚未解决的问题。本文提出了一种结合SVRMRF的面部关键特征点定位方法。该方法大大降低了搜索特征点的时间,并且提高了算法的精度和鲁棒性。

一方面,使用MRF对面部关键特征点的分布进行建模,以此来限制特征点的搜索范围。

另一方面,通过SVR学习到了特征点周围区域的表观信息与特征点位置的映射关系。该方法可以更快的检测特征点,并且对由面部表情和头部姿态的适度变化引起的表观变化比较鲁棒。

我们在1855幅图像上测试了提出的面部特征点检测算法,实验表明,本文的算法超越了当前state-of-the-art的算法。

简单评述

 

 

   

109

   

狄晓斐

报告时间

2010.10.15

文章信息

Frank Lin, William W. Cohen.Power Iteration Clustering. ICML 2010.

资料下载

文章     PPT 

文章摘要

本文提出了一种简单可扩展的图聚类方法:快速迭代聚类(PIC.
PIC利用数据归一化的相似度矩阵,采用截断的快速迭代法,寻找数据集的一个超低维嵌入。这种嵌入恰好是很有效的聚类指标,使它在真实的数据集上总是好于广泛使用的谱聚类方法,如NCut
在大规模数据集上,PIC非常快,比基于最好的特征计算技术实现的Ncut1000倍。

简单评述

 

 

   

108

   

崔振

报告时间

2010.09.17

文章信息

Jianchao Yang, Kai Yu, Thomas Huang. Supervised Translation-Invariant Sparse Coding. CVPR10.

资料下载

文章     PPT 

文章摘要

针对分类任务,提出了一种新颖的基于局部图像描述子的监督分级稀疏编码模型。

通过back-projection方法,以最小化在图像层级特征(image level features)的分类误差训练监督词典。其中图像层级特征是以空间金字塔为结构max pooling稀疏编码。在多种空间尺度下max pooling方法具有平移不变的特性,如同CNN(Convolutional Neural Network)一样。

实验证明,与无监督词典相比,监督词典明显地改善了模型的性能,并且在多个图像数据库拥有最好的表现。

另外,监督模型目标是学习线性特征,它蕴含了一个巨大潜能-在实际应用时能处理大规模数据库。

简单评述

 

 

   

107

   

吉娜烨

报告时间

2010.09.03

文章信息

Gooch B., Reinhard E., Gooch A.Human facial illustrations: Creation and psychophysical evaluation. ACM Transactions on Graphics, 2004.

资料下载

文章     PPT 

文章摘要

本文提出了一种从人脸照片生成黑白影像的方法。同时,提出了一种交互式变形技术将黑白影像转换为突出并夸张了人脸特征的漫画。
本文通过心理物理学调查来评价实验结果在识别和学习速度上的精确性以评估结果的有效性。这些调查显示用本文的方法生成的人脸影像和漫画在识别时和照片一样有效。在学习任务上,影像学起来比照片快两倍,漫画学起来比照片快1.5倍。
由于本文的方法产生的图像在复杂信息的交流过程中有效,因而它们有很多潜在应用,娱乐、教育到低带宽通信以及心理学研究。

简单评述

 

 

   

106

   

池晨

报告时间

2010.08.27

文章信息

Stas Goferman, Lihi Zelnik-Manor, Ayellet Tal.Context-aware saliency detection, CVPR 2010.

资料下载

文章     PPT    相关文章 

文章摘要

 

简单评述

 

 

   

105

   

缑丹

报告时间

2010.07.09

文章信息

Michael Donoser, Hayko Riemenschneider and Horst Bischof. Linked Edges as Stable Region Boundarie. CVPR 2010.

资料下载

文章     PPT    

文章摘要

问题 在灰度图像中找到最稳定的边缘
解决方法 建立component tree,每个节点对应梯度图中的一个联通区域,提出一个边缘稳定性准则,根据该准则选择最稳 定的边缘
优势 速度快,能在准线性的时间内返回结果; 无需后续处理,直接返回可为后端识别应用的区域边缘

简单评述

 

 

   

104

   

都大龙

报告时间

2010.07.02

文章信息

Mingcai Zhou, Lin Liang, Jian Sun, Yangsheng Wan. AAM based Face Tracking with Temporal Matching and Face Segmentation. CVPR 2010.

资料下载

文章     PPT    

文章摘要

 

简单评述

 

 

   

103

   

项翔

报告时间

2010.05.21

文章信息

B. C. Russell, A. A. Efros, J. Sivic, W. T. Freeman, and A. Zisserman.Segmenting Scenes by Matching Image Composites.NIPS 2009

资料下载

文章     PPT    

文章摘要

拟解决的问题

  在本文中,我们研究了:给出一幅图像,如何利用相似的图像具有相同的全局描述这一事实,来帮助解决无监督的场景分割问题。
本文的思路

  与最近在场景的语义对齐上的工作不同,我们允许通过相似场景的部分匹配来解释一幅输入图像。这样就可以对输入图像作出更好的解释。
本文的方法

  首先,我们施行基于马尔科夫随机场的分割,在各匹配之间实现优化,同时也考虑边界信息。然后,被恢复的分割区域将被在一个大规模图像数据库中检索目标区域的更好的匹配。

实验

  我们证明了:较之之前的方法,对于处理收集自LabelMe数据集的数据,我们的方法在检测场景中主要遮挡和关联边界方面有更好的表现。

 

简单评述

 

 

   

102

   

任昊宇

报告时间

2010.05.07

文章信息

Stefan Walk, Nikodem Majerm, Konrad Schindler, and Bernt Schiele. New Features and Insights for Pedestrian Detection.CVPR 2010.

资料下载

文章     PPT    

文章摘要

Despite impressive progress in people detection the performance on challenging datasets like Caltech Pedestrians or TUD-Brussels is still unsatisfactory

In this work we show that motion features derived from optic flow yield substantial improvements on image sequences, if implemented correctly—even in the case of low-quality video and consequently degraded flow fields

Furthermore, we introduce a new feature, self-similarity on color channels, which consistently improves detection performance both for static images and for video sequences, across different datasets. In combination with HOG, these two features outperform the state-of-the-art by up to 20%.

Finally, we report two insights concerning detector evaluations, which apply to classifier-based object detection in general

First, we show that a commonly under-estimated detail of training, the number of bootstrapping rounds, has a drastic influence on the relative (and absolute) performance of different feature/classifier combinations

Second, we discuss important intricacies of detector evaluation and show that current benchmarking protocols lack crucial details, which can distort evaluations

 

简单评述

 

 

 

   

101

   

谢术富

报告时间

2010.04.30

文章信息

Zhimin Cao,Qi Yin ,Xiaoou Tang ,Jian Sun. Face Recognition with Learning-based Descriptor.CVPR 2010.

资料下载

文章     PPT    

文章摘要

◆ 我们提出了一种新颖的方法来强调人脸识别(确认)中的表示和匹配问题。

◆ 首先,我们的方法利用一种新的基于学习的编码方法来编码图像上的微结构。不同于以前人工设计的编码方法(LBPSIFT),我们利用无监督学习的方法从训练样本中得到一个编码器。

◆ 然后,我们应用PCA得到一个紧致的人脸表示。我们发现,PCA之后的一种简单的归一化操作可以进一步提高表示的判别能力。最终的人脸表示是紧致的,高判别性的,且易于提取的。

◆ 为了处理实际环境中的姿态变化,我们提出了一种姿态自适应的匹配方法,该方法利用了特定姿态的分类器来处理不同的姿态组合(例如, 正面对正面,正面对左侧)。在保持了较高的紧致性,简单性和不同数据集上的推广性的条件下,我们的方法同LFW上最好的方法是可比的(该方法达到了84.45%的识别率)

 

简单评述

 

 

   

100

   

李哲

报告时间

2010.04.23

文章信息

Yang Wang, Greg Mori.Learning a discriminative hidden part model for human action recognition.NIPS 2008.

资料下载

文章     PPT    

文章摘要

本文提出了一种基于部件的判别方法,该方法使用运动特征能够在视频序列中识别人体动作。

本方法灵感来自于物体检测中的隐条件随机场(hCRF)方法。与其类似的,本文基于图像对人体动作建立了一个的部件模型;与其不同的,我们将全局特征和局部块特征联合来区分不同的动作。

实验结果表明,我们的模型能够与其他的state-of-the-art方法可比。

实验结果还证明了,对于hCRF方法,联合全局特征和局部块特征比单单使用局部快特征有更好的性能。

 

简单评述

 

 

 

   

099

   

阚美娜

报告时间

2010.04.16

文章信息

Lior Wolf, Tal Hassner, and Yaniv Taigman. Similarity Scores based on Background Samples. ACCV, 2009.

资料下载

文章     PPT    

文章摘要

One-Shot Similarity

最近提出了一种提高人脸识别性能的One-Shot Similarity measure。给定两个向量,One-Shot Similarity反映的是一个向量和另外一个向量属于同一类而不是属于反例样本集的可能性。反例样本集(也称作Background Sample) 是不属于被比较(学习)的类别的样本组成的一个集合。同时我们还给出: (1)当使用Free-Scale LDA作为隐含的分类器时,OSS是一个条件正定的Kernel(2) OSS作为图像表示是很有效的。

Multiple One-Shot Similarity

OSS很吸引人的一个特点是它不需要标注训练样本。因此当label信息已知时,OSS是无法利用这些信息的,这里,我们提出一种能够利用label信息的Multiple OSS,它将反例样本集按照label信息分为多个子集,计算多个OSS

Similarity Score based on Background Samples

通过对OSS进行扩展,提出Two-Shot SimilarityOSSTSS都利用了background sample,可以得到更好的性能。
同时提提出了一种利用背景样本的相似度度量方法:用背景样本集中与查询图像最相似的n个样本的ranking来描述该查询样本。

◆在LFW Image-Restricted测试下, One-Shot Similarity及其扩展的方法目前是性能最好的.

简单评述

 

 

   

098

   

韩琥

报告时间

2010.04.02

文章信息

Ognjen Arandjelovi? and Roberto Cipolla. A Methodology for Rapid Illumination-invariant Face Recognition Using Image Processing Filters. CVIU 2009.

资料下载

文章     PPT    

文章摘要

◆在存在较大姿态变化的环境下实现光照不变性是低分辨率人脸图像自动人脸识别中最具挑战性的问题之一。本文提出了一种鲁棒而且高效的识别方法。

◆本方法通过融合基于图像处理滤波器输出计算的相似度和基于原始灰度图像计算的相似度得到两幅人脸图像最终的匹配程度。

◆具体来说,我们展示了如何隐式的估计测试图像与注册图像之间光照的差异,并用于决定如何对两种人脸图像表示进行加权,并且加权参数的选择只依赖于图像滤波器,而非注册图像。因此,我们方法可以离线进行训练并且只需要训练
一次,从而将在线测试的代价降到最低。

◆我们对所提出的方法进行了大量的测试.相对于传统的图像处理滤波器,我们的方法能带来更显著的识别性能提升:错误率可以降低 50%-75%,并且通过组合滤波器取得了97%的最高识别性能。

简单评述

 

 

 

   

097

   

李安南

报告时间

2010.03.26

文章信息

Gang Hua and Amir Akbarzadeh.A Robust Elastic and Partial Matching Metric for Face Recognition.Proc.ICCV'2009.

资料下载

文章     PPT    

文章摘要

◆我们提出一种针对人脸识别鲁棒的部分弹性匹配法。

◆为适应对姿态、表情和部分遮挡带来的挑战,我们通过计算基于局部的人脸表示实现弹性和部分的匹配。

◆该方法从重叠的密集采样的图像块上提取N个局部图像描述子,然后定义一种距离度量。这种新的距离度量的参数通过在真实世界的图像集合上学习优化而来。

◆同时我们还发现使用简单的高斯差分模型对人脸滤波可以带来对光照变化很强的鲁棒性。该方法超过了应用更广泛的自熵图像。

◆测试表明我们的方法的性能领先或者相当于目前最好的结果。

简单评述

 

 

   

096

   

陈静

报告时间

2010.03.19

文章信息

Vivek Kwatra, Irfan Essa, Aaron Bobick and Nipun Kwatra. Texture Optimization for Example-based Synthesis.SIGGRAPH 2005

资料下载

文章     PPT    

文章摘要

 

简单评述

 

 

   

095

   

郑伟

报告时间

2010.03.12

文章信息

Pedro F. FelzenszwalbDavid McAllesterDeva Ramanan. A Discriminatively Trained, Multiscale, Deformable Part Model.

资料下载

文章     PPT    

文章摘要

◆本文描述了一种采用判别方法训练的多尺度和可变形的物体检测模型。我们的系统在VOC2006的数据库的平均精度提高了20%。在VOC2007的数据库的20类中的10类的测试结果也超过了已报告的最好结果。

◆该系统主要依靠可变形的部件。虽然可变形的部件模型很流行,但是从来没有人在PASCAL这类非常困难的评测库上证实过它的价值。我们的系统也依赖于一种新的判别训练方法。我们将边界敏感(margin-sensitive)的方法与一种叫做latent SVM的形式相结合用于发掘困难的反例样本。Latent SVM就像条件随机场一样,最终会变为一个半凸的问题。虽然latent SVM是一个半凸问题,但是当latent的信息被指定为某种正例,训练的问题就变成凸问题。

◆我们相信我们的训练方法最终会使得我们有效的利用更多的latent的信息成为可能,例如层级(语法)模型,包括latent的三维姿态。

简单评述

 

 

 

   

094

   

马志国

报告时间

2010.02.26

文章信息

Victor Lempitsky, Pushmeet Kohli, Carsten Rother, and Toby Sharp.Image Segmentation with A Bounding Box Prior.ICCV 2009

资料下载

文章     PPT    

文章摘要

◆用户提供的矩形边框,在现有的交互式图像分割框架中,被认为是一种简单和流行的交互方式。但这些框架仅利用提供的边框将边框外的部分排除在外,以此作为能量最小化的初始化。本文中,我们讨论如何进一步利用边框提供的拓扑先验,确保分割结果与边框保持足够的紧致性。

◆拓扑先验被表示为全局能量最小化框架中的严格约束,推导为整数规划问题。通过线性松驰和pinpointing的图割算法,可以近似求解上述的整数规划问题。

◆公共的数据集上的定性及定量的实验展示了新的先验的有效性。

简单评述

 

 

CVPR 2009 Paper Review

序号

日期

讲解人

01

2009-08-28

洪晓鹏(PPT) 马志国(PPT)

02

2009-09-04

陈 静(PPT)

03

2009-09-11

李安南(PPT) 谢术富(PPT)

04

2009-09-18

李 哲(PPT) 阚美娜(PPT)

05

2009-09-25

项 翔(PPT) 路 亮(PPT)

06

2009-10-16

翟德明(PPT) 都大龙(PPT)

07

2009-10-23

 (PPT)

08

2009-10-30

洪晓鹏(PPT) 蒋长征(PPT)任昊宇(PPT

09

2009-11-06

 (PPT)

10

2009-11-13

 (PPT)

11

2009-11-27

都大龙(PPT)  (PPT)

12

2009-12-04

韩 琥(Video PPT)

13

2009-12-11

吉娜烨(PPT)

 

   

093

   

翟德明

报告时间

2009.7.24

文章信息

Fei Wang, Xin Wang and Tao Li, "Beyond the Graphs: Semi-parametric Semi-supervised Discriminant Analysis", CVPR 2009

资料下载

文章     PPT    

文章摘要

n       线性判别分析(LDA)是一种流行的特征提取方法,在计算机视觉和模式识别领域中激发了相当多研究者的兴趣。LDA的投影向量通常是通过最大化数据集的类间散度同时最小化类内散度来获得的。然而,在实际中,通常缺乏足够多的有标注数据,这就使得对我们所估计的投影方向不准确。

n       为了解决上面的限制,在这篇文章中,我们提出了一种新的半监督判别分析方法。与传统的基于图的方法不同,我们所提出的方法将有标注数据和未标注数据之间的几何分布信息通过半参数化的形式加入进来。

n       具体的,最终所获得的判别投影包含两部分:判别的部分(在有标注数据上利用传统LDA或是KDA);保持几何结构的部分(在所有样本点上通过 KPCA学习得到)。因此,我们命名我们的算法版参数化的半监督判别分析(SSDA)。在人脸识别和图像任务上的实验结果表明了我们方法的有效性。

简单评述

 

问题汇总

 

 

   

092

   

翟艺涛

报告时间

2009.7.10

文章信息

Shuicheng Yan and Huan Wang, "Semi-supervised Learning by Sparse Representation", SDM 2009

资料下载

文章     PPT    

文章摘要

n       本文中,我们提出了一种基于L1 Graph的半监督学习框架。L1 Graph 受启发与每个样本可以通过训练数据的稀疏线性加和进行重建。通过一个求解L1优化问题,可以得到稀疏重建的系数,然后利用这些系数作为L1 Graph的边的权重。

n       传统的构造图的方法包含两个独立的步骤:确定边是否邻接;计算边的权重。L1 Graph将这两个步骤合并进行,而且构造L1 Graph的过程是与参数无关的。

n       受启发与稀疏表示在人脸识别领域的成功应用,我们提出了基于L1-Graph的半监督学习框架。在半监督人脸识别与图像分类上的大量实验证明了我们的L1-Graph框架的优越性。

简单评述

 

问题汇总

 

 

   

091

   

王丹

报告时间

2009.6.24

文章信息

Zhuowen Tu and Song-Chun Zhu, "Image segmentation by data driven Markov chain Monte Carlo", PAMI 2002

资料下载

文章     PPT    

文章摘要

n       本文提出了一种Bayesian统计框架下,数据驱动的马尔科夫链蒙特卡罗(DDMCMCData-driven Markov Chain Monte Carlo)范式用以图像分割。本文在图像分割上的贡献分四个方面。

n       首先,设计了一种有效、平衡的Markov动态链以研究复杂的解空间,并因此求得不依赖初始分割的近似全局最优解。

n       第二,提出了一个数学定理和K-adventurers算法以从Markov序列计算多重distinct解。因此,它结合了图像分割的内在歧义性。

n       第三,利用聚类、边缘检测等数据驱动(自底向上)技术计算重要性概率,从而驱动Markov链动态变化,比传统的方法有极大的速度提升。

n       第四,DDMCMC范式为很多已提出的分割算法的应用提供了统一的框架,边缘检测、聚类、区域生长等在该框架下或用以实现Markov链动态变化,或用以计算重要性概率,各有所用。因此,DDMCMC范式在一定的规则下,结合并推广了这些分割方法。

n       DDMCMC范式采用了7个参数和非参数图像模型对各种区域的灰度和彩色建模。我们在灰度和彩色图像上对DDMCMC进行实验,并在文章中报告了一些结果。

简单评述

 

问题汇总

 

 

   

090

   

蒋长征

报告时间

2009.6.19

文章信息

Ming Yang, Zhimin Fan, Jialue Fan and Ying Wu, "Tracking Non-stationary Visual Appearances by Data-driven Adaptation", TIP 2009

资料下载

文章     PPT    

文章摘要

n       在视觉跟踪中,在对目标没有任何先验时,表观通常是唯一可获取的线索。但是,总体上,表观通常是不稳定的,从而会破坏原本定义的视觉度量并导致跟踪失败。

n       一个很自然的解决方案就是使观测模型适应不稳定的表观。然而,这个方案因为其内在的病态本质会产生适应性漂移,除非能加上好的数据驱动约束。

n       不同于大多数现存的适应性方案,我们强化了三种新的约束:

n        1)反例数据

n        2)自底向上的成对的数据约束

n        3)适应性的动态约束

n       本文将一般的适应性问题实质化为一种子空间的适应性问题,提出了一种闭合的解决方案和一种可行的迭代算法。

n       大量实验证明这种方案可以很大程度上缓和适应性的漂移,在大量不稳定表观的应用场景中获得了更好的跟踪结果。

简单评述

 

问题汇总

 

 

   

089

   

缑丹

报告时间

2009.6.12

文章信息

Pawan Sinha, Benjamin Balas, Yuri Ostrovsky, Richard Russell, "Face Recognition by Humans: Nineteen Results All Computer Vision Researchers Should Know About", Proceedings of the IEEE 2006

资料下载

文章     PPT    

文章摘要

n       计算机视觉一个重要的目标是要制造出一个自动的人脸识别系统,使得它的性能可以与人类的能力媲美,甚至超越人类。

n       为了达到这个目标,对于计算机视觉的研究者们而言,了解那些通过对人类识别能力进行实验分析所得到的关键结论非常重要。这些结论揭示了人类视觉系统的出色性能所依赖的机制,并为人工系统超越人类的能力提供了基础条件。

n       在这篇文章中,我们给出了我们所认为最基本的19个结论,以及它们对设计智能系统的影响。

n       我们对每一个结论都进行了简短的陈述,并提供了适当的提示,以便人们对任意一个结论进行进一步的研究。

简单评述

 

问题汇总

 

 

   

088

   

杨涛

报告时间

2009.6.5

文章信息

Dashan Gao, Nuno Vasconcelos, "Decision-Theoretic Saliency: Computational Principles,Biological Plausibility, and Implications for Neurophysiology and Psychophysics", Neural Computation 2009

资料下载

文章     PPT    

文章摘要

n       视觉场景中给定位置处的视觉特征显著性定义成这些特征的判别能力。将显著性检测看成一个判别过程。

n       对于自底向上的显著性,判别能力根据信息理论定义。最优显著性检测器从一类视觉刺激导出,这些视觉刺激符合已知自然图像的统计特性。

n       结果显示,在检测器由线性滤波器驱动的假设下,最优检测器跟标准的V1(初级视皮层)结构一致。并且这种检测器能反应心理物理学的基本性质:刺激跳出,显著性非对称,韦伯定律。

简单评述

 

问题汇总

 

 

   

087

   

任昊宇

报告时间

2009.5.22

文章信息

Christian Wojek, Stefan Walk and Bernt Schiele, "Multi-Cue Onboard Pedestrian Detection", CVPR 2009

资料下载

文章     PPT    

文章摘要

n       本文在使用扫描窗口策略的情况下,系统性地评测了不同特征与不同分类器的组合的人体检测系统的性能;

n       引入动作信息会显著提升人体检测系统的性能,同时不同类型特征组合也会带来一定程度的性能提升;

n       我们在4个不同的数据集上做了大量实验,实验表明特征-分类器组合的选择对于检测性能至关重要.

简单评述

 

问题汇总

 

 

   

086

   

路亮

报告时间

2009.5.8

文章信息

David Cristinacce, Tim Cootes, "Automatic feature localization with constrained local models", PR 2008

资料下载

文章     PPT    

文章摘要

n       我们提出了一种高效鲁棒的特征点定位方法。通过训练集我们可以构建一个每个特征点表观及其相应位置的联合模型。

n       本文中采用的表观模型与Cootes提出的AAM方法类似,不同之处在于,本文的方法中表观模型用于生成特征模板,而非直接去近似原图像中的像素。

n       通过实验证明了本文的Constrained Local Model (CLM)方法比AAM更为鲁棒和精确,同时证明了该方法在tracking时的性能提升。

简单评述

 

问题汇总

 

 

   

085

   

阚美娜

报告时间

2009.4.24

文章信息

Xudong Jiang, Bappaditya Mandal, and Alex Kot,"Eigenfeature Regularization and Extraction in Face Recognition", PAMI 2008

资料下载

文章     PPT    

文章摘要

n       本文提出了一种从人脸图像中提取和正则化本征特征的子空间方法。

n       类内散度矩阵的特征空间被分解为三个子空间:主要由面部变化张成的可靠的子空间,由噪声和有限样本导致的不稳定子空间,以及零空间。

n       基于特征谱模型,分别在这三个子空间中对本征特征进行不同的正则化,从而减轻了不稳定、过拟合、推广能力差的问题。也使得判别估计在整个空间进行。特征提取和降维只是在最后一个阶段进行,而这是判别估计之后的。这些工作使得人脸图像的判别性的、稳定的低维特征表示更加容易了。

n       实验在FERETORLARGT数据集上比较了提出的方法和其他流行的子空间方法,表明我们的方法一致的优于其他方法。

简单评述

 

问题汇总

 

 

   

084

   

索津莉

报告时间

2009.4.16

文章信息

Nikos Komodakis, Georgios Tziritas, "Image Completion Using Efficient Belief Propagation via Priority Scheduling and Dynamic Pruning", TIP 2007

资料下载

文章     PPT    

文章摘要

n       本文提出一个基于样例的图像编辑框架,将图像补齐,纹理合成和inpainting统一进行处理。

n       为了避免图像编辑结果整理视觉效果不一致的现象,文中将图像编辑形式化为一个离散的全局优化问题。优化目标函数对应于离散马尔可夫随机场(MRF)的能量。

n       为了有效地优化该马尔可夫随机场,作者将传统的信念传播(BP)算法进行了两点改进:基于优先级的消息调度和动态标号约减。这两点改进极大地缩短了传统的BP算法中的计算时间。

n       该算法对多种输入图像的处理结果都证明了该框架对于图像补齐,纹理合成以及inpainting的有效性。

简单评述

 

问题汇总

 

 

   

083

   

谢术富

报告时间

2009.4.9

文章信息

Dacheng Tao, Xuelong Li, Xindong Wu, and Stephen J.Maybank, "Geometric Mean for Subspace Selection", PAMI 2009

资料下载

文章     PPT    

文章摘要

n       子空间选择方法是模式分类和数据可视化的有力工具.一种最重要的子空间方法是Fisher线性判别分析(FLDA)中的线性降维.它已经被成功应用到许多领域中,如生物学,生物信息学和多媒体信息管理.

n       然而,FLDA中的线性降维存在一个严重的缺点:对于c类的分类任务,如果投影子空间的维数严格地低于c-1,那么,投影将易于合并那些在原始空间中距离比较近的类别.如果各类样本采样自具有同方差的高斯分布, FLDA中的线性降维将最大化不同类别之间KL散度的平均值.

n       基于这一点,本文研究了基于几何均值的子空间选择.本文分析了三条准则: 1) 最大化KL散度的平均值. 2) 最大化归一化KL散度的平均值. 3) 1)2)的组合.

n       基于合成数据UCI机器学习库和手写字体的初步实验结果表明, 3条准则是一种潜在的判别子空间选择方法.FLDA以及它的几种典型性的扩展相比, 它能够较大程度上解决类可分问题.

简单评述

 

问题汇总

 

 

   

082

   

王瑞平

报告时间

2009.4.2

文章信息

Dong Xu, and Shih-Fu Chang, "Video Event Recognition Using Kernel Methods with Multilevel Temporal Alignment", PAMI 2008

资料下载

文章     PPT    

文章摘要

n       本文系统研究新闻视频序列中的事件识别问题。作者采用了基于核学习的判别式方法(SVM),在该方法中视频片段的相似性度量发挥了很大作用。

n       首先,将一个视频片段表示为一组无序描述子,这些描述子通过视频片段中的每一帧提取得到。然后,采用EMD距离融合两段视频各帧之间的相似度。

n       注意到,一个视频片段通常由对应于事件演化进程的多个子片断构成,作者进一步建立多层时序层级。针对每一级,作者利用带整数约束的EMD距离(Integer-value-constrained EMD),将来自不同子片断的信息进行融合,从而显式地对齐这些子片断。通过融合不同层级的信息,作者提出了“时序对齐层级匹配”(TAPM)方法来度量视频片段的相似性。

n       作者在TRECVID 2005数据库上进行了深入的实验,该数据库包含6800多段视频。实验结果表明:(1) 本文提出的层级匹配方法(TAPM)明显优于单层的EMD匹配(SLEMD)(2) SLEMD方法也远远优于传统的基于单关键帧/多关键帧的方法。

n       此外,作者进行了深入的实验来考察算法的不同方面,包括:SLEMD方法中权重的选择,算法对时序聚类方法的敏感度,时序对齐策略的效果,以及可能的算法加速方案。对实验结果的深入分析进一步表明了通过多层子片断对齐来描述视频事件的直观性。

简单评述

 

问题汇总

 

 

   

081

   

李安南

报告时间

2009.3.19

文章信息

Simon J.D. Prince, James H. Elder, Jonathan Warrell and Fatima M. Felisberti, "Tied Factor Analysis for Face Recognition across Large Pose Differences", PAMI 2008

资料下载

文章     PPT    

文章摘要

n       当注册图像和测试图像的姿态不一致的时候,人脸识别算法变得不可靠,这是因为对于典型的特征向量由于姿态导致的变化大于由身份不同带来的变化。

n       我们提出一种可以将理想中的“身份”空间一对多的映射到观察到数据空间的产生式模型。在“身份”空间中个体并不随姿态变化而变化。在高斯噪声条件下,特征向量可以认为是由“身份”变量通过“姿态可选"的线性变换投影所得到的。我们称这一模型为“联结的”因子分析。线性变换(因子)的选择依赖于姿态,但对于某个特定的人所载荷(loadings)(身份信息)是不变的(联结的)

n       我们使用期望最大化(EM)算法从训练数据中估计线性变换和噪声的参数。我们提出一种允许获取可能的匹配的完整的后验的概率距离度量。

n       我们引入了一种新的特征提取过程并使用FERET,XM2VTSPIE数据库验证识别性能。识别性能和目前的方法相比显得很""

简单评述

 

问题汇总

 

 

   

080

   

韩琥

报告时间

2009.3.5

文章信息

Hyunjung Kate Shim, Jiebo Luo, and Tsuhan Chen, "A Subspace Model-Based Approach to Face Relighting Under Unknown Lighting and Poses", TIP 2008

资料下载

文章     PPT    

文章摘要

n       我们提出了一种在最少输入图像可以为一幅图像的条件下,对人脸图像进行relighting的新方法,该方法能同时估计出光照,姿态和反射函数。基于这些估计结果,我们可以合成任意指定光照下的人脸图像。

n       不同于传统的直接使用人脸形状模型或依赖于人脸形状模型的方法,我们的方法既没有对人脸的三维形状做假设,也没有试图恢复人脸的三维形状。而是在PIEExtYaleB人脸库上,训练了一个依赖于姿态和每个像素的反射函数的子空间模型。

n       利用这个子空间模型,我们可以估计任意人脸图像的光照,姿态和反射函数。该方法具有处理非朗伯反射,胡须以及重现面部阴影的优点,从而保证了该方法的实用性。

n       大量的实验表明,与目前具有代表性的relighting方法相比,在图像主观和客观质量评价方面,我们的方法都能得到更好的结果,并且不需要恢复人脸的三维形状。

简单评述

 

问题汇总

 

 

   

079

   

王琳

报告时间

2009.2.26

文章信息

Siying Liu, Guo Dong, Chye Hwang Yan, Sim Heng Ong, "Video Segmentation: Propagation, Validation and Aggregation of a Preceding Graph", CVPR 2008

资料下载

文章     PPT    

文章摘要

n       视频分割是一种帧内图像的聚类方法,这种方法可以利用时域上的帧间一致性信息来改善分割效果。

n       传统的视频分割方法只是简单地将像素点的运动看成MRF-MAP工作框架下的一个先验信息。对每帧图像来说,像素聚类不能高效的完成,帧间的相关性信息没能充分的利用起来。

n       在本文中,我们利用了帧间的时空局部一致性信息,从前一帧分割图像中来传播可信度大的聚类结果。对前一帧已经标定的图,我们把它传播到当前帧,并且通过相似性措施来验证这个分割结果,所有没有标定的子图都会在空间上做一次最后的聚合从而来得到我们最终的分割结果。

n       实验结果表明我们的方法对时空分割是非常高效的,它充分利用时间上的相关性信息,产生了令人满意的聚类结果。

简单评述

 

问题汇总

 

 

   

078

   

郑伟

报告时间

2009.2.19

文章信息

Matthew B. Blaschko and Christoph H. Lampert, "Learning to Localize Objects with Structured Output Regression", ECCV 2008

资料下载

文章     PPT    

文章摘要

n       窗口扫描分类器是物体检测方法中最成功、应用最广泛的技术。但是训练的过程都不是针对一个检测任务进行的。首先,利用正例和反例训练一个两类分类器,然后这个分类器被顺序的应用在测试图片的多个区域。

n       我们提出一种把物体检测看作是预测结构化数据的问题(a problem of predicting structured data):我们不是用两类分类器来建模这个问题,而是预测物体边界框在图像中的位置。本文利用了一个联合核的框架允许我们把训练的过程形式化成一个广义的SVM,并且可以高效的求解。

n       我们进一步利用brand-and-bound策略同时提高训练和检测的效率。PASCAL VOCTUD数据库上的测试显示结构化的训练过程改进了两类训练过程的性能,并且超过了以前报告的最好的结果。

简单评述

 

问题汇总

 

 

   

077

   

马志国

报告时间

2009.2.12

文章信息

Ying Nian Wu, ZhangZhang Si, Haifeng Gong, and Song-Chun Zhu, "Active Basis for Modelling, Learning and Recognizing Deformable Templates", IJCV,to appear

资料下载

文章     PPT    

文章摘要

n       本文提出一种主动基模型、共同勾画算法、局部求和及局部求极值的计算架构用于表示、学习、识别可变形模板。

n       在我们的产生式模型中,可变形模板由主动基的形式表示,主动基是一系列特定位置和方向的Gabor小波基。这些小波基可以在位置和方向上进行扰动,通过线性组合表示观察图像。

n       主动基模型中的基元位置和方向从训练图像中利用共同勾画算法学习到。算法从拥有稠密的位置和方向的Gabor小波字典中顺序地选择主动基的基元。当一个基元被选中,这个基元为所有训练图像共享,同时基元会被扰动用来编码(勾画)每个训练图像中的基元附近的边缘片断。

n       图像中可变形模板的识别通过交替的求和图及最值图计算框架实现。最值图的计算将主动基变形来匹配图像数据,求和图的计算则使用变形后的主动基的对数似然对模板匹配进行打分。

简单评述

 

问题汇总

 

 

   

076

   

翟德明

报告时间

2009.1.8

文章信息

Stella X. Yu and Jianbo Shi, "Segmentation Given Partial Grouping Constraints", PAMI2004

资料下载

文章     PPT    

文章摘要

n       图像分割问题可以视为图像中数据点的聚类问题。在这篇文章中,我们要解决在已知部分聚类约束作为先验知识的情况下的数据聚类问题。这种有倾向性的聚类可以形式化为一种有约束的最优化问题,其中数据的结构特性定义了聚类方式,而部分聚类约束线索定义了聚类方式的可行性。

n       我们在有标号的数据点上加入平滑性(smoothness)和公平性(fairness)约束,目的是使稀疏的部分聚类信息更有效的传递到未标注数据上。实际采用NCut的准则函数,我们的形式化描述就变成一种带有约束的特征值求解问题。

n       根据Rayleigh-Ritz理论及投影矩阵的性质,通过特征分解,我们找到无约束连续域上的全局最优解。根据这个最优值,可以有效的求得离散标注问题中的近似全局最优解。

n       我们把提出的方法应用到实际的图像分割问题中,在这里部分聚类的约束先验通常可以来源一种粗糙的空域注意力图(spatial attentional map),这种注意力图能够确定具有共同的显著性特征的位置或者期望的物体位置。文章证明了我们的方法能够把图像结构和先验知识融合到单一的聚类过程中,还证明了在没有明确的目标知识的情况下,目标也可以从背景中被分割出来。

简单评述

 

问题汇总

 

 

下表为空表,作为示例用(勿删除)

   

000

   

 

报告时间

 

文章信息

 

资料下载

  文章    PPT

文章摘要

原文摘要的准确中文 翻译,由讲者负责完成

 

 

 

 

简单评述

讲者完成

 

 

 

问题汇总
主持人完成