arXiv让双盲评审形同虚设，刷分把研究机械暴力化(5)

2017-05-23 编辑：

　　从商业的角度看，在亚洲做人脸识别整体而言是有优势的，主要是公众对个人隐私的关切度相比之下没有那么高。实际上，美国政府早在30多年前就开始了人脸识别项目，联合了政府、高校、研究所等众多机构的力量。然而，这么多年的投入，在民用领域的应用并没有特别多——在美国，人脸识别主要还是用于国土安防和反恐等政府应用。在中国，人脸识别的民间应用渗透度很高，前段时间不是有新闻提到，北京天坛公园卫生间里安装了人脸识别系统限制固定时间内用户取纸的数量么？，抛开别的不谈，我认为这可是一个巨大的商机（笑）。

　　至于单个公司是否能赚钱，实际上当前人脸识别的技术门槛并不高，这样技术壁垒就很难建立起来。单纯通过增加训练数据和加深网络深度已经对进一步解决人脸识别这个问题和进一步的商业应用并不能提供更多的帮助。即便有技术基础的公司，如果没有找到合适的商业应用场景，没把握住市场发展的趋势，那么碰到困难的可能性也很大。

　　不过，作为一个研究领域，计算机视觉正处于上升趋势，在研究领域一年后应该会继续蓬勃发展。无论在中美，政府部门对这个研究领域的投入也在加强，例如美国政府IARPA的JANUS计划，这是美国政府最近资助的无限制条件式人脸识别的研究。Facebook在2014年时首次推出了DeepFace，那是他们结合从2006年就开始做的让他们的用户在自己的在线相册里面标注他们的朋友，这么多年积累下来的一个人脸数据库——当然，在2014年时他们的技术并不完美，但DeepFace无疑将整个人脸识别往前推进了一大步。2007年，我开始在微软做人脸识别的研究并在2008年创立并奠基了微软的第一个完整的人脸识别引擎，现在已经持续发展并整合成为微软智能云平台认知服务里的Face API。

　　从您的专业角度看，这几年的CV发展趋势是怎么样的，近5年，近10年，近30年？您对未来3~5年计算机视觉领域的发展有什么期望吗？

　　这是一个很大的问题。计算机视觉作为一门科学最早于1955年提出。真正意义上现代计算机视觉的研究实际上是从20世纪70年代年末80年代初开始的。美国政府DARPA当时设立了一个图像理解研究项目（DARPA Image Understanding Research Program），早期很多计算机视觉研究者都接受并得益于DARPA的资助。当时DARPA的Image Understanding Workshop也是早年计算机视觉研究从业人员的一个主要平台。可以说是DARPA的这个图像理解研究项目奠定了现代计算机视觉研究的基础。随后第一届CVPR在1983年举办，ICCV则是1987年，为全世界的计算机视觉研究者提供了更大的交流舞台。

　　计算机视觉实际上是一门涵盖很广的学科，主要分为4个层次的任务：①图像获取，比如各种成像方法，怎么制作摄像头获取图像，包括红外摄像头、深度摄像头；②图像处理，这也是通常所说的低级视觉的问题，主要在像素级上进行处理，比如图像变换、滤波；③图像分析，这算是中级视觉的问题，通过分割和特征提取，将像素图像描述转变为比较简洁的描述，常见的纹理分析、运动、分割、3D视频，都属于这类；最后是④图像理解，也是通常所说的高级视觉的问题，包括物体识别，行为识别，和语义分割等等。

　　一直以来，计算机视觉研究者都致力于从下往上打通这套系统（pipeline）。过去10年，大部分研究集中在物体识别（object recognition），主要的方法是统计机器学习的方法和大规模图像数据库的结合。虽然我不喜欢用“热门”这个词，但过去5年，深度学习确实很热门，在ImageNet图像数据库也取得了很好的成果。不过，计算机视觉有过很多种“流行”方法：2001年到2007年，Boosting和SVM是最受欢迎的方法；2007年到2012年则是基于稀疏表征的识别；2012年以后，深度学习的潜力被充分发挥出来。这些其实都属于统计机器学习、统计模式识别的方法。作为计算机视觉研究者，我不希望大家一提到“计算机视觉”就只想到“图像分类”。这些年，计算机视觉的每个领域都在向前发展，比如微软的Kinect Camera，能在成像过程中自动获取像素的景深。希望大家综合了解整个领域的发展，不要把计算机视觉的研究机械化成为是机器学习的一个简单应用。我不觉得单纯增加数据库或神经网络层数是解决高级视觉问题的正确途径。任何方法，必须要结合计算机视觉的领域知识（domain knowledge），充分利用图像，视频数据本身的特性，才能在计算机视觉研究方面取得真正的进展。

　　至于未来的发展，这并不好“预测”。我个人的观点，图像理解仍然会是近期关注的热点。再长远一些，计算机视觉实际上是人工智能的一个分支。早些年，计算机视觉也好、自然语言处理也好，大家都是投稿到AAAI。经过一段时间的发展，各个分领域都有了各自的会议，比如计算机视觉有了CVPR、ICCV，自然语言处理有了ACL……俗话说“天下大事合久必分，分久必合”，我相信未来语音、视觉、包括自然语言等再度融合的可能性很高。因为如果我们的目标是要做一个AI系统，它必定是多模态的，多个层面多种模块的结合。所以，在CVPR未来我们可能看到AI子领域相互融合，或者说朝着通用AI这个方向的研究会越来越多。

　　华刚博士的研究重点是计算机视觉、模式识别、机器学习，人工智能和机器人，以及相关技术在云和移动智能领域的创新应用。他是通过对语境建模使用弱监督或者无监督方法解决无限制环境下计算机视觉问题的倡导者，其研究在学术界和工业界都产生了广泛的影响。华刚博士在2008年创立和奠基了微软的人脸识别引擎，现在已发展成为微软认知服务（Cognitive Services）中的人脸识别应用程序接口（Face API）。

　　在学术方面，华刚博士已在国际顶级会议和期刊上发表了130多篇同行评议论文。他将担任CVPR 2019的程序主席，以及CVPR 2017和ACM MM 2017的领域主席。不仅如此，华刚还担任过CVPR 2015、ICCV 2011、ACM MM 2011/ 2012/ 2015、ICIP 2012/ 2013/ 2015、ICASSP 2012/ 2013等十多个顶级学术会议的领域主席，以及IEEE Trans. on Image Processing（2010-2014）的编委。目前，华刚博士还担任着IEEE Trans. on Image Processing、IEEE Trans. on Circuits Systems and Video Technologies、IEEE Multimedia、CVIU、MVA和VCJ的编委。