arXiv让双盲评审形同虚设，刷分把研究机械暴力化(2)

2017-05-23 编辑：

　　这稍微有些不同。期刊评议是单盲，评审人知道作者，作者不知道评审人是谁，因此上传到arXiv也不会有多大的影响。因为期刊论文评议可以有评议完成之后大修和小修的周期。相比之下，学术会议采用双盲同行评议，评审人和作者彼此都不知道谁是谁，尽管现在很多会议也有作者答辩评审这一环节，会议论文评审结果从本质上来讲还是“一锤子买卖”，因此评议也会更为凌厉直接。关于arXiv，我最主要的意见是，由于论文上传以后作者姓名是公开的，这样很多会议如CVPR双盲评审形同虚设。2015年，德国马克思普朗克研究所的Michael Black教授（他也在布朗大学任职多年）曾经提出动议并被PAMI-TC通过——凡是和媒体讨论过并进行过宣传的论文一律该被CVPR给拒绝掉，因为这直接影响了双盲的同行评议公正性，为评议过程带来了不必要的额外的偏差(bias)。（参见http://www.cv-foundation.org/CVPR2015/tc_meeting_060915_presentation.pdf）

　　成为CVPR 2019程序主席：进一步展现华人工作，预期3个方向近两年会有发展

　　您是CVPR 2019的程序主席（Program Chair），您和bidding团队拿下CVPR 2019主办权的原因是什么？作为CVPR 2019程序主席，您对会议有什么规划？

　　实际上CVPR、ICCV的管理是通过一个松散的，非常民主化的学术组织，叫做PAMI-TC（Technical Committee on Pattern Analysis and Machine Intelligence）的委员会完成的。要做会议的主办方，需要在当年会议开始前提前一个月申报去申请三年后的举办权，PAMI-TC组委会的成员现在通过网络投票（早年就是开会现场大家举手投票，有很多有趣的故事），多的时候会有3到4个团队在争取。申请2019年CVPR的主办权的是我们团队和另一个团队，我们能够拿下的原因主要有3点：第一是团队强，我们的团队成员里有很多知名、资深的学术代表；第二是我们充分考虑到了多样性，不仅有领域非常资深的研究员，也有领域里面在职业中期的中坚力量，和不少学术新星。有来自各大洲的代表，也有很多女性成员；第三则是我们有为领域服务好的责任心，并制定了周详的组织计划，提前预计到很多可能出现的困难以及解决方案。举例来说，2003年是我第一次参加CVPR，那时候的参会人数大约是900，到2016年时CVPR的参会人数已经达到3000人了。我们估计到CVPR 2019，参会人数有5000人的规模，因此特地选择了美国长滩的会馆，能够容纳下这么多人。

　　还有一点，在各个学术会议中，CVPR的参会注册费实际上是最低的，学生注册费大体上在300美元左右，研究员则在600~700美元的样子——其他学术会议这个价格都会上千。因为洛杉矶地区的餐饮相对便宜，我们团队预计在CVPR 2019能够覆盖参会者的餐费，也就是可以免费的提供早中晚餐给参会者提供。因此，从组织团队成员背景、多样性以及办会地点实际情况调研等多个方面，我们都做了周全的考虑，这就是我们获得主办权的原因。大家可以参看我们争取CVPR 2019举办权的报告(http://www.cv-foundation.org/CVPR2019/Long_Beach_for_CVPR19.pdf)。

　　当然，我们能够得到主办权也离不开华人学生、学者的支持。如今，参加CVPR的华人学生、学者实际上已经超过总人数的50%。但是，在各个主席职位，比如领域主席（area chair）、程序主席（program chair），还有大会主席（general chair）这些位置上，华人学者并不多，至少从参会人数应有的比例上看是远远不够的。我们主办CVPR 2019，其中一点也是希望进一步提高和展现华人的工作和领导能力。

　　至于在CVPR 2019特别想做的，就是为大家呈现一个优秀的，让大家满意的计算机视觉的学术盛会，期望看到更多新思维、新方法以及新老方法的相互融合。著名法国学者Nikos Paragios，《计算机视觉与图像理解》期刊（Computer Vision and Image Understanding Journal，CVIU）的主编（华刚博士是CVIU的编委），他在LinkedIn上写了一篇文章，我印象很深。Paragios在文中提到，以前的计算机视觉是很包容的，会议上能看到各种方法，比如统计、几何、代数……都有，氛围十分活跃，参加这样一次会议，能得到计算机视觉技术的现状、问题及发展比较综合的理解。但是，深度学习出现以后，大有一统天下之势，这不一定是好事。其中，也包括有些好的想法被深度学习这一波浪潮所淹没。

　　您是指这样的情况吗——有论文提出了新的想法，但由于种种原因结果并不出彩，或者在现有条件下论证还没那么充分；而使用深度学习方法的论文做出的效果很好，或者在各项基准测试都取得了当前最好的结果，于是，后者被接收，而前者被拒绝了？

　　这是其中一种。深度学习在计算及视觉领域这一波的浪潮是从2012年开始兴起的。那么2012年以后进入计算机视觉领域的学生，按照时间来讲，今年正好是博士毕业。这一批人会慢慢成为会议审稿的主要力量，由于接受的训练主要以深度学习为主，就可能会进一步产生这种倾向。这类审稿人对问题理解的深度，还有思维模式（mindset）需要重塑。现在我们对深度学习的局限性也有了更全面的认识，这也是为什么我说要多看10年、20年前论文的原因。

　　您对计算机视觉技术未来2年的发展有什么预期——作为CVPR 2019的程序主席，您需要掌握领域的总体发展趋势，深度学习、神经网络还会继续盛行吗？您认为什么技术和研究方向会成为届时的热点？什么新技术会崛起？什么现在尚未解决的问题到时候有可能被攻克？

　　这个问题提得很好。就像我以前说过的一样，研究的英文是“Research”，也就是“Re-Search”——再搜索。有时候，完全脱离领域历史沿革的全新（brand-new）技术的出现是很少的。任何新的研究工作和思想，或多或少都会受到前人的工作和思想的影响。就如牛顿说的，“我比别人看到更远，是因为我站在巨人的肩膀上”。我想一个健康的研究领域，更多还是要一种多样性的融合，共同推动领域发展，比如将深度学习和以前的方法相结合，所谓“老树开新花”。什么技术或方向会成为热点？谈一个我个人感兴趣的方向吧：知识描述、知识表征，也就是用语言的方式将视觉内容表征出来，成为知识的一种载体，来更好的解决计算机视觉的问题。就好比人类使用语言可以传递信息和知识，只有有了对知识的表征，智能体相互之间才能沟通学习。不过，要完成这个项目，两年的时间估计不够（笑）。

　　宽泛一些来说，我认为以下3个方面在接下来两年会有所发展：

一是基于图像、视频建模的无监督学习；

二是基于任务的视觉建模机制；

三是基于知识和小样本学习进行视觉建模。