Paper研习社每日精选论文推荐1230

Hi 欢迎来到Paper 研习社每日精选栏目,Paper 研习社(paper.yanxishe.com)每天都为你精选关于人工智能的前沿学术论文供你参考,以下是今日的精选内容——

 基于深度度量学习的可扩展细粒度生成图像分类

推荐理由:这篇论文要解决的是城市水系信息提取的问题。

 十亿种方式:基于密集的,基于物理的抓取数据集的抓取采样方案的评估

作者的实验表明,一些流行的采样方案包含很大的偏差,并且没有涵盖可以抓住物体的所有可能方式。

景俊海还表示,要抢抓5G规模商用契机,加快布局5G网络通信基础设施。大力发展新一代信息技术、高端装备、数字创意、影视制作等新兴产业,通过云计算、大数据、物联网、人工智能推动传统产业改造提升、城市智慧优化升级,培育新业态新模式新经济,促进数字产业化、产业数字化。

 改进的混合示例数据增强

 Mixup推论:更好地利用Mixup来防御对抗性攻击

科技人员在研发卫星。(资料图)长光卫星技术有限公司供图

城市水系对于城市生态而言至关重要。使用远程感知数据的精准高效水系检测对城市规划与管理有着显著作用。这篇论文提出了一种新方法来结合谷歌地球引擎和多粒度卷积神经网络,通过离线训练与预测的方式,从陆地卫星图像中抽取城市水系信息。

这是一篇深度学习应用于水利行业的应用,可以启发更多计算机技术在其他领域应用的研究。

推荐理由:机器人抓取通常被公式化为学习问题。随着物理仿真速度和质量的提高,生成用于学习算法的大规模抓取数据集变得越来越流行。一个经常被忽略的问题是如何生成构成这些数据集的掌握信息。

作者发现使用大量的元训练类,即使对于大量的测试类,也能获得极高的准确率。作者不提倡他们的方法作为小样本学习的解决方案,而只是使用结果突出显示当前基准和小样本学习的局限性。作者对基准数据集进行了广泛的研究,以提出量化测试集“硬度”的指标。此度量标准可用于以更系统的方式说明小样本学习算法的性能。

贺雄介绍说,聚集性疫情是指,14天内在一个家庭、一个工地、一个单位等小范围内发现2例及以上的病例,且存在因密切接触导致的人际传播的可能性,或因共同暴露而感染的可能性。聚集性活动是导致聚集性疫情的主要因素,聚集性疫情防控是目前北京市疫情防控的重点和难点。(完)

但是,仅从成对的NL和预期的执行结果中学习了弱监督的语义解析器,从而使MR变得很隐蔽。虽然薄弱的监督成本较低,但是从这些投入中学习仍然很困难。它要求解析器以非常弱的学习信号搜索较大的空间,并且很难避免以错误的方式获得正确答案的虚假MR。这些因素导致在弱监督和全监督环境下训练的解析器之间的性能差距。

为了进行评估,作者表明,与FID和IS不同,实验的错误检测可以作为单个图像的质量指标。作者利用改进的Wasserstein,BigGAN和StyleGAN来显示基于本文的指标的排名与FID分数有着显着的相关性。

推荐理由:对经过标准交叉熵损失训练的深度网络进行微调是进行小样本学习的一个强基准。如果对它们进行传导性微调,它的性能将优于标准数据集(如Mini-Imagenet,Tiered-Imagenet,CIFAR-FS和FC-100)中具有相同超参数的最新技术。

作者的工作为更好地了解GAN以及从GAN模型中选择最佳样本的能力打开了大门。

推荐理由:语义解析器将来自用户的自然语言命令(NL)映射到可执行的含义表示(MR),然后在特定环境中执行这些以获得所需的结果。对此类解析器的全监督培训需要NL / MR对,并由领域专家进行注释,这使得收集它们的成本很高。

景俊海说,一批百亿级、千亿级项目签约或开工。

 结合深度学习和谷歌地球引擎提取城市水系

 基于多尺度生成器的基于草图的视觉属性人脸合成

2月2日,北京市卫生健康委员会、北京市疾病预防控制中心等部门联合举行新闻发布会,介绍新型冠状病毒感染的肺炎疫情防控工作,北京市西城区人民政府副区长、新闻发言人缪剑虹透露了以上信息。

推荐理由:为了减少过拟合,通常会使用数据增强来训练神经网络,这是通过现有训练实例的保留标签的变换人工生成额外训练数据来完成的。尽管这些类型的转换具有直觉上的意义,但最近的工作表明,即使是不保留标签的数据增强也很有效果,它通过实例对的线性组合实现数据扩充。尽管它们有效,但对于这种方法为何起作用知之甚少。

作者在CIFAR-10和CIFAR-100上的实验表明,MI可以进一步提高mixup及其变形训练的模型的对抗鲁棒性。

针对复兴医院出现的聚集性疫情,北京市疾控中心副主任贺雄介绍说,目前,北京市共报告聚集性病例41起,涉及病例124人,占确诊病例50%以上。聚集性发病的主要原因是家庭成员或同事中有湖北等地接触史,在病例确诊前与之接触,或作为确诊病例的密切接触者发病。

此外,作者增加了框架的可伸缩性,以应对不断涌现的新型生成图像,并通过微调使模型对新型生成数据获得更好的检测性能。

 检测GAN产生的错误

推荐理由:最近,生成的图像可以达到非常高的质量,即使人眼也无法分辨真实图像。尽管目前在法医界已经有一些检测生成图像的方法,但是这些方法大多数都用于检测生成图像的一种类型。生成的新型图像层出不穷,现有的检测方法无法很好地应对。这些问题促使作者提出了一种基于深度度量学习的可扩展的多类别分类框架,旨在对生成的图像进行更好的分类。

在训练过程中应用mixup,可以有效地提高泛化性能和模型的鲁棒性,在训练实例之间引入全局线性行为。然而,在以往的工作中,混合训练模型只是通过直接对输入进行分类,被动地防御对抗性攻击,而诱导的全局线性并没有得到很好的利用。也就是说,由于对抗扰动的局部性,通过模型预测的全局性主动打破局部性将更为有效。

在本文中,作者回顾,分类和比较了不同的抓取抽样策略。作者的评估基于SE(3)的细粒度离散化,并使用基于物理的模拟来评估相应的平行下颌抓握的质量和鲁棒性。具体来说,作者认为YCB数据集中的21个对象中的每个对象都拥有超过10亿个抓取。这个密集的数据集使作者可以评估现有的采样方案w.r.t. 他们的偏见和效率。

缪剑虹表示,经过初步调查,此次北京出现的聚集性病例,与个别医务人员受感染有关,具体原因进行流调和排查中。目前相关密接者正在集中观察。专家认为,总体可控。

相反,作者提出了一种新颖的方法来检测生成的图像中错误的位置。通过将实际图像与生成的图像进行比较,作者为每个像素计算其属于真实分布还是生成的分布。此外,作者利用注意力来建立远程依赖模型。这允许检测局部上合理但不是整体上的错误。

 小样本图像分类的基准

为了弥合这一差距,作者研究了弱监督与主动学习之间的交集,这使学习者可以主动选择示例并查询人工注释作为额外的监督,以改进在弱监督下训练的模型。本文研究了用于选择示例进行查询的各种主动学习启发式方法,以及针对此类查询的各种形式的额外监督。作者在两个不同的数据集上评估了其方法的有效性。WikiSQL上的实验表明,通过仅注释1.8%的示例,作者将最新的弱监督基线提高了6.4%,达到了79.0%的准确度,与经过训练的模型仅相距1.3%在充分监督下。在WikiTableQuestions上使用人工注释器进行的实验表明,作者的方法仅使用100个活动查询就可以提高性能,尤其是对于从冷启动中学到的弱监督解析器。

记者注意到,过去一年向吉林省集聚的知名企业中,科技创新类项目占据很高比重。

 看,读和感觉:用多模态多任务学习对广告的理解进行基准测试 Look, Read and Feel: Benchmarking Ads Understanding with Multimodal Multitask Learning 作者:Zhang Huaizheng /Luo Yong /Ai Qiming /Hou Nana /Wen Yonggang 发表时间:2019/12/21 论文链接:https://paper.yanxishe.com/review/7892 推荐理由:这篇论文要解决的是广告内容理解的问题。 由于广告行业的巨大市场和在线多媒体内容(如视频)的急剧增长,将广告与多媒体内容一起推广的方式逐渐流行起来。然而要为提供的内容找寻相应的广告将耗费大量人力,因此一些自动化的广告技术发展起来。为了进一步提升用户体验,理解广告的主题与情感是必要的。这篇论文的贡献在于提出了一种新的深度多模态多任务框架,来整合多个模态以获得目标广告的有效主题与情感,使得理解更容易。具体而言,所提模型首先从广告里抽取多模态信息并学习一个高层级和可比较的表示向量。广告的可视化元素在无监督的情况下解码,获得的特征随后被带入所提的分层多模态注意力模块中,用以学习为了作出最终预测而在特定任务下获得的表示向量。另外,这篇论文还设计了一个多任务损失函数来联合训练主题与情感预测模型。在最新与最大规模的广告数据集上的实验表明所提方法取得了最佳效果。

推荐理由:人们已经普遍认识到,对抗性的实例可以很容易地被用来愚弄深层网络,而深层网络的愚弄主要来源于输入实例附近的局部非线性行为。

这种方法的简单性使作者能够在Imagenet-21k数据集上演示最初的几次学习结果。

吉林省政协委员安春军提案建议推动科技人才队伍建设。“充分发挥我省拥有多所职业院校的基础优势,以重点产业、科研基地、院士工作站等为依托,加大急需研发人才和紧缺技术、管理人才以及高素质技能型人才的培养力度。

安春军还建议,鼓励企业采取院企合作、订单培养、委托培养等方式,培养一批本地技术创新型人才。(完)

谈及2020年,景俊海表示,要立足新兴产业,深化与重点企业合作,抢占高端市场。“加快建设浪潮数据产业基地、长春人工智能创新发展示范区、神州数码‘中国物联网之都’项目,并促进产业生态系统企业一并落户长春。”

推荐理由:尽管最新的GAN在生成超逼真的图像方面具有令人印象深刻的性能,但GAN鉴别器仍然难以评估单个生成样本的质量。这是因为评估所生成图像的质量的任务不同于确定图像是真实的还是伪造的。生成的图像可能很完美,除了在单个区域之外,但仍被检测为伪造的。

吉林省政协委员陈香林在其提交的提案中表示,把创新发展作为转化经济增长方式的核心动能,以科技创新带动产业结构调整,特别是创新驱动发展已经成为吉林未来一段时期内改革的核心任务。

 合并弱监督和主动监督以进行语义解析

在这项工作中,作者旨在探索这种类型的数据增强的一种新的更通用的形式,以确定这种线性是否必要。通过考虑“混合实例数据增强”的更广泛范围,作者发现了实用增强技术的更大空间,其中包括对现有技术进行改进的方法。这种概括所带来的好处超出了提高性能的希望,它揭示了许多混合实例数据增强类型,这些类型与先前工作中所考虑的完全不同,这提供了证据表明此类方法有效性的理论是不完整的,并表明任何这样的理论都必须解释更广泛的现象。

陈香林建议,加快政府职能转变,加速业务链整合。通过形成部门合作推进机制,科技主管部门及多元创新主体将能够在更大程度上共享科技创新政策和信息资源,有效提升科技创新要素资源的配置和使用效率,加快推动全省重大科技战略规划、科技改革举措、科技项目落地。

在简单几何直觉的启发下,作者发展了一种用于混合训练模型的推理原理,称为混合推理(MI)。MI将输入与其他随机干净的样本混合,如果输入是对抗性的,则可以收缩并传递等效扰动。