赞
踩
过去几年一直是人工智能爱好者和机器学习专业人士的梦想之旅。这些技术已经从一个概念发展成为将会席卷未来的潮流,并且正在影响着今天的数百万人的生活。各国现在都有专门的人工智能部门和预算,以确保他们在这场比赛中保持相关性。
**数据科学专业人员也是如此。几年前 - 如果你知道一些工具和技术,那么你会觉得舒服。但是现在不是这样了!**在这个领域发生了太多的事情,并且有太多的事情要跟上脚步- 有时会非常令人难以置信。
这就是为什么我想从数据科学从业者的角度退一步来看一下人工智能的一些关键领域的发展。这些发展都是什么?2018年领域内发生了什么,2019年将会发生什么?
PS:与任何预测一样,这些都是我的看法。这些是基于我试图把这些点连接起来。如果你有不同的观点 - 我很乐意听到它。请告诉我你认为2019年可能会发生什么变化。
让机器解析单词和句子似乎一直只是一个梦想。语言中有太多的细微差别和方面甚至有时候人类都难以掌握。但2018年确实是NLP的分水岭。
我们看到了一个又一个显著的突破 - ULMFiT,ELMO,OpenAI的Transformer和Google的BERT等等。将转移学习(将预先训练好的模型应用于数据的艺术)成功应用于NLP任务,为潜在的NLP打开了无限的应用大门。我们与Sebastian Ruder的博客进一步坚定了我们的信念,那就是他的领域在最近的时间里走了多远。作为补充说明,他的博客是所有NLP爱好者必听的。
让我们更详细地看一下这些关键的发展。
由Sebastian Ruder和fast.ai的Jeremy Howard所设计,ULMFiT是第一个在2018年启动NLP转移学习党的框架。对于没有经验的人来说,它代表通用语言模型的微调。Jeremy和Sebastian在ULMFiT中真正地使用了Universal这个词 - 该框架几乎可以应用于任何NLP任务!
关于ULMFiT的最佳部分以及我们即将看到的后续框架是什么?你不需要从头开始训练模型!这些研究人员做了很多的努力 - 将他们的学习成果应用到你自己的项目中去。ULMFiT在六个文本分类任务中的表现优于最先进的方法。
想要猜猜ELMo代表什么吗?它是语言模型嵌入的缩写。很有创意,不是么?除了它的名字类似于著名的芝麻街角色。ELMo在一发布的时候就引起了ML社区的注意。
ELMo使用语言模型来获取每个单词的嵌入,同时还考虑单词与句子或段落的上下文关系。语境是NLP的一个重要方面,以前大多数人并没有抓住这一点。ELMo使用双向LSTM来创建嵌入。
与ULMFiT一样,ELMO显著提高了各种NLP任务的性能,如情绪分析和问题回答。
不少专家声称BERT的发布标志着NLP进入了新时代。继ULMFiT和ELMo之后,BERT凭借其性能让它的竞争对手们大吃一惊。正如原文所述,“BERT在概念上简单且经验强大”。
BERT在11个(是的,11个!)NLP任务中获得了最优秀的结果。看看他们的结果对阵的基准:
SQuAD v1.1排行榜(2018年10月8日)
测试EM
测试F1
第一名合奏团 - BERT
87.4
93.2
第二名合奏团 - nlnet
86.0
91.7
第一名单身模型 - BERT
85.1
91.8
第二名单身模特 - nlnet
83.5
90.1
有兴趣开始学习么?你可以使用PyTorch实现或Google自己的TensorFlow代码尝试在你自己的计算机上复制结果。
我很确定你们很像知道BERT在这一点上代表什么。?它的变压器口的双向编码器表示。如果你第一次做对,那就是满分。
Facebook如何能在这场潮流中置身事外呢?他们开源了他们自己的深度学习NLP框架PyText。它在18年12月份发布,所以我还在试验它,但早期的评论非常有希望。根据FB发表的研究,PyText使会话模型的准确率提高了10%,同时缩短了训练时间。
PyText实际上落后于Facebook的一些产品,如FB Messenger。因此,努力为你自己的投资组合增加一些现实世界的价值(除了你将获得的宝贵知识)。
如果你还没有听说过Google Duplex,那么你都在关注些什么东西?!Sundar Pichai自从演示了它之后,就一直是头条新闻了。
由于这是一款Google产品,因此他们并不是很有可能会公开其背后的代码。但是呢!这是一个非常棒的音频处理应用程序。当然,它引发了许多道德和隐私问题,但这是本文后面的讨论内容。就目前而言,只要陶醉于我们近年来在ML方面取得的进展就可以了。
谁比塞巴斯蒂安·罗德本人更好地处理了NLP在2019年的发展方向?这是他的想法:
这是目前现在深度学习领域中最受欢迎的领域。我觉得我们已经在很大程度上摘取了计算机视觉的成果,并且已经处于完善阶段。无论是图像还是视频,我们都看到了大量的框架和库,这使得计算机视觉任务变得轻而易举。
Ian Goodfellow在2014年设计了GAN,从此之后,这个概念产生了多种多样的应用。年复一年,我们看到原始概念正在调整以适应实际案例。但有一件事在今年之前一直保持着相当的一致性 - 机器生成的图像相当容易被发现。但框架中总会存在一些不一致性,这使得区别非常明显。
但最近几个月,这个边界已开始逐渐消失。随着BigGAN的创建,这一边界可能会被永久的消除掉。查看以下使用此方法生成的图像:
除非你用显微镜看,否则你将无法判断这张图片有什么问题。是不是很激动人心?毫无疑问的GAN正在改变我们对数字图像(和视频)的感知方式。
对于数据科学家来说,这些模型首先在ImageNet数据集上进行训练,然后在JFT-300M数据集上训练,以展示这些模型从一组数据转移到另一组数据。
这是一个非常酷的发展。人们普遍认为,你需要大量数据以及繁重的计算资源来执行适当的深度学习任务。这包括在ImageNet数据集上从头开始训练模型。我理解这种看法 - 我们大多数人在fast的一些人面前都有同样的想法。我找到了一种方法来证明我们所有人都是错的。
他们的模型在令人印象深刻的18分钟时间内给出了93%的准确率。他们使用的硬件在博客文章中详细介绍了:包括16个公共AWS云实例,每个实例都有8个NVIDIA V100 GPU。他们使用fastai和PyTorch库构建了算法。
将这些所有的东西的成本加起来一共只有40美元! **杰里米在这里更详细地描述了他们的方法,包括使用的技术 。**这样的话就是每个人都赢了!
在过去的4 - 5年里,图像处理已经突飞猛进,但视频呢?事实证明,从静态框架转换到动态框架的方法比大多数人想象的要困难一些。你能拍摄视频序列并预测下一帧会发生什么吗?之前有人对此进行过研究,但发表的研究报告也是含糊不清的。
NVIDIA决定在今年早些时候开源他们的方法时,得到了广泛的好评。他们的vid2vid方法的目标是从给定的输入视频中学习一个映射函数,从而生成一个输出的视频,该视频以令人难以置信的精度描绘输入视频的内容。
就像我之前提到的,我们可能会在2019年看到的是在原有基础上的修改而不是出现新的发明。它可能会有更多相同的感觉 - 自动驾驶汽车、面部识别算法、虚拟现实等等。如果你有不同的观点,可以补充出来。 - 我很想知道明年还有什么是我们还没有看到过的。
在政治和政府批准之前,无人机可能最终在美国获得批准(印度远远落后)。就个人而言,我希望看到很多研究正在实际场景中实施。像CVPR和ICML这样的会议描绘了该领域的最新进展,但这些项目在现实中的使用有多接近呢?
可视化的问答和可视化对话系统可能很快就会经历人们期待已久的首次亮相。这些系统缺乏泛化的能力,但期望我们很快就会看到一种综合的多模式方法。
自我监督学习在今年成为最受关注的话题。我可以打赌明年将用于更多的研究采用这种方法。这是一个非常酷的学习路线 - 标签直接根据我们输入的数据确定,而不是浪费时间手动标记图像。祈祷!
本节将吸引所有数据科学专业人士。工具和库是数据科学家的基础。关于哪种工具是最好,哪个框架会取代了另一个框架,哪个库是经济计算的缩影等等,我都参与讨论。我相信你们很多人都能理解这一点。
但有一点我们都可以同意 - 那就是我们必须掌握该领域的最新工具,否则就有可能落后,Python取代其他所有事物并将自己作为行业领导者的步伐就是这样的例子。当然,其中很多都归结为主观选择(你的组织使用什么工具,从当前框架切换到新框架的可行性等等),但如果你甚至没有考虑最先进的框架 - 那里的艺术,那么我希望你现在就开始考虑吧。
那么今年成为头条新闻的是什么?我们来看看吧!
Pytorch有什么好炒作的?我已经多次在本文中提到它了(稍后你会看到更多的案例)。
鉴于TensorFlow有时会非常慢,所以这为PyTorch打开了大门,使其以便可以在双倍的速度占领了深度学习市场。我在GitHub上看到的大部分代码都是PyTorch概念的实现。这并非巧合 - PyTorch非常灵活,最新版本(v1.0)已经大规模推动了许多Facebook产品和服务,包括每天执行60亿次文本翻译。
PyTorch的使用率会在2019年肯定会上升,所以现在是加入PyTorch的好时机。
自动机器学习(或AutoML)在过去几年中逐渐取得进展。像RapidMiner,KNIME,DataRobot和H2O.ai等公司发布了出色的产品,展示了这项服务的巨大潜力。
你能想象在ML项目上工作,你只需要使用拖放界面而不需要编码吗?这是在不久的将来发生的事情。但除了这些公司之外,ML / DL领域还有一个重要的发布 - Auto Keras!
它是一个用于执行AutoML任务的开源库。其背后的想法是让可能没有ML背景的领域专家进行深度学习。**一定要仔细的查看。**因为它准备在未来几年内大规模运用并取得巨大成功。
自从我们进入这一系列工作以来,我们一直在我们最喜欢的IDE和笔记本中构建和设计机器学习和深度学习模型。如何迈出一步,尝试一些不同的东西怎么样?是的,我说的是在你的网络浏览器中进行深度学习!
由于TensorFlow.js的发布,现在已成为现实。它们展示了这个开源概念的酷感。TensorFlow.js主要有三个优点/特性:
我想在这个帖子中特别关注一下AutoML。为什么呢?因为我认为未来几年它将成为数据科学领域一个真正的游戏规则改变者。但是,不要只听我的话!这是H2O.ai的Marios Michailidis,Kaggle的特级大师,他对2019年AutoML的期望是:
机器学习将继续成为未来最重要的趋势之一 - 世界将走向何方的依据。这种扩展增加了对这一领域熟练应用程序的需求。鉴于其增长,自动化是尽可能最好地利用数据科学资源的关键。这是势在必行的,而应用的领域是无限的:信贷,保险,欺诈,计算机视觉,声学,传感器,推荐,预测,NLP - 所有你能想到的领域。能够在这个领域工作是我的一种荣幸。机器学习将继续变得重要的趋势可以定义为:
如果我不得不选择一个我希望看到更多渗透的领域,那就是强化学习。除了我们不定期看到的偶尔的头条新闻之外,还没有一个改变游戏规则的突破。我在社区中看到的一般看法是,它的计算量太大,没有真正的行业应用程序可以使用。
虽然这在某种程度上是正确的,但我希望看到明年RL出现更多实际用例。在我每月的GitHub和Reddit系列文章中,我倾向于至少保留一个关于RL的存储库和讨论,以至少促进围绕该主题的讨论。这可能是所有研究中出现的下一个重大成果。
OpenAI已经发布了一个非常有用的工具包来帮助初学者入门,我在下面已经提到过。如果有什么我错过了,也很想听听你的想法。
如果对RL的研究进展缓慢,那么围绕它的教育材料就很少(充其量)。但真实的是,OpenAI已经开放了一些关于这个主题的精彩材料。他们称这个项目为“在Deep RL中旋转”。
它实际上是一个非常全面的RL资源列表,他们试图尽可能简化代码和解释。有很多材料包括RL术语,如何成长为RL研究角色,一系列重要论文,一个记录完备的代码库,甚至还有一些可以帮助你入门的材料。
现在不要再拖延了 - 如果你打算开始学习RL,那么时间已经来了!
为了加速研究并让社区更多地参与强化学习,Google AI团队开源了Dopamine,一个TensorFlow框架,旨在通过使其更灵活和可重复性来创建研究。
你可以在GitHub代码库中找到整个训练数据以及TensorFlow代码(仅15个Python笔记本!)。这是一个完美的平台,可以在一个可控和灵活的环境中进行简单的实验。这听起来是任何一个数据科学家的梦想。
Xander Steenbrugge是2018年DataHack峰会的发言人,也是ArxivInsights频道的创始人,他是强化学习方面的专家。以下是他对RL的现状和2019年的展望:
我相信前两个问题可以通过一组与无监督表示学习相关的类似技术来解决 。目前在RL中,我们正在训练从原始输入空间(像素)映射到端到端的行为(如反向传播)的深度神经网络,其使用稀疏奖励信号(例如,Atari游戏的得分或者机器人抓取的成功)。这里的问题是:
因为信噪比非常低,要真正的“增长”有用的特征检测器需要很长时间。RL基本上以随机动作开始,直到它有幸偶然发现奖励,然后需要弄清楚特定奖励是如何实际产生的。进一步的探索要么是硬编码(epsilon-greedy探索),要么是用好奇心驱动的探索等技术来鼓励 。这是无效的,从而导致了问题1。
其次,已知这些深度神经架构非常容易过度拟合,而在RL中,我们通常倾向于在训练数据上测试代理-在这种范例中实际上鼓励过度拟合。
我非常感兴趣的一种可能的方法是利用无监督表示学习(autoencoders, VAE, GANs,…)将一个杂乱的高维输入空间(如像素)转换为一个低维的“概念”空间,该空间具有某些令人满意的特性,如:
线性,缠解,对噪声的稳健性,…
一旦你可以将像素映射到这样一个有用的潜在空间,学习就会突然变得更容易/更快(问题1),你也希望在这个空间中学习的策略会因为上面提到的属性而具有更强的泛化能力(第2题)。* 我不是层次问题的专家,但上面提到的所有内容也适用于此:在潜在空间中解决复杂的层次任务比在原始输入空间中更容易。
想象一个由算法统治的世界,它决定了人类采取的每一个行动。这并不是一个乐观的前景,不是吗?AI中的道德规范是Analytics Vidhya一直热衷于讨论的主题。在所有技术讨论中,它应该与这些主题一起考虑时陷入困境。
今年有不少组织因为Facebook的Cambridge Analytica丑闻和谷歌内部充斥着关于设计武器的丑闻而颜面扫地。但所有的这一切导致大型科技公司制定了他们打算遵循的章程和指导方针。
在处理人工智能的伦理方面,没有一个现成的解决方案,也没有一种万能的解决方案。它需要一种细致入微的方法,与领导层提出的结构化路径相结合。
GDPR或通用数据保护法规,无疑对构建人工智能应用程序收集数据的方式产生了影响。GDPR的作用是,确保用户可以更好地控制他们的数据(收集和分享关于他们的哪些信息)。
那么这对AI有何影响?如果数据科学家没有数据(或足够的数据),那么构建任何模型都是不可能的。这无疑给社交平台和其他网站的运作带来了障碍。GDPR将进行一项引人入胜的案例研究,但目前而言,它限制了AI在许多平台上的用途。
这是一个灰色的区域。就像我提到的那样,没有唯一的一个解决方案。我们必须团结起来,将道德整合到人工智能项目中。那我们怎样才能实现这一目标?正如Analytics Vidhya的创始人兼首席执行官Kunal Jain在他在2018年DataHack峰会上的演讲中所强调的那样,我们需要确定一个其他人可以遵循的框架。
我希望看到在主要处理道德AI的组织中添加新角色。随着AI成为公司愿景的核心,企业的最佳实践将需要重组,治理方法也需要重新制定。我还期望政府在这方面发挥更积极的作用,采取新的或修改后的政策。2019年将是非常有趣的一年。
影响力 - 这是2018年简明扼要地描述了惊人发展的唯一的一个词。今年我成为了ULMFiT的狂热用户,我期待着可以很快就能探索BERT。这确实是激动人心的时刻。
A Technical Overview of AI & ML (NLP, Computer Vision, Reinforcement Learning) in 2018 & Trends for 2019
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。