赞
踩
当下,应用机器学习团队(Applied Machine Learning Group)对 Facebook 的影响体现在方方面面,涉及阅读、交流方法和理解方式等多种层面。同时,应用机器学习团队甚至还能帮助清理 Facebook 上的虚假新闻。
Joaquin Candela 是 Facebook 负责应用机器学习的工程主管
Facebook 曾邀请 Joaquin Quinonero Candela 来领导其网站的应用机器学习团队(Applied Machine Learning group),试图利用人工智能掀起一场革命,彻底革新 Facebook 这一世界上最大的社交网站,但是他却十分犹豫。
科学家 Joaquin Quinonero Candela 出生于西班牙,曾亲眼见证人工智能(AI)帮助 Facebook 发展的过程,并将自己称为“机器学习的人”。Candela 于2012年加入自己现在的公司,见证并管理着公司广告运营的转型过程,利用机器学习的方法让赞助商的广告更切题更起作用。
值得注意的是,即使是在团队内部工程师没有经过培训的情况下,Candela 也允许他们使用人工智能,使得广告部的机器学习技巧日益丰富起来。但是,他不确定在 Facebook 这个更广阔的舞台上还能创造出相同的奇迹。Facebook 上数以亿计的人与人之间的交流依赖于相对模糊的价值观而非能够衡量各种广告的硬数据。随后 Candela 表示:“我希望有人能说服我,让我觉得做这件事最终是有意义的。”
虽然满腹犹疑,但 Candela 最终还是接受了 Facebook 的职位邀请。如今距 Candela 接受该职位仅仅过了两年,事实证明,他的担忧似乎有些多余。
怎么就多余了呢?上个月在纽约市的会议上,Candela 为众多工程师发表了演说。“今天我将要发表的演说毫不夸张,”他提醒道,“离开人工智能 Facebook 将不复存在。只要你登录 Facebook 或者是使用 Instagram/Messenger,即使你没有意识到这一点,但是你确实就已经在体验人工智能这项技术了。”
只要你登录 Facebook 或者是使用 Instagram/Messenger,你确实就已经在体验人工智能这项技术了。
我曾于去年11月份专程去 Facebook 总部采访了 Candela 和他的团队,所以我能够理解人工智能是怎样一步步成为 Facebook 不可或缺的一部分的过程。时至今日,Facebook 在人工智能领域的卓越表现主要来源于世界级脸书网站人工智能研究团队(FAIR),该团队的领导者是著名的神经网络专家 YannLeCun。Facebook 的 FAIR 团队与谷歌、微软、百度、亚马逊以及苹果等公司(现在保密公司已经允许科学家对外发表论文了)的团队一样,试图建立起高端的人工智能程序。顶尖制造商在脑启发数字神经网络方面取得了突破性的进展,使得计算机具备了阅读、倾听甚至是对话交流的功能。但是,Candela 的应用机器学习团队(AML)当下正遭受了他方的指控,原因是 Facebook 的实际产品中不仅包含自身人工智能研究团队的研究成果,还包含其它前沿机构的研究成果。与此同时更为重要的一点是,Facebook 鼓励公司所有的工程师将机器学习融入到工作中。因为离开人工智能,Facebook 无法运作,这就需要公司所有的工程师共同来开发。
总统选举过后,我进行了为期两天的访问。有一天 Facebook 的首席执行官Mark Zuckerberg 用戏虐的口吻表示,只有“疯子”才认为在 Facebook 上传播虚假新闻能够帮助 Donald Trump 获选。这番言论如同将油罐车驶入日益蔓延的怒火之中。疑似 Donald Trump 与 Facebook 相互串通肆无忌惮的传播虚假消息言论扰乱了去年的信息流(NewsFeed)。虽然许多公开辩论不是 Candela 的分内之事,但是他知道 Facebook 回应虚假新闻的危机最终将依赖于机器学习,他的团队责无旁贷。
为了缓解接受我们采访的公关人员的压力,Candela 想向我展示一些别的东西——团队工作的样片。让我感到惊讶的是,这个样片展现的是一个比较无聊的把戏:按照某位风格独特画家的杰出作品的风格重新画一幅画或者形成视频流。这让人联想起在 Snapchat 中见过的数字特技,从变形的照片变换到毕加索的立体主义的想法已经实现了。
“上述功能背后的科技称为神经风格迁移,”他解释道,“这是一个很大的神经网络,我们会训练这个神经网络运用特殊的风格重新绘制一幅原始的照片。”他拿出自己的手机,然后拍了张照片。经过点击,这张照片变成了梵高《星夜》的一部分。令人更加印象深刻的是,随着它的流动,它能按照既定的风格形成视频。但 Candela 告诉我说,真正的不同之处我是看不到的:Facebook 已经创建出了属于自己的神经网络,所以可以在手机上自行运行。
这其实并不是一项新技术——苹果公司之前就已经吹嘘,声称 iPhone 已经具备神经计算功能。对于 Facebook 来说,神经网络任务更加艰难,因为它并不具备控制硬件设施的能力。Candela 表示,由于自己团队的工作在于积累,所以可以采用以下技巧——让每个项目都能有利于另一个项目的创建,最终所有的项目都可以建立起来,这样将来的工程师就能在培训量尽可能少的情况下建立起相似的产品——类似的项目可以快速地被建立起来。“从开始工作到我们发布公测总共花费了8个星期的时间,可以说相当疯狂,”他说道。
(从左到右)Joaquin Candela是 Facebook 负责应用机器学习的工程主管、Manohar Paluri 是应用计算机视觉小组的负责人、Rita Aquino 是技术产品主管、Rajen Subba 是技术经理
Candela 表示,完成本项任务的另一个秘密在于合作——这也是 Facebook 的核心文化。由于各团队相互协作,Facebook 公司的团队之间非常容易相互接触——尤其是在手机团队非常熟悉iPhone手机硬件的情况下——使得 Facebook 数据中心上呈现的图像自动跳转到正在运行此项工作的手机上。由此带来的益处,不仅来源于你的朋友和亲属们制作的看起来像《尖叫》的短片中的女人,还来源于其他的方面。这使得 Facebook 更加强大。就眼前来说,Facebook 的语言翻译功能和文本理解功能将会更加及时;从长远来看,Facebook 的实时分析功能将会得以实现。“相应的速度应当以秒来计,甚至要比秒更快——必须能够达到实时相应,”他说道,“我们是社交网络。如果我想预测人们对某条内容的反馈情况,那么【我的系统】需要立即做出反应,对吗?”
Candela 又看了一眼刚才由他拍摄变化而来的梵高画作,丝毫不掩饰他的自豪感。“在手机上运行复杂的神经网络后,人工智能正在落实到每个人的手中,”他说道,“这一切都不是偶然。实际上,这只是我们在公司内部实现人工智能大众化目标的一小步。”
“这是一个漫长的过程,”他补充道。
Candela 出生于西班牙,三岁时举家搬迁到了摩洛哥,之后在摩洛哥的法语学校就读。虽然他在科学与人文方面的成绩非常优异,但是他决定去马德里修读他认为最难的学科:通讯工程。通讯工程这门学科不但需要精通具体的诸如天线和扩音器等的元件,而且还需要理解数据,对他来说简直“太棒了”!求学期间,Candela 像被施了魔咒一样的爱上了一位教授所讲解的改变适应系统。于是,Candela 便创建了一个系统,利用智能滤波器提高漫游电话的信号;现在,Candela 把这个系统描述为“一个小型神经网络。”他喜欢训练代码(并非只是单纯的编写大量的代码),受到了丹麦学习期间的鼓舞。Candela 曾于2000年间于丹麦修读过一学期,在这里他遇见了机器学习方面的教授 Carl Rasmussen。Carl Rasmussen 曾于多伦多求学,师从于具有传奇色彩的大师Geoff Hinton——在机器学习方面获得了终极酷小子的称号。将近毕业之时,Candela 打算参加宝洁公司培养储备干部的计划,而 Rasmussen 则邀请他读博士学位。最终他选择了机器学习方向。
2007年,Candela 曾经奔赴位于英语剑桥大学的微软实验室工作。到后不久他便感受到了来自整个公司的竞争:微软公司当时正打算推出 Bing 搜索引擎,但是需要提升搜索广告的关键组件——准确预测用户即将可能点击的广告。公司决定展开内部竞争,最终对获胜组的解决方案进行测试评估是否值得推出,而且获胜组成员会获得免费游览夏威夷的机会。总共有19个小组参与了竞争,Candela 的解决方案获得了并列第一的成绩。他获得了免费旅游的机会,但是在微软公司拖延测试其竞赛方案的那一刻,Candela 有种受骗的感觉。
接下来的事情表明了 Candela 的决心。为了让公司给他一个机会,他踏上了“疯狂的长征之路”。Candela 曾先后50多次与公司内部不断磋商,并创建了模拟器以证明其算法更胜一筹。在排队买饭的间隙,他偷偷站到能做决定的副总裁旁边,随后跟副总裁一起上厕所站在小便池旁边吹嘘他的系统;他甚至搬到靠近副总裁的那块没人用的地方,直接闯入其办公室,信誓旦旦地表示自己的算法更好。
2009年 Bing 搜索发布,采用的就是 Candela 的算法。
2012年年初,Candela 拜访了一位在 Facebook 工作的朋友,并且在门洛帕克校区度过了那个周的周五。他惊奇的发现,Facebook 公司的员工不需要获得批准就能测试其工作成果。这确实是真的。于是,下个周的周一他便到 Facebook面试了,周末就收到了工作邀请函。
加入 Facebook 广告组后,Candela 的任务就是带领团队提供更多的相关性的广告。虽然那时的系统确实运用了机器学习,“但是我们使用的模型不够先进,它们太简单了,”Candela 说道。
Facebook 办公大楼20层的内景
与 Candela 一同加入 Facebook 的另一位工程师名叫 Hussein Mehanna(他们一起参加了新员工“代码训练营”),同样十分惊讶,在公司系统里创建人工智能程序的进展竟然如此缓慢。“当时我还没来 Facebook 就职,看到其产品质量,我觉得这些应该已经自成体系了,但事实显然并不是这个样子,”Mehanna 说道,“没过几周,我告诉 Joaquin,Facebook 真正缺少的是一个恰当的、世界级的机器学习平台。我们有机器,但是我们没有能够帮助机器尽快了解数据的合适的软件。”(Mehanna 现在是 Facebook 的核心机器学习主管,也是微软公司的老员工——和其他被采访的工程师经历相同。这是巧合吗?)
我们使用的模型是很简单的,它们并不先进。
在这里,Mehanna 所说的“机器学习平台”实际上指的是范式的运用,在基于人脑行为方式的模型经过粗略的调整后,它已经使得人工智能走出了上世纪的“寒冬”,并迈入了新的发展历程中。以广告为例,Facebook 需要让自己的系统做些人类力所不及的事情:对于将会点击弹出广告的人数进行即时(准确!)的预测。Candela 和他的团队着手创建出了一个基于机器学习的新系统。同时,由于团队想把该系统做成平台以使所有工程师都能单独工作,于是他们便让建模过程和训练过程具有了一般的形式并且能够复制。
创建机器学习系统的一个十分重要原因是获取质量数据——越多越好。幸运的是,数据正是 Facebook 最大的资产之一:当你的产品拥有超过一亿的用户时,你就可以为你的训练集收集到大量的数据,而且测试一旦开始,你就可以获得无数的用户行为样本。这使得广告组从之前的几周才能推出一个新模型演变到到现在的一周能够推出好几个新模型。因为这将成为一个平台——其他人利用内部的东西创建自己的产品——Candela 确定要采取多个团队共同参与的方式来完成他的工作。这是一个有条不紊的三步过程。“最注重的是成果,然后才是实用性,最后建立一个社区,”他说道。
Candela 的广告团队已经证明了 Facebook 公司中机器学习的变革趋势。“在点击、点赞和转发等方面的预测中,我们取得了巨大的成功。”他说道。自然而然地,会萌生把这种方法应用到更大的服务器中的想法。实际上,Facebook 人工智能研究团队的负责人 LeCun 一直在争取以建立起将人工智能应用到产品中的辅助团队——使机器学习的方法在公司内得以广泛的传播。“你需要具有极高天赋的工程师,他们直接关注的不是产品,而是众多产品团队都能通用的基本技术。为了实现这个目标,我真的是在奋力争取,”LeCun 说道。
2015年10月 Candela 成为了新的 AML 团队的主管(暂时地,由于他的谨慎所以同时保留着他在广告部的职位)。他与位于纽约市、巴黎以及门洛帕克市的 Facebook 人工智能研究团队 FAIR 均保持着密切的联系,这些地方的研究人员与AML研究员地位相同。
团结协作的方式可以通过当下正在研发的一款产品来实现,这款产品能为人们在 Facebook 上发布的照片提供了语音介绍。在过去的几年里,训练某个系统使其识别出场景中的物品亦或得出某种结论已经成为相当标准的人工智能练习,诸如识别出某张照片的拍摄地点是在室内还是在室外等的练习。但是最近,Facebook 人工智能研究团队的科学家已经找到训练神经网络的方法,为了还原图像中所有有意思的事物的模样,也为了判断出物体的位置以及与照片中其他相关事物的关系——也就是通过分析给定图片中的姿势来识别出其中的人的状态,如处于拥抱状态或骑马状态等。“我们曾向 AML 的同事展示过,”LeCun 说道,“他们思考了一会而然后问道,‘你知道,在现在这种情况下,这是非常实用的。’”最后出现的就是功能原型,盲人或者视障人士只需把手放在影像上,他们的手机就会告诉他们刚才所发生的事情。
“我们一直在讨论,”Candela 的兄弟团队说道,“对我们来说更为重要的是将科学理论付诸实践,需要像胶水一样的粘合剂将两者合并在一起,你说对不?而我们扮演的就是胶水这样的角色。
Candela 将人工智能应用划分为四个领域:视觉领域、语言领域、演讲领域和摄像效应领域。他表示,这四个领域都是为了“内容理解引擎”而服务的。为了弄清楚怎样才能真正理解其内容的含义,Facebook 计划从评论中去发现那些微小的意图,从口头语言中来提取那些细微的差异,辨别视频中一闪而过的面庞,理解用户的表情并将其在虚拟的会话中用符号化的语言表达出来。
“我们正在为了人工智能的普遍化而努力,”Candela 说道,“我们需要理解和分析的内容激增,而生成判断性标签的能力已经跟不上发展的速度了。”解决这一问题的办法就是创建出普遍化的系统,使得某一个项目的研究成果能为其他相关团队所用。Candela 说:“如果我能创建出将知识从一个任务转化到另一个任务的算法,那就太棒了,对吗?”
这种转化对 Facebook 在快速推出产品方面具有重大的意义。以 Instagram 为例,自从该软件被投放使用后,照片服务就以倒叙的方式展示用户的照片。但是在2016年年初,该款软件决定利用算法将照片按照相关性的原则重新排列。好消息是,由于 AML 已经在产品(如 News Feed 等)中使用了机器学习,“他们不必从零重新开始,”Candela 表示,“可以让一两个懂得机器学习的工程师联系一下软件排序方面的团队,然后就可以模仿他们的工作流程。如果有问题的话,可以直接请教。”最终,Instagram 在短短数月内便实施了其划时代性的转变计划。
AML 团队一直致力于将神经网络技术和众多不同的团队结合在一起,以获得“Facebook 独有的功能模式”。“我们正在用机器学习技术来创建我们的核心能力,取悦我们的用户。”AML 视觉团队的主管工程师 Tommer Leyvand 说道。(他来自微软公司。)
Rita Aquino 是 Facebook 的技术产品经理
以一个最近名为“社交推荐”的功能为例。大约一年前,Facebook 分享团队中的某位 AML 工程师和产品经理曾经讨论道,当人们向他们的朋友寻求有关本地餐馆或者服务情况的意见时,他们就会频繁地联系。“问题是怎么将这些展现给用户呢?”AML 自然语言团队的产品经理 Rita Aquino 说道。分享团队一直在试图通过词语搭配确定与之相关的寻求建议的短语。“当你每天拥有十亿个帖子时,检索词没有必要非常精确,其范围也不必太具体。”Aquino 说道。先训练出神经网络,然后再用实际的行为表现来测试模型,最终团队能够检测出非常细微的语言差别。当某人在给定的区域内询问去哪里吃饭或者去哪里买鞋时,模型都能够准确的检测出来。这会触发 News Feed 适宜联系人中的请求。接下来的一步也是由机器学习驱动,找出何时某人提供了可行性建议,地图上商铺的位置或者餐馆的位置将会被发送到用户的 News Feed 上。
Aquino 说她已经在 Facebook 工作了一年半,人工智能已经从最初的产品中相当罕见的元件发展到了现在的非常普遍的东西。“人们期望与他们交互的产品更加智能,”她说道,“许多团队看到了像社交推荐等这样的产品,看见了我们的代码和行动。——‘我们应该怎么做呢?’你没有必要为了团队的经验而成为一名机器学习专家。”在自然语言处理方面,该团队创建了一个其他团队可以自由进入系统 DeepText。DeepText 有助于驱动机器学习技术,支持 Facebook 的翻译功能,每天发布的超过40亿条的消息中都会用到这项技术。
有关于影像和视频,AML 团队已经创建了一个名为 Lumos 的机器学习视觉平台。该平台来源于 Manohar Paluri,而后 FAIR 的一个从事大机器学习视觉的实习生将其称为 Facebook 的视觉皮质——一种处理和理解所有在 Facebook 上发布的图像和视频的办法。在2014年的黑客马拉松比赛中,Paluri 和他的同事 Nikhil Johri 在一天半的时间里虚构出了一个模型,这个结果让 Zuckerberg 和 Facebook 的首席运营官 Sheryl Sandberg 非常兴奋。当 Candela 开始研究 AML 的时候,Paluri 加入了他的队伍并主管计算机视觉团队,随后创建出了 Lumos 以帮助 Facebook 的所有工程师(包括那些负责 Instagram、Messenger、WhatsApp 以及 Oculus 的工程师)充分运用视觉皮质。
在 Lumos 的帮助下,“公司里的每个人都能使用来自不同神经网络的各种特征,能为特定的情境创建模相应的型并观察其运作过程,”在 AML 和 FAIR 团队中都占据关键地位的 Paluri 表示,“接下来,他们可以让决策圈的人对这个系统进行修正,重塑并最终实现其功能,这都不需要【AML】团队中的成员参与。”
Paluri 给我了一个快速演示样本。他在他的笔记本上启动了 Lumos,然后我们进行了一个样本任务:完善神经网络的性能以识别直升飞机。一个满是图片的网页——如果我们继续刷屏,可能会有5000张图片——出现在了屏幕上,满是直升机和其他事物的图片。(一个是直升机玩具;其他的是空中飞行的类似直升机的图片。)对于这些数据集,Facebook 从它的属性考虑,采用了公众发布的图像——仅限朋友可见或者其他群组不可见。尽管我不是个工程师,更谈不上人工智能专家,但是也可以十分容易地点击负样本来“训练直升飞机的图片分类器”,就像是行家一样。
我认为在这些领域里创建应用程序将会快上100倍。
在“无监督学习”中,神经网络能够帮助人们理解图像中的内容。随着各大公司对“无监督学习”这一圣杯的不断追求,“分类”步骤(又称“监督学习”)最终可能会处于完全自动化的状态。Paluri 表示公司一直在进步:“我们的目标就是在明年将人工注释量减少100倍。”
Candela 表示,从长远来来,为了使得内容理解的驱动程序更加普遍化,Facebook 计划将视觉皮质和自然语言平台相融合。“毫无疑问我们最终会把它们融为一体,”Paluri 说道,“然后我们会把它……做成皮质。”
最后,Facebook 希望将那些能够取得进步的核心原则通过论文等的方式传播出去,这样一来,大众化的方式将会让机器学习的传播更加广泛。“我们花费如此长的时间不是为了创建出智能的应用程序,而是创建出更快速地应用程序,”Mehanna 说道,“你可以想象一下,这会对医学、安全以及物流产生巨大的影响。我认为在这些领域里创建相关应用软件会使其再快上100多倍。”
Manohar Paluri 是 Facebook 应用计算机视觉团队的主管,这张照片的拍摄地点位于加利福尼亚州门洛帕克市 Facebook 总部的20层高楼内,拍摄时间是2017年2月6日,星期一。这张照片是由摄影师 Stephen Lam 拍摄的。
AML 发挥了巨大的作用,使得 Facebook 的产品在阅读、理解和交流等方面都有了显著的提高。与此同时执行总裁 Zuckerberg 还认为,在将 Facebook 树立成为社会提供福利的公司这一方面,AML 也功不可没。在 Zuckerberg 有关于创建团体的5700字宣言中,这位执行总裁强调了7次“人工智能(AI)”,机器学习和其他技术如何保证社区安全和消息灵通贯穿了整个宣讲。
在 Zuckerberg 有关于创建团体的5700字宣言中,这位执行总裁强调了7次“人工智能(AI)”。
这些目标并不容易完成,对于要承担的 AML 的工作 Candela 有些担心,原因与之前相同。当你为了几十亿用户试图成为信息和人际交往的主要来源时,问题就来了。即使机器学习也不能解决人们的所有问题。这就是 Facebook 一直研究算法的原因,这些算法决定着用户在 News Feed(新闻推送中)中看到的内容——在无法确定具体内容的情况下,如何训练系统发送最佳的选择呢?“我认为这基本上是一个没法解决的问题,”Cadela 说道,“特殊服务随机推送新闻故事意味着你正在浪费自己的时间,对吗?特殊服务只显示来自某一位朋友的新闻故事,赢者通吃。你可以彻底结束一轮又一轮无休止的讨论,但是没有最佳的答案。我们仍在探索。”Facebook 将继续用人工智能解决这个问题,人工智能已经成为公司披荆斩棘必不可少的利器。“在机器学习和人工智能方面存在一系列的优化性的行为研究。”Candela 满怀希望地说道。
自然地,当 Facebook 发现自己因为虚假新闻事件被当成罪魁祸首的时候,需要人工智能团队迅速的从服务器上清除所有虚假新闻的恶作剧。“这是一次不同寻常的全力出击,就连目光长远的 FAIR 团队也参与其中,常被当做咨询顾问。”LeCun 说道。最终,在 FAIR 的努力下,创建出了一款名为 World2Vec 的解决问题的模型。(“vec”是技术术语 vectors 的缩写)。World2Vec 为神经网络添加了一些记忆性能,同时帮助 Facebook 标记每一条信息的内容,例如信息来源或者分享者等。(此处不要跟谷歌的 World2Vec 混淆。)通过标注的信息,Facebook 可以理解分享模式下的假新闻的特征,并且利用机器学习的手段清除潜在的虚假新闻。“事实证明,找出虚假新闻的方法与找出人们爱看的新闻的方法之间并没有什么不同。”LeCun 说道。
Candela 团队之前创建的平台能够使得 Facebook 的产品审查过程更加快速。但是实际的运行效果还需要进一步地考察;Candela 表示,现在就判断算法在减少虚假新闻方面的作用为时尚早。但是这些新型的检查算法是否能起到一定的作用呢?由此便引发出另一个新的问题,解决这些问题的算法——即使是机器学习——可能并不会奏效,甚至可能会产生有害的结果。有些人认为,这样的事在2016年已经发生了。
Candela 不同意这种观点,他表示:“我认为我们正在创造的这个世界是一个更棒的地方。”随后他还讲述了一个故事。接受采访的前一天,他给一位仅有一面之缘的 Facebook 用户打过电话——他的一位朋友的父亲。他曾经看到过这位朋友的父亲发关于支持川普的帖子,感到非常困惑。接下来 Candela 意识到,他的工作是根据数据作出决定,而他正在丢失重要的数据。所以他给这个人发消息,并且要求与之谈话。同意谈话后,他们通了电话。“对于我来说,事实不会改变,但是看待问题的方式却发生了非常非常大的变化,”Candela 说道,“如果没有 Facebook 的话,我永远也不会打这个电话。”
换言之,虽然当下人工智能对 Facebook 来说必不可少,甚至决定着 Facebook 的存亡,但人工智能可能并不是 Facebook 唯一的出路。“人工智能尚且处于初级阶段,这无疑是一项挑战,”Candela 说道,“我们现在才刚刚开始。”
本文作者 Steven Levy 是 Backchannel 的一名编辑。
原文链接
https://backchannel.com/inside-facebooks-ai-machine-7a869b922ea7
一百天人工智能工程师学习计划——全程实战案例,从机器学习原理到推荐系统实现,从深度学习入门到图像语义分割及写诗机器人,再到专属GPU云平台上的四大工业级实战项目。100天内完美掌握人工智能工程师必备技能。
☞ 点击阅读原文,查看详细课程信息。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。