本文由 【AI前线】原创,原文链接:t.cn/RHocRmj
采访&撰稿|Natalie
编辑|Emily
共享单车在不到一年的时间里成为城市一道彩色风景线,在便利市民短途出行的同时,单车的运营管理也日渐成为一个巨大的挑战。
我们每天都能见到大量的共享单车,有的地方共享单车成排投放,有的地方却看不到这些小车的身影。对于平台来说,在哪里投放共享单车、投放多少共享单车是一个值得研究的问题。如果投放车辆的地方没人需要,那投放效果就会大打折扣;如果人们在需要的地方找不到车,平台也会蒙受损失。
但是怎样确定哪里是合适的投放地点呢?单车被骑走到城市的各个角落后,如何调度才能保证它们能被更多人骑到?每天都有成千上万的故障车辆图片被上报给平台,其中的真假又如何分辨?这些问题的解决其实都离不开人工智能。
摩拜单车首席数据科学家尹大朏将在全球人工智能与机器学习技术大会(AICon)上分享《摩拜如何使用人工智能实现单车精细化运营》,为大家介绍摩拜单车如何利用大数据和人工智能技术解决运营中出现的违停、潮汐现象,以及在优化调度方面的最新探索。会前 InfoQ 对尹大朏进行了独家专访,带领读者一窥人工智能在摩拜落地应用的二三事。
从学术界到工业界
尹大朏在北大获取博士学位后继续在清华大学完成了博士后研究,经过一段比较长的学术研究生涯之后进入了工业界。在加入摩拜之前,他分别在 Esri 和 Dhgate 任职产品工程师和高级数据工程师。对他来说,在学术界做研究和在工业界做产品最大的差异就是速度,工业界对应用的成果转化速度的要求高于学术界,学术界对理论的证明更加看重。当研究人员从学术界转入业界,角色转换是必须经历的过程,尹大朏对此给出的建议是“要 Move Fast”,读书多往往纠结于细节,追求完美;而商场如战场,对时间要求更加紧迫;在学术界可以“十年磨一剑”,在工业界就需要“小步快跑”。
加入摩拜后,尹大朏从 0 到 1 组建了摩拜的数据团队。在团队组建的过程中尹大朏也遇到了一些挑战。新员工来自各个地方,有从成熟的大公司跳槽过来的,也有刚毕业的学生,要让他们融入公司创业环境,并且学会配合、形成战斗力,是较大的挑战。尹大朏的方法是多创造一些机会,让大家多在一起 group study,共同成长。
如今摩拜的数据团队日趋成熟,团队包括了算法及人工智能、商业智能分析、可视化分析、数据服务及数据架构组。团队产生的报表、算法和数据服务支撑着运营、财务、产品、市场、客服及政务等各个业务线,以数字驱动的方式加速公司业务发展。
人工智能落地摩拜单车
尹大朏告诉我们,摩拜很早就在人工智能技术上有所布局。在有了一定的数据积累之后,摩拜开始有选择地使用一些主流的 AI 技术来做预测和分类的工作。
目前主流的 AI 技术应用往往应用于图像声音处理、自然语言处理、推荐系统和无人驾驶等领域,在自行车出行领域的 AI 技术应用并不算多,这也是摩拜在共享单车业务场景下应用人工智能技术遇到的一大挑战。这就要求研究人员能够基于对单车领域的理解,嫁接已有的 AI 技术。尹大朏将使用 DNN 的思想做供需预测看作是“一个 idea comes from idea 的过程”,摩拜借鉴了微软亚洲研究院郑宇老师的一篇关于环境污染预测的文章,论文使用了 ResNet(DNN 的一个变种)来做大气污染物扩散预测。而共享单车的运营场景同样也是要解决空间上的预测问题,因此这篇论文就成了启发摩拜数据科学团队的灵感来源,团队基于 ResNet 做出来了一些工作。
目前人工智能在摩拜主要的应用场景包括:
- 基于深度神经网络的供需平衡预测:供需状况的预测是调度工作的基础,摩拜的方法是把空间划分为若干网格,把每个网格里面的车辆数、历史的订单量和天气预报信息结合起来,利用 DNN 来训练,得到未来某个时刻的骑行量预测值。
- 利用图片识别等技术辅助客服提高工作效率:摩拜鼓励用户及时举报不文明的用车行为,为此在 APP 中设置了举报按钮,用户可以拍下违停的图片,上传给客服人员。对这些被举报的用户,如果连续举报多次,摩拜会给他们发短信警告。但问题是每天客服会收到成千上万张图片,甚至很多图片是重复的,因为同一辆车被很多用户举报,这样会给客服人员造成很大的负担。因此摩拜使用深度学习技术对图片进行识别,判断图片中是否是违停在小区的自行车。现在摩拜的客服已经很少直接阅读图片,大概只有不到 1% 的图片因为机器难以判别需要人工干预,剩下 99% 完全可以用机器来识别,从而大大降低了客服的工作量。
“魔方”人工智能平台的架构及演进
摩拜的大数据人工智能平台又名“魔方”,“魔方”的核心应用之一是对共享单车全天候供需做出精准预测,为车辆投放、调度和运维提供智慧指引。
“魔方”的整体架构主要参照主流互联网公司架构,以 Hadoop 作为基础文件存储,Spark、Storm、Flink 做流式计算,TensorFlow 做机器学习的模型训练和预测。
摩拜的数据平台架构基本上是伴随着摩拜的业务扩张逐步演进的。最初摩拜所有的数据报表都建立在 MySQL 这样的关系型数据库上,随着业务极速扩张,数据量也呈几何级上升,查询非常慢,于是摩拜建立了基于 Hadoop 生态体系的数据平台,过渡到使用 Hive/Impala 进行大量数据的查询。后来业务持续发展,摩拜陆续使用了 Kylin 做 OLAP,加入了 Spark/Storm 流式数据分析进行单车状态和实时开锁情况的监控,并引入了 Tensor Flow 做在线的红包车金额制定等机器学习应用。
目前“魔方”平台进行投放量的预测和实时调度主要基于车辆数据、历史订单数据、天气和节假日信息等数据。这些信息大部分通过摩拜的系统获得,天气信息则来自网上公开渠道。其中车辆信息是每个网格里面的存量单车,这是摩拜进行预测的基础,而历史订单提供过去的趋势,天气则是对订单影响最大的随机事件,这些信息都被融合在模型中作为预测变量。
单车出行数据不止于运营
目前摩拜获取到的海量共享单车数据除了单车的位置和骑行路线信息,还有大量来自摩拜单车智能锁的车锁状态信息,以及服务器产生的大量日志。
尹大朏向我们介绍了几个运营之外的数据应用案例:
- 北京市最近获批在西二旗和中关村之间建设一条自行车高速道路,在这条道路的规划阶段,摩拜贡献了部分轨迹数据供城市规划师作为该条道路选址的参考;
- 厦门在建设地铁的时候希望用真实的出行数据作为修建新线路的指导,找出出行量较大的地区以便进行地铁选线,摩拜的单车出行数据恰好可以满足需求;
- 摩拜和世界银行合作进行的城市规划研究发现:长期以来城市建设规划沿袭的 TOD(Transit Oriented Design)理论强调的方法论是让建设集中在地铁枢纽 800 米范围内,而我们的实际轨迹显示大家骑自行车出行的范围可以扩展到 3-5 公里。如此一来就扩展了传统 TOD 理论的出行范围,使得建设不会过分集中在地铁周边,对今后的城市建设会有比较大的影响。
摩拜单车目前已经部署到国内很多城市,甚至也进入了国外,不同城市、不同区域的共享单车数据有很多不一样的地方,尹大朏也跟我们分享了一个例子。
上面的图是北京上地和广州西村地铁站周边地区的工作日和周末出行模式,可以看到上地是典型的工作区,大家上班很规律,出行基本集中在上下班,周末没有很多骑行,而广州西村地区就很不同,平时和周末都有很多骑行。这些特征反映了两地的经济生活方式不同。
未来展望
未来摩拜将尝试把魔方建设成为一个综合的智慧出行平台,摩拜也会持续关注 AI 方面的最新进展,包括 GAN(对抗生成网络)等方面的工作,同时还会继续加强轨迹挖掘、个性化推荐等方面的研究,使摩拜的业务更加完善。
采访嘉宾介绍
尹大朏,摩拜单车数据科学家。他从 0 到 1 组建了摩拜的数据团队,目前该团队包括了算法及人工智能、商业智能分析、可视化分析、数据服务及数据架构组。团队产生的报表、算法和数据服务支撑着运营、财务、产品、市场、客服及政务等各个业务线,帮助公司以数据驱动的方式高速发展。在加入摩拜之前,他在 Esri 和 Dhgate 分别任职产品工程师和高级数据工程师。更早的时候,他在北大获取博士学位后继续在清华大学完成博士后研究。
关注后回复「AI」你懂的