赞
踩
作者: 马志强 2015 年 5 月 4 日 翻译自本人英文原作
前言
昨天在腾讯科技频道看到一篇文章《人工智能火了 高端人才成了香饽饽》,今天又读到《第一财经周刊》的文章,提到去年(2014)可穿戴设备的投资额高达1万亿美元。在商界其实是可预期的利润引导后才会引起对人才的渴望,不过对于类似人工智能这类领域来说,人才的炼成却不像其他速成行业那样容易。最重要的技能在于编程能力的娴熟和创新的算法的实践。 作者前不久发表于 RPubs的一篇详细介绍一个高准确率的机器学习的偏应用的实例,今天把它翻译成中文(内容有扩展),以飨读者,尤其是在编程高手众多的CSDN,以期抛砖引玉,如能提高中国社区众多程序员的兴趣进而提升中国在这个大潮中的竞争优势,也是幸事。
可穿戴式设备,如智能手环、带传感器的跑鞋、老年人佩戴的心率传感器等已经进入大面积普及的前夜,这些设备可以产生大量的即时数据,而这些数据可以帮助人工智能(机器学习)业者用于商业和医疗健康行业的研究。在这篇文章里,作者将介绍一个预测准确率很高的算法 Random Forest (本文实例的准确率超过了99%), 通过一个真实的数据采集过程,即6个志愿者在教练的指导下,穿戴传感器,尝试5种不同的举杠铃的动作,其中只有1种是正确的动作。然后将其各种动作分类标记(字母A-E,只有A为正确动作)、合成到已经产生的数据中,作为预测依据,预测模型生成后将对比预测动作和实际动作。最终可以在实际数据,也即没有动作字段的数据上,做出预测。
原始数据可以在这里获取real data ,更多的信息见 HAR网站here ,Weight Lifting Exercise Dataset 部分. 这是一个来自巴西的研究者的网站,同样的数据他们的模型得到的准确率是78.8%。
应用前景
本文介绍的算法的适用性很高,并非仅仅用于传感器数据预测动作模式方面, 其他方面的应用,比如对于创建某种类型的消费者是否会购买某种产品的预测模型(这方面的例子所需要的基础数据在市场上可以获得,比如美国安客诚(Acxiom)公司已经有成熟的覆盖绝大多数美国消费者的数据);某种饮食习惯的人是否可能更容易罹患某种特定疾病等等。
即使只局限于可穿戴设备市场,当前我们还没有看到任何一款市场上在售的手环具备实时提醒错误的运动动作的功能,如能将预测模型(模型本身不占多少空间)纳入设备中实现这个功能,则也未尝不是一个新的竞争力及可观的利润卖点。
实施说明
全部过程包括3个部分:数据清理和预处理、机器学习、测试集验证。
这些步骤是实施预测所必须的,其中某些步骤很多时候也需要反复重复进行,以提高准确率。这里没有提到的是算法选择Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。