上回提到现在是概念化时代,马云爸爸们天天演讲各样的概念,IT世界也在讲ABC时代(A-AI人工智能,B-BigData大数据,C-Cloud Computing云计算),在2017年,大把大佬们都大谈特谈人工智能,天猫精灵、小爱同学等智能音箱也走进我们生活了。今天告诉大家一个大好消息,连玩Excel的同学们也可以大谈特谈AI了人工智能,Excel催化剂把整套AI引进来,大家可以在Excel上开心地玩耍起许多过去想都不敢想的事情,对非结构化的数据进行结构化分析。
文章出处说明
原文在简书上发表,再同步到Excel催化剂微信公众号或其他平台上,文章后续有修改和更新将在简书上操作, 其他平台不作同步修改更新,因此建议阅读其他出处的文章时,尽可能跳转回简书平台上查看。
视频演示
https://v.qq.com/x/page/z0624o5lxyr.html
功能介绍
人工智能涉及很大的领域,有语音识别、自然语言处理、视频图像识别等,本次接入的AI人工智能,针对Excel较有使用价值的文本自然语言处理方面,后续有机会再挖掘其他语音、图像是否有在Excel中使用场景再酌情增加。本次更新的功能在于接入了人工智能,真正实现人工智能是BAT们帮我们做好的,我们只是用他们做好的成果,小量使用还在免费的限度内,若要大量使用,需要向BAT们交类似水煤电般的使用费用。本次用到的收费性API有百度翻译API和百度AI自然语言API。因Excel催化剂仅实现了功能部分,后期大家使用时请记得自行申请APPKey来使用,插件自带的APPKey只是测试用途,不能满足大量人员一起使用的。
详细功能之翻译功能
翻译功能使用的API为百度翻译API,月总免费流量为200万字符数,如上图,简单测试一下,流量已经使用了2.5万,使用时记得申请自己的API,不要使用插件自带的开发测试的API。
操作步骤
类似之前介绍的图片插入功能,先选择要翻译的单元格区域,然后点击【接入人工智能】=》【翻译功能】,即弹出相应的设置窗体。
- 源语言,若提供的原文有两种语言,最好设置一下,若只有一种语言,程序可自行识别
- 目标语言,必选,根据所需要翻译的语种进行选择,语种十分丰富,点开下拉可查看到。
- 目标单元格偏移,类似之前插入图片,是根据原文的单元格向左右或上下偏移的位置而设定,如下图是把翻译结果放在B列,原文A列的右边1列。
正式大量使用前务必点击AppKey设置,到百度翻译网页上进行注册申请相应的AppKey,填写到相应的位置,如下图所示。
-
翻译效果
详细功能之中文分词
中文分词暂未使用百度AI接口来获取,使用本地版的结巴类库实现,使用多少都不产生费用,分词效果还算可以,并配置有自定义词典,方便自行维护特有词语,如我需要对Excel催化剂 这个词做分词,不希望默认的把它分为两个词 Excel和催化剂,这种效果需要在自定义词典中维护。
详细操作步骤
-
数据准备,和前几次分享一样,数据区域要符合规范性(无断行断列)。且需新增一列标识数据记录的唯一性,为后期分词后可以溯源是哪条记录的待分词列产生的分词结果,有数据库一对多关系的知识或熟练Vlookup函数的使用就很好理解。(若源数据可能不好找到组合多列的结果为唯一列,如下图的订单编号+商品SKU组成唯一列,可手工对其简单进行序号编号构造唯一列标识)
-
选择要分词的数据区域,可点击数据区域任一单元格即可,点击按钮【接入人工智能】=》【中文分词】,即可弹出设置窗体如下所示
- 当前数据源信息,可查看选择的数据区域是否和预期一样,同样可实现和上几次类似的,隐藏行的数据将不进行处理。
- 点击下拉框选取唯一标识列和待中文分词列,让程序知道数据源中哪些列是对应上此两列的。
-
配置自定义词典 若要增加自定义词,点击此按钮,将打开【自定义词典表.xlsx】文件,在【自定义词典表】工作表中按格式添加即可,词频和词性的定义见批注解释。【结巴词性表】定义了词性是否要过滤,可自行调整或最终在结果表里再手工调整也可。
-
点击分词操作即可完成。
数据生成导出到新的智能表还是现有智能表的区别,见上篇购物篮分析文章里所解释的。
结果表中,已经可见有分词列、词性列和词频数三列,是否过滤是根据自定义词典里定义的带过来,有了此结果表数据,再使用Vlookup或Powerpivot数据建模的方式,把源表和结果表进行关联起来,可根据多个维度来做分词的词频分析,如按商品年份或按商品类别来看各自的词频,实现动态交互式的分析报表。
- 有了分词后,再做一个当下时尚的词云效果,词云制作很多在线的网页版工具,下图为https://wordart.com/网站做出的效果,可快速地发现用户的评价中,对质量、面料、穿着舒适度是比较关注的。
详细功能之评论观点提取
虽说词云可以较好地对中文字符串进行较为准确的切割,但中文世界里,一个意思可由许多的词来表达,增加了分析的复杂度,如面料和布料其实是一个意思,单单分词后的效果不能太理想,且分词下来,也没法把握到一个单元的评论中所表达的情感如何,所以用真正的人工智能去识别短句内包含的关键信息和引信息传达的情感极性如何,还是挺有必要的。
详细操作步骤
和以上分词步骤大体一致,先选择数据区域,数据区域先做好唯一列的准备,然后配置过程中也是唯一列和待处理文本列的人工处理映射关系
- 评论行业类型 需根据待评论处理的来源,选择相应的行业,如餐饮、3C、购物等。
-
AppKey设置 此处的设置和前面提及的翻译功能使用的不一样,整个人工智能功能,需用到两处AppKey,翻译是一处,评论这里是另外一处,请务必在大量使用前进行注册申请。
-
点击【观点提取】后即可出下图的结果表效果,理想情况下,一句评论和多个观点时,会出现多条记录,如SO1P1所示,同时提到质量和上身效果两个维度。但同时也存在一些有观点但提取不出来的情况,不能在结果表中显示,这些都是百度云API提供的结果,希望它越来越智能,提取效果越来越好和准确吧。
详细功能之情感倾向分析
和以上评论观点提取也较为类似,操作步骤几乎相同,此处不再重复罗列
情感倾向分析只对一句话的情感进行量化分析,显示此句话表达的是消极、中性还是积极的情感。有可能一句话既有消极的部分,也有积极的部分,然后最终它会计算出一个极性分类及此极性的判断是可信度(置信度),同时也给出了积极和消极的概率数作参考,详细如下图所示。
总结
此次Excel催化剂借助外界人工智能的研究成果,将其接入到Excel中,给Excel赋予更加智能灵活的数据处理能力,即把现实世界中特别是电商时代下产生的大量的非结构化数据,对其进行切割分词、评论关键信息提取标准化,及对评论内容进行量化的情感极性标注等,给Excel后续的数据分析带来了可分析的维度和指标进行统计分析对比,实现分析非结构化数据的最终目标。同时也开阔了大家对Excel的认识,它不仅仅是一款不合时的小型的制表小工具,给予它相应的催化剂,它也同样在新时代绽放出无限精彩!无需借助其他工具实现且实现方法接近智能化,任何Excel普通用户即可轻易驾驭!
系列文章
Excel催化剂安装过程详解及安装失败解决方法 - 简书https://www.jianshu.com/p/4efcee38175a
Excel催化剂功能第1波-工作表导航 - 简书 https://www.jianshu.com/p/d9b2ae29cebe
Excel催化剂功能第2波-数字格式设置 - 简书 https://www.jianshu.com/p/a758ac3e77e2
Excel催化剂功能第3波-与PowerbiDesktop互通互联 - 简书https://www.jianshu.com/p/e05460ad407d
Excel催化剂功能第4波-一大波自定义函数高级应用,重新定义Excel函数的学习和使用方法 - 简书 https://www.jianshu.com/p/534803771c20
Excel催化剂功能第5波-使用DAX查询从PowerbiDeskTop中获取数据源 - 简书https://www.jianshu.com/p/21b2ca8fd2b8
Excel催化剂功能第6波-导出PowerbiDesktop模型数据字典 - 简书https://www.jianshu.com/p/bc26a8dcdfce
Excel催化剂功能第7波-智能选区功能 - 简书 https://www.jianshu.com/p/146748e484d5
Excel催化剂功能第8波-快速可视化数据 - 简书 https://www.jianshu.com/p/ce7cca2baf89
Excel催化剂功能第9波-数据透视表自动设置 - 简书https://www.jianshu.com/p/f872ace9aa90
Excel催化剂功能第10波-快速排列工作表图形对象 - 简书https://www.jianshu.com/p/eab71f2969a6
Excel催化剂功能第11波-快速批量插入图片 - 简书https://www.jianshu.com/p/9a3d9aa7ba7e
Excel催化剂功能第12波-快速生成、读取、导出条形码二维码 - 简书https://www.jianshu.com/p/76c6856bec12
Excel催化剂功能第13波-一键生成自由报表 - 简书https://www.jianshu.com/p/af0ac9ce1819
Excel催化剂功能第14波-一键生成零售购物篮分析 - 简书https://www.jianshu.com/p/35014c17dff2
关于Excel催化剂
Excel催化剂先是一微信公众号的名称,后来顺其名称,正式推出了Excel插件,插件将持续性地更新,更新的周期视本人的时间而定争取一周能够上线一个大功能模块。Excel催化剂插件承诺个人用户永久性免费使用!
Excel催化剂插件使用最新的布署技术,实现一次安装,日后所有更新自动更新完成,无需重复关注更新动态,手动下载安装包重新安装,只需一次安装即可随时保持最新版本!
Excel催化剂插件下载链接:https://pan.baidu.com/s/1eT2znYM
因插件使用VSTO开发技术完成,插件的安装需要电脑满足相关的环境配置才能运行,且需可连接外网的方式实现自动更新机制,若下载安装过程中有任何疑问或需要离线版安装等,尽量不单独私聊询问,加QQ群可高效解决(群内已汇集了VSTO开发、Powerbi技术、Sqlserver商业智能等方面的国内顶尖大牛人物,进群的好处不用多说了)
取名催化剂,因Excel本身的强大,并非所有人能够立马享受到,大部分人还是在被Excel软件所虐的阶段,就是头脑里很清晰想达到的效果,而且高手们也已经实现出来,就是自己怎么弄都弄不出来,或者更糟的是还不知道Excel能够做什么而停留在不断地重复、机械、手工地在做着数据,耗费着无数的青春年华岁月。所以催生了是否可以作为一种媒介,让广大的Excel用户们可以瞬间点燃Excel的爆点,无需苦苦地挣扎地没日没夜的技巧学习、高级复杂函数的烧脑,最终走向了从入门到放弃的道路。
最后Excel功能强大,其实还需树立一个观点,不是所有事情都要交给Excel去完成,也不是所有事情Excel都是十分胜任的,外面的世界仍然是一个广阔的世界,Excel只是其中一枚耀眼的明星,还有其他更多同样精彩强大的技术、工具等。*Excel催化剂也将借力这些其他技术,让Excel能够发挥更强大的爆发!
关于Excel催化剂作者
姓名:李伟坚,从事数据分析工作多年(BI方向),一名同样在路上的学习者。
技术路线从一名普通用户,通过Excel软件的学习,从此走向数据世界,非科班IT专业人士。
历经重重难关,终于在数据的道路上达到技术平原期,学习众多的知识不再太吃力,同时也形成了自己的一套数据解决方案(数据采集、数据加工清洗、数据多维建模、数据报表展示等)。
擅长技术领域:Excel等Office家族软件、VBA&VSTO的二次开发、Sqlserver数据库技术、Sqlserver的商业智能BI技术、Powerbi技术、云服务器布署技术等等。
2018年开始职业生涯作了重大调整,从原来的正职工作,转为自由职业者,暂无固定收入,暂对前面道路不太明朗,苦重新回到正职工作,对Excel催化剂的运营和开发必定受到很大的影响(正职工作时间内不可能维护也不可能随便把工作时间内的成果公布于外,工作外的时间也十分有限,因已而立之年,家庭责任重大)。
和广大拥护者一同期盼:Excel催化剂一直能运行下去,我所惠及的群体们能够给予支持(多留言鼓励下、转发下朋友圈推荐、小额打赏下和最重点的可以和所在公司及同行推荐推荐,让我的技术可以在贵司发挥价值,实现双赢(初步设想可以数据顾问的方式或一些小型项目开发的方式合作)。)