赞
踩
目录
九章云极DataCanvas是一家AI基础软件供应商,致力于为企业训练和应用大模型赋能,通过自主研发的人工智能基础软件产品系列和解决方案,为用户提供人工智能基础服务,助力其在数智化转型中轻松完成模型和数据的双向赋能,低成本高效率的提升企业决策能力,实现企业级AI规模化应用。
目前在公司自主研发的DataCanvas Alaya 九章元识大模型矩阵中开源了:「Alaya-7B大模型系列」中的Alaya-7B Foundation Model通识大模型和Alaya-7B Chat Model对话大模型两大模型,以及「LLMOps大模型工具链」中的LMS模型运行工具和LMPM 提示词管理器两大工具。
公司商用产品包括DataCanvas APS一站式 低代码 自学习的机器学习平台,DataCanvas RT流批一体的实时决策中心平台,DataCanvas BAP全流程 一站式 零门槛的面向业务自动建模平台和TableAgent数据分析智能体,公司目前已经针对多个行业(银行,证券,通信,制造)和多场景(AI中台,ModelOps,运营商营销自动建模,银行分控)给出解决方案。
TableAgent是在Alaya元识基础上进化而来,是从0到1的交互式结构化数据分析的突破,是企业数据分析的全新方式。TableAgent是基于DataCanvas Alaya九章元识大模型开发的企业级数据分析智能体,具有强大的意图理解、分析建模和洞察能力。它能够理解用户意图,利用统计科学、机器学习和因果推断等技术从数据中挖掘价值,并提供深刻的分析观点和指导行动的见解。
TableAgent是一款支持私有化部署的企业级数据分析智能,它利用统计科学、机器学习、因果推断等高级建模技术从数据中挖掘价值,进而提供分析观点和指导行动的深刻见解。这种启发式和引导式分析能力,能够从深度和广度上不断挖掘数据中的信息和价值,帮助用户完成高质量的分析工作。
TableAgent数据分析智能体核心能力包含会话式分析,私有化部署,企业级分析,领域化微调和透明化过程等5个核心能力。具体详情如下:
TableAgent具备会话式数据分析能力,用户可以通过自然语言与TableAgent进行交互式数据分析,实现所需即所得的数据探索和查询。用户无需编写复杂的查询语句或命令,从而提高了数据分析的效率和易用性。
TableAgent支持私有化部署,TableAgent可以部署和运行在自己的服务器或基础设施上,从而保障数据的安全性和隐私性,有效防止敏感数据泄露,符合特殊行业或组织对于数据安全的严格要求。
TableAgent具备大规模数据处理和性能分析的能力,可以解决企业级的数据处理和分析需求。针对海量数据的处理和复杂的分析计算,TableAgent能够提供稳定、高效的性能,满足企业级数据分析的要求。
TableAgent支持领域微调,用户可以根据不同领域的分析需求和数据特征,对TableAgent进行专业化微调,使得其更加贴合特定领域的数据分析需求,提高了数据分析的专业化程度和适用性。
TableAgent的数据分析过程中是透明化的,用户可以清晰地了解数据分析的流程和方法,以及数据处理的准确性和合规性,确保数据分析过程的透明和可信度,从而提高了数据分析结果的可信度和可审计性。
TableAgent背后的关键技术支撑是九章云极DataCanvas公司自主研发的Alaya九章元识大模型,采用的模型是在Alaya基础大模型之上微调的Alaya-ZeroX模型组,通过一系列擅长不同能力的模型组合完成复杂的分析任务,不同参数规模的模型同时满足了对生成质量和推理性能的要求。TableAgent同时配套设计了T+(Table Family)系统,能够高效的实现定制化的微调工作,同时系统具有自我迭代的能力,系统性的体系设计能够实现更高效的数据分析,让用户在无感知的情况下即可获得不断升级的数据分析体验。
Alaya-7B大模型是基于Alaya通识大模型,在万亿token数据集(包含网络上的中英文文章、新闻、百科等数据源)上从0开始预训练而成。Alaya元识大模型是九章云极DataCanvas自研的“通识+产业”白盒大模型,是九章云极DataCanvas AIFS的核心能力之一,它提供了一系列不同配置和参数、具备业界前沿能力和技术的预训练大模型,赋予用户更大自由度的AI创新能力,以加速实现大模型在多元业务场景中的落地和应用。Alaya-7B大模型系列在保证模型表现的同时,对使用者的安装使用硬件要求更低、应用技术难度更低、训练所需的算力资源消耗更小,有助于加速大模型在各类行业场景的实际应用。
九章云极DataCanvas 开源了Alaya大模型,开源地址为:https://github.com/DataCanvaslO/alaya。九章云极DataCanvas 同时在在Hugging Face开源了7B-Base和7B-Chat版本,模型表现业内领先,知识丰富且富有时效性,最新数据覆盖2023年10月的内容。
1.1 Alaya-7B Foundation Mode :
Alaya-7B Foundation Model是DataCanvas Alaya九章元识大模型矩阵的一款开源通识大模型,是在自我采集、精心筛选处理的万亿token数据集上从0开始预训练而成。自有采集数据包含网络上的中英文文章、新闻、百科等数据源。
1.2 Alaya-7B Chat Model :
Alaya-7B Chat Model 是Alaya-7B Foundation Model的对话版本,通过在精心选择的微调数据集上进行微调,微调数据量达500k+条,包含多领域的指令和对话数据。经过模型初筛和人工精筛,大幅提高微调数据品质,并且基于偏见语料对模型做了Red Teaming拒答微调,并对基于涉毒、涉黄以及不良偏见数据进行去毒,从而生成和人类价值观对齐的对话式大模型。Alaya-7B Chat Model具备多轮对话、自我认知和偏见拒答的能力,能够完成知识问答、代码编写、信息提取、阅读理解、创意写作等多项语言任务。
白盒大模型(Apache2.0 开源协议,支持微调):市场上的很多大模型都是“黑盒”,虽然在一定程度上开源了算法和架构,允许用户在上面进行训练,但是仍然受到诸多限制。Alaya元识是全面开源且license友好的“白盒”大模型,遵循Apache 2.0 license,行业用户可以在Alaya元识大模型之上自由地训练、微调自己的大模型。
多模态大模型(支持文本、支持图像):Alaya元识大模型不仅可以支持文本、图像,还能支持时序数据、结构化数据等,这就意味着用户不仅可以通过自然语言与大模型进行交互,同时大模型也支持生成图像来更好的展示数据内容,九章云极DataCanvas在自然语言的理解、文生图、代码生成等领域已经落地了很多成功案例。
模型训练机制(优化注意力机制,更长的上下文,可组合微调):Alaya元识大模型采用了改进的Attention机制、更长的Context window、可组合的微调以及全新的Masking机制等,使得模型在有效减少训练所消耗的算力基础同时,保证其理解的准确性,大幅提升了模型处理速度。
系列模型矩阵(参数从小到大,行业从通识到领域):Alaya元识是一系列大模型,开源大模型矩阵中包括了Alaya-7B Foundation Model通识大模型和Alaya-7B Chat Model对话大模型两大模型,以及LLMOps大模型工具链中的LMS模型运行工具和LMPM 提示词管理器两大工具,能够有效地推动大模型在各类行业场景的实际应用,进而更好地满足用户多样化的需求。
极简交互设计:TableAgent采用极简界面设计,用户只需要通过在右侧选择数据集或者上传自己的数据集,就可以基于数据集进行数据分析交互,数据分析整个过程非常简单清晰,非常方便用户入手分析。
丰富的内置数据集:TableAgent系统内置了十多种数据集,这些数据集都是目前作数据分析系统非常标准非常经典的样本数据集,TableAgent意图通过这样的设计使得用户能够快速上手使用,非常适合初学者使用。
支持自定义数据集:TableAgent支持用户上传自定义数据集,用户可以根据自身需求对数据标准进行定义与分析,非常适合日常数据分析工作者,用户可以通过TableAgent快速进行数据分析和探索。
完全自研技术底座:TableAgent底层采用九章云极DataCanvas公司自主研发的Alaya九章元识大模型,能够高效的实现定制化的微调工作,同时系统具有自我迭代的能力,让用户在无感知的情况下即可获得不断升级的数据分析体验。
多模态数据交互:TableAgent底层为多模态大模型,这意味TableAgent不仅支持自然预言处理,同时支持图像任务的处理,TableAgent不仅支持将分析结果以表格的方式输出,同时支持以图表的方式输出,这在整个数据分析行业,目前还是首屈一指的。
透明化的推理过程:TableAgent支持完全透明化推理过程,能够提供更可解释的决策过程和更可靠的推理结果,包括清晰地展示模型是如何做出决策的,使用户能够理解模型的推理逻辑和决策依据;追溯每一步的推理和决策,使用户能够准确了解模型是如何得出特定结果的;提供更可靠和可信的推理结果,使用户能够对模型的决策和预测结果产生更高的信任度。
第一步:登录TableAgent网址:TableAgent (datacanvas.com) ,申请TableAgent使用体验
也可以通过登录九章云极DataCanvas官网:九章云极DataCanvas 进行跳入到 TableAgent网站
第二步:填写手机号码,和验证码进行登录验证:
到此为止,你已经登录成功了,可以使用TableAgent进行数据分析了,但是总共只有5次机会,如果后面需要一直使用的话,还需要进行认证操作。
第三步(可选,用户认证):登录成功之后,在点击页面右上角“申请认证”,然后在打开页面进行个人信息填写,点击提交即可完成认证。
个人认证需要填写姓名,邮箱,公司,部门,职位,行业等信息,根据个人情况真实填写即可。
到此为止,你已经完成了所有的操作,用户现在可以使用TableAgent进行数据分析操作了,每天有15次的使用次数,次数有点少,希望官方增加到30次。
第一步:准备CSV格式数据,我准备的数据集是世界知名大学排名信息表和全国2014-2018年空气质量csv数据集,如下图所示:
世界知名大学排名信息表数据集
全国2014-2018年空气质量csv数据集
第二步:上传数据集到TableAgent,此处需要提醒一下各位,CSV的编码方式必须为utf-8,否则会在上传过程中报错,提示需要进行转码。
数据上传成功之后,会提示用户:数据集文件成功加载,提示用户可以进行数据分析了。
数据分析过程可以分为三个阶段,数据录入及编码,模型调度及推理,数据解码及输出。数据录入及编码:用户输入与数据集相关的问题,TableAgent接收到输入请求并对输入进行词向量编码。模型调度及推理:模型接收到用户传入的词向量编码,对词向量进行推理。数据解码及输出:输出层对模型的推理信息进行解码并且输出最终答案反馈给前端页面。
3.1 第一个问题:这是什么数据集,每个字段什么含义?
这里我们选择世界知名大学排名信息表数据集,以世界知名大学排名信息表数据集对TableAgent进行提问。
推理部分:整个分析过程如下:模型推理用时14秒,可以看出模型首先理解了用户的输入信息,然后把输入信息转化为对应的python代码,通过执行python代码获得语义的输出结果,然后对输出结果进行了翻译并输出:
输出部分:模型输出结果如下图所示:可以看出TableAgent正确理解了用户的意思,并给出了准确的答案。
3.2 第二个问题:这份数据中,包含了全世界多少所院校?统计不同国家学校的数量,并倒序排序,对前五个画图并解读一下
这里我们同样以世界知名大学排名信息表数据集对TableAgent进行提问。
推理部分:下图输出了整个过程的推理部分,可以看得出来整个数据调用链路还是挺长的,挺复杂的。首先通过Alaya构建了DataGraph, 然后再一步一步完成了整个数据分析过程。
输出部分:输出结果如下图:输出结果是正确的,同时输出了表格和图标,这个很厉害,惊艳到了小编。
3.3 第三个问题:介绍一下这是什么数据集,每个字段什么含义?
这里我们选择全国2014-2018年空气质量csv数据集,以全国2014-2018年空气质量csv数据集对TableAgent进行提问。
推理过程如下:
输出结果如下:
3.4 第四个问题:请分析各城市的SO2浓度在2015年的变化趋势?
这里我们同样以全国2014-2018年空气质量csv数据集对TableAgent进行提问。后面省略推理过程,直接附上输出结果图,不过话说回来,推理过程真的是TableAgent一大亮点,对用户完全透明化的推理过程真的让人耳目一新。
3.5 第五个问题:根据不同城市的空气质量,哪些城市的空气质量最差?
这里我们同样以全国2014-2018年空气质量csv数据集对TableAgent进行提问。
3.5 第六个问题:根据城市的不同,PM2.5和PM10的平均值有什么不同?
这里我们同样以全国2014-2018年空气质量csv数据集对TableAgent进行提问。
点击页面右上角的 “用量”按钮,用户可以查看当前模型的使用情况,具体信息包含 Token用量,剩余使用次数等信息,这里做的非常人性化,方便用户实时查看自己的使用情况。
用户可以拖动聊天窗口的滚动条,进行历史会话记录的查看。
前面是白色主题,我们现在切换到黑色主题,点击做上角的 “黑色主题” 即可完成主题切换。
会话管理优化:TableAgent目前不支持多会话管理,假设我们同时需要对多个数据集进行数据分析,TableAgent是无法做到的,而通过单个会话窗口对多个数据集进行数据分析,又容易造成会话记录混乱,记忆丢失等情况,这对于用户来时是不友好的。TableAgent可以对会话管理进行优化,支持多会话管理。
数据集管理:TableAgent目前只支持对用户上传数据集,不支持对已有数据集进行数据集管理,如何有效的对用户的数据集进行管理操作包括数据集的增加、删除,修改,预览等操作。TableAgent可以从数据集管理这个方向对TableAgent进行优化。
上下文理解优化:TableAgent在使用过程中会出现记忆混乱或者记忆丢失的问题,从而导致前面的分析结果无法进行准确的被后面的会话所使用,这对于用户是难以接受的,这个也应该是TableAgent后续版本中需要进行优化的方向。
数据集支持泛类型:TableAgent目前只支持对CSV格式的数据进行分析,但是真实工作过程中存在着各式各样的数据,有结构化数据(Excel表格,关系型数据库类型数据等),半结构化数据(Json类型,Txt数据类型等)和非结构化数据(Wrod类型数据,PDF数据类型等),对多样类数据类型的支撑是基于真实工作场景来分析的。TableAgent需要充分贴合用户的真实使用场景,才能更好的服务于用户。
数据集体量优化:TableAgent目前支持的CSV体量上限为5MB,数据体量偏小,这个在真实的工作过程中是严重不足的,在实际应用场景中,数据体量会达到百MB级别或者GB级别,希望TableAgent可以充分考虑数据体量的限制。
硬件和算力的优化:大部分用户可能没有生产级别的显卡及服务器,如何在消费级级别的服务器上部署我们的大模型是我们首当其冲应该考虑的问题,如何在减少算力消耗的情况下,加速大模型的训练,并且在训练完成后更,更好地调教这个模型,并使之能够“飞入寻常百姓家”,让广大的中小企业受益,这应该会是TableAgent一直需要考虑的问题。
地理信息行业场景落地:TableAgent可以帮助地理信息系统(GIS)进行地图数据的分析和处理,包括地形、地貌、气候、土地利用等方面的数据,在交通运输领域,数据分析智能体可以通过分析交通流量、道路状况等数据,优化交通规划和管理。
医疗行业场景落地:TableAgent可以帮助医疗机构对大量的患者数据进行分析,包括病历数据、医学影像数据、实验室检测数据等,从而帮助医生更快速、更准确地进行诊断和制定治疗方案。在药物研发领域,数据分析智能体可以通过分析大量的生物信息数据,帮助科研人员发现新的药物靶点、预测药物的疗效和副作用,加速药物研发的进程。
律师行业场景落地:TableAgent可以帮助律师事务所在法律风险管理方面,数据分析智能体可以通过分析大规模的法律数据,帮助企业识别潜在的法律风险和合规问题,提前进行风险预警和合规调整。数据分析智能体同时还可以在诉讼辅助和法律服务方面发挥作用,通过分析大量的案件数据和法律文书,帮助律师预测案件结果、制定诉讼策略,提高诉讼效率和成功率。
本文我们分别从产品简介,产品的核心能力,产品底层的技术底座,产品的应用场景,产品优势与不足,产品实操以及产品未来方向7个层面对TableAgent进行了相关的介绍和使用,TableAgent是一款专注于数据分析和挖掘的高性能分析工具,具有丰富的应用场景和核心能力。它适用于企业级数据分析、数据安全领域、专业化数据分析领域和透明化过程和审计监督领域。TableAgent支持处理大规模数据并提供高性能分析能力,同时支持领域微调,可以根据不同领域的需求进行专业化定制。其使用方法灵活多样,可以满足不同用户的需求。TableAgent具有高性能、可扩展性强、支持领域微调、透明化过程和审计监督等特点,能够满足企业级数据分析的需求,同时在数据安全和专业化数据分析领域也有着广泛的应用前景。整体来说,TableAgent已经做得非常好了,同时我们希望TableAgent下一次的升级能更给大家带来更大的惊喜。
文末彩蛋:TableAgent数据分析智能体目前提供了公测机会,欢迎广大的开发者和数据分析爱好者们进行使用,目前只要注册即可获得5次使用TableAgent的机会,如果你想继续使用的话,需要进行认证操作,这样子的话就可以获得每天15次的使用机会,欢迎大家来薅羊毛。欢迎点赞-收藏-加关注,关注我,叫个朋友,带你了解更多关于人工智能的前沿咨询,让我们共同成长。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。