当前位置:   article > 正文

每日一看大模型新闻(2024.1.7-1.8下)阿里推文生3D数字人项目Make-A-Character;400万token上下文、推理再加速46%!OpenAI翁丽莲的Agent公式,一定是正确的吗_阿里文生3d数字人

阿里文生3d数字人

1.产品发布

1.1阿里推文生3D数字人项目Make-A-Character

发布日期:2024-1-8

阿里推文生3D数字人项目Make-A-Character 人人皆成3D角色设计师

主要内容:阿里通义实验室XR实验室推出Make-A-Character项目,能从文字快速生成3D数字人。用户可自定义面部特征,比如脸型、眼睛颜色等。角色基于真实人类扫描数据集生成,发型为实际发丝而非网格。MACH通过文本描述生成逼真的、完整的、可动画化的3D角色,适用于各种娱乐和专业场景

项目及演示:https://top.aibase.com/tool/mak

1.2阿里开源AnyText

发布日期:2024-1-8

可在图像中生成任意精准文本!阿里开源AnyText - 知乎 (zhihu.com)

主要内容:阿里开源多语言视觉文字生成与编辑模型——AnyText,持中文。AnyText采用文本控制的扩散流程,包括辅助潜变量模块和文本嵌入模块,能够生成弯曲、不规则的字体。AnyText使用了多个OCR识别数据集和严格的过滤规则构建了AnyWord-3M数据集,提供高质量的训练数据。AnyText对生成文字的把控可媲美专业PS,用户可自定义规划文字出现的位置,图片的强度、力度、种子数等,目前在Github超2,400颗星非常受欢迎。

开源地址GitHub - tyxsspa/AnyText: Official implementation code of the paper <AnyText: Multilingual Visual Text Generation And Editing>

论文地址https://arxiv.org/abs/2311.03054

在线demohttps://huggingface.co/spaces/m

2.技术更新

2.1单帧标注视频就能学到片段特征,达到全监督性能!华科拿下时序行为检测新SOTA

发布日期:2024-1-8

单帧标注视频就能学到片段特征,达到全监督性能!华科拿下时序行为检测新SOTA|AAAI24

主要内容:华中科技大学与密歇根大学的联合团队提出了一种名为HR-Pro的新框架,用于时序行为检测。该框架通过多层级可靠传播方法,学习到更具辨别力的片段级特征和更可靠的实例级边界。HR-Pro包括两个可靠性感知的阶段,能够有效地从片段级别和实例级别的点标注中传播高置信度的线索,从而使网络能够学习到更具区分性的片段表示和更可靠的提议。在多个基准数据集上进行的大量实验证明,HR-Pro明显优于现有方法,并取得了最先进的结果。HR-Pro只需很少的标注就能取得很好的效果,降低了获取标签的成本,同时拥有较强的泛化能力,为实际部署应用提供了有利条件。预计HR-Pro将在行为分析、人机交互、驾驶分析等领域拥有广阔的应用前景

论文地址https://arxiv.org/abs/2308.12608

2.2四行代码让大模型上下文暴增3倍,羊驼Mistral都适用

发布日期:2024-1-8

四行代码让大模型上下文暴增3倍,羊驼Mistral都适用

主要内容华人学者发布了名为SelfExtended(简称SE)的大模型窗口扩展方法,只需四行代码就能让大模型窗口长度暴增,最高可增加3倍。该方法已在Mistral和Llama2上试验成功,使大模型成为LongLM。在长文本任务中,SE处理后的模型表现优于原始版本,且在短文本任务中没有下降。SE通过FLOOR注意力机制解决位置编码超限问题,实现长文本处理。目前SE支持Phi、Llama和Mistral三种模型,其他模型需要对代码进行修改。SE的开箱即用版已发布。

论文地址https://arxiv.org/abs/2401.01325

2.3 400万token上下文、推理再加速46%!最新开源方案升级MIT成果,推理成本再降低

发布日期:2024-1-8

400万token上下文、推理再加速46%!最新开源方案升级MIT成果,推理成本再降低

主要内容:开源社区Colossal-AI团队对MIT的StreamingLLM项目进行了改进,实现了22.2倍推理速度提升。他们进一步开源了基于TensorRT的SwiftInfer,可以再提升46%的推理性能。StreamingLLM通过观察注意力模块中Softmax的输出,解决了多轮对话中key和value缓存消耗大量内存的问题,同时保持生成质量。SwiftInfer结合了StreamingLLM方法和TensorRT推理优化,继承了所有优点并提高了运行效率。此外,Colossal-AI还开源了13B大模型Colossal-LLaMA-2-13B,在知识性内容掌握程度、自然语言处理任务理解程度等方面有质的提升。

Colossal-AI开源地址GitHub - hpcaitech/ColossalAI: Making large AI models cheaper, faster and more accessible

参考链接Inference Performance Improved by 46%, Open Source Solution Breaks the Length Limit of LLM for Multi-Round Conversations

2.4英伟达RTX 40 SUPER显卡价格曝光

发布日期:2024-1-7

约4300元起 英伟达RTX 40 SUPER显卡价格曝光_凤凰网

主要内容:英伟达将在本月发布RTX 4070 SUPER、RTX 4070 Ti SUPER、RTX 4080 SUPER三款显卡,价格分别为599美元、799美元和999美元。这些价格信息来自于MEGA size GPU,其准确率相当高。如果价格信息属实,英伟达GeForce RTX 40 SUPER将与AMD Radeon RX 7800/7900具有一定竞争力。具体性能方面,RTX 4080 SUPER比RTX 4080快3-5%,RTX 4070 Ti SUPER比RTX 4070 Ti快15%,RTX 4070 SUPER比RTX 4070快14%。在大多数游戏中,RTX 4070Ti SUPER与RTX 4080相当;在大多数游戏中,RTX 4070 SUPER与RTX 4070Ti相当。英伟达的策略是不会正式降价,而是以更低的价格推出相同性能的新产品

2.5 1张图2分钟转3D!纹理质量、多视角一致性新SOTA

发布日期:2024-1-7

1张图2分钟转3D!纹理质量、多视角一致性新SOTA|北大出品

主要内容:Repaint123是一种新方法,可以将图片转换为高质量的3D模型。该方法的核心思想是将2D扩散模型的强大图像生成能力与再绘策略的纹理对齐能力相结合,来生成高质量、多视角一致的图像。该方法能够解决此前方法多视角偏差大、纹理退化、生成慢等问题。Repaint123通过综合考虑图像到3D生成的可控重绘过程,能够生成高质量的图片序列,并确保这些图片在多个视角下保持一致。此外,该研究还引入了针对重叠区域的可见性感知自适应再绘强度的方法。总之,Repaint123只需两分钟就能从单张图像中生成与2D生成质量相匹配的高质量3D内容。

论文地址https://arxiv.org/pdf/2312.13271.pdf

代码地址https://pku-yuangroup.github.io/repaint123/

2.6 OpenAI翁丽莲的Agent公式,一定是正确的吗?

发布日期:2024-1-7

OpenAI翁丽莲的Agent公式,一定是正确的吗?

主要内容:2024年,AI Agent被寄予厚望,被视为通向AGI最有可能的路径之一。国内外公司都在研究这一领域,尽管目前还处于“押注”阶段。toB领域已经开始使用AI Agent,它可以作为管理者、员工和员工之间的连接器,填补企业数字化转型过程中的人与系统之间的空白。然而,由于技术限制,AI Agent需要与传统技术如搜索规则引擎、知识图谱等进行组合。此外,Agent必须知道自己在何种环境和场景下能够发挥作用。澜码科技创始人兼CEO周健刚刚在上海发布了团队自主研发的AI Agent平台AskXBOT。AskXBOT是一个基于大语言模型的Agent工作流设计、开发、使用、管理、知识沉淀的一站式平台。澜码科技认为,Agent最重要的能力是与环境的互动能力。如果能意识到环境是什么样,有哪些可被调用的工具,能去发现、去探索,这个能力很重要。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/繁依Fanyi0/article/detail/498307
推荐阅读
相关标签
  

闽ICP备14008679号