赞
踩
2024生成式人工智能GenAI在生物医药大健康行业应用进展报告
自2022年底起,OpenAI推出的ChatGPT在全球掀起了热潮。生成式人工智(GenAI)技 术日新月异,各行各业正积极探索如何整合最新的GenAI技术以推动数字化转型。据统 计,全球大型企业中,已有10%成功将GenAI技术应用于公司层面的平台级项目,50% 正在进行小规模尝试,而另外40%仍在观望阶段。
生物医药大健康行业作为一个高度专业化和知识密集型的领域。从药物研发到临床试 验,再到上市后的学术推广和患者教育等全流程应用场景,涉及到大量非结构化文本、 图片和视频的处理。随着集采政策的实施和监管要求的提高,运营成本和复杂性不断上 升,因此迫切需要借助人工智能来提升效率,重塑工作模式。
自GenAI推出以来,国内 外的药械、营养保健、医疗机构以及科研机构纷纷尝试将GenAI技术应用于不同场景, 已经有一些公司和机构通过GenAI创造了全新的产品和服务,为业务增值。最近的一项 调查显示,GenAI已成为大多数制药公司的首要关注点,40%的高管表示他们正计划将 GenAI带来的成本节约重新投入到2024年的预算计划中。另外,60%的公司确立了使用 GenAI来帮助企业降低成本或提高生产效率的目标,其中75%的公司将其视为高管层和 董事会的优先事项。
GenAI 应用进展情况
当OpenAI在2022年11月30日发布ChatGPT的时候,没有人会意识到,新一代人工智能 浪潮将在接下来短短数月给人类社会带来一场眩晕式的变革。自2010年代初深度学习 问世以来,人工智能进入到第三次高潮。而2017年Transformer算法将深度学习推向了 大模型时代。OpenAI基于Transformer的Decoder部分建立起来了GPT家族。ChatGPT 一经面世便风靡全球,人们惊讶于其能够进行连贯、有深度对话的同时,也惊异地 发现了它涌现了推理、思维链等体现智能的能力。伴随AI预训练大模型持续发展,生成式人工智能(GenAI)算法不断创新以及多模态 AI日益主流化,以ChatGPT为代表的GenAI技术加速成为AI领域的最新发展方向,推 动AI迎来下一个大发展、大繁荣的时代,将对经济社会发展产生重大的影响。
GenAI应用领域与案例
(1)多模态内容生成
A. 文本生成领域
自然语言生成是一种GenAI技术,可以生成逼真的自然语言文本。生成式AI可以 编写文章、故事、诗歌等,为作家和内容创作者提供新的创作方式。同时,它还 可以用于智能对话系统,提高用户与AI的交流体验。ChatGPT(全名:Chat Generative Pre-trained Transformer对话生成式预训练变换模型 )是由OpenAI开发的 一个人工 智能聊天机器人程序,于2022年11月推出。该程序使用基于GPT-3.5架 构的大语言模型并通过强化学习进行训练。ChatGPT 目前仍以文字方式互动,可以解决包括自动文本生成、自动问答、自动 摘要等在内的多种任务。Jasper已经开始为谷歌、脸书等知名公司提供文案 GenAI的商业服务。
B. 图像生成领域
图像生成是GenAI技术中最为普遍的应用之一。Stability AI发布了稳定扩散 (Stable Diffusion)模型,通过开源快速迭代大幅降低了AI绘画的技术使用门 槛,消费者可以通过订阅旗下产品DreamStudio来输入文本提示词生成绘画作 品,产品已经吸引全球 50多个国家超过100万的用户注册。
C. 音视频创作与生成
2024年2月16日, OpenAI继一年前发布ChatGPT语言大模型之后,又发布了一款基于 人工智能技术的视频生成工具Sora,再次引发轰动。这是一款输入文本即可自动生成 高质量视频的文生视频大模型,实现了视频生成领域革命性变革,提供了全新的视 觉体验。在部分样片中,Sora还展现了对“物理规律”超强的学习能力,如能够模拟 现实环境中的重力、碰撞等物理现象,可以通过直播视频功能实时传递信息,用于 直播秀、在线教育、远程医疗等场合。在“现实已经不存在”的惊呼声 中,Sora确 实打开了人类视频创作的新天空,它将重塑视觉内容生成的未来,同时也反映出人 工智能技术远超预期的快速进步。有媒体称,Sora 不仅仅是一个工具,更是一种新 的生活方式,将会对整个社会产生重要影响。GenAI技术还可以用于语音合成,即生成逼真的语音。例如,通过学习人类的语音特 征,生成式模型可以生成逼真的语音,从而用于虚拟助手、语音翻译等应用。GenAI 技术可以用于生成音乐。生成式AI可以根据给定的风格和旋律创作新的音乐作品, 为音乐家提供新的创作灵感。这种技术还可以帮助音乐家更有效地探索音乐风格和 元素的组合。这些曲目可以用于音乐创作、广告音乐等应用。
D. 电影与游戏
GenAI可以用于生成虚拟角色、场景和动画,为电影和游戏制作带来更多的创意可 能。此外,AI还可以根据用户的喜好和行为生成个性化的故事情节和游戏体验。2023年3月,腾讯AI Lab在GDC上提出了3D虚拟场景自动生成解决方案,能够帮助游 戏开发者以更低成本创造风格多样、贴近现实的虚拟城市,提升3D虚拟场景的生产 效率。其中重点分享了城市布局生成、建筑外观生成和室内映射生成三大能力。整 个路网生成和微调过程仅需要不到30分钟,相比手动设计效率提升近100倍;而单个 独特建筑的制作时间也降低至17.5分钟,大大提升了场景制作的效率。
E. 代码生成领域
经过自然语言和数十亿行代码的训练。部分GenAI模型精通十几种语言,包括 Python、JavaScript、Go、Perl、PHP、Ruby等等。能够根据自然语言的指令生成相应 的代码。
GenAI 应用关键技术
在GenAI领域中,有四种关键技术:模型训练(Model Training)、微调(Fine Tuning)、检索增强生成(RAG)和提示词工程(Prompt Engineering)。针对不同的业 务目标和场景,选择适当的技术模型方法至关重要。
1. 模型训练(Model Training):需要大量的数据和计算资源来从头构建一个人工 智能模型。它具有高度的可定制性和可扩展性,但耗时较长,成本最高。适 用于全新的突破性应用,例如训练一套中医诊疗大模型。
2. 微调(Fine-Tuning):专注于将现有模型适应特定任务,提供了定制性和效率 之间的平衡。
3. 检索增强生成(Retrieval-Augmented Generation -RAG):通过整合外部知识库 来增强模型,非常适合需要当前或广泛信息的任务,是现阶段企业级知识库 以及Chatbot建设较高性价比的主要方法。
4. 提示工程(Prompt Engineering):依赖于设计有效的提示来引导预训练模型, 需要在提示设计方面的技能,但计算资源需求较低。这种方法不仅具有成本 效益,而且非常有效,然而其潜力经常被低估。 每种方法在不同应用中都有其优势和限制,取决于数据可及性、计算资源、特定 的任务、对最新信息的需求以及所需技能和成本等因素。
GenAI大模型发展现状
国外大模型
(1)ChatGPT
ChatGPT(Chat Generative Pre-trained Transformer)是由OpenAI研发的一款聊天机 器人程序,于2022年11月30日发布。它是基于GPT-3.5模型的一个专门优化用于对话 生成的语言模型。ChatGPT能够根据用户输入的文本产生智能化的回答,并且具备连 续对话的能力,能够捕捉用户的意图,理解上下文,并在多轮对话中提高准确率。
(2)Gemini
Gemini 是由Google DeepMind团队研发的人工智能模型,是LaMDA和PaLM2的继 任者,于2023年12月6日发布。这是一个多模态模型家族,支持文本、图像、音 频、视频和代码的全方位理解和生成。Gemini模型家族包含三个针对不同应用场景 优化的版本:Gemini Ultra作为旗舰版,专为数据中心级别的高性能计算环境设 计;Gemini Pro则定位为通用型解决方案,能在多种工作任务上展现高效性能, 并且特别适用于企业级应用及云端服务;而小巧灵活的Gemini Nano,则通过高度 优化实现了在资源受限的移动设备上的高效运行,为智能手机和平板电脑等移动平 台带来了强大且实时的AI交互体验。Gemini的设计使其能够原生地支持多模态能 力,即从一开始就在不同模态上进行预训练,并利用额外的多模态数据进行微调, 以提高其有效性。
(3)Claude
Claude是由美国人工智能初创公司Anthropic开发的大语言模型,Anthropic成立于 2021年,是一家专注于人工智能安全和研究的公司,旨在建立可靠、可解释、可操 纵的人工智能系统。Claude模型提供了API和Slack机器人两种访问方式,其中API访 问需要申请并通过后才能使用,而Slack机器人目前处于beta版本,不收费。
(4)LLaMA
LLaMA(全称为“大语言模型Meta AI”)是Meta AI于2023年2月推出的自回归式 大语言模型系列,它囊括了多种参数规模的版本,其参数量分别为7 亿、130亿、330亿以及650亿。通常情况下,顶级LLM仅能通过有限或专属API途径 访问,而Meta则破例在非商业许可框架下向全球研究社群开放了LLaMA模型权重 的下载权限。值得关注的是,在LLaMA发布后短短一周内,其模型权重即通过 BitTorrent在网络论坛4chan上被公开泄露给了公众。
(5)Mixtral
Mixtral是由MistralAI开发的一款大语言模型,它采用了专家混合(MoE)架构,这 种架构通过一个网关网络将输入数据分配给被称为“专家”的特定神经网络组 件。Mixtral 8x7B模型由八个各自拥有70亿参数的专家组成,这种设计提高了模型 训练和运算的效率及可扩展性。Mixtral8x7B在多个领域表现出色,包括综合性任 务、数据分析、问题解决和编程支持等。
(6)Stable Diffusion
Stable Diffusion 是2022年发布的深度学习文本到图像生成模型。它主要用于根据文 本的描述产生详细图像,尽管它也可以应用于其他任务,如内补绘制、外补绘制, 以及在提示词指导下产生图生图的转变。它是一种潜在扩散模型,由慕尼黑大学的 CompVis研究团体开发的各种生成性人工神经网络之一。它是由初创公司 StabilityAI、CompVis与Runway合作开发,并得到EleutherAI和LAION的支 持。Stable Diffusion由3个部分组成:变分自编码器(VAE)、U-Net和一个文本编 码器。
(7)Midjourney
Midjourney是一款AI制图工具,只要关键字,就能透过AI算法生成相对应的图片, 只需要不到一分钟。可以选择不同画家的艺术风格,例如安迪华荷、达芬奇、达利 和毕加索等,还能识别特定镜头或摄影术语。有别于谷歌的Image和OpenAI的 DALL-E,Midjourney是第一个快速生成AI制图并开放予大众申请使用的平 台。Midjourney生成的作品往往带有电脑生成的痕迹,比较不会被当成假新闻素 材,但对色情、血腥、暴力创作题材的审核还不够精准。
(8)DALL-E
DALL-E 是一个可以通过文本描述生成图像的人工智能程序,由OpenAI发 布。DALL-E通过120亿参数版本的GPT-3 Transformer模型来理解自然语言输入并生 成相应的图片。它既可以生成现实的对象,也能够生成现实中不存在的对象。它的 名字是2008年动画电影WALL-E(瓦力)和20世纪西班牙加泰罗尼亚画家萨尔瓦多 ·达利(Salvador Dalí)之混成词。自2000年代以来,已有其他许多神经网络有生 成逼真图像的能力。而DALL-E的特点在于它能够通过纯文本描述生成这样逼真的 图像。OpenAI尚未发布DALL-E模型的源代码,不过OpenAI在其网站上提供了 DALL-E演示,可以查看部分文本描述的输出图像。
(9)Sora
Sora是一个能以文本描述生成视频的人工智能模型,由美国人工智能研究机构 OpenAI开发。Sora这一名称源于日文“空”(そら sora),即天空之意,以示其无 限的创造潜力。其背后的技术是在OpenAI的文本到图像生成模型DALL-E基础上开 发而成的。模型的训练数据既包含公开可用的视频,也包括了专为训练目的而获授 权的著作权视频,但OpenAI没有公开训练数据的具体数量与确切来源。OpenAI于 2024年2月15日向公众展示了由Sora生成的多个高清视频,称该模型能够生成长达一 分钟的视频。同时,OpenAI也承认了该技术的一些缺点,包括在模拟复杂物理现 象方面的困难。《麻省理工科技评论》的报道称演示视频令人印象深刻,但指出它 们可能是经精心挑选的,并不一定能代表Sora生成视频的普遍水准。由于担心Sora 可能被滥用,OpenAI表示目前没有计划向公众发布该模型,而是给予小部分研究 人员有限的访问权限,以理解模型的潜在危害。Sora生成的视频带有C2PA元数据 标签,以表示它们是由人工智能模型生成的。OpenAI还与一小群创意专业人士分 享了Sora,以获取对其实用性的反馈。
国内大模型
(1)百度-文心一言 文心一言(英文名:ERNIE Bot)是百度基于文心大模型技术研发的知识增强大语 言模型,被外界誉为“中国版ChatGPT”。其核心理念在于运用深度学习算法和大 规模语料库,模拟人类的语言理解和生成能力,从而为用户提供智能化、个性化的 服务。能够实现与人对话互动,回答问题,协助创作,高效便捷地帮助人们获取信 息、知识和灵感,并且在文学创作、商业文案创作、数理逻辑推算、中文理解、多 模式生成方面有很好的应用前景。
(2)阿里-通义
阿里通义是阿里云推出的一系列人工智能产品和服务平台,旨在提供类人智慧的 通用智能服务。这些产品和服务包括通义千问、通义智文等,它们支持多种API接 口,使得AI应用开发变得更加简单和高效。通义千问(Qwen)是阿里云推出的一 款超大规模语言模型,采用了阿里云自主研发的大规模预训练语言模型架构,通过 先进的深度学习技术和海量数据训练而成。通义智文是另一个阿里云的AI产品, 它可能包含了文本生成、内容理解、自动摘要、情感分析等功能,旨在帮助用户高 效地处理和创造文本内容。
(3)讯飞-星火认知大模型
讯飞星火认知大模型是由科大讯飞推出的新一代认知智能大模型。基于讯飞最新的 认知智能大模型技术,经历了各类数据和知识的充分学习训练,可以和人类进行自 然交流,解答问题,高效完成各领域认知智能需求。
(4)华为-盘古大模型
华为盘古大模型是华为云推出的一系列人工智能大模型,旨在通过强大的计算能 力和先进的算法,解决行业难题并释放AI的生产力。该模型涵盖了NLP大模 型、CV大模型、多模态大模型、预测大模型和科学计算大模型五大类别,旨在为 气象、医药、水务、机械等领域提供强大的科学计算能力。盘古大模型的研发不仅 体现了华为在AI技术领域的深厚积累,也展示了华为在推进AI技术产业化应用方 面的决心和能力。
(5)腾讯-混元大模型
腾讯混元大模型(Tencent Hunyuan)是腾讯自主研发的通用大语言模型,拥有 超过千亿参数规模和超过2万亿tokens的预训练语料。该模型具备强大的中文理解 与创作能力、逻辑推理能力,以及可靠的任务执行能力。
(6)智谱AI
北京智谱华章科技有限公司(简称“智谱AI”)专注于新一代认知智能大模型的研 发,致力于在中国推动大模型领域的创新。公司与合作伙伴共同研发了中英双语千亿 级超大规模预训练模型GLM-130B,并在此基础上推出了对话模型ChatGLM以及开 源单卡版模型ChatGLM-6B。同时,团队还开发了GenAI模型及产品矩阵,包括AI 提效助手智谱清言、高效率代码模型CodeGeeX、多模态理解模型CogVLM和文生 图模型CogView等。智谱AI秉承Model as a Service(MaaS)的市场理念,推出了大 模型MaaS开放平台,旨在构建高效率、通用化的“模型即服务”AI开发新范式。通过认知大模型连接亿级用户的物理世界,智谱AI凭借完整的模型生态和全流程技 术支持,为各行各业带来持续创新与变革,助力加速通用人工智能时代到来。
(7)百川智能
百川智能公司于2023年4月10日由前搜狗公司CEO王小川创立,旨在以帮助大众轻 松、普惠地获取世界知识和专业服务为使命。公司专注于通过语言人工智能技术的 创新,构建中国顶尖的大模型基础设施。其核心团队由来自搜狗、百度、华为、微 软、字节、腾讯等知名科技公司的AI顶尖人才组成。不到100天的时间里,百川智 能公司发布了两款开源可免费商用的中文大模型Baichuan-7B和Baichuan-13B在多 个权威评测榜单中名列前茅,下载量更是突破了百万。随后,公司继续发布了 Baichuan2-7B和Baichuan2-13B等大开源模型。2024年1月29日,百川智能发布了参数 规模超过千亿的大语言模型Baichuan3。在多个权威通用能力评测中,如 CMMLU、GAOKAO和AGI-Eval,Baichuan3展现出色的能力,特别是在中文任务上 超越了GPT-4。在数学和代码专项评测中,如MATH、HumanEval和MBPP, Baichuan3同样表现出色,证明了其在自然语言处理和代码生成领域的强大实力。
GenAI在生物医药大健康行业主要应用场景总览
GenAI作为人工智能领域的重要分支,正逐渐引起广泛关注。GenAI以其独特的生成 能力和创造性,正在改变着生物医药大健康行业的面貌,并为其带来了巨大的变革 和潜在收益。GenAI已经在医疗健康开始了应用探索与落地,包括药物研发、临床 研究、上市及商业化、以及用于病人诊疗等方面:在药物研发方面,GenAI可助力科研人员靶点发现及验证、药物分子生成以及为中 医药研发等,加速药物发现和设计进程。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。