AI ?先驱齐聚 BAAI 2024，发布大规模语言、多模态、具身、生物计算以及 FlagOpen 2.0 等 AI 模型创新成果。

2024/10/24 21:03:31

本文主要是介绍AI ?先驱齐聚 BAAI 2024，发布大规模语言、多模态、具身、生物计算以及 FlagOpen 2.0 等 AI 模型创新成果。，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

由北京人工智能研究院（BAAI）主办的BAAI第六届大会今天在北京拉开帷幕，标志着全球人工智能界人士的一次重要聚会。

这个顶级活动，主题为“全球视野，思想碰撞，引领前沿创新”，聚集了来自世界各地的顶尖研究人员和行业领袖，分享他们的最新成果并探讨人工智能的未来方向。

今年的BAAI 2024大会汇聚了阵容强大的演讲嘉宾，其中包括图灵奖得主姚期智，以及来自国际顶级研究机构如OpenAI、Meta、DeepMind、斯坦福大学和加州大学伯克利分校的杰出专家，还包括来自中国领先的人工智能公司百度、01.AI、百川智能、智谱AI、和ModelBest等的首席执行官和首席技术官。

在两天内，超过200位杰出的人工智能学者和业界专家聚集在一起，就尖端的人工智能技术的关键方向和应用领域展开了深入讨论。

开幕式由BAAI的主席黄铁军先生主持。

在仪式上，BAAI院长王仲远（Zhongyuan Wang）发布了2024年BAAI年度进展报告，详细介绍了该机构在大型语言模型、多模态模型、具身智能技术、生物计算模型技术方面的研究成果。王仲远强调了该机构在这些领域的大型模型进步。他还概述了BAAI全方位的全栈开源技术基础的重要升级和战略布局。

王强调了大型语言模型目前所取得的成就，指出它们在理解和推理的核心能力上对实现通用人工智能至关重要。他讨论了将这些语言模型整合起来，以对齐和映射其他模态，从而形成一条技术路径，进而增强多模态理解和生成的能力。

然而，王指出，这并不是使人工智能感知和理解物理世界的技术路线的最终形态。相反，为了实现感知和理解物理世界，我们需要采用一个统一模型的框架，以实现多模态输入和输出。这将赋予模型固有的多模态扩展能力，并向世界模型发展。

展望未来，王认为大型的模型将与智能设备融合，形成数字代理。这些数字代理将从数字世界进入物理世界，实现实体智能。

此外，他还提出，大规模模型可以为科学知识表示引入新的范式，加速对微观物理世界规律的发现，并朝着通用人工智能的圣杯迈进。

BAAI的大规模语言模型：Tele-FLM系列和BGE系列

为应对大规模模型训练中的高计算成本问题，北京人工智能研究院（BAAI）与中国电信AI研究院（TeleAI）联合研发并发布了全球首个低碳万亿参数的稠密型语言模型Tele-FLM-1T。该模型及其520亿和1020亿参数版本一起，构成了Tele-FLM系列。

Tele-FLM系列实现了低能耗增长，仅使用了相当于行业标准计算资源9%的资源，训练了总计2.3万亿tokens的三个模型。这项壮举只用了四个月，使用了112台A800服务器就完成了，展示了高计算效率、模型快速收敛和稳定性的特点，且整个训练过程中没有进行任何调整和重试。目前，Tele-FLM系列的52B版本已完全开源，包括核心技术如增长技术、最优超参数预测，以及训练细节如损失曲线、优化的超参数、数据比例和Grad Norm，旨在为大型模型社区带来帮助。Tele-FLM-1T版本即将开源，为社区提供优秀的初始权重，用于训练万亿参数的密集模型，并解决收敛问题。

根据BPB评估结果显示，Tele-FLM-52B在英语任务上与Llama3–70B相当，并超过Llama2–70B和Llama3–8B的表现。在中文任务方面，Tele-FLM-52B优于Llama3–70B和Qwen1.5–72B，是迄今为止最强的开源模型。在对话任务方面，AlignBench的评估显示，Tele-FLM-Chat（52B）在中文对话任务上达到了GPT-4的96%能力，在整体表现上，达到了GPT-4的80%能力。

为了应对大型模型的幻觉现象等问题，北京人工智能研究院（BAAI）自主开发了BGE（BAAI通用语义模型）系列通用语义模型。这些模型用于检索增强生成（RAG）技术，实现精准的语义匹配，并支持大型模型获取外部知识。

自2023年8月以来，BGE系列已经迭代了三次，在诸如中文-英文检索、多语言检索任务和细粒度检索任务等任务中表现出色。这些模型在这些任务中一直优于来自OpenAI、Google、Microsoft、Cohere等领先机构的嵌入模型，展示了显著更优的能力表现。

目前，BGE系列在中国的AI模型中总下载量排名第一。它已经被集成到HuggingFace、Langchain和Llama Index等主要的AI开发框架中。此外，包括腾讯、华为、阿里、字节跳动、微软和亚马逊在内的主要云服务提供商也将BGE系列集成到了各自的平台之上，为外部客户提供商业服务。

这一广泛的采用突显了BGE系列在增强语义理解和检索的能力和灵活性，表现出色，适用于各种应用场景。

Tele-FLM-52B 开源项目（大型语言模型）：https://huggingface.co/CofeAI/Tele-FLM
Tele-FLM-Chat 演示：单轮对话模型：https://modelscope.cn/studios/FLM/ChatFLM

EMU 3原生多模态世界模型和边缘'Bunny'系列

现有的大多数多模态模型通常专门针对特定任务设计，例如 Stable Diffusion 用于文本到图像生成，Sora 用于文本到视频生成，GPT-4V 用于图像到文本生成。每种类型的模型都有自己的架构和方法。例如，DiT 架构常用于类似 Sora 的模型中的视频生成。然而，这些现有的模型往往各自具备孤立的能力，而不是具备集成的、原生的多模态能力。例如，Sora 无法同时理解和处理图像和视频。

为了实现下一代端到端的多模态模型，北京人工智能研究院（BAAI）推出了EMU 3，一个原生多模态模型。EMU 3采用BAAI独有的多模态自回归方法，通过图像、视频和文本进行联合训练。这种方法使模型具有原生的多模态能力，让模型能在图像、视频和文本之间实现统一的输入输出。

Emu 3 是为统一的多模态生成和理解而全新设计的，目前能够生成高质量的图像和视频内容，进行视频补全，以及理解物理世界的真实情况。

本质上，Emu 3 将视频、图像和文本的生成与理解整合在一起。这一点值得注意的是，Emu 3 将在经过安全评估和不断训练后逐步开放源代码。

为了满足边缘设备的需求，BAAI 推出了 Bunny 系列轻量级多模态模型系列（Bunny-3B/4B/8B）。该系列模型采用灵活的架构，支持多种视觉编码器和语言基础模型。多项基准测试显示，Bunny-8B 的多模态能力达到了 GPT-4o 性能的 87%，表现出色。目前，Bunny 模型的权重、训练代码和训练数据均已公开发布。

该项目的GitHub仓库地址为：https://github.com/BAAI-DCAI/Bunny，这是一个兔系列的开源项目。

BAAI的具身智能研究：抓握、VLA及其他更多内容。

在过去的一年中，北京人工智能研究院（BAAI）在实体智能大模型领域取得了多个世界级的突破。这些突破涵盖通用抓取技术，具身操作VLA大模型，具身导航的VLA大模型，以及自主研发的机器人硬件。

在具身智能领域的基本能力方面，北京人工智能研究院（BAAI）已经达到了世界领先的商业化水平。

针对不同形状和材料带来的泛化难题，BAAI（北京人工智能实验室）实现了突破，在现实世界的实验中，成功率超过了95%。利用这项技术，BAAI的机器人能够精确识别透明物体和高反射物体的形状和姿态，在包含透射和反射的复杂光照条件下，并能准确预测抓取姿态。

除了抓取，BAAI开发了两个专门的大型模型系统，每个系统都有其特定的功能，以此来增强机器人的认知能力。

其中一个系统是SAGE，这是一个用于操作复杂物体的大模型系统，能够反映并适应变化的环境。该系统有效地结合了小型3D视觉模型所具备的精确空间几何感知能力与大型多模态模型所掌握的通用物体操作知识，使机器人在任务失败后能够重新规划其操作步骤。

另一个系统，Open6DOR，是世界上第一个开放式指令的六自由度的抓取和放置大型系统。该系统让机器人在抓取过程中考虑物体的位置和姿态，从而促进实际应用。不同于Google的RT系列根据自然语言指令将物体放置在指定的位置上，Open6DOR进一步优化了物体姿态的控制，使姿态更加精确。这项技术大大提高了具身操作模型的商业适用性和价值。

为了使机器人能够自主导航，BAAI 还开发了 NaVid，这是世界上第一个基于视频的多模态具身导航模型。NaVid 直接从机器人视角获取视频，并根据用户的自然语言指令进行操控，输出控制机器人行动的信号。与传统的机器人导航技术不同，NaVid 仅依赖于机器人摄像头的单视角 RGB 视频流。通过合成导航数据进行训练，NaVid 通过 Sim2Real 转移实现了在室内和室外环境中无需训练的泛化能力，标志着在先进技术方面的成功大胆探索。

此外，具身大型模型的研究成果已被应用于医疗领域。与灵适智源合作，智源研究院开发了世界上第一台智能心脏超声机器人，实现了对人类的首个自主心脏超声扫描。这一创新解决了心脏超声医生短缺、诊断准确性不高、缺乏统一标准以及效率低下的问题。智能心脏超声机器人能够快速计算和提取动态环境下的心脏特征，实现了与自动驾驶类似的L2和L3级别的自动化。临床试验显示，该机器人在准确性上与经验丰富的医生持平，在稳定性上超过了他们，并通过将力控制在4牛顿以下，提高了舒适度，其效率也与人类医生相当。

为了实现计算机的通用控制，BAAI，引入了 Cradle（摇篮），一个让 AI 智能体可以像人类一样，通过鼠标和键盘在计算机上完成所有任务的框架。

Cradle 包含六个模块：信息收集、自我反思、任务推理、技能提升、行动规划和记忆。它提供了强大的决策和推理能力，使智能体能够回顾过去，总结现状，规划未来。

与行业的常见做法不同，Cradle 实现了通用性而无需依赖任何内部 API。BAAI 与昆仑科技研究院合作，在流行游戏和生产力软件上验证了 Cradle 的效果。代理能够自主学习玩游戏，并能根据提示进行创意编辑，包括图像和视频。

未来，依托大规模多模态模型的技术优势，BAAI将与北京大学、清华大学、中国科学院等高校和机构及Galbot和Boost Robotics等行业伙伴共同打造一个具身智能创新平台。平台将重点放在数据、模型和场景的验证上，促进具身智能生态系统的创新发展。

基于大型模型的生物信息学革新

随着大规模模型的不断进步和发展，AI在各个科学领域展现了巨大的价值。生物计算科学家们正在尝试利用大型模型在微观世界中取得重大突破。在药物开发过程中，将新药推向市场通常需要超过10年的时间和耗资超过10亿美元，其中30%到40%的资金用于药物设计。AI可以加速化合物筛选、大分子结构建模和预测等任务。大型模型能否帮助我们更好地理解和创建生物分子？

在此次会议上，北京人工智能研究院（BAAI）发布了OpenComplex 2，这是一个全面的全原子生物分子模型，能够预测蛋白质、RNA、DNA、碳水化合物和小分子复合物。OpenComplex 2不仅能够预测大分子的稳定结构，还初步具备预测分子多晶型和折叠过程的能力。

基于全原子建模的OpenComplex 2是生命分子的基础模型之一。研究人员发现，它不仅能够预测大分子的稳定结构，而且还初步具备预测分子构象和折叠过程的功能。

在国际生物分子结构预测大赛CAMEO中，OpenComplex连续两年位居榜首，并在CASP（蛋白质结构预测技术的批判性评估）15中赢得了RNA自动化赛道。OpenComplex在准确性及宏观结构方面优于同类模型，如AlphaFold，在无噪声的情况下提供类似的结果。

OpenComplex平台建立了端到端深度学习框架，用于生物大分子如蛋白质和RNA三维结构的统一预测任务，集成了“蛋白质结构预测”、“RNA结构预测”以及“蛋白质-RNA复合物结构预测”任务。这些任务在一个统一的“编码器-解码器”框架中进行推断与训练，支持多序列比对（MSA）和语言模型（LM）的编码策略。

借助这些能力，生命科学家可以进一步探索蛋白质的生物功能。目前，BAAI已经与研究人员合作，对几种重要的疾病进行研究，提供了关于药物可成性和分子机制的新见解。将来，OpenComplex的能力可能预示着一个新时代，为理解复杂的机制，例如HIV和神经元，提供了新的可能性。

此外，BAAI 开发了世界上第一个实时数字孪生心脏计算模型，实现了生物时间和仿真时间的比例小于 1 的高精度，使其处于国际研究的最前沿。实时心脏计算模型标志着虚拟心脏病学研究的开端。基于该模型，BAAI 将创新性地采用物理与数据的双轮驱动方法，结合理论基础和人工智能技术。

这将能够实现从亚细胞层面、细胞、器官到整个身体的“透明心脏”模拟。此外，该技术基于临床数据，构建一个数字心脏孪生体，以反映患者的个性化生理和病理状况，从而促进药物筛选、治疗优化和术前规划等临床应用。此外，智源研究院还与北京大学第一医院、安贞医院、长征医院和朝阳医院合作，将这些技术应用于临床应用中。

开源复杂项目：访问该项目的GitHub页面：https://github.com/baaihealth/OpenComplex

BAAI 推出 FlagOpen 2.0:

位于北京的人工智能研究院（BAAI）作为一家创新性研究机构，持续走在人工智能技术的前沿。作为中立的非营利组织，BAAI致力于构建解决当前行业挑战的公共基础设施。

去年，为便于全球开发者无缝启动和大型模型的研发工作，北京人工智能研究院（BAAI）推出了FlagOpen 1.0。开源、全栈平台支持各种异构芯片和框架，为大型模型的创新提供了一个强大而全面的解决方案。

基于1.0版本成功的基础上，BAAI自豪地推出FlagOpen 2.0增强版。此次增强迭代精细打磨了五个关键部分：模型、数据、算法、评估和系统架构。BAAI旨在将FlagOpen打造为“大模型时代的Linux标杆”，为大规模AI模型的开发、部署和进步树立新的标杆。

FlagOpen 2.0 全面支持各种芯片和深度学习框架。迄今为止，其开源模型的全球下载量已超过 4755 万次。此外，其 57 个开源数据集已被下载近 9 万次，其开源代码下载量已超过 510 万次。

FlagOpen 开源仓库：https://github.com/FlagOpen

在数据方面， 北京人工智能研究院（BAAI）发布了InfinityInstruct，这是首个高质量开源指令微调数据集项目，包含数千万条数据记录。初始发布包括300万经过验证的中英文指令数据，很快将扩展到数千万条数据。

BAAI 分析了现有的开源数据，以确保类型分布的合理性，筛选出高质量的数据，补充了开源数据不足的领域和任务所需的数据，并通过人工标注来控制数据质量，以避免合成数据中的偏差。

当前的数据集超越了像Mistral和Openhermes这样的模型在指令微调数据上的表现。当数据量达到数千万级别时，基于此数据集训练的基础模型预计将达到GPT-4级别的对话能力。

BAAI 已构建并开放了 IndustryCorpus，这是一个总量为 3.4TB（中文 1TB，英文 2.4TB）的集合，包含中文和英文多行业的数据，覆盖了 18 个行业，分类准确率为 80%，计划扩展到 30 个行业。

为了验证行业数据集的性能，BAAI 在医疗领域训练了一个演示模型。与预训练阶段相比，该模型的整体目标性能提高了20%。微调使用了 BAAI 的专门医疗 SFT 和 DPO 数据集，与参考答案相比，主观胜率达到了 82%。此外，该模型在 CMTMedQA 评估中的少样本对话表现得分高达 4.45（满分 5 分）。

IndustryCorpus 数据集： https://data.baai.ac.cn/details/BAAI-IndustryCorpus
医学领域的演示模型： https://huggingface.co/BAAI/AquilaMed-RL
医学领域的演示SFT数据集： https://huggingface.co/datasets/BAAI/AquilaMed-Instruct
医学领域的演示DPO数据集： https://huggingface.co/datasets/BAAI/AquilaMed-DPO

自2023年发布以来，FlagEval大型模型评估从主要的语言模型扩展到视频、音频和多模态模型，实现了多领域的全面覆盖范围。它结合了主观和客观的评估方法，并集成了开卷和闭卷的评估方式。首次与权威教育部门合作，进行K12学科的大型模型测试，并与中国传媒大学合作开发视频生成模型的主观评估系统。

位于中国的北京人工智能研究院（BAAI）与超过10所大学和机构合作，开发了先进的评估方法和工具体系。这包括探索如FlagJudge之类的AI辅助评估模型，以及为新兴大型模型的能力创建严格的评估集。

zh: BAAI的显著努力包括与北京大学共同开发的HalluDial幻觉数据集，与北京师范大学共同开发的CMMU多模态数据集，MG18多语言跨模态数据集，TACO复杂代码数据集，以及MLVU长视频理解数据集。其中，与北京大学共同开发的HalluDial数据集尤其引人注目，包含超过18,000轮对话和140,000条回复。

此外，BAAI 推动了 IEEE 大模型评估标准小组 P3419 的建立。它还与 Hugging Face 社区（或简称HF社区）合作发布了多个排行榜，这些排行榜展示了模型的性能，并与新加坡的 IMDA 合作，向 AI Verify 基金会贡献了先进的评估数据和模型。这些举措促进了全球在开发大型模型稳健评估方法和工具方面的合作。

在系统层面，该会议公布了多项重要成果：FlagOS、FlagScale 和 Triton 操作库。

为了满足日益增长的大模型训练和推理计算需求，解决异构计算、高速互联及大规模AI系统和平台之间与内部的弹性稳定等技术难题，北京人工智能学院（BAAI）推出了FlagOS。

此智能计算集群软件栈专为大型模型设计，支持多种异构计算资源。FlagOS 集成了 BAAI 多年来开发的关键技术，包括 Jiuding 智能调度管理平台、FlagScale 并行训练和推理框架、高效算子 FlagAttention 和 FlagGems、集群诊断工具 FlagDiagnose 以及 AI 芯片评估工具 FlagPerf。

FlagOS 就像一个“操作系统”一样，集成了异构计算的管理、自动计算迁移功能、并行训练的优化和高性能运算操作。它支持大规模模型训练、推理和评估等核心任务，同时管理底层资源，包括高速网络和分布式存储等。

FlagOS 已经支持了超过 50 个团队的大模型开发工作，使用了 8 种不同类型的芯片，并管理着超过 4,600 张 AI 加速卡。它已经稳定运行了 20 多个月，服务级别协议（SLA）超过了 99.5%，使用户能够实现高效和稳定的集群管理、资源优化以及大模型开发。FlagOS 的推出将显著提升中国下一代智能计算中心的能力，并加速大模型行业的增长。

FlagScale，一个支持异构AI计算能力的并行训练框架，已集成到FlagOS中。它利用跨节点RDMA直接连接和多家供应商的不同并行策略，在异构集群上实现了首个高效混合训练。这使得FlagScale成为业内首个支持在各种异构AI芯片上进行垂直和水平扩展模式的训练框架。

FlagScale 支持语言和多模态模型的稀疏和密集训练，能够对长达100万长度的序列进行大规模、稳定的训练和推理。它利用国内计算资源，可以在1024张卡上稳定训练一个8x16B万亿（万亿=10^12）参数的MoE（混合专家模型）语言模型超过40天，实现从头到尾的训练、微调和推理部署。

FlagScale支持在不同架构的芯片上进行跨芯片池化训练，在混合训练中达到超过85%的性能上限，训练效果与同构芯片相当。它适应八种芯片，并能在不同集群上进行大规模训练验证，保证与损失和收敛曲线的一致性。

为了更好地支持多样AI芯片统一生态系统的发展，BAAI 发布了大规模模型开源 Triton 操作符库，包括通用操作符库 FlagGems 和大型模型专用操作符库 FlagAttention。这些库显著提高了操作符的开发效率，并使用了统一的开源编程语言，同时也作为多种芯片之间共享的操作符库。

目前，FlagGems通用操作符库已覆盖了127个主流语言和多模态模型所需操作符中的66个，预计到2024年底将实现全覆盖。专为大型模型设计的FlagAttention库包含了六个常用且前沿的注意力操作符，并提供了编程示例和可自定义的选项。

通过利用专为逐点操作符设计的自动代码生成技术，用户可以通过简单的计算逻辑描述生成高效的Triton代码。该技术已应用于31个逐点操作符，这些操作符占整个操作符库的47%。此外，运行时优化技术使操作符的执行速度提高了70%，确保了高性能的执行。

AI大佬们聚在一起探讨通往AGI之路

在北京人工智能研究院（BAAI）2024年大会的开幕式上，Aditya Ramesh，OpenAI的Sora和DALL·E团队负责人，与纽约大学的助理教授谢赛宁就多模态模型的技术路径及其未来发展趋势进行了一场精彩的讨论。

在由北京智源人工智能研究院院长黄铁军主持的炉边谈话（圆桌讨论）中，01.AI首席执行官李飞飞、中国工程院外籍院士、清华大学人工智能研究院（AIR）院长张亚勤分享了他们对通用人工智能技术发展趋势的看法和见解。

在百度首席技术官 Haifeng Wang（Haifeng Wang，百度 CTO）的报告《大规模模型开启通用人工智能新时代》中，他详细介绍了它们的巨大潜力，在实现 AGI 的过程中。

在以迈向AGI（人工智能通用智能）为主题的峰会上，BAAI的王中元、百川智能CEO王小川、智谱AI CEO张鹏、Moonshot AI CEO阳义霖以及ModelBest CEO李大晖围绕大型模型的技术路径、开放生态与封闭研究之间的关系以及商业模式的探索等关键议题进行了深入探讨。

展望未来，我们继续探索和追求原创的科技革新与尖端方向，建立广泛的学术合作，促进产业发展。

我们知道你不想错过任何新闻或研究进展。订阅我们广受欢迎的每周AI通讯Synced Global AI Weekly每周都能收到AI相关的最新资讯。

这篇关于AI ?先驱齐聚 BAAI 2024，发布大规模语言、多模态、具身、生物计算以及 FlagOpen 2.0 等 AI 模型创新成果。的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

AI ?先驱齐聚 BAAI 2024，发布大规模语言、多模态、具身、生物计算以及 FlagOpen 2.0 等 AI 模型创新成果。

相关编程文章