用Intel的OpenVINO? 模型服务器加速AI部署

2024/12/2 21:03:25

本文主要是介绍用Intel的OpenVINO? 模型服务器加速AI部署，对大家解决编程问题具有一定的参考价值，需要的程序猿们随着小编来一起学习吧！

作者: Paula Ramos — Intel AI 布道者

随着AI兴趣的激增，AI开发人员迫切需要这样一种稳健解决方案，可以无缝部署、扩展和优化AI模型。在此背景下，出现了OpenVINO™ 模型服务器（OVMS），它是AI开发中的一个重要组件。

OVMS 是一个可扩展、高性能的解决方案，专为在 Intel 架构上优化的机器学习模型服务而设计。采用 C++ 开发，它旨在简化推理任务的执行，降低复杂性和开销。此外，借助 OpenVINO 优化，OVMS 确保更快且更可靠的性能，使开发人员能够在他们的 AI 项目中实现最佳性能。

宝拉·拉莫斯，英特尔的AI布道师最近与来自OpenVINO团队的软件开发人员阿德里安·托比泽夫斯基和米沃什·日格尔斯基进行了交流，以深入了解OpenVINO模型服务器（OVMS）项目的功能。他们讨论了实用见解和经验、实际应用案例和挑战。

对话中你会学到的内容:

OVMS 如何从 Python 到 C++ 的转变以增强性能以应对实际 AI 需求
关于复杂模型管道的 DAG 调度器以及即将支持的 OpenAI API 的见解
利用 OVMS 进行对象检测和生成式 AI 等任务的例子
将来通过新技术增强 OVMS，以支持大型语言模型，提高效率和优化资源利用的计划
AI 开发推荐、演示、资源及学习策略

这些见解对于想了解OVMS实际应用及其好处的开发人员来说很有价值。

继续往下看完整对话：

保拉·拉莫斯：很高兴和你们聊天。我非常期待了解更多关于OpenVINO模型服务器的信息。在此之前，你们能简单介绍一下自己以及在英特尔的工作吗？

米洛什·泽格拉斯基：我先来。我是英特尔®的一名软件开发人员，主要负责OpenVINO和OpenVINO模型服务器团队的工作。

大约五年前，我还是个学生的时候加入了英特尔。当时我加入时，OpenVINO 模型服务器仍在开发中。它当时只是由一个三人团队负责的概念验证，但在这几年里，它逐渐成长为一个包含开发和评估团队的完整项目。我主要为模型服务器做开发工作，同时也涉及一些 Kubernetes 和 Python 相关的工作。

亚德里安·托比泽夫斯基： 我的职业生涯始于一名C++软件开发人员。我加入英特尔时，正好赶上了人工智能热潮来临前夕。我在英特尔负责Intel® Xeon® Phi系列，该系列专注于高性能计算。英特尔收购了Nirvana及其Crest系列深度学习加速器后，我便更换了项目。当英特尔将重心转向Habana时，我开始与OVMS团队合作。

当时，因为OVMS可以通过用C++重写来提升性能，它得到了更多的关注。因为我有使用C++的经验，这对我来说是个重返开发领域的绝佳机会。

保罗·拉莫斯：听到背后的故事真是太好了。现在看来你们有一个成功的团队，并且在OpenVINO模型服务器方面做得非常出色，这真是令人印象深刻。正如你提到的人工智能热潮，我可以看到，在每个环节都需要增强能力，无论是云端还是边缘计算。OpenVINO模型服务器是如何在这些方面发挥作用，并与英特尔推进人工智能技术的承诺保持一致的？

阿德里安·托比泽夫斯基：当客户提出需求时，OVMS 实际上就开始流行起来。他们希望在云上也能获得像 OpenVINO 一样的性能，然而，当时英特尔还没有自己的云模型服务解决方案。于是，英特尔开始加大在模型服务上的投入，之后的发展就成为历史了。

米洛兹泽格拉斯基: 的确如此，客户来找我们，说，“我们现在使用TensorFlow Serving，但希望在CPU上能有更好的性能，同时保持当前使用的API不变。你们能搞定吗？”于是我们讨论了是否通过OpenVINO后端为TensorFlow Serving做贡献更合适，或者是否应该开发我们自己的解决方案。

我们的团队与一些正在进行中的概念验证合作，并且在四周内就有了一个可用的OpenVINO Model Server版本。这真是快速且敏捷地响应了客户需求。而客户不断提出更多新功能的需求——随着对OpenVINO需求的增加，很明显服务部分也将随之发展起来。

保罗·拉莫斯：太棒了。我能看出项目中的许多变化。你能介绍一下OpenVINO Model Server最新的功能和增强点吗？

米尔奥兹泽格拉斯基: OVMS 的故事开始于那个客户需求，从那时起，我们一直在努力跟随市场潮流和满足客户的需求。

最初的版本非常小，仅仅是在OpenVINO之上的一层薄薄的服务。之后我们添加了一些版本管理和从远程存储加载模型的功能，以增强模型服务器的功能，特别是在Kubernetes中的模型服务器，在云部署中，从而使快速提供模型变得更加简单。

OpenVINO Model Server于是能从外部存储下载模型。这是阿德里安之前提到的那个节点，我们不得不将其重写为C++。我们进行了性能测试，发现仅靠Python版本无法继续推进。

保罗·拉莫斯：阿德里安那时加入团队，开始使用C++编程是吗？

米洛斯·泽格拉尔斯基： 没错。像阿德里安这样的新成员主导了这个 C++ 实现。我所在的团队负责维护 Python 实现，同时也努力证明 C++ 实现的必要性。

下一个重要功能是支持KServe API，这也受到了我们第一个客户相同的动机驱动。同时，我们也在开发无环图调度功能。

阿德里安·托比泽夫斯基：有向无环图（DAG）调度器是模型流水线的一个实现。这使我们能够拥有一个可以执行物体检测任务的模型，以及另一个可以执行其他任务的模型。想法是提供某种引擎，使得可以真正地连接多个模型，在它们之间添加自定义处理步骤，并生成所需的最终输出，从而无需在服务器和客户端之间来回发送请求。

当然你可以发送单一请求，执行第一次推理后再响应，然后再发出另一个请求，但这会增加整个响应的延迟时间。我们希望在服务器端保持所有操作在一个单一管道中，并使用可用的模型来执行更复杂的任务。

保罗·拉莫斯：DAG是否像MediaPipe一样起到相同的作用？

阿德里安·托比泽夫斯基: 早些年当我们刚开始开发DAG时，MediaPipe还没有那么流行。在某种程度上，它们解决的是类似的问题，但使用方法有点不一样。每个都有自己的一点不同之处，但它们的目的都是让所有东西都在一个管道中流动。

宝拉·拉莫斯：那么，什么样的模型流水线是OpenVINO模型服务器能够支持的？

阿德里安·托比泽夫斯基： 最令人印象深刻的是Holistic 演示，它可以检测出手部的所有关节和面部特征，并在图像上叠加图层来显示手部位置等。你还可以对着摄像头跳舞，看看它是如何捕捉你的姿势的。这是一直最吸引眼球的。

保罗·拉莫斯：非常好，我想再谈一谈AI热潮，尤其是当前的超级AI热潮。特别是生成式AI和大型语言模型。OVMS在超级AI热潮中面临哪些挑战？

米洛斯泽格拉斯基: 生成式AI的最新热潮最近刚刚开始，我们从一开始便注意到这一现象。这不仅与我们最新的特性相关，也与我们的未来计划紧密相连。

我们一开始是这样做的，仅仅使用OVSM来实现传统的AI功能。我们使用了DAG（有向无环图），并加入了自定义的预处理和后处理步骤，比如分词和还原。这种方法有效，但它的增长如此迅速，我们需要一些更强大的工具来追赶。

我们决定让用户能够定义Python逻辑，运行它，并在模型服务器端执行它。这很重要，因为它几乎为用户提供了所有功能的可能性。这也是我们首次实现Stable Diffusion演示的基础，几乎所有的大型语言模型演示集都以此为基础。它是基于MediaPipe构建的，因此可以作为一个管道节点工作，并可与其他节点相连。

保罗·拉莫斯：所以你有这些节点，并且你可以灵活地运行多个节点，我理解得对吗？

米洛什·泽格拉斯基: 你需要一个Python脚本来实现特定的接口，用于初始化你的模型，处理每个请求时的执行部分，以及结束时的清理工作。仅执行部分是必需的。

OpenVINO Model Server 将请求的数据流提供给您的自定义 Python 逻辑，您可以对数据进行任意处理。您可以导入 Optimum，加载一个稳定扩散模型，并让数据通过该模型。您也可以设置一些微小的节点来进行预处理和后处理，并插入一个 C++ 处理节点，从而构建一个包含 Python 和 C++ 的处理管道。

这只是一个用Python快速实现的小脚本，它有效——直到我们找到其他解决方案。所以我来透露一下我们的一些未来计划。

我们有了这些新的LLM技术。因此，在去年年底，VLLM推出了用于提高效率和优化资源利用的前沿技术——这使得整体性能得到了提升。

所以，未来的 OpenVINO Model Server 将会实现我们自己的分页注意力机制、连续批处理、不同的调度策略实现以及对于文本生成。

现在我们收到了一个关于OpenAI API的请求，这也是我们计划很快实现的。

我们已经非常关注这些大规模语言模型（LLMs），以及新的更方便的API接口。因为OpenAI的API在语言建模上确实更方便。我们有KServe和TensorFlow的API，但它们非常通用。它们设计来适用于各种场景，但针对大规模语言模型的特定需求时，使用起来可能不太方便。

阿德里安·托比泽夫斯基: 已有部分用户开始使用OpenAI API了。因此，类似KServe API，如果有人想要切换过来，使用同样的API会更方便。

保拉·拉莫斯: OVMS 是 OpenVINO 生态系统中的一个开源系统。该项目是否接受外部贡献，还是仅仅依靠内部贡献？如果开发者想为这个项目做贡献，他们应该如何更好地参与到这个项目中呢？

米洛什泽格拉斯基：开发人员可以分叉代码，进行修改，然后发起一个拉取请求。我们会审查这个拉取请求，如果觉得有意思，希望能合并进来。

在贡献方面，我们主要处理内部贡献，但也有一些来自外部组织的贡献。

例如，我们与红帽公司合作，为其与OpenShift相关的服务和平台提供支持。并且OpenVINO模型服务器的镜像已经在红帽公司获得了认证，所以他们也在帮助我们满足他们的安全要求等诸如此类的要求。

Paula Ramos：在我们结束这次讨论之前，你对开发者如何开始使用OpenVINO Model Server有什么建议？对于那些想要进入这个领域的新手，你有什么建议吗？

米洛斯泽格拉斯基: 我建议从这些演示开始。阿德里安已经提到了整体版。我推荐最新的使用Python节点的那个。我们在仓库主页上有一个专门标记新内容的板块。我们有一个用于Stable Diffusion文本生成的演示，最近还增加了一个RAG的演示。

说起进入这个领域，我一直主张广泛学习，所以我会说要学习人工智能、深度学习、大语言模型以及它们的工作方式。同时，要掌握C++和Python语言，以及部署时重要的操作系统基础知识。尝试不同的东西，体验各种领域。多试试不同的领域。

阿德里安·托比泽夫斯基： 我们现在生活在一个可以轻松获取大量资源的时代，只要你努力，你真的可以成功。要想在这个领域跟上步伐，你需要投入时间和努力。

更多资源：

OpenVINO™ 模型服务器 GitHub 仓库
OpenVINO 文档
Jupyter 笔记本
安装和设置
产品页面

关于保拉·拉莫斯:

她现在是英特尔的AI大使，负责推广和传播AI理念。自2000年初以来，她一直在计算机视觉领域工作，并一直是一位AI爱好者。你可以在她的Medium上关注她，了解更多见解。

公告：免责说明

您可能需要激活相应的硬件、软件或服务来使用英特尔技术。

没有产品或组件能够达到绝对的安全性。

你的费用和结果可能不同。

这篇关于用Intel的OpenVINO? 模型服务器加速AI部署的文章就介绍到这儿，希望我们推荐的文章对大家有所帮助，也希望大家多多支持为之网！

用Intel的OpenVINO? 模型服务器加速AI部署

相关编程文章