常见的推理框架：

HuggingFace Transformers
vLLM
Text Generation Inference（TGI）
TensorRT-LLM
ollama
DeepSpeed
...

--1 ollama 部署

--1-1 ollama 基本设置

Linux 模型默认存放位置： /usr/share/ollama/.ollama/models

--1-2 设置ollama服务外部可访问

停止ollama服务: systemctl stop ollama
修改ollama的service文件：/etc/systemd/system/ollama.service 新增两个Environment设置

Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"

Description=Ollama Service
After=network-online.target

[Service]
ExecStart=/usr/local/bin/ollama serve
User=ollama
Group=ollama
Restart=always
RestartSec=3
Environment="PATH=/run/user/1000/fnm_multishells/3595978_1739449245215/bin:/home/uto/.local/share/fnm:/usr/local/cuda/bin:/opt/ros/galactic/bin:/home/uto/.cargo/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin:/opt/uto/pilot/uto_map_sdk:/opt/uto/pilot/rviz2/bin:/opt/uto/pilot/rqt_bag/bin:/opt/uto/pilot/urdfdom/bin:/opt/uto/pilot/rqt_graph/bin:/opt/uto/pilot/rqt_gui/bin:/opt/uto/pilot/ros2cli/bin:/opt/uto/pilot/ament_uncrustify/bin:/opt/uto/pilot/uncrustify_vendor/bin:/opt/uto/pilot/pendulum_control/bin:/opt/uto/pilot/tlsf_cpp/bin:/opt/uto/pilot/rttest/bin:/opt/uto/pilot/rosidl_cli/bin:/opt/uto/pilot/launch_testing/bin:/opt/uto/pilot/cyclonedds/bin:/opt/uto/pilot/iceoryx_posh/bin:/opt/uto/pilot/fastrtps/bin:/opt/uto/pilot/foonathan_memory_vendor/bin:/opt/uto/pilot/ament_xmllint/bin:/opt/uto/pilot/ament_pyflakes/bin:/opt/uto/pilot/ament_pycodestyle/bin:/opt/uto/pilot/ament_pep257/bin:/opt/uto/pilot/ament_pclint/bin:/opt/uto/pilot/ament_mypy/bin:/opt/uto/pilot/ament_lint_cmake/bin:/opt/uto/pilot/ament_flake8/bin:/opt/uto/pilot/ament_copyright/bin:/opt/uto/pilot/ament_index_python/bin:/opt/uto/pilot/ament_cpplint/bin:/opt/uto/pilot/ament_cppcheck/bin:/opt/uto/pilot/ament_clang_tidy/bin:/opt/uto/pilot/ament_clang_format/bin:/opt/uto/pilot:/usr/local/cuda-11.4/bin:/usr/local/nvidia/bin:/usr/local/cuda/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/home/uto/.fzf/bin"
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"

[Install]
WantedBy=default.target

重载daemon文件 systemctl daemon-reload
启动ollama服务 systemctl start ollama
外部访问使用这个url 进行访问 http://IP:11434/v1

--1-3 设置ollama并发

vim /etc/systemd/system/ollama.service

[Service]
Environment="OLLAMA_NUM_PARALLEL=4" #并行处理请求的数量
Environment="OLLAMA_MAX_LOADED_MODELS=4" #同时加载的模型数量

sudo systemctl daemon-reload

sudo systemctl restart ollama

--2 vllm 部署

vLLM 框架是一个高效的大语言模型推理和部署服务系统，具备以下特性：

高效的内存管理：通过 PagedAttention ，vLLM 实现了对 KV 缓存的高效管理，减少了内存浪费，优化了模型的运行效率。
高吞吐量：vLLM 支持异步处理和连续批处理请求，显著提高了模型推理的吞吐量，加速了文本生成和处理速度。
易用性：vLLM 与 HuggingFace 模型无缝集成，支持多种流行的大型语言模型，简化了模型部署和推理的过程。兼容 OpenAI 的 API 服务器。
分布式推理：框架支持在多 GPU 环境中进行分布式推理，通过模型并行策略和高效的数据通信，提升了处理大型模型的能力。
开源共享：vLLM 由于其开源的属性，拥有活跃的社区支持，这也便于开发者贡献和改进，共同推动技术发展。

--2-1 启动推理服务

vLLM 支持提供 OpenAI 格式的 API,启动命令如下：

modelpath=/models/Qwen1.5-1.8B-Chat
# 单卡
python3 -m vllm.entrypoints.openai.api_server \
        --model $modelpath \
        --served-model-name qwen \
        --trust-remote-code

--2-2 离线推理

对于离线推理，我们可以直接使用 vLLM 库在 Python 代码中完成推理，以省去 API 请求耗时。

from vllm import LLM, SamplingParams

# Sample prompts.
prompts = [
    "Hello, my name is",
    "The president of the United States is",
    "The capital of France is",
    "The future of AI is",
]
# Create a sampling params object.
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)

# Create an LLM.
llm = LLM(model="facebook/opt-125m")
# Generate texts from the prompts. The output is a list of RequestOutput objects
# that contain the prompt, generated text, and other information.
outputs = llm.generate(prompts, sampling_params)
# Print the outputs.
for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

--3 推理性能对比

相关推荐

Linux 系统启动完整流程: 一、启动系统流程简介如上图，简述系统启动的大概流程：1：硬件引导UEFi或BIOS初始化，运行POST开机自检2：grub2引导阶段系统固件会从MBR中读取启动加载器，然后将控制权交给启动加载器GRU...

超专业解析!10分钟带你搞懂Linux中直接I/O原理: 我们先看一张图：这张图大体上描述了Linux系统上，应用程序对磁盘上的文件进行读写时，从上到下经历了哪些事情。这篇文章就以这张图为基础，介绍Linux在I/O上做了哪些事情。文件系统什么是...

linux入门系列12--磁盘管理之分区、格式化与挂载: 前面系列文章讲解了VI编辑器、常用命令、防火墙及网络服务管理，本篇将讲解磁盘管理相关知识。本文将会介绍大量的Linux命令，其中有一部分在“linux入门系列5--新手必会的linux命令”一文中已经...

Linux环境下如何设置多个交叉编译工具链?: 常见的Linux操作系统都可以通过包管理器安装交叉编译工具链，比如Ubuntu环境下使用如下命令安装gcc交叉编译器：sudoapt-getinstallgcc-arm-linux-gnueab...

可算是有文章，把Linux零拷贝技术讲透彻了: 阅读本文大概需要6.0分钟。作者：卡巴拉的树链接：https://dwz.cn/BaQWWtmh本文探讨Linux中主要的几种零拷贝技术以及零拷贝技术适用的场景。为了迅速建立起零拷贝的概念...

linux软链接的创建、删除和更新: 大家都知道，有的时候，我们为了省下空间，都会使用链接的方式来进行引用操作。同样的，在系统级别也有。在Windows系列中，我们称其为快捷方式，在Linux中我们称其为链接（基本上都差不多了，其中可能...

Linux 中最容易被黑客动手脚的关键目录: 在Linux系统中，黑客攻击后常会针对关键目录和文件进行修改以实现持久化、提权或隐藏恶意活动。本文介绍下黑客最常修改的目录及其手法。一、/etc目录关键文件有：/etc/passwd和/et...

linux之间传文件命令之Rsync傻瓜式教程: 1.前言linux之间传文件命令用什么命令？本文介绍一种最常用，也是功能强大的文件同步和传输工具Rsync，本文提供详细傻瓜式教程。在本教程中，我们将通过实际使用案例和最常见的rsync选项的详细说...

Linux下删除目录符号链接的方法: 技术背景在Linux系统中，符号链接（symlink）是一种特殊的文件，它指向另一个文件或目录。有时候，我们可能需要删除符号链接，但保留其指向的目标目录。然而，在删除符号链接时可能会遇到一些问题，例如...

阿里云国际站注册教程:aa云服务器怎么远程链接?: 在全球化的今天，互联网带给我们无以计数的便利，而云服务器则是其中的重要基础设施之一。这篇文章将围绕阿里云国际站注册、aa云服务器如何远程链接，以及服务器安全防护如Ddos防火墙、网站应用防护waf防火...

Linux 5.16 网络子系统大范围升级多个新适配器驱动加入: Linux在数据中心中占主导地位，因此每个内核升级周期的网络子系统变化仍然相当活跃。Linux5.16也不例外，周一最新与网络相关的更新加入了大量的驱动和新规范的支持。一个较新硬件的驱动是Realt...

搭建局域网文件共享服务(Samba)，手机电脑都能看喜欢的影视剧: 作为一名影视爱好者，为了方便地观看自己喜欢的影视作品，在家里搞一个专门用来存放电影的服务器是有必要的。蚁哥选则用一台Ubuntu系统的电脑做为服务器，共享影音文件，其他同一个局域网内的电脑或手机可以...

分享一个实用脚本—centos7系统巡检: 概述这周闲得慌，就根据需求写了差不多20个脚本（部分是之前分享过的做了一些改进），今天主要分享一个给平时运维人员用的centos7系统巡检的脚本，或者排查问题检查系统情况也可以用..实用脚本#!/bi...

Linux 中创建符号链接的方法: 技术背景在Linux系统里，符号链接（SymbolicLink），也被叫做软链接（SoftLink），是一种特殊的文件，它指向另一个文件或者目录。符号链接为文件和目录的管理带来了极大的便利，比...

一文掌握 Linux 符号链接: 符号链接（SymbolicLink），通常被称为“软链接”，是Linux文件系统中一种强大而灵活的工具。它允许用户创建指向文件或目录的“快捷方式”，不仅简化了文件管理，还在系统配置、软件开发和日...

local llm 推理部署

--1 ollama 部署

--1-1 ollama 基本设置

--1-2 设置ollama服务外部可访问

--1-3 设置ollama并发

--2 vllm 部署

--2-1 启动推理服务

--2-2 离线推理

--3 推理性能对比

相关推荐

idea本地配置连接远程hadoop集群的一些网络问题解决汇总

Ceph运维手册(基于P版本)

无缓存不行?例行升级的入门级阿斯加特AN2 SSD装机点评

大数据开发前要做什么准备?8台Hadoop服务器进行集群规划前配置

Tensorflow分类loss函数总结 tensorflow绘制loss曲线

R语言学习笔记(七) -离散型数据的模型预测2

iOS Runtime详解

7 个对 Java 意义重大的性能指标，你知道几个?

PHP 远程调试最佳实践

Laravel框架使用图片处理简单教程