model
-
LMDeploy
LMDeploy 由 MMDeploy 和 MMRazor 团队联合开发,是涵盖了 LLM 任务的全套轻量化、部署和服务解决方案。
-
LLM 大模型微调方法简介
预训练的大语言模型(LLM)可能无法完全满足特定用户需求,因此需要通过微调来提升其在特定任务中的表现。通过微调,模型能够更精准地适应用户的具体应用场景。本文为您介绍微调 LLM 时的策略选择(SFT/DPO)、微调技术(全参/LoRA/QLoRA)以及超参说明,旨在帮助实现模型性能的最佳优化。
-
SGLang 部署大模型
SGLang 是一个用于大型语言模型(LLMs)和视觉语言模型(VLMs)的快速服务框架。
-
魔搭社区模型下载
本文介绍在 ModelScope 社区下载模型的三种方式:1. 使用命令行工具下载;2. 使用 SDK 下载;3. 通过 Git 下载
2025-09-21 ai ai,model,modelscope,download -
AI LLM 模型显存在线计算工具
AI 模型显存占用计算 (Memory/VRAM Usage)主要分为
推理(Inference)和训练(Training)两种情况 -
LLM 模型显存占用计算公式
理解 LLM 的资源占用主要分为两个方面:1.
显存占用 (Memory Footprint):模型在运行时(推理或训练)需要占用多少内存(通常是 GPU 的 VRAM),这是决定需要多大显存的 GPU 的关键。2.计算量 (Computational Cost):模型进行一次完整的计算需要多少次浮点运算(FLOPs),这决定模型的运行速度。 -
魔搭社区介绍
ModelScope(魔搭社区) 是一个由阿里云推出的开源 AI 模型社区和平台。它的核心目标是降低人工智能的开发和应用门槛,让开发者、研究人员乃至企业都能更轻松地获取、使用、定制和分享各种先进的 AI 模型。
2025-07-12 ai ai,model,huggingface,modelscope -
谷歌 A2A 协议:开启 AI 智能体协作新时代
谷歌发布的A2A(Agent-to-Agent)协议是一项开放标准,旨在让不同平台、不同开发者构建的 AI 智能体(Agent)能够相互发现、安全通信和协同工作。该协议的推出打破了 AI 生态中的
孤岛效应,为构建功能更强大、更复杂的集成式 AI 系统铺平了道路。 -
vLLM 介绍与使用
vLLM 是一个用于大型语言模型 (LLM) 推理加速的开源库,它以其卓越的性能和易用性而闻名。vLLM 的核心优势在于其创新的PagedAttention算法,该算法有效解决了传统注意力机制在处理长序列时内存碎片化的问题,从而显著提高了吞吐量和降低了延迟。
2025-05-04 ai ai,model,LLM,vLLM,PagedAttention,DynamicBatching+2 -
模型在线服务和离线推理实现
模型在线服务和离线推理实现
-
Unsloth 介绍
LLM 的微调与强化学习。 使用更少的 70% VRAM,将 OpenAI gpt-oss、DeepSeek-R1、Qwen3、Gemma 3、TTS 的训练速度提高 2 倍。
-
阿里云 BladeLLM 推理引擎
BladeLLM 是一款专为大语言模型(LLM)优化的推理引擎,旨在提供高性能的模型部署服务。面对 LLM 领域不断涌现的新机遇与挑战,BladeLLM 通过其先进的技术架构、友好的用户体验和卓越的性能表现,成为企业用户部署和推理 LLM 模型的理想选择。
-
GGUF 大模型文件格式及 LLM 模型量化类型介绍
GGUF(GPT-Generated Unified Format)是一种二进制格式文件的规范,原始的大模型预训练结果经过转换后变成 GGUF 格式可以更快地被载入使用,并消耗更低的资源 -
llama.cpp 介绍
使用 C/C++ 的 LLM 推理
-
MCP 模型上下文协议介绍
MCP(Model Context Protocol)由 Anthropic 推出的一种全新开放标准,旨在为 AI 助手提供与数据源之间的安全连接能力 -
Rerank 模型介绍
Rerank(重排序)模型是自然语言处理(NLP)和搜索领域中的一种技术,主要用于对初步检索的结果进行优化排序,以提高最终输出的相关性或准确性。它通常作为
两阶段流程中的第二阶段,与第一阶段的快速但粗糙的检索模型(如基于关键词或向量相似度的模型)配合使用。 -
Moderation 模型介绍
Moderation 模型(内容审核模型)是人工智能领域中的一种工具,主要用于自动检测和过滤用户生成内容(UGC)中的不当信息,例如暴力、仇恨言论、色情内容、垃圾信息、虚假信息等。它通过机器学习(尤其是自然语言处理、计算机视觉等技术)帮助平台高效管理内容,确保符合法律法规和社区规范。2025-02-01 ai ai,model,moderation -
模型量化介绍
模型量化(
Model Quantization)是一种通过降低神经网络模型中参数和激活值的数值精度(如从 32 位浮点数转换为 8 位整数),以减小模型体积、提升计算效率并降低功耗的技术。它是深度学习模型压缩和优化的核心方法之一,尤其适用于在资源受限的设备(如手机、嵌入式设备)上部署模型。2025-02-01 ai ai,model,quantization -
embedding model 介绍
模型
嵌入(Embedding)的工作原理是将文本、图像和视频转换为称为向量(Vectors)的浮点数数组,这种向量(称为嵌入向量或Embedding)能够捕捉数据的语义或特征信息,使计算机更容易处理和分析复杂的关系。 -
MoE 混合专家模型介绍
MoE 模型(Mixture of Experts,混合专家模型)是一种机器学习模型的架构设计,旨在通过组合多个专家(子模型)来解决复杂任务。其核心思想是让不同的专家专注于处理输入数据的不同部分或不同模式,最终通过动态权重(由门控网络控制)将各专家的输出融合,形成最终的预测结果。 -
LLM 大模型介绍
大规模语言模型(Large Language Model,LLM)是一种基于人工智能技术的模型,是由具有大量参数(通常数十亿个权重或更多)的人工神经网络组成的一类语言模型,使用自监督学习或半监督学习对大量未标记文本进行训练。大语言模型在 2018 年左右出现,并在各种任务中表现出色。 -
ollama Modelfile 使用
Modelfile是与 Ollama 创建和共享模型的文件,功能类似于 docker 制作镜像的Dockerfile。