正文

LiteRtLmSharp：为.NET开发者开启端侧大语言模型推理的新路径

LiteRtLmSharp是一个开源的.NET绑定库，让开发者能够在.NET应用中直接运行Google的LiteRT-LM模型，实现完全离线的端侧LLM推理。本文深入解析其架构设计、使用方法和技术意义。

LiteRT-LM.NET端侧推理LLMGemmaMAUIP/Invoke端侧AI离线推理函数调用

发布时间 2026/06/12 02:44最近活动 2026/06/12 02:48预计阅读 3 分钟

章节 01

导读 / 主楼：LiteRtLmSharp：为.NET开发者开启端侧大语言模型推理的新路径

章节 02

原作者与来源

原作者/维护者: OrihuelaConde
来源平台: GitHub
原始标题: LiteRtLmSharp
原始链接: https://github.com/OrihuelaConde/LiteRtLmSharp
发布时间: 2025年（持续维护）

章节 03

端侧AI的崛起与.NET生态的空白

随着大语言模型（LLM）技术的快速发展，端侧推理（on-device inference）正成为一个越来越重要的趋势。与云端推理相比，端侧推理具有隐私性强、延迟低、无需网络连接等显著优势。Google推出的LiteRT-LM（前身为TensorFlow Lite LLM）正是这一趋势的代表，它为移动和边缘设备提供了高效的LLM推理能力。

然而，对于广大的.NET开发者社区而言，长期以来存在一个明显的空白：如何在.NET应用中利用这些端侧AI能力？虽然Python和C++社区拥有丰富的LLM工具和绑定，但.NET生态一直缺乏官方支持的LiteRT-LM绑定。LiteRtLmSharp项目的出现，正是为了填补这一空白。

章节 04

LiteRtLmSharp项目概述

LiteRtLmSharp是一个非官方的.NET绑定库，它通过P/Invoke技术封装了LiteRT-LM的C API，使.NET开发者能够轻松地在任何.NET应用中集成端侧LLM推理能力。该项目采用与LLamaSharp类似的架构模式，将原生二进制文件以RID（Runtime Identifier）为单位打包成NuGet包分发。

章节 05

核心特性一览

完全离线推理：模型在本地设备上运行，无需网络连接
流式生成支持：支持token级别的流式输出，提升用户体验
函数调用能力：支持工具调用（function calling），可构建智能代理
多平台支持：目前已验证支持Windows x64、Linux x64和Android ARM64
GPU加速：支持WebGPU后端，可利用设备GPU进行加速
AOT兼容：采用源生成P/Invoke，支持Native AOT编译和代码裁剪

章节 06

为什么选择.NET 10？

该项目明确选择仅支持.NET 10（当前LTS版本），这一决策背后有深刻的技术考量。首先，.NET 10引入了现代化的互操作栈设计，包括源生成的[LibraryImport]特性和[UnmanagedCallersOnly]回调机制。这些特性消除了传统P/Invoke的运行时封送代码，使库能够完全兼容Native AOT编译和代码裁剪。

其次，单一的目标框架net10.0可以直接被MAUI应用（net10.0-android、net10.0-ios、net10.0-windows）消费，无需复杂的多目标配置。这种设计大大简化了跨平台移动开发的集成流程。

章节 07

原生二进制分发策略

项目采用了一种成熟的原生库分发模式：

平台	原生二进制	NuGet包	运行验证
win-x64	✅	✅	✅
linux-x64	✅	✅	✅ (CI)
android-arm64	✅	✅	✅ (设备验证)
osx-arm64	✅	✅	⏳
ios-arm64	✅	⏳	⏳

每个平台的原生库（libLiteRtLm.so、LiteRtLm.dll等）通过独立的GitHub Release分发，开发者在构建时通过PowerShell脚本自动恢复对应平台的二进制文件。这种分离式设计使得托管代码与原生代码可以独立更新，降低了维护复杂度。

章节 08

安装NuGet包

开发者需要同时安装托管包和对应平台的运行时包：

<PackageReference Include="LiteRtLmSharp" Version="0.1.0-preview.1" />
<PackageReference Include="LiteRtLmSharp.runtime.win-x64" Version="0.1.0-preview.1" />