Zing 论坛

主题阅读

大模型问答与内容策略

1529 篇内容 · 先看推荐,再继续浏览

LLMRAG边缘AILangChainGGUF
热门话题

先看这些

先读这几篇,快速了解这个主题最值得看的内容。

继续浏览

按搜索、排序和翻页继续挑你关心的内容。

04
8GB内存运行10GB大模型:Gemma 4 E2B自定义推理引擎的技术突破

8GB内存运行10GB大模型:Gemma 4 E2B自定义推理引擎的技术突破

一个创新的PyTorch自定义推理引擎通过绕过操作系统文件缓存和分层加载技术,成功在仅8GB内存的CPU设备上运行Google的10.2GB Gemma 4大语言模型。

大语言模型Gemma 4边缘计算内存优化PyTorch推理引擎
发布时间 2026/04/05 22:43最近活动 2026/04/05 22:53
05
纯Java实现Llama 3推理:llama3.java项目的技术深度解析

纯Java实现Llama 3推理:llama3.java项目的技术深度解析

llama3.java项目以单文件纯Java实现Llama 3、3.1、3.2系列模型的推理引擎,支持多种量化格式和GraalVM原生镜像,展示了JVM生态在大模型推理领域的潜力。

JavaLlama 3大语言模型GraalVM向量化JVM
发布时间 2026/04/05 22:43最近活动 2026/04/05 22:55
06
大型视觉语言模型真的在推理吗?视觉谜题基准测试揭示真相

大型视觉语言模型真的在推理吗?视觉谜题基准测试揭示真相

一项系统性综述研究通过视觉谜题基准测试家族,深入探查大型视觉语言模型(LVLMs)的推理能力,区分真正的抽象推理与表面模式匹配。

视觉语言模型推理能力基准测试归纳推理类比推理人工智能
发布时间 2026/04/05 22:43最近活动 2026/04/05 22:53
07
CSAQ量化框架:用因果显著性评分保护大模型推理能力

CSAQ量化框架:用因果显著性评分保护大模型推理能力

CSAQ是一种后训练量化方法,通过梯度×激活的因果重要性评分识别关键权重,在4-bit量化下保持模型推理能力,解决了AWQ等方法80%关键权重被错误量化的问题。

量化LLM模型压缩因果显著性AWQ4-bit量化
发布时间 2026/04/05 21:44最近活动 2026/04/05 21:47
08
Steering to Safety:用线性探针与门控稀疏自编码器实现推理时安全对齐

Steering to Safety:用线性探针与门控稀疏自编码器实现推理时安全对齐

该项目探索了无需重新训练的大语言模型推理时安全对齐方法,结合监督式线性探针与非监督式门控稀疏自编码器,在冻结的RoBERTa骨干网络上发现并操控安全相关的可解释隐层原子。

安全对齐大语言模型推理时操控稀疏自编码器线性探针越狱防护
发布时间 2026/04/05 21:39最近活动 2026/04/05 21:49
09
高校智能问答机器人:基于大语言模型的校园 FAQ 系统实践

高校智能问答机器人:基于大语言模型的校园 FAQ 系统实践

本文介绍一个高校 FAQ 智能问答系统项目,展示如何结合大语言模型、RAG 技术和数据可视化,构建能够自动回答学生常见问题的智能客服解决方案。

智能客服高校信息化FAQ系统大语言模型RAG教育科技
发布时间 2026/04/05 21:14最近活动 2026/04/05 21:21
10
RAG 检索增强生成实战:构建基于知识库的大语言模型应用

RAG 检索增强生成实战:构建基于知识库的大语言模型应用

本文介绍 RAG(检索增强生成)技术的核心原理与实现方法,展示如何通过结合外部知识库来增强大语言模型的准确性和时效性,解决模型幻觉问题。

RAG检索增强生成向量数据库知识库问答大语言模型文档检索
发布时间 2026/04/05 21:13最近活动 2026/04/05 21:20
11
LLMBase:从零开始系统掌握大语言模型的完整学习指南

LLMBase:从零开始系统掌握大语言模型的完整学习指南

LLMBase 是一个全面的大语言模型学习资源库,涵盖从基础概念到前沿研究的完整知识体系,提供可视化图表、可运行代码和面试级深度内容。

大语言模型LLMTransformer深度学习自然语言处理注意力机制
发布时间 2026/04/05 21:13最近活动 2026/04/05 21:18
12
Fiber-Inference:Apple M4 芯片大模型推理性能的系统性评测研究

Fiber-Inference:Apple M4 芯片大模型推理性能的系统性评测研究

Fiber-Inference 项目对 Apple M4 芯片的五种计算单元进行了全面评测,揭示了 ANE、AMX、GPU 等不同后端在 LLM 推理中的性能差异,为端侧 AI 部署提供了重要参考。

Apple SiliconM4芯片端侧推理LLM推理优化ANEMLX
发布时间 2026/04/05 21:09最近活动 2026/04/05 21:19
13
TALLMKit:Swift 开发者的多 LLM 统一调用方案

TALLMKit:Swift 开发者的多 LLM 统一调用方案

TALLMKit 是一个轻量级的 Swift 包,为开发者提供统一接口来调用 OpenAI、Anthropic Claude、xAI Grok 和 Google Gemini 等多个大语言模型 API。

SwiftLLMOpenAIClaudeGrokGemini
发布时间 2026/04/05 20:46最近活动 2026/04/05 20:50
14
GitPM:面向AI时代的Git原生项目管理范式

GitPM:面向AI时代的Git原生项目管理范式

GitPM 是一个将项目管理数据(路线图、PRD、史诗、问题)以结构化文件形式存储在代码仓库中的工具,支持双向 GitHub 同步和本地 UI,专为 AI 智能体工作流设计。

项目管理GitAI智能体工作流开源工具GitHub同步
发布时间 2026/04/05 20:15最近活动 2026/04/05 20:23
15
aiNrve Proxy:为AI推理打造的智能负载均衡与路由系统

aiNrve Proxy:为AI推理打造的智能负载均衡与路由系统

aiNrve Proxy 是一个开源的 LLM 推理路由代理,类似于"AI 领域的 nginx",通过智能调度将请求路由到最快、最便宜的提供商,支持多厂商故障自动转移。

LLM推理负载均衡智能路由OpenAI API多提供商故障转移
发布时间 2026/04/05 20:14最近活动 2026/04/05 20:22
16
AstroLLM:为天文科研而生的领域专用大语言模型

AstroLLM:为天文科研而生的领域专用大语言模型

AstroLLM是一个面向天文学和天体物理学研究的开源领域专用大语言模型,通过RAG技术与NASA ADS、SIMBAD等天文数据库深度集成,提供带真实引用的检索增强回答。

大语言模型天文学天体物理学RAG领域专用模型NASA ADS
发布时间 2026/04/05 20:13最近活动 2026/04/05 20:20
17
FlowTab:将浏览器新标签页变成AI协作空间的创新Chrome扩展

FlowTab:将浏览器新标签页变成AI协作空间的创新Chrome扩展

FlowTab是一款革命性的Chrome扩展,它将浏览器新标签页转变为一个空间化的终端画布,让用户能够与Claude Code无缝协作。本文深入解析其设计理念、核心功能和技术实现。

Chrome扩展Claude CodeAI协作终端浏览器扩展开发者工具
发布时间 2026/04/05 19:44最近活动 2026/04/05 19:49
18
LLMEdge:在 Android 设备上运行本地大模型的全能推理库

LLMEdge:在 Android 设备上运行本地大模型的全能推理库

LLMEdge 是一个轻量级 Android 原生 AI 推理库,基于 llama.cpp 和 stable-diffusion.cpp,支持在移动设备上本地运行 GGUF 格式的大语言模型、图像生成、语音识别与合成等多种 AI 功能。

Android端侧AI本地推理大语言模型llama.cpp图像生成
发布时间 2026/04/05 19:12最近活动 2026/04/05 19:19
19
LLMEdge:Android端侧AI全栈开发实战指南

LLMEdge:Android端侧AI全栈开发实战指南

深入解析llmedge-examples项目,涵盖端侧大语言模型推理、RAG检索增强、图像生成、视频合成、语音转文字与文字转语音等完整AI能力在Android设备上的实现方案。

Android端侧AILLMRAGStable DiffusionWhisper
发布时间 2026/04/05 18:43最近活动 2026/04/05 18:49
20
PromptOps:为大型语言模型应用构建提示词模板管理的CI/CD流水线

PromptOps:为大型语言模型应用构建提示词模板管理的CI/CD流水线

探索PromptOps项目如何将DevOps理念应用于LLM提示词工程,实现提示词模板的版本控制、自动化测试与持续部署,提升AI应用的可维护性与可靠性。

PromptOpsLLMCI/CD提示词工程DevOpsMLOps
发布时间 2026/04/05 18:00最近活动 2026/04/05 18:19

下一个主题

AI 搜索收录与可见性

240 帖