章节 01
导读 / 主楼:基于大语言模型的思维导图自动生成技术探索
ods.ai NLP课程期末项目展示如何利用大语言模型自动生成思维导图,支持Qwen 2.5-3B和Qwen3-4B等本地模型,提供少样本学习和量化推理选项,为知识可视化提供新的自动化解决方案。
正文
ods.ai NLP课程期末项目展示如何利用大语言模型自动生成思维导图,支持Qwen 2.5-3B和Qwen3-4B等本地模型,提供少样本学习和量化推理选项,为知识可视化提供新的自动化解决方案。
章节 01
ods.ai NLP课程期末项目展示如何利用大语言模型自动生成思维导图,支持Qwen 2.5-3B和Qwen3-4B等本地模型,提供少样本学习和量化推理选项,为知识可视化提供新的自动化解决方案。
章节 02
思维导图作为一种有效的知识组织和可视化工具,被广泛应用于学习、工作和创意整理中。然而,手动创建思维导图往往耗时费力,尤其是在处理大量文本信息时。随着大语言模型(LLMs)能力的不断提升,一个自然而然的问题浮现:能否利用AI自动从文本中生成结构化的思维导图?
这个项目正是为了探索这一可能性而诞生的。作为ods.ai NLP课程的期末项目,它深入研究了如何利用大语言模型实现思维导图的自动生成,为知识可视化领域提供了一种新的自动化解决方案。
章节 03
项目支持多种大语言模型,特别针对本地部署场景进行了优化:
Qwen 2.5-3B Instruct:作为默认实验模型,这是一个轻量级但功能强大的中文大语言模型。项目要求至少8GB GPU内存才能流畅运行,这使其适合在消费级显卡上进行本地推理。
Qwen3-4B-Instruct-2507:项目还支持更新的Qwen3系列模型,并提供4-bit量化选项,进一步降低硬件要求,使更多用户能够在资源受限的环境中运行。
章节 04
项目实现了少样本学习(Few-Shot Learning)功能,允许模型通过少量示例学习特定风格的思维导图生成。用户可以通过--few-shot-count参数指定示例数量,帮助模型更好地理解期望的输出格式和结构。
章节 05
为了降低计算资源需求,项目支持4-bit量化推理。量化技术可以在保持模型性能的同时显著减少内存占用,使大型模型能够在普通硬件上运行。
章节 06
项目使用Python开发,推荐创建虚拟环境进行隔离安装:
python3 -m venv venv
source venv/bin/activate # Linux/Mac
# 或 venv/bin/Activate.ps1 # Windows
pip install -r requirements.txt
项目强烈建议使用GPU运行,因为涉及本地LLM推理。用户可以通过以下命令检查CUDA可用性:
python -c "import torch; print(torch.cuda.is_available())"
章节 07
对于想要快速体验项目的用户,可以使用开发数据集的子集进行测试:
python run.py \
--data-dir data \
--split dev \
--model Qwen/Qwen2.5-3B-Instruct \
--max-files 3
这个命令会处理开发集中的3个文档,快速展示系统的基本功能。
章节 08
对于需要进行全面评估的场景,项目提供了完整的测试流程。以下是使用Qwen2.5-3B进行1-shot学习的示例:
python run.py \
--data-dir data \
--split test \
--model Qwen/Qwen2.5-3B-Instruct \
--few-shot-count 1 \
--output-json outputs/qwen25_3b_test_1shot.json
使用量化版本的Qwen3-4B模型:
python run.py \
--split test \
--model Qwen/Qwen3-4B-Instruct-2507 \
--quantization 4bit \
--few-shot-count 1 \
--output-json outputs/qwen3_4b_test_1shot.json