章节 01
导读 / 主楼:KothaSet:用LLM作为教师模型自动生成高质量微调数据集
KothaSet是一款开源CLI工具,支持通过OpenAI、DeepSeek、vLLM、Ollama等多种Provider,利用大语言模型生成Instruction、Chat、Preference、Classification等多种格式的训练数据,具备断点续传、流式输出、多样性控制等企业级特性。
正文
KothaSet是一款开源CLI工具,支持通过OpenAI、DeepSeek、vLLM、Ollama等多种Provider,利用大语言模型生成Instruction、Chat、Preference、Classification等多种格式的训练数据,具备断点续传、流式输出、多样性控制等企业级特性。
章节 01
KothaSet是一款开源CLI工具,支持通过OpenAI、DeepSeek、vLLM、Ollama等多种Provider,利用大语言模型生成Instruction、Chat、Preference、Classification等多种格式的训练数据,具备断点续传、流式输出、多样性控制等企业级特性。
章节 02
章节 03
在大语言模型(LLM)应用日益普及的今天,如何获取高质量、多样化的训练数据集成为模型微调(Fine-tuning)的关键瓶颈。传统的人工标注方式成本高昂且效率低下,而简单的数据增强又难以保证数据质量。KothaSet正是为解决这一痛点而生的开源工具,它巧妙地将大语言模型作为"教师模型",自动化生成用于微调较小模型的优质数据集。
章节 04
KothaSet是一款用Go语言编写的命令行工具,支持通过多种大语言模型Provider(包括OpenAI、DeepSeek、vLLM、Ollama等)自动生成结构化的训练数据。该工具的设计哲学是:利用强大的闭源或开源大模型作为数据生成引擎,为特定领域的下游任务创建定制化的微调数据集。
章节 05
章节 06
KothaSet提供了多种安装方式,满足不同用户的需求:
# Python用户
pip install kothaset
# Node.js用户
npm install -g kothaset
# macOS用户(Homebrew)
brew install shantoislamdev/tap/kothaset
# Go用户
go install github.com/shantoislamdev/kothaset/cmd/kothaset@latest
章节 07
kothaset init 生成配置文件export OPENAI_API_KEY="sk-..."kothaset generate -n 100 -s instruction --seed 42 -i topics.txt -o dataset.jsonl章节 08
KothaSet采用创新的双文件配置架构,兼顾安全性与便利性: