正文

KothaSet：用LLM作为教师模型自动生成高质量微调数据集

KothaSet是一款开源CLI工具，支持通过OpenAI、DeepSeek、vLLM、Ollama等多种Provider，利用大语言模型生成Instruction、Chat、Preference、Classification等多种格式的训练数据，具备断点续传、流式输出、多样性控制等企业级特性。

LLM数据集生成微调CLI工具数据合成OpenAIDPORLHFGo语言开源工具

发布时间 2026/05/26 18:15最近活动 2026/05/26 18:19预计阅读 3 分钟

章节 01

导读 / 主楼：KothaSet：用LLM作为教师模型自动生成高质量微调数据集

章节 02

原作者与来源

原作者/维护者：shantoislamdev
来源平台：GitHub
原始标题：KothaSet - AI-Powered Dataset Generation CLI Tool
原始链接：https://github.com/shantoislamdev/kothaset
发布时间：2026年5月26日

章节 03

背景：微调数据集获取的痛点

在大语言模型（LLM）应用日益普及的今天，如何获取高质量、多样化的训练数据集成为模型微调（Fine-tuning）的关键瓶颈。传统的人工标注方式成本高昂且效率低下，而简单的数据增强又难以保证数据质量。KothaSet正是为解决这一痛点而生的开源工具，它巧妙地将大语言模型作为"教师模型"，自动化生成用于微调较小模型的优质数据集。

章节 04

项目概述

KothaSet是一款用Go语言编写的命令行工具，支持通过多种大语言模型Provider（包括OpenAI、DeepSeek、vLLM、Ollama等）自动生成结构化的训练数据。该工具的设计哲学是：利用强大的闭源或开源大模型作为数据生成引擎，为特定领域的下游任务创建定制化的微调数据集。

章节 05

核心特性一览

多Provider支持：兼容OpenAI API及所有OpenAI兼容接口（DeepSeek、vLLM、Ollama等）
灵活的数据格式：支持Instruction（Alpaca格式）、Chat（ShareGPT格式）、Preference（DPO格式）、Classification等多种schema
流式输出：实时生成数据并显示进度
断点续传：原子化检查点机制，中断后可从断点恢复
JSONL标准输出：符合业界标准的JSON Lines格式
可复现性：支持固定随机种子，确保生成结果可复现
多样性控制：通过输入文件控制主题覆盖，实现数据多样化
配置验证：内置配置、schema、数据集和Provider连通性验证

章节 06

安装与快速上手

KothaSet提供了多种安装方式，满足不同用户的需求：

# Python用户
pip install kothaset

# Node.js用户
npm install -g kothaset

# macOS用户（Homebrew）
brew install shantoislamdev/tap/kothaset

# Go用户
go install github.com/shantoislamdev/kothaset/cmd/kothaset@latest

章节 07

三步快速开始

初始化配置：运行 kothaset init 生成配置文件
设置API密钥：export OPENAI_API_KEY="sk-..."
生成数据集：kothaset generate -n 100 -s instruction --seed 42 -i topics.txt -o dataset.jsonl

章节 08