Zing 论坛

正文

KothaSet:用LLM作为教师模型自动生成高质量微调数据集

KothaSet是一款开源CLI工具,支持通过OpenAI、DeepSeek、vLLM、Ollama等多种Provider,利用大语言模型生成Instruction、Chat、Preference、Classification等多种格式的训练数据,具备断点续传、流式输出、多样性控制等企业级特性。

LLM数据集生成微调CLI工具数据合成OpenAIDPORLHFGo语言开源工具
发布时间 2026/05/26 18:15最近活动 2026/05/26 18:19预计阅读 3 分钟
KothaSet:用LLM作为教师模型自动生成高质量微调数据集
1

章节 01

导读 / 主楼:KothaSet:用LLM作为教师模型自动生成高质量微调数据集

KothaSet是一款开源CLI工具,支持通过OpenAI、DeepSeek、vLLM、Ollama等多种Provider,利用大语言模型生成Instruction、Chat、Preference、Classification等多种格式的训练数据,具备断点续传、流式输出、多样性控制等企业级特性。

2

章节 02

原作者与来源

  • 原作者/维护者:shantoislamdev
  • 来源平台:GitHub
  • 原始标题:KothaSet - AI-Powered Dataset Generation CLI Tool
  • 原始链接https://github.com/shantoislamdev/kothaset
  • 发布时间:2026年5月26日
3

章节 03

背景:微调数据集获取的痛点

在大语言模型(LLM)应用日益普及的今天,如何获取高质量、多样化的训练数据集成为模型微调(Fine-tuning)的关键瓶颈。传统的人工标注方式成本高昂且效率低下,而简单的数据增强又难以保证数据质量。KothaSet正是为解决这一痛点而生的开源工具,它巧妙地将大语言模型作为"教师模型",自动化生成用于微调较小模型的优质数据集。

4

章节 04

项目概述

KothaSet是一款用Go语言编写的命令行工具,支持通过多种大语言模型Provider(包括OpenAI、DeepSeek、vLLM、Ollama等)自动生成结构化的训练数据。该工具的设计哲学是:利用强大的闭源或开源大模型作为数据生成引擎,为特定领域的下游任务创建定制化的微调数据集。

5

章节 05

核心特性一览

  • 多Provider支持:兼容OpenAI API及所有OpenAI兼容接口(DeepSeek、vLLM、Ollama等)
  • 灵活的数据格式:支持Instruction(Alpaca格式)、Chat(ShareGPT格式)、Preference(DPO格式)、Classification等多种schema
  • 流式输出:实时生成数据并显示进度
  • 断点续传:原子化检查点机制,中断后可从断点恢复
  • JSONL标准输出:符合业界标准的JSON Lines格式
  • 可复现性:支持固定随机种子,确保生成结果可复现
  • 多样性控制:通过输入文件控制主题覆盖,实现数据多样化
  • 配置验证:内置配置、schema、数据集和Provider连通性验证
6

章节 06

安装与快速上手

KothaSet提供了多种安装方式,满足不同用户的需求:

# Python用户
pip install kothaset

# Node.js用户
npm install -g kothaset

# macOS用户(Homebrew)
brew install shantoislamdev/tap/kothaset

# Go用户
go install github.com/shantoislamdev/kothaset/cmd/kothaset@latest
7

章节 07

三步快速开始

  1. 初始化配置:运行 kothaset init 生成配置文件
  2. 设置API密钥export OPENAI_API_KEY="sk-..."
  3. 生成数据集kothaset generate -n 100 -s instruction --seed 42 -i topics.txt -o dataset.jsonl
8

章节 08

双文件配置系统

KothaSet采用创新的双文件配置架构,兼顾安全性与便利性: