章节 01
LLM-Vocabulary-Insight:50个大语言模型希腊语分词能力深度分析导读
该项目对50个主流大语言模型的希腊语分词能力进行全面分析,揭示不同模型在多语言支持方面的显著差异,为选择适合希腊语处理的LLM提供数据驱动的参考依据。项目由constLiakos开发,发布于2026年6月5日GitHub平台。
正文
该项目对50个主流大语言模型的希腊语分词能力进行了全面分析,揭示了不同模型在多语言支持方面的显著差异,为选择适合希腊语处理的LLM提供了数据驱动的参考依据。
章节 01
该项目对50个主流大语言模型的希腊语分词能力进行全面分析,揭示不同模型在多语言支持方面的显著差异,为选择适合希腊语处理的LLM提供数据驱动的参考依据。项目由constLiakos开发,发布于2026年6月5日GitHub平台。
章节 02
随着大语言模型(LLMs)在全球范围内的广泛应用,其对不同语言的支持程度问题逐渐浮现。分词器作为模型处理文本的第一道关卡,词汇表构成直接决定编码效率和理解能力。希腊语因独特字母系统和历史沉淀,成为评估LLM多语言能力的理想测试案例,LLM-Vocabulary-Insight工具由此而生。
章节 03
项目评估50个主流LLM(参数范围7B到235B),核心指标包括希腊语token总数及占比、字符覆盖率与分词效率、与拉丁语系对比。50个模型合并词汇表超739万个token,其中希腊语token约10.6万个(占1.43%),拉丁语token达475.8万个(占64.37%),直观反映当前LLM词汇表的语言偏向性。
章节 04
不同模型对希腊语的支持程度存在数量级差异。表现最佳的模型:ilsp/Meltemi-7B-Instruct-v1.5(28162个希腊语token,占比45.89%)、ilsp/Llama-Krikri-8B-Instruct(22212个,占比14.88%);表现最差的模型:microsoft/phi-4(44个,占比0.04%)、ibm-granite/granite-4.0-tiny-preview(42个,占比0.09%);主流通用模型占比集中在0.5%到2%,如unsloth/Qwen3.5-27B(1538个,0.62%)、unsloth/gemma-3-27b-it(1409个,0.54%)等。
章节 05
词汇表总规模与希腊语支持率无简单正相关。例如mlx-community/aya-expanse-32b-8bit总词汇255000个,希腊语token占比68.12%(173699个),但单纯扩大词汇表不能保证更好的多语言支持,关键在于词汇表构成策略和训练数据的语言分布。
章节 06
章节 07
LLM-Vocabulary-Insight以希腊语为切入点,揭示当前LLM生态系统中语言支持不平衡问题。数据显示即使最好的通用模型,其希腊语token占比也远低于拉丁语。项目方法具有可扩展性,可用于评估任何语言的分词支持,助力构建语言公平的AI系统,推动更具包容性的AI应用。