章节 01
导读 / 主楼:OmniBehavior:基于快手真实数据的长期人类行为模拟基准数据集
中国科学院信息工程研究所发布的OmniBehavior数据集,包含90天跨场景用户行为轨迹,覆盖直播、短视频、电商、广告、搜索五大场景,为LLM长期兴趣建模与行为模拟研究提供真实基准。
正文
中国科学院信息工程研究所发布的OmniBehavior数据集,包含90天跨场景用户行为轨迹,覆盖直播、短视频、电商、广告、搜索五大场景,为LLM长期兴趣建模与行为模拟研究提供真实基准。
章节 01
中国科学院信息工程研究所发布的OmniBehavior数据集,包含90天跨场景用户行为轨迹,覆盖直播、短视频、电商、广告、搜索五大场景,为LLM长期兴趣建模与行为模拟研究提供真实基准。
章节 02
大型语言模型(LLM)在理解和生成人类语言方面取得了显著进展,但在模拟真实人类行为时仍面临重大挑战。现有的大多数基准测试聚焦于单一任务或短期交互,难以捕捉人类行为的复杂性——我们的兴趣会随时间演变,行为横跨多个场景,且受到长期习惯的深刻影响。
中国科学院信息工程研究所(ICIPECAS)的研究团队敏锐地意识到这一空白,于2026年发布了OmniBehavior——一个专为评估LLM在长期、跨场景、异构行为轨迹上表现而设计的综合基准数据集。该数据集基于快手平台的真实用户行为数据构建,为研究者提供了一个前所未有的窗口,来观察和理解人类在数字环境中的长期行为模式。
章节 03
OmniBehavior数据集的核心优势在于其长期观察窗口和多场景覆盖。数据集时间跨度达90天(2025年9月1日至11月30日),这一时长足以捕捉用户兴趣的演变过程和稳定的行为习惯。相比传统数据集通常只有数小时或数天的观察期,90天的跨度使研究者能够分析季节性的兴趣变化、消费习惯的形成过程,以及跨周期的行为模式。
数据集涵盖快手平台的五大核心场景:
这种多场景覆盖设计使研究者能够探索不同场景间的行为关联——例如,观看某位主播的直播如何影响后续的购物决策,或搜索行为如何反映用户的即时需求与长期兴趣。
章节 04
OmniBehavior采用结构化的JSON格式组织数据,每个用户条目包含用户画像描述和按时间顺序排列的行为历史。数据结构设计兼顾了信息的完整性和研究的可扩展性:
{
"user_ID": {
"user_profile": "用户描述(如人口统计、教育背景等)...",
"action_history": [
{
"type": "场景类型",
"timestamp": "YYYY-MM-DD HH:MM:SS",
"context": {
"field_name": "value"
},
"action": [
{
"type": "具体行为",
"attribute": "value"
}
]
}
]
}
}
每条行为记录都包含精确的时间戳、场景上下文和具体的行为细节。这种细粒度的记录方式使研究者能够重建用户的完整行为轨迹,分析行为的时间分布规律,以及识别行为序列中的模式和异常。
章节 05
OmniBehavior数据集的发布为多个前沿研究方向提供了重要支撑:
章节 06
90天的时间跨度使研究者能够追踪用户兴趣的演变轨迹和稳定性。通过分析用户在不同时间段内的行为变化,可以构建更精准的用户画像模型,理解兴趣是如何形成、强化或消退的。这对于推荐系统的长期优化具有重要指导意义。
章节 07
通过覆盖多样化的场景,数据集支持研究一个领域的行为(如观看直播)如何与另一个领域的行为(如购买商品或点击广告)相关联。这种跨域分析有助于揭示用户决策的深层机制,为跨场景推荐和营销策略优化提供数据支持。
章节 08
详细的行为轨迹为构建用户模拟器提供了真实基准。研究者可以评估智能体模拟真实人类长期行为模式的能力,测试不同模拟算法在复杂环境中的有效性。这对于虚拟用户测试、产品原型验证和算法效果评估具有重要价值。