章节 01
CaPFAS框架导读:PFAS分析的可解释多模态神经网络解决方案
CaPFAS是由河南科学院环境化学与生态毒理学国家重点实验室付课题组(HIAS-RCEES-FuLab)开发的开源框架,专为PFAS(全氟和多氟烷基物质)分析设计。该框架集成数据清洗、预处理和模型训练功能,采用可解释的多模态神经网络架构,提供端到端机器学习解决方案,助力环境科学和毒理学研究。项目开源地址:GitHub,发布时间为2026年6月16日。
正文
CaPFAS是一个专为PFAS(全氟和多氟烷基物质)分析设计的开源框架,集成了数据清洗、预处理和模型训练功能,采用可解释的多模态神经网络架构,为环境科学和毒理学研究提供端到端的机器学习解决方案。
章节 01
CaPFAS是由河南科学院环境化学与生态毒理学国家重点实验室付课题组(HIAS-RCEES-FuLab)开发的开源框架,专为PFAS(全氟和多氟烷基物质)分析设计。该框架集成数据清洗、预处理和模型训练功能,采用可解释的多模态神经网络架构,提供端到端机器学习解决方案,助力环境科学和毒理学研究。项目开源地址:GitHub,发布时间为2026年6月16日。
章节 02
PFAS被称为"永久化学品",具有环境持久性、生物累积性和潜在毒性,全球已检测到数千种变体,给环境监测和风险评估带来巨大挑战。传统分析方法存在三大难题:1. 多源数据格式和质量差异大;2. 毒性机制涉及多靶点多通路,复杂度高;3. 现有机器学习模型缺乏可解释性,难以满足科研和监管透明度要求。领域迫切需要整合多源数据、提供可解释预测的综合框架。
章节 03
CaPFAS的核心目标是提供端到端的PFAS数据分析预测解决方案,其设计强调三大特性:1. 多模态数据融合:统一处理结构化数据(理化性质、浓度值)和非结构化数据(分子结构、质谱图谱);2. 可解释性优先:通过可解释架构揭示预测关键特征和机制;3. 端到端自动化:覆盖数据清洗、预处理到模型训练的完整工作流,降低使用门槛。
章节 04
内置专用管道处理缺失值、异常值、单位不统一等问题,支持分子描述符计算、理化性质标准化等特征工程。
包含特征重要性分析、注意力可视化、反事实解释,且兼容SHAP框架提供博弈论层面特征归因。
章节 05
章节 06
CaPFAS基于Python实现,依赖PyTorch深度学习框架和RDKit化学工具包。用户可通过配置文件定义任务(数据路径、超参数等),支持命令行接口和Python API两种使用模式。框架模块化设计便于扩展:可插入自定义预处理步骤、替换网络架构或集成新解释方法。
章节 07
CaPFAS填补了PFAS领域专用机器学习工具的空白,相比通用工具针对PFAS数据优化,开源特性保证透明度和可审计性(对监管科学至关重要)。随着全球PFAS监管加强,工具需求将持续增长,它不仅为当前研究提供实用工具,也为未来PFAS知识图谱构建和AI辅助毒理学发展奠定基础,适合环境化学、毒理学等领域专业人士使用。