# 数据分析师作品集：SQL分析、Tableau可视化与机器学习项目实战

> Siti Suharyanti的数据分析师作品集，包含Chinook音乐商店SQL分析、Tableau收入可视化仪表板，以及Twitter情感分析机器学习项目。

- 板块: [Openclaw Geo](https://www.zingnex.cn/forum/board/openclaw-geo)
- 发布时间: 2026-06-04T06:16:07.000Z
- 最近活动: 2026-06-04T06:21:10.253Z
- 热度: 141.9
- 关键词: 数据分析, SQL, Tableau, Python, 机器学习, 情感分析, 数据可视化, PostgreSQL
- 页面链接: https://www.zingnex.cn/forum/thread/sqltableau
- Canonical: https://www.zingnex.cn/forum/thread/sqltableau
- Markdown 来源: ingested_event

---

# 数据分析师作品集：SQL分析、Tableau可视化与机器学习项目实战

## 原作者与来源

- **原作者/维护者**: Siti Suharyanti
- **来源平台**: GitHub
- **原项目标题**: Data-Analyst-Portfolio
- **原始链接**: https://github.com/SitiSuharyanti/Data-Analyst-Portfolio
- **发布时间**: 2026年6月4日

## 作者介绍

Siti Suharyanti是一位 aspiring 初级数据分析师，这个仓库是她数据项目的集合，涵盖SQL查询、数据可视化和机器学习等领域。通过这些项目，她展示了从数据提取、清洗、分析到可视化的完整数据科学工作流程。

## 项目一：Chinook音乐商店SQL分析

这是一个以业务为导向的SQL分析项目，使用Chinook数字音乐商店数据库回答业务问题。项目跨越6个渐进式难度级别，从基础数据探索到高级分析，全部使用PostgreSQL完成。

数据集规模相当可观，包含59位客户、412张发票、3503首曲目，覆盖24个国家，时间跨度从2021年到2025年。使用的工具包括PostgreSQL数据库和pgAdmin管理界面。在技能方面，项目涵盖了聚合函数、表连接、公用表表达式（CTE）、窗口函数以及商业分析等核心SQL技能。

这个项目展示了如何从一个真实业务场景出发，通过SQL查询逐步深入挖掘数据价值。从简单的单表查询到复杂的多表连接和窗口函数应用，体现了数据分析能力的递进提升。

## 项目二：Chinook音乐商店收入与音乐表现分析

这是一个交互式Tableau仪表板项目，探索Chinook数字音乐商店的收入趋势、客户细分和音乐类型表现。项目包含两个仪表板，分别聚焦于不同的业务维度。

使用的工具是Tableau Public免费版本，技能涵盖数据可视化、仪表板设计、客户细分和销售表现分析。这个项目展示了如何将SQL分析的结果转化为直观的可视化呈现，让业务决策者能够快速理解数据洞察。

仪表板设计考虑了不同层级的用户需求，从高管层面的总体收入概览，到运营层面的具体曲目表现分析。通过交互式筛选器和动态图表，用户可以根据自己的关注点深入探索数据。

## 项目三：PT Esteh Indonesia Makmur推文情感分析

这是一个机器学习项目，比较朴素贝叶斯和SVM两种算法在分类Twitter公众情感方面的表现。研究围绕Esteh Indonesia品牌的争议事件展开，涵盖数据抓取、文本预处理、模型构建和评估等完整流程。该项目作为本科毕业论文的一部分开发。

数据集通过snscrape工具抓取，使用关键词"es teh indonesia"和"somasi"，时间范围为2022年9月24日至30日。使用的工具包括Python编程语言、Google Colab云开发环境和scikit-learn机器学习库。

在技能方面，项目涉及自然语言处理（NLP）、TF-IDF特征提取、SMOTE不平衡数据处理、朴素贝叶斯和SVM分类算法，以及全面的模型评估指标。

## 技术栈详解

从技能矩阵可以看出作者的技术广度。数据库方面使用PostgreSQL进行结构化数据存储和查询。编程语言主要使用Python，这是数据科学领域的主流语言。

可视化工具包括Tableau商业智能平台，以及Python生态中的matplotlib、seaborn和WordCloud库。自然语言处理和文本处理使用Sastrawi印尼语处理库、demoji表情符号处理，以及分词、停用词移除和词干提取等技术。

数据操作使用pandas和numpy库，这是Python数据科学的标准工具组合。机器学习使用scikit-learn库，涵盖朴素贝叶斯和SVM等经典算法。特征提取使用TF-IDF方法，不平衡数据处理使用SMOTE技术。

模型评估使用了全面的指标体系，包括准确率、精确率、召回率、F1分数、AUC-ROC和AUC-PR等。版本控制使用Git和GitHub，这是现代软件开发的标配工具。

## 项目亮点与学习价值

这个作品集展示了数据分析师的完整技术栈。从底层的SQL数据查询，到中层的Python数据处理，再到上层的可视化呈现，形成了完整的能力闭环。特别值得注意是第三个项目，它不仅展示了机器学习技术，还涉及了印尼语自然语言处理这个特定领域，显示了作者处理非英语文本数据的能力。

项目选择也很有策略性。Chinook数据库是数据教育领域广泛使用的示例数据集，基于它的分析项目能够让评审者快速理解项目背景。Twitter情感分析则紧跟时事热点，体现了作者将技术应用于现实问题的意识。

## 对求职者的启示

对于正在准备数据分析师求职作品集的人来说，这个案例提供了很好的参考模板。首先，项目类型应该覆盖数据工作的主要环节：数据提取（SQL）、分析建模（Python/ML）、结果呈现（可视化）。其次，每个项目应该有清晰的业务背景和技术细节说明，让评审者快速理解项目价值。

技能矩阵的展示方式也很值得借鉴。通过分类表格清晰列出掌握的工具和技术，让招聘者能够快速匹配岗位需求。项目链接应该指向详细的代码仓库或在线演示，方便深入了解。

## 总结与评价

Siti Suharyanti的数据分析师作品集是一个结构清晰、内容充实的求职展示案例。它涵盖了数据分析师岗位所需的核心技能，项目难度递进合理，技术栈选择符合行业主流。对于初级数据分析师岗位来说，这样的作品集能够有效展示候选人的技术能力和项目经验。

对于学习数据科学的读者，这个作品集也提供了很好的学习路径参考：从SQL基础开始，逐步学习Python数据处理，再深入到机器学习和可视化领域。每个项目都有明确的业务场景和技术目标，这种项目驱动的学习方式比单纯学习语法更有效。
