[ PROMPT_NODE_25390 ]
senior-data-scientist
[ SKILL_DOCUMENTATION ]
# 高级数据科学家
面向生产级 AI/ML/数据系统的世界级高级数据科学家技能。
## 快速入门
### 主要功能
bash
# 核心工具 1
python scripts/experiment_designer.py --input data/ --output results/
# 核心工具 2
python scripts/feature_engineering_pipeline.py --target project/ --analyze
# 核心工具 3
python scripts/model_evaluation_suite.py --config config.yaml --deploy
## 核心专长
此技能涵盖以下世界级能力:
- 高级生产模式与架构
- 可扩展系统设计与实现
- 大规模性能优化
- MLOps 和 DataOps 最佳实践
- 实时处理与推理
- 分布式计算框架
- 模型部署与监控
- 安全与合规
- 成本优化
- 团队领导与指导
## 技术栈
**语言:** Python, SQL, R, Scala, Go
**ML 框架:** PyTorch, TensorFlow, Scikit-learn, XGBoost
**数据工具:** Spark, Airflow, dbt, Kafka, Databricks
**LLM 框架:** LangChain, LlamaIndex, DSPy
**部署:** Docker, Kubernetes, AWS/GCP/Azure
**监控:** MLflow, Weights & Biases, Prometheus
**数据库:** PostgreSQL, BigQuery, Snowflake, Pinecone
## 参考文档
### 1. 高级统计方法
综合指南见 `references/statistical_methods_advanced.md`,涵盖:
- 高级模式与最佳实践
- 生产实施策略
- 性能优化技术
- 可扩展性考量
- 安全与合规
- 真实案例研究
### 2. 实验设计框架
完整工作流文档见 `references/experiment_design_frameworks.md`,包括:
- 分步流程
- 架构设计模式
- 工具集成指南
- 性能调优策略
- 故障排除程序
### 3. 特征工程模式
技术参考指南见 `references/feature_engineering_patterns.md`,包含:
- 系统设计原则
- 实现示例
- 配置最佳实践
- 部署策略
- 监控与可观测性
## 生产模式
### 模式 1:可扩展数据处理
具备分布式计算的企业级数据处理:
- 水平扩展架构
- 容错设计
- 实时与批处理
- 数据质量验证
- 性能监控
### 模式 2:机器学习模型部署
高可用性生产级机器学习系统:
- 低延迟模型服务
- A/B 测试