[ PROMPT_NODE_25390 ]

senior-data-scientist

[ SKILL_DOCUMENTATION ]

# 高级数据科学家面向生产级 AI/ML/数据系统的世界级高级数据科学家技能。 ## 快速入门 ### 主要功能 bash # 核心工具 1 python scripts/experiment_designer.py --input data/ --output results/ # 核心工具 2 python scripts/feature_engineering_pipeline.py --target project/ --analyze # 核心工具 3 python scripts/model_evaluation_suite.py --config config.yaml --deploy ## 核心专长此技能涵盖以下世界级能力： - 高级生产模式与架构 - 可扩展系统设计与实现 - 大规模性能优化 - MLOps 和 DataOps 最佳实践 - 实时处理与推理 - 分布式计算框架 - 模型部署与监控 - 安全与合规 - 成本优化 - 团队领导与指导 ## 技术栈 **语言：** Python, SQL, R, Scala, Go **ML 框架：** PyTorch, TensorFlow, Scikit-learn, XGBoost **数据工具：** Spark, Airflow, dbt, Kafka, Databricks **LLM 框架：** LangChain, LlamaIndex, DSPy **部署：** Docker, Kubernetes, AWS/GCP/Azure **监控：** MLflow, Weights & Biases, Prometheus **数据库：** PostgreSQL, BigQuery, Snowflake, Pinecone ## 参考文档 ### 1. 高级统计方法综合指南见 `references/statistical_methods_advanced.md`，涵盖： - 高级模式与最佳实践 - 生产实施策略 - 性能优化技术 - 可扩展性考量 - 安全与合规 - 真实案例研究 ### 2. 实验设计框架完整工作流文档见 `references/experiment_design_frameworks.md`，包括： - 分步流程 - 架构设计模式 - 工具集成指南 - 性能调优策略 - 故障排除程序 ### 3. 特征工程模式技术参考指南见 `references/feature_engineering_patterns.md`，包含： - 系统设计原则 - 实现示例 - 配置最佳实践 - 部署策略 - 监控与可观测性 ## 生产模式 ### 模式 1：可扩展数据处理具备分布式计算的企业级数据处理： - 水平扩展架构 - 容错设计 - 实时与批处理 - 数据质量验证 - 性能监控 ### 模式 2：机器学习模型部署高可用性生产级机器学习系统： - 低延迟模型服务 - A/B 测试

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI