[ PROMPT_NODE_22528 ]

llm-ops

[ SKILL_DOCUMENTATION ]

# LLM-OPS —— 生产级 AI ## 概述 LLM 运维 —— RAG、嵌入、向量数据库、微调、高级提示词工程、LLM 成本控制、质量评估及生产级 AI 架构。适用于：实现 RAG、创建嵌入工作流、Pinecone/Chroma/pgvector、微调、提示词工程、降低 LLM 成本、评估、语义缓存、流式传输、智能体。 ## 何时使用此技能 - 当您需要该领域的专业协助时 ## 何时不使用此技能 - 任务与 LLM 运维无关 - 有更简单、更具体的工具可以处理该请求 - 用户需要通用协助而无需领域专业知识 ## 工作原理 > AI 原型与 AI 产品之间的区别在于可操作性。 > LLM-Ops 是使 AI 可靠、可扩展且经济高效的工程实践。 --- ## 完整 RAG 架构 [文档] -> [分块] -> [嵌入] -> [向量数据库] | [查询] -> [嵌入查询] -> [语义搜索] -> [Top K 分块] | [LLM + 上下文] -> [响应] ## 索引工作流 from anthropic import Anthropic import chromadb client = Anthropic() chroma = chromadb.PersistentClient(path="./chroma_db") def chunk_text(text, chunk_size=500, overlap=50): words = text.split() chunks = [] for i in range(0, len(words), chunk_size - overlap): chunk = " ".join(words[i:i + chunk_size]) if chunk: chunks.append(chunk) return chunks def index_document(doc_id, content_text, metadata=None): chunks = chunk_text(content_text) ids = [f"{doc_id}_chunk_{i}" for i in range(len(chunks))] collection.upsert(ids=ids, documents=chunks) return len(chunks) ## RAG 查询工作流 def rag_query(query, top_k=5, system=None): results = collection.query( query_texts=[query], n_results=top_k, include=["documents", "metadatas", "distances"]) context_parts = [] for doc, meta, dist in zip(results["documents"][0], results["metadatas"][0], results["distances"][0]): if dist < 1.5: src = meta.get("source", "doc") context_parts.append(f"[来源: {src}] {doc}") context = " --- ".join(context_parts)

数据来源：claude-code-templates（MIT），中文翻译由 AI 生成。详见关于我们。

BAGUA AI