[ PROMPT_NODE_22528 ]
llm-ops
[ SKILL_DOCUMENTATION ]
# LLM-OPS —— 生产级 AI
## 概述
LLM 运维 —— RAG、嵌入、向量数据库、微调、高级提示词工程、LLM 成本控制、质量评估及生产级 AI 架构。适用于:实现 RAG、创建嵌入工作流、Pinecone/Chroma/pgvector、微调、提示词工程、降低 LLM 成本、评估、语义缓存、流式传输、智能体。
## 何时使用此技能
- 当您需要该领域的专业协助时
## 何时不使用此技能
- 任务与 LLM 运维无关
- 有更简单、更具体的工具可以处理该请求
- 用户需要通用协助而无需领域专业知识
## 工作原理
> AI 原型与 AI 产品之间的区别在于可操作性。
> LLM-Ops 是使 AI 可靠、可扩展且经济高效的工程实践。
---
## 完整 RAG 架构
[文档] -> [分块] -> [嵌入] -> [向量数据库]
|
[查询] -> [嵌入查询] -> [语义搜索] -> [Top K 分块]
|
[LLM + 上下文] -> [响应]
## 索引工作流
from anthropic import Anthropic
import chromadb
client = Anthropic()
chroma = chromadb.PersistentClient(path="./chroma_db")
def chunk_text(text, chunk_size=500, overlap=50):
words = text.split()
chunks = []
for i in range(0, len(words), chunk_size - overlap):
chunk = " ".join(words[i:i + chunk_size])
if chunk: chunks.append(chunk)
return chunks
def index_document(doc_id, content_text, metadata=None):
chunks = chunk_text(content_text)
ids = [f"{doc_id}_chunk_{i}" for i in range(len(chunks))]
collection.upsert(ids=ids, documents=chunks)
return len(chunks)
## RAG 查询工作流
def rag_query(query, top_k=5, system=None):
results = collection.query(
query_texts=[query], n_results=top_k,
include=["documents", "metadatas", "distances"])
context_parts = []
for doc, meta, dist in zip(results["documents"][0],
results["metadatas"][0],
results["distances"][0]):
if dist < 1.5:
src = meta.get("source", "doc")
context_parts.append(f"[来源: {src}]
{doc}")
context = "
---
".join(context_parts)