catalogo de ias

Multi-tier orchestration.

Roteamento por tier de custo/profundidade: cada tarefa vai pro modelo mais barato capaz de faze-la bem, com escalation pro tier acima quando confianca baixa. Reduz custo 10-60× sem perder qualidade nas decisoes que importam.

fonte: .remember/ai-orchestration.md · 14 modelos mapeados

Tier 1 — Senior Architect

Deep reasoning · decisoes sistemicas · 5 modelos

Claude Opus 4.7

Anthropic

● Essencial

Deep reasoning + decisoes sistemicas

$15 in / $75 out (M tokens)

·Refactor cross-module
·Code review critico
·Security design

Claude Sonnet 4.6

Anthropic

● Essencial

Reasoning equilibrado, default tier-1

$3 in / $15 out (M tokens)

·Auditorias consolidadas
·Decisao final OmniPro AI (5% volume)
·ADR drafting

Claude Haiku 4.5

Anthropic

◆ Recomendado

Tier-1 cheap fallback

$1 in / $5 out (M tokens)

·Tarefas reasoning leve quando Sonnet eh demais

Anthropic API (OmniPro)

Anthropic

● Essencial

AI agent OmniPro hoje

~$10-50/mes

·Resposta sugerida operador
·Extracao estruturada conversa

@trail/ai (canonical)

Trail Systems

○ Futuro

Pacote canonical de routing multi-tier

Interno

·Routing auto
·Tracking custo Analytics Engine
·Schema-forced output

Tier 2 — Specialist

Rapido · estruturado · LPU · 5 modelos

Groq Llama 3.3 70B Versatile

Groq (LPU)

◆ Recomendado

Specialist rapido + estruturado

$0.59 in / $0.79 out (M tokens)

·Auditoria OpenAPI
·Naming linter
·Drafting docs
·Test generation

Groq Whisper Large v3

Groq

● Essencial

Transcricao audio

$0.111/h audio

·ZapTask audio → texto (em producao)
·OmniPro VoIP futuro

Groq GPT-OSS 120B

Groq

○ Futuro

Modelo aberto grande pra extracao complexa

Pay-per-use

·Extracao estruturada quando Llama 70B nao basta

Groq Whisper (ZapTask)

Groq

● Essencial

Whisper em producao

~$5-20/mes

·Audio WhatsApp → texto
·Pipeline ZapTask

Fine-tune Llama 3 (Planac)

TBD

○ Futuro

Modelo domain-specific

TBD (~$25-100/M tokens treino)

·Secretaria virtual OmniPro com vocabulario construcao civil

Tier 3 — Worker

Edge · real-time · alto volume · 4 modelos

Workers AI Llama 3.1 8B

Cloudflare Workers AI

○ Futuro

Edge LLM real-time alto volume

$0.05/M tokens

·Intent classification WhatsApp
·Primeiro-passe extracao
·Anti-spam

Workers AI Qwen 2.5

Cloudflare Workers AI

○ Futuro

Modelo multilingual edge

$0.05/M tokens

·Categorizacao multi-idioma
·Fallback tier-3

Workers AI BGE Embeddings

Cloudflare Workers AI

○ Futuro

Embedding edge nativo

$0.011/M tokens

·Semantic search dataset Planac
·Vectorize integration

Vectorize

Cloudflare

○ Futuro

Vector DB edge

Pay-per-use

·Dataset Planac indexado
·RAG semantico fine-tune