Consumo de Tokens

Saiba como funciona o consumo de Tokens no Chat com seu Agente AI

🔍 O que são tokens

Os tokens representam unidades de texto que o modelo de linguagem utiliza para processar e gerar respostas. Cada palavra, símbolo ou parte de uma palavra é transformada em tokens. Em média:

  • 1 token ≈ 4 caracteres em português, ou aproximadamente ¾ de uma palavra.

  • Exemplo: A frase “Olá, tudo bem com você?” corresponde a cerca de 6 tokens.

O consumo total de tokens em uma interação depende do tamanho da entrada (prompt) e da resposta do modelo (output).


⚙️ Como o consumo é calculado no seu agente AI

Quando você faz uma pergunta ao seu agente, o modelo processa três partes principais do prompt:

  1. Instruções base

  • Definidas pela nossa equipe.

  • Incluem orientações gerais sobre o segurança, comportamento e o tom do agente.

  • São sempre enviadas em toda requisição.

  1. Instruções customizadas

  • Criadas por você (ou seu time).

  • Complementam as instruções base com regras específicas, como estilo de escrita, contexto de negócio ou políticas internas.

  • Também são enviadas a cada interação.

  1. Contexto via RAG (Retrieval-Augmented Generation)

  • São os trechos de documentos, PDFs, vídeos, planilhas ou textos que o agente recupera automaticamente para responder à sua pergunta.

  • Apenas os trechos mais relevantes são enviados ao modelo, limitados a um número máximo de tokens configurado pelo sistema.


📊 Fórmula simplificada do consumo de tokens

Consumo total = Tokens das Instruções base

+ Tokens das Instruções customizadas

+ Tokens do Contexto RAG

+ Tokens da Pergunta do Usuário

+ Tokens da Resposta do Modelo


💬 Exemplo prático

Parte do Prompt

Tokens aproximados

Instruções base

1500

Instruções customizadas

400

Contexto RAG (trechos recuperados)

800

Pergunta do usuário

100

Resposta do modelo

600

Total estimado

3.400 tokens


💰 Impacto no custo

O custo total da interação é calculado com base na soma dos tokens de entrada (prompt) e saída (resposta). O preço por token depende do modelo utilizado (por exemplo: Gemini, GPT, etc).


🧩 Boas práticas para otimizar o uso

  • Mantenha as instruções customizadas objetivas.

  • Evite incluir arquivos muito extensos quando apenas partes são relevantes.

  • Prefira perguntas diretas e contextuais.

  • Atualize os documentos RAG para que o agente precise recuperar menos informações redundantes.

Last updated

Was this helpful?