Você precisa converter um áudio em texto e quer fazer agora, sem instalar Audacity, sem treinar o Whisper local na sua máquina, sem assinar plano mensal. Esta guia mostra como usar TranscribeNode direto do navegador com 50 minutos grátis no signup.
Como funciona em 3 passos
Sem instalação, sem ferramenta complicada. Login → arrastá o arquivo → recebe o texto. Funciona em qualquer navegador moderno (Chrome, Firefox, Edge, Safari) em qualquer dispositivo.
1. Criar conta grátis
Signup com email + senha. Te damos 50 créditos imediatos = 50 minutos de áudio. Sem cartão de crédito, sem trial de 7 dias com cobrança automática. Você usa, gosta, paga (ou não).
2. Subir o áudio
No dashboard, arraste o arquivo na zona "Subir áudio". Suportamos:
- Áudio: MP3, WAV, M4A, FLAC, OGG, OPUS, AAC
- Vídeo: MP4, MOV, MKV (extraímos o áudio automaticamente)
- Tamanho: até 500 MB por arquivo (≈ 8 horas de MP3 192kbps)
Forçá language=pt para garantir português brasileiro, ou deixe auto-detect.
3. Receber resultado em minutos
O motor processa em GPU dedicada (RTX 3090 cluster), não API de cloud paga. Tempos típicos:
- 10 minutos áudio → 1 minuto processamento
- 1 hora áudio → 5-8 minutos
- 3 horas áudio → 15-25 minutos
- 8 horas áudio (max) → 40-60 minutos
Você recebe TXT, SRT, VTT, DOCX e JSON com timestamps por palavra. Todos baixáveis.
Casos de uso típicos
| Caso | Quem usa | Pack ideal |
|---|---|---|
| Reunião gravada para ata | Empresas, freelancers, consultores | Pay-as-you-go (USD 2/h) |
| Entrevista para reportagem | Jornalistas, pesquisadores | Starter pack (USD 5) |
| Aula online para revisão | Estudantes universitários | 50 créditos grátis (cobre semestre se for cuidadoso) |
| Mensagens de áudio do WhatsApp | Profissionais que recebem muito audio | Pay-as-you-go |
| Audiência judicial PT-BR | Advogados, escritórios | Plano Legal mensal |
| Podcast semanal | Criadores | Pack Plus USD 18/mês |
Privacidade do áudio
Esta é uma das perguntas mais frequentes. Te respondemos honestamente:
- Processamos em GPU própria. Não enviamos seu áudio para OpenAI, Google ou Amazon. O Whisper large-v3 corre em RTX 3090 dedicadas no nosso datacenter.
- Borrado automático em 72 horas. Áudio original + transcrição se apagam depois desse prazo. Se precisa imediato, escrevenos e apagamos antes.
- Sem treinamento. Não usamos seu áudio para treinar modelos. O Whisper já vem treinado, não precisa do seu material.
- NDA disponível. Para clientes corporativos com material confidencial, assinamos NDA antes de qualquer upload.
Comparativa: TranscribeNode vs Google Speech-to-Text vs YouTube auto
| Critério | TranscribeNode | Google Speech-to-Text | YouTube auto-captions |
|---|---|---|---|
| Precisão PT-BR | ~95% (Whisper large) | ~90% (varies por sotaque) | ~75% (cheio de erros) |
| Preço por hora | USD 2 (Plus pack) | USD 1.44 (standard) | 0 (mas quality terrível) |
| Setup tempo | 0 (login + upload) | 30-60 min (Cloud account, billing, API key, gcloud CLI) | 0 (subir vídeo) |
| Diarização | ✓ on/off | Cobra extra USD 1/h | ✗ |
| SRT/VTT export | ✓ direto | Tem que gerar manual | ✓ |
| Editor inline | ✓ | ✗ | ✓ no YT Studio |
Dicas para maximizar precisão
- Antes de subir, limpe o áudio se há ruído de fundo intenso.
- Normalize o volume se há vozes muito desbalanceadas.
- Para áudios telefónicos (8kHz), o Whisper já é robusto, mas resampling para 16kHz ajuda em alguns casos:
ffmpeg -i tel.wav -ar 16000 tel_16k.wav - Para áudios em multiplos idiomas, deixe auto-detect — Whisper alterna fluido.
- Se o áudio é principalmente música com vocais, o reconhecimento será limitado. Whisper é otimizado para fala, não canto.