IA full duplex: quando a máquina para de esperar sua vez para começar a pensar

A Thinking Machines, laboratório fundado por Mira Murati, anunciou um modelo que escuta enquanto fala. O detalhe técnico esconde uma virada de gramática.

By Mauro Amaral Posted in Radar on 28/05/2026 0 Comments

Por uma década, conversar com IA foi uma versão acelerada de trocar mensagens. Agora, pela primeira vez, ela quer atender ao telefone. A mudança não está na velocidade. Está em como o tempo passa a ser compartilhado entre humano e máquina.

A Thinking Machines Lab, startup fundada por Mira Murati em fevereiro de 2025, cinco meses depois de deixar o cargo de CTO da OpenAI, escolheu anunciar seu primeiro modelo público em uma seção In Brief do TechCrunch. O contexto importa: Murati passou seis anos na OpenAI, liderou o lançamento do ChatGPT, do DALL-E e do Sora, e saiu em setembro de 2024 para construir algo próprio.

A empresa não chegou pequena. Captou US$ 2 bilhões em sua primeira rodada de investimento, com Andreessen Horowitz na liderança e Nvidia, AMD e Cisco entre os co-investidores, atingindo uma avaliação de US$ 12 bilhões antes de ter qualquer produto público.

Mais do que isso, está estruturada como public benefit corporation, nomenclatura que, no direito empresarial americano, exige que a empresa equilibre resultado financeiro com uma missão de interesse público. Para uma empresa com esse capital, esse histórico e essa visibilidade, anunciar em In Brief é um gesto deliberadamente despretensioso.

Mas o anúncio não é sobre pouca coisa. O modelo se chama TML-Interaction-Small e a Thinking Machines o classifica como um “interaction model”, uma categoria que ela mesma está propondo.

Em essência: uma IA capaz de processar o que você diz e gerar a resposta ao mesmo tempo, em vez de esperar você terminar para depois pensar. No post que acompanhou o anúncio, Murati foi direta, explicando que a TML é:

“uma nova classe de modelo treinada do zero para lidar com interação em tempo real de forma nativa, em vez de adaptar isso a um modelo baseado em turnos

A escolha de “adaptar” (no original “gluing”) não é acidental. É uma crítica arquitetural à geração inteira de produtos de voz construídos sobre LLMs de turno.

O termo técnico para essa arquitetura é full duplex, emprestado das telecomunicações. É a mesma propriedade que distingue uma ligação telefônica de um walkie-talkie.

No walkie-talkie, você fala, solta o botão, espera o outro responder e aí fala de novo. No telefone, você pode rir enquanto o outro está falando, interrompê-lo no meio da frase, hesitar audivelmente. Os dois corpos ocupam o mesmo tempo.

A diferença parece sutil até você perceber que toda a geração atual de IAs conversacionais (ChatGPT, Claude, Gemini, todas) funciona, no fundo, como walkie-talkie.

Mais rápido, mais articulado, com voz sintética afinada, mas walkie-talkie. Você termina sua fala, ela começa a dela; você espera, ela espera. É uma convenção tão naturalizada que nem percebemos que está lá.

Foi essa naturalização que a Thinking Machines decidiu atacar.

Turn-taking como herança esquecida: a convenção invisível que sustenta toda IA conversacional desde o ChatGPT

Quando a OpenAI lançou o ChatGPT em novembro de 2022, a interface era literalmente um chat: uma caixa de texto onde você digita, aperta enter e espera a resposta aparecer linha por linha. A metáfora era a do messenger, do iMessage, do WhatsApp. O modelo só sabia que você tinha “terminado” porque você tinha enviado a mensagem.

Quando os modelos passaram a falar (quando o ChatGPT ganhou voz, quando o Gemini virou Live, quando o Claude entrou no telefone), essa estrutura subjacente não mudou. O que mudou foi a camada de superfície: a IA continuava esperando você terminar para começar, detectando o silêncio como sinal de “agora é minha vez”.

Por baixo disso, construiu-se uma série de hacks de UX para mascarar esse fato: indicadores de “estou ouvindo”, micro-pausas calibradas, sons de “uhum” gerados artificialmente. No núcleo, porém, ainda era turn-taking.

Turn-taking é um termo que vem da linguística, área que estuda como humanos se revezam para falar. Nas conversas reais, esse revezamento é negociado em tempo real, com sobreposições, sinais para-verbais, ajustes finos de prosódia.

Quando você conversa com alguém presencialmente, não espera silenciosamente até a pessoa terminar para só então começar a pensar no que dizer. Você já está formulando, já está reagindo, já está ocupando o tempo dela com a sua presença, mesmo em silêncio.

Os LLMs até agora só conseguiram simular o gesto final desse processo: a fala em si. Toda a parte que vem antes ficava de fora: escutar, antecipar, reagir, ocupar o tempo do outro. É isso que a Thinking Machines está dizendo querer mover para dentro do modelo.

Latência de 0,40 segundo: o que acontece quando uma máquina entra na janela de resposta humana

O número que a empresa colocou no comunicado não é acidental. Em conversas presenciais entre humanos, o tempo médio entre o fim do turno de quem fala e o início do turno de quem responde gira em torno de 200 a 400 milissegundos.

Qualquer coisa muito acima disso é percebida como hesitação ou estranhamento; qualquer coisa muito abaixo soa atropelado, fora do ritmo. É uma janela estreita, e ela existe em praticamente todas as línguas estudadas.

Os 0,40 segundo declarados pelo TML-Interaction-Small encaixam o modelo, pela primeira vez, dentro dessa janela. Para efeito de comparação: o GPT-4o em modo de voz opera, na prática, com latência percebida na ordem de 1 a 2 segundos. Suficiente para a conversa fluir, não suficiente para parecer humana.

A diferença entre “fluir” e “parecer humana” é o que está em jogo. Quando uma máquina começa a operar dentro da janela em que o próprio cérebro humano espera resposta, alguma coisa muda na relação.

Não é admiração pela engenharia. É algo mais difuso, mais corpóreo: o sistema que você consultava começa a se comportar como uma presença com a qual se negocia tempo. A relação é outra.

Presença como nova métrica: por que velocidade deixa de ser o que importa quando a máquina passa a ocupar o tempo

E aqui o discurso da indústria precisa ser repensado.

Por anos, a corrida da IA foi narrada em termos de qualidade do output. Quanto melhor o texto, quanto mais preciso o código, quanto mais sofisticada a análise. Quando o eixo se desloca para a interação nativa, esses critérios se tornam insuficientes. Não porque deixem de importar, mas porque param de capturar o que está acontecendo.

O que acontece, quando uma IA opera em full duplex, é que ela começa a participar do tempo da conversa em vez de simplesmente entregar produtos para esse tempo. Ela escuta enquanto fala. Hesita. Pode ser interrompida. Pode interromper.

Pode antecipar o que você ia dizer e completar a frase no meio, ou esperar deliberadamente, deixando o silêncio respirar. Cada uma dessas escolhas é estilística, não apenas funcional. Cada uma carrega uma marca de voz.

É aí que o problema se torna interessante. Porque “voz” amplia seu escopo: além de descrever o texto produzido pela IA, passa a descrever o modo como ela ocupa o tempo.

Uma IA que interrompe demais soa agressiva. Uma que espera demais soa burocrática. Uma que hesita com naturalidade soa pensativa. As diferenças entre marcas, entre experiências, entre produtos não vão ser mais “qual modelo escreve melhor”. Vão ser “qual modelo ocupa o tempo de um jeito que combina com o que estamos tentando ser“.

Essa é uma métrica que praticamente não existe ainda. Ninguém mede latência editorial. Ninguém faz benchmark de cadência. Os papers sobre IA conversacional avaliam coerência, fluidez, accuracy. Não há vocabulário consolidado para descrever o que torna uma presença convincente.

Há uma ironia aqui que vale registrar: essa é a mesma indústria que nomeia processamento batch de dreaming e latência computacional de thinking, uma engenharia semântica que já documentei em detalhe no artigo “O preço de chamar inferência de sonho“.

Criar vocabulário para presença temporal vai exigir o oposto: precisão onde hoje existe metáfora.

Vamos precisar construir esse vocabulário. E isso, paradoxalmente, vai puxar a conversa sobre IA para perto de áreas que ela tem evitado: a teoria do cinema, a teoria do teatro, a fenomenologia da presença, a análise de turn-taking em sociolinguística. Disciplinas que estudaram tempo compartilhado entre corpos por décadas. A IA, ao chegar ali, vai precisar pedir licença.

O que isso muda para quem cria conteúdo, lidera marca e desenha experiência conversacional em 2026

Para quem está do lado prático, desenhando produtos, criando conteúdo, definindo tom de voz de marca, a transição do turn-taking para o full duplex aciona uma reorganização silenciosa do que precisa ser pensado.

Primeiro: identidade de marca em IA passa a incluir cadência. Hoje, marcas que usam IA generativa pensam em vocabulário, em registro, em proibições e permissões verbais. Em 2026 isso continua valendo. O que se soma, porém, é uma camada nova: ritmo.

Uma marca de luxo quer uma IA que ocupa o tempo de uma forma. Uma plataforma de atendimento médico precisa de pausas diferentes de um app de delivery.

Cada combinação carrega uma assinatura temporal, e até agora não tínhamos sequer linguagem para discutir isso. A discussão sobre como a IA dilui a identidade verbal das marcas, ainda no eixo do vocabulário e do tom escrito, está aprofundada em um post lá da minha produtora, o: Tom de voz da marca: o que a IA está diluindo em silêncio.

O que o full duplex acrescenta é uma camada abaixo disso: não como a IA escreve, mas como ela ocupa o tempo enquanto fala.

Segundo: os fluxos de trabalho criativos vão mudar de paradigma. Hoje, trabalhar com IA é um ciclo de prompts e respostas: você pede, recebe, ajusta, pede de novo. Uma versão acelerada do trabalho de edição.

Com modelos full duplex, isso pode se aproximar do brainstorming presencial: você fala enquanto pensa, a IA acompanha enquanto fala, interrompe quando tem uma sugestão, hesita quando perde o fio. O ritmo é outro. E o tipo de coisa que emerge nesse ritmo, também.

Terceiro, e talvez o mais importante: a discussão sobre IA dissolver vozes autorais ganha uma camada nova. Quando a preocupação era texto, falávamos em homogeneização do estilo escrito. Quando a IA passa a também ocupar o tempo da fala, falamos em homogeneização da própria presença comunicativa. É um nível mais fundo de uniformização, e mais difícil de detectar, porque cadência opera abaixo do consciente.

Ligando os pontos finais

O TML-Interaction-Small ainda não está disponível. Vai sair primeiro como teste para pesquisadores limitado, depois como release mais amplo no fim do ano. Pode ser que cumpra a promessa dos benchmarks, pode ser que decepcione na experiência real. Esse não é o ponto.

O ponto é que, depois de anos pensando IA conversacional como uma versão melhor do chat de texto, alguém finalmente disse o óbvio: chat não é conversa. Conversa é compartilhamento de tempo. E qualquer tentativa séria de construir IA que conversa precisa começar daí, não da próxima atualização do prompt template.

Se eu fosse você, ficaria de ouvidos atentos. Não pela tecnologia em si, pela linguagem que vai ter que ser inventada para descrever o que ela vai começar a fazer. É ali, no vocabulário ainda inexistente, que mora a parte interessante.

Quer ler mais sobre o tema? Minha dica é assinar essa seção por e-mail

full duplex IA futuro da IA IA conversacional interaction models Mira Murati Thinking Machines UX de IA

Previous Next

Encontre-se

Quem pensa nessas coisas todas?

Radar por e-mail

O que estamos fazendo aqui?

IA full duplex: quando a máquina para de esperar sua vez para começar a pensar

A Thinking Machines, laboratório fundado por Mira Murati, anunciou um modelo que escuta enquanto fala. O detalhe técnico esconde uma virada de gramática.

A Thinking Machines, laboratório fundado por Mira Murati, anunciou um modelo que escuta enquanto fala. O detalhe técnico esconde uma virada de gramática.

Por uma década, conversar com IA foi uma versão acelerada de trocar mensagens. Agora, pela primeira vez, ela quer atender ao telefone. A mudança não está na velocidade. Está em como o tempo passa a ser compartilhado entre humano e máquina.

Turn-taking como herança esquecida: a convenção invisível que sustenta toda IA conversacional desde o ChatGPT

Latência de 0,40 segundo: o que acontece quando uma máquina entra na janela de resposta humana

Presença como nova métrica: por que velocidade deixa de ser o que importa quando a máquina passa a ocupar o tempo

Criar vocabulário para presença temporal vai exigir o oposto: precisão onde hoje existe metáfora.

O que isso muda para quem cria conteúdo, lidera marca e desenha experiência conversacional em 2026

Ligando os pontos finais

Like this:

Leave a ReplyCancel reply

Encontre-se

Quem pensa nessas coisas todas?

Radar por e-mail

O que estamos fazendo aqui?

IA full duplex: quando a máquina para de esperar sua vez para começar a pensar

A Thinking Machines, laboratório fundado por Mira Murati, anunciou um modelo que escuta enquanto fala. O detalhe técnico esconde uma virada de gramática.

A Thinking Machines, laboratório fundado por Mira Murati, anunciou um modelo que escuta enquanto fala. O detalhe técnico esconde uma virada de gramática.

Por uma década, conversar com IA foi uma versão acelerada de trocar mensagens. Agora, pela primeira vez, ela quer atender ao telefone. A mudança não está na velocidade. Está em como o tempo passa a ser compartilhado entre humano e máquina.

Turn-taking como herança esquecida: a convenção invisível que sustenta toda IA conversacional desde o ChatGPT

Latência de 0,40 segundo: o que acontece quando uma máquina entra na janela de resposta humana

Presença como nova métrica: por que velocidade deixa de ser o que importa quando a máquina passa a ocupar o tempo

Criar vocabulário para presença temporal vai exigir o oposto: precisão onde hoje existe metáfora.

O que isso muda para quem cria conteúdo, lidera marca e desenha experiência conversacional em 2026

Ligando os pontos finais

Espalhe por aí

Like this:

Leave a ReplyCancel reply