A Amazon anunciou na última terça-feira (8) o Nova Sonic, seu novo modelo AI para voz que gera fala com linguagem natural. Segundo a empresa, o Nova Sonic é mais eficiente e 80% mais barato que o ChatGPT-4o da OpenAI, seu principal concorrente.
O Nova Sonic vai além de responder apenas por voz, como uma AGI (Inteligência Artificial Geral), a Amazon diz que ele pode fazer qualquer coisa que um humano consegue em um computador, assim como o Nova Act anunciado recentemente.
Disponível por meio de uma nova API da Bedrock, a plataforma para criação de aplicativos corporativos de IA da Amazon, o Nova Sonic tem streaming bidirecional para ouvir melhor o usuário e responder no momento certo ao interpretar até as pausas na fala, evitando interrupções.
Com isto, a Amazon planeja oferecer uma experiência mais imersiva e natural com a recentemente anunciada Alexa+, que usa o mesmo modelo de IA para voz.
Rohit Prasad, vice-presidente sênior da Amazon e cientista-chefe da AGI, diz que o modelo também é capaz de gerar uma transcrição do texto para a fala do usuário, é menos propenso a erros em comparação com outros modelos e consegue entender a fala até se a pronúncia for incorreta, baixa demais ou se você estiver em um ambiente barulhento.
Graças a isto, o Nova Sonic errou apenas 4,2% das palavras no benchmark LibriSpeech em inglês, francês, italiano, alemão e espanhol, que avalia a capacidade de uma IA entender a fala do usuário. No teste Augmented Multi Party Interaction com múltiplos participantes, o Nova Sonic foi 46,7% mais preciso que o ChatGPT-4o.
O Nova Sonic também se destacou por oferecer a menor latência da categoria, respondendo em apenas 1,09 segundos após o final do comando, enquanto o ChatGPT-4o levou 1,18 segundos na mesma consulta.
Esta eficiência é obtida ao rotear solicitações para diferentes APIs, pois o Nova Sonic “sabe” quando precisa consultar informações na internet, acessar uma fonte de dados própria ou executar uma ação em outro aplicativo.