Le géant de la technologie lance Nova Sonic, qui promet des "conversations naturelles" avec les utilisateurs, capable de "comprendre les nuances de la conversation humaine".
Dans un billet de blog, Amazon a déclaré : "Les approches traditionnelles de la création d'applications vocales impliquent une orchestration complexe de modèles multiples, tels que la reconnaissance vocale pour convertir la parole en texte, les grands modèles de langage (LLM) pour comprendre et générer des réponses, et la synthèse vocale pour convertir le texte en audio. Cette approche fragmentée augmente non seulement la complexité du développement, mais ne préserve pas non plus le contexte acoustique crucial et les nuances telles que le ton, la prosodie et le style d'élocution qui sont essentiels pour des conversations naturelles.
Nova Sonic adopte une nouvelle approche pour résoudre ces problèmes. Au lieu d'utiliser différents modèles, il unifie les capacités de compréhension et de génération en un seul modèle. Cette unification permet au modèle d'adapter la réponse vocale générée au contexte acoustique (par exemple, le ton, le style) et à l'entrée vocale, ce qui se traduit par un dialogue plus naturel. Nova Sonic comprend même les nuances de la conversation humaine, y compris les pauses et les hésitations naturelles de l'orateur, l'attente du moment opportun pour parler et le traitement gracieux des intrusions"
Le nouveau développement utilisera également un agent de voyage doté d'une intelligence artificielle qui peut réserver des vols et générer une transcription textuelle à partir de la parole.