Inteligencia Artificial

¿Cómo sabe Alexa quién está hablando?

Alexa de Amazon guarda el perfil de voz de los usuarios, a partir del cual crea modelos acústicos que se guardan en la nube. Al recibir/escuchar un nuevo comando, compara la entrada con los modelos acústicos e identifica al usuario.

El habla es el medio natural de comunicación entre las personas. Si observa el flujo de una conversación, queda claro cuán fácilmente podemos hablar, cuán fundamental es para nuestra forma de ser. Y con razón, ya que permite que la transferencia rápida de información se llene de ricos matices de lenguaje, cultura, gestos y tonos.

Este método de entrada no se usa en gran medida cuando se trata de la interacción humano-computadora; Para la mayor parte de nuestra comunicación con las computadoras, usamos teclados, ratones y pantallas táctiles con los pulgares y los dedos.

Sin embargo, esta no es la falta de imaginación, ya que la ciencia ficción está llena de actores de doblaje que ayudan a los protagonistas humanos, desde JARVIS que ayudan a Tony Stark a construir un traje de vuelo del siguiente nivel en Hombre de Acero con Samantha ayudando al personaje principal Her a salir de la rutina y descubrir lo que significa el amor.

Aunque el estado actual de la asistencia de voz no está ni cerca de las capacidades de JARVIS o Samantha, hemos visto una adopción masiva de dispositivos habilitados para voz en los últimos años. Entre estos, Amazon Echo es el líder del mercado que ha eliminado a su competencia y tiene el 70% de la cuota de mercado en los Estados Unidos.

Le permite reproducir música y juegos, ordenar cosas de Amazon, establecer recordatorios, transmitir podcasts, hacer listas de tareas y automatizar las luces del hogar, junto con muchas otras funcionalidades agregadas por Amazon o desarrolladores externos que se basan en esto. . Plataforma Alexa.

¡Toda esta funcionalidad funciona solo con tu voz! La pregunta es, ¿cómo reconoce Alexa quién está dando las órdenes? Tratemos de entender el contexto en torno a Amazon Echo para tener una mejor idea de cómo sucede la magia detrás de esta escena.

concepto de alexa

Amazon comenzó a desarrollar sus parlantes inteligentes habilitados para voz en su oficina Lab126. Este es propiedad exclusiva de Amazon, está ubicado en Silicon Valley y es responsable de su investigación, desarrollo y hardware informático. El dispositivo Echo fue diseñado en 2010 como un intento de Amazon de expandir su gama desde su lector electrónico Kindle.

El dispositivo se lanzó mucho más tarde y solo la venta inicial, aunque estuvo ampliamente disponible en julio de 2015. En el primer lanzamiento, el dispositivo se envió con un control remoto, ya que había ambigüedad entre los creadores sobre si el altavoz. es suficiente registrar los comandos de voz individualmente. Después de que los consumidores usaran el primer lote de este producto, quedó claro que el dispositivo era competente por sí solo y el control remoto se eliminó gradualmente en versiones posteriores.

La palabra de activación del dispositivo (la palabra que el dispositivo espera escuchar antes de registrar un pedido) era ‘Amazon’ durante el desarrollo del dispositivo y el dispositivo en sí se llamaba Amazon Flash. Sin embargo, el equipo de desarrollo sintió que Amazon es una palabra muy común, que se usa en conversaciones y durante comerciales de televisión, por lo que esto podría hacer que el dispositivo ordene algo de Amazon sin darse cuenta. Sugirieron ‘Alexa’ como la palabra después y Amazon Echo como el nombre del dispositivo, lo que parece una decisión que valió la pena. Dicho esto, un usuario puede cambiar la palabra posterior a ‘Amazon’, ‘Echo’ o ‘Computer’ si lo desea.

El dispositivo ha sido completamente adoptado no solo por los consumidores, sino también por los desarrolladores. A partir de septiembre de 2019, la cantidad de habilidades que podía realizar Alexa era de 100 000, y todas dependían del sólido ecosistema que Amazon ha construido.

El ecosistema de Alexa: tu viaje de voz

En enero de 2019, Amazon informó que había vendido 100 millones de dispositivos Alexa. Alexa está integrado en muchos de los productos lanzados por Amazon, así como en productos de terceros. Amazon ha creado una plataforma para dispositivos habilitados para voz y habilidades de terceros que los desarrolladores pueden usar sin necesidad de espacio en el servidor cuando entrenan a Alexa para realizar tareas específicas.

El Echo en sí no tiene mucha potencia de procesamiento para reconocer y ejecutar comandos. Tiene una serie de micrófonos con un altavoz cilíndrico. El procesamiento se realiza a través de la infraestructura masiva de computación en la nube que Amazon ya tiene instalada: AWS (Amazon Web Services). Una pequeña computadora en el dispositivo sigue escuchando en todo momento su palabra de activación, después de lo cual registra el comando que le das.

Cuando ordenas algo a Alexa, la computadora envía el comando a la nube, que luego es interpretado por el Servicio de Voz de Alexa (AVS). AVS desglosa el comando y se toma la acción requerida, según el tipo de habilidad, es decir, si es una habilidad interna o una habilidad desarrollada por un tercero. Luego, las acciones se envían de regreso al Echo y se le entregan a usted. Todo esto se hace a través de tu wifi, en segundos, sin darte ni un susurro. ¡La siguiente parte interesante viene cuando reconoce tu voz!

¿Cómo reconoce Alexa tu voz? – Perfiles de voz

Cuando le ordenas a Alexa que realice una determinada tarea, antecedes tu comando con la palabra después (‘Alexa’, ‘Amazon’, ‘Echo’ o ‘Computer’). Su voz se percibe como la entrada analógica en este caso y debe convertirse a un formato digital para que el dispositivo comprenda su comando y tome las medidas necesarias.

Aquí es donde entran los convertidores de analógico a digital, lo que hace Alexa con su reconocimiento automático de voz (ASR). Este proceso de aprendizaje profundo le permite a Alexa convertir los sonidos hablados en palabras, lo que lo convierte en el primer paso para habilitar la asistencia habilitada por voz.

Cuando comienza a usar Alexa, crea su perfil de voz único en su base de datos, que se almacena en la nube. Este perfil es una colección de sus muestras de voz, que utiliza para crear modelos acústicos de las características de su voz. Cuando lo ordena, utiliza sus modelos acústicos para compararlo con las muestras de voz entrantes y verificar si, de hecho, está hablando del otro lado. Utiliza el mismo proceso para diferenciar entre múltiples usuarios en el mismo hogar.

Cuando accede a una aplicación de terceros con su voz, asigna el identificador numérico de su voz a la habilidad, lo que le permite distinguir su voz de la de otros usuarios. Puede adaptar su configuración a todas las habilidades que proporciona Alexa y asignar diferentes privilegios a diferentes usuarios.

Así que adelante, crea tu perfil de voz y personaliza tu Echo. Y si aún no ha conseguido uno, puede obtener más información y elegir uno aquí.

Cristy

Somos entusiastas de los temas científicos, del estudio y el conocimiento. Traemos para ti los casos más curiosos de la ciencia y como pueden ayudarte. Preguntas y respuestas que quizás alguna vez te has hecho, están aquí.

Publicaciones relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Botón volver arriba