© 2017 Economist Newspaper Ltd

De The Economist

Cualquier tecnología suficientemente avanzada, escribió el autor de ciencia ficción Arthur C. Clarke, es indistinguible de la magia. La rápidamente emergente tecnología de la computación de voz prueba su argumento. Usarla es como lanzar un hechizo: diga unas palabras al aire, y un dispositivo cercano puede concederle un deseo.

Invitación al canal de WhatsApp de La Nación PY

El Amazon Echo, una computadora cilíndrica operada por voz que se coloca sobre una mesa y responde al nombre de Alexa, puede reproducir pistas de música y sintonizar estaciones de radio, contar chistes, responder preguntas de trivia y controlar electrodomésticos inteligentes, e incluso antes de Navidad ya era residente en alrededor de 4 por ciento de los hogares estadounidenses. Los asistentes de voz están proliferando en los smartphones también: Siri de Apple maneja más de dos mil millones de comandos a la semana, y 20 por ciento de las búsquedas de Google en dispositivos que operan con Android en Estados Unidos son ordenadas por voz. Dictar correos electrónicos y mensajes de texto ahora funciona con la suficiente confiabilidad para ser útil. ¿Por qué teclear cuando se puede hablar?

Este es un giro enorme. Aunque pudiera parecer sencillo, la voz tiene el poder de transformar la computación al ofrecer medios de interacción naturales. Las ventanas, los íconos y los menús, e incluso las pantallas táctiles, fueron bienvenidos como formas más intuitivas de tratar con las computadoras que introducir comandos en teclados complejos. Sin embargo, poder hablar a las computadoras elimina la necesidad de la abstracción de una "interfaz de usuario". De la misma manera en que los teléfonos móviles fueron más que teléfonos existentes sin cables y los autos fueron más que carruajes sin caballos, así las computadoras sin pantallas y teclados tienen el potencial de ser más útiles, poderosas y ubicuas de lo que la gente puede imaginar actualmente.

La voz no reemplazará del todo otras formas de introducción y producción de información. En ocasiones seguirá siendo más conveniente conversar con una máquina tecleando en vez de hablando: se dice que Amazon está trabajando en un dispositivo Echo con una pantalla incorporada. Sin embargo, la voz está destinada a representar una creciente parte de las interacciones de la gente con la tecnología que le rodea, desde las máquinas lavadoras que le dicen a la persona cuánto del ciclo les falta hasta los asistentes virtuales en los centros de servicio al cliente corporativos. No obstante, para alcanzar su pleno potencial, la tecnología requiere más avances; y una resolución de las cuestiones difíciles que plantea en torno al equilibrio entre conveniencia y privacidad.

Los sistemas de dictado computacional han existido durante años, pero eran poco confiables y requerían un prolongado entrenamiento para que aprendieran la voz de un usuario específico. La nueva capacidad de las computadoras para reconocer la voz de casi cualquier persona de manera confiable y sin entrenamiento es la manifestación más reciente del poder del "aprendizaje profundo", una técnica de inteligencia artificial en la cual un sistema de software es entrenado usando millones de ejemplos, habitualmente seleccionados del internet.

Gracias al aprendizaje profundo, las máquinas ahora casi igualan a los humanos en precisión de transcripción, los sistemas de traducción computarizada están mejorando rápidamente y los sistemas que pasan texto a voz se están volviendo menos robóticos y están sonando más naturales. Las computadoras están, en suma, mejorando mucho en el manejo de un lenguaje natural en todas sus formas.

Aunque el aprendizaje profundo significa que las máquinas pueden reconocer la voz más confiablemente y hablar de una manera menos poco natural, aún no entienden el significado del lenguaje. Ese es el aspecto más difícil del problema y, si se desea que verdaderamente florezca la computación operada por voz, debe ser superado.

Las computadoras deben poder comprender el contexto para mantener una conversación coherente sobre algo, en vez de simplemente responder a comandos de voz sencillos y únicos, como hacen mayormente en la actualidad: "Oye, Siri, pon un temporizador por 10 minutos". Los investigadores en universidades y en empresas grandes y pequeñas están trabajando en este problema, creando "bots" que pueden tener conversaciones más elaboradas sobre tareas más complejas, desde recuperar información hasta aconsejar sobre hipotecas y organizar viajes. Amazon está ofreciendo un premio de un millón de dólares por un bot que pueda conversar "coherente y agradablemente" durante 20 minutos.

Los consumidores y reguladores también tienen un papel que desempeñar en determinar cómo se desarrolle la computación de voz. Incluso en su actual forma relativamente primitiva, la tecnología representa un dilema: los sistemas operados por voz son más útiles cuando son personalizados y se les concede amplio acceso a fuentes de datos como agendas, correos electrónicos y otra información sensible. Eso plantea preocupaciones de privacidad y seguridad.

Para complicar más las cosas, muchos dispositivos operados por voz siempre están escuchando, a la espera de ser activados. A algunas personas ya les preocupan las implicaciones de los micrófonos conectados a internet que escuchan en todas las habitaciones y desde todos los smartphones. No todo el audio es enviado a la nube; los dispositivos esperan una frase detonante como "Alexa", OK, Google", "Oye, Cortana" u "Oye, Siri" antes de empezar a transmitir la voz del usuario a los servidores que realmente manejan las solicitudes. Cuando se trata de almacenar audio, sin embargo, es poco claro quién guarda qué y cuándo.

La policía que investiga un asesinato en Arkansas, que podría haber sido escuchado por un Amazon Echo, ha pedido a la compañía acceso a cualquier audio que pudiera haber sido capturado. Amazon se ha negado a cooperar, argumentando –con el respaldo de los defensores de la privacidad– que el estatus legal de esas solicitudes es poco claro.

La situación es análoga a la negativa de 2016 de Apple de ayudar a los investigadores del FBI a desbloquear el iPhone de un terrorista: ambos casos destacan la necesidad de reglas que especifiquen cuándo y qué intrusiones en la privacidad personal están justificadas en interés de la seguridad.

Dejanos tu comentario