La mayor sorpresa Google es una aplicación de transcripción. Así funciona
(CNN Business) — Si bien el último teléfono inteligente de Google, el Pixel 4, obtuvo la atención en un importante evento de lanzamiento en Nueva York el martes, la presentación de una aplicación de grabación y transcripción mejorada por inteligencia artificial fue quizás la mayor sorpresa del día.
La app Recorder está diseñada para grabar reuniones, música, conferencias y demás. Puede reconocer y transcribir en tiempo real lo que estás diciendo e identificar otros tipos de ruido, como música y aplausos. Se puede buscar en las grabaciones palabras específicas. Por ejemplo, puedes buscar “arcoíris” y recibir resultados que muestren dónde se pronunció esa palabra en cada grabación.
Recorder vendrá con el nuevo teléfono Pixel, la línea de teléfonos insignia de Google para mostrar las últimas características de su aplicación de Android. Ese teléfono comienza en US$ 799, o US$ 100 más que el modelo básico de iPhone 11, y se envía a tiendas el 24 de octubre. A partir de diciembre, Google también lanzará el Recorder a modelos de teléfonos Pixel más antiguos.
Si bien Recorder puede sonar como una aplicación bastante simple, Sherry Lin, gerente de producto de Recorder, le dijo a CNN Business que no fue fácil hacer que su rápida transcripción funcionara sin perder la vida útil de la batería del teléfono. Google tuvo que descubrir cómo empaquetar en el teléfono una gran cantidad de inteligencia artificial que generalmente está escondida en un servidor remoto.
“Honestamente, cuando comenzamos no estábamos seguros de si podríamos cumplir”, dijo Lin en una entrevista el martes.
Como innumerables periodistas y estudiantes universitarios saben, hay muchas aplicaciones para grabar audio en su teléfono inteligente, y algunas de ellas, como Otter.ai, usan inteligencia artificial para traducir conversaciones en transcripciones, lo que le permite hacer cosas como buscar las grabaciones resultantes. Por lo general, si deseas hacer algo más que simplemente grabar una conversación, necesitarás una conexión a Internet porque gran parte de la inteligencia artificial involucrada en el análisis y la transcripción, por ejemplo, de una conferencia fascinante sobre la dialéctica hegeliana, tiende a suceder en un servidor lejano, y no en tu teléfono inteligente.
Para mostrar cómo funciona Recorder en el teléfono, Sabrina Ellis, vicepresidenta de gestión de productos de Google, señaló el martes durante una demostración en el escenario de la aplicación que el teléfono estaba en modo avión.
Lin dijo que las razones para mantener todas las operaciones de Recorder en el teléfono son dos: para ayudar a proteger la privacidad del usuario al mantener el audio y el texto relacionado en el teléfono, y para permitir que la voz se traduzca al texto más rápido de lo que hubiera sido hacer un viaje hacia y desde un servidor remoto.
Sin embargo, hacer que la aplicación se pueda usar en un teléfono fue complicado, en parte porque se basa en múltiples elementos de inteligencia artificial que pueden agotar la batería del teléfono y atascar su procesador principal. Estos incluyen un modelo de inteligencia artificial que está específicamente dirigido a la transcripción (una versión reentrenada y reestructurada del modelo que impulsa el Asistente de Google), uno que funciona en la búsqueda, otro para insertar signos de puntuación en las transcripciones y otro para clasificar sonidos que no sean el habla.
Lin dijo que cuando ella y su equipo comenzaron a trabajar en la aplicación en marzo, el modelo de transcripción, la mayor parte de la aplicación de inteligencia artificial, agotó la vida útil de la batería del teléfono en menos de media hora y la hizo calentar.
“Pensamos: ‘Nunca llegaremos a menos que enviemos una unidad de aire acondicionado con esa cosa’”, bromeó.
Al principio, el software también congeló el teléfono y era simplemente demasiado grande para enviarlo a los consumidores a través de Google Play, la tienda de aplicaciones en línea de la compañía.
Para reducir la inteligencia artificial detrás de la aplicación, Lin dijo que el equipo “recortó” el modelo de transcripción y lo entrenó para capturar el discurso de larga extensión (esto se hizo, esencialmente, al alimentar a la inteligencia artificial con largas grabaciones de cosas como reuniones, entrevistas y conferencias de YouTube) e ignorando el ruido de fondo.
Lin dijo que la aplicación no utiliza trabajadores remotos para escuchar las grabaciones de los usuarios, una práctica tradicional de la industria con asistentes virtuales que ha estado cambiando a raíz del escrutinio de los medios con respecto a las preocupaciones de privacidad. (Una excepción podría ser si un usuario informa un error, como un sonido estático extraño, y da permiso explícito para que la compañía escuche una grabación, dijo).
Según Lin, la aplicación por defecto guarda todas las grabaciones y transcripciones en el teléfono, y los datos están sujetos al cifrado estándar del dispositivo Android. La compañía no puede ver ningún dato relacionado con la grabación a menos que elija exportarlo a un producto de Google como Google Drive o Gmail, dijo.
Una cosa en la que el equipo de Recorder está trabajando ahora es averiguar quién está hablando cuando hay más de una voz en una grabación, dijo Lin. Actualmente, la aplicación graba todo el audio como si una sola persona estuviera hablando y quiere descubrir cómo segmentar el discurso transcrito por el hablante.
“Es una de esas cosas donde es tan fácil para los humanos hacer y tan difícil para un sistema informático”, dijo.