La empresa matriz de Facebook, Meta Platforms, lanzó el martes un modelo de inteligencia artificial capaz de traducir y transcribir el habla en docenas de idiomas, un componente potencial para las herramientas que permiten la comunicación en tiempo real entre idiomas.
La compañía dijo en una publicación de blog que su modelo SeamlessM4T podría admitir traducciones entre texto y voz en casi 100 idiomas, así como traducción completa de voz a voz para 35 idiomas, combinando tecnología que anteriormente solo estaba disponible en modelos separados.
El director ejecutivo Mark Zuckerberg ha dicho que prevé que dichas herramientas faciliten las interacciones entre usuarios de todo el mundo en el metaverso, el conjunto de mundos virtuales interconectados en los que apuesta el futuro de la empresa.
Meta está poniendo el modelo a disposición del público para uso no comercial, dice la publicación del blog.
La compañía de redes sociales más grande del mundo ha lanzado una serie de modelos de IA en su mayoría gratuitos este año, incluido un modelo de lenguaje grande llamado Llama que plantea un serio desafío para los modelos patentados vendidos por OpenAI respaldado por Microsoft (MSFT.O) y Alphabet (GOOGL.O) Google.
Zuckerberg dice que un ecosistema abierto de IA funciona en beneficio de Meta, ya que la empresa tiene más que ganar si colabora de manera efectiva en la creación de herramientas orientadas al consumidor para sus plataformas sociales que cobrando por el acceso a los modelos.
No obstante, Meta enfrenta cuestiones legales similares a las del resto de la industria en torno a los datos de capacitación ingeridos para crear sus modelos.
En julio, la comediante Sarah Silverman y otros dos autores presentaron demandas por infracción de derechos de autor contra Meta y OpenAI, acusando a las empresas de usar sus libros como datos de capacitación sin permiso.
Para el modelo SeamlessM4T, los investigadores de Meta dijeron en un trabajo de investigación que recopilaron datos de entrenamiento de audio de 4 millones de horas de «audio sin procesar que se originó en un repositorio disponible públicamente de datos web rastreados», sin especificar qué repositorio.
Un portavoz de Meta no respondió a las preguntas sobre la procedencia de los datos de audio.
Los datos de texto provienen de conjuntos de datos creados el año pasado que extrajeron contenido de Wikipedia y sitios web asociados, según el documento de investigación.