Actualización semanal de modelos de IA de HyperAI: Irodori-TTS, SAM-Audio, MatAnyone 2, PrismAudio y más

Esta actualización semanal reúne un conjunto útil de nuevas demostraciones y recursos de modelos de IA, especialmente en torno a la generación de audio, el reconocimiento de voz, el procesamiento de vídeo, la comprensión de imágenes y el OCR para documentos largos. Las entradas más prácticas son Irodori-TTS para la generación de voz en japonés, SAM-Audio para la separación de sonidos basada en prompts, MatAnyone 2 para un matting de vídeo limpio, Unlimited-OCR para documentos largos y Nemotron 3.5 ASR para el reconocimiento de voz en streaming. **En general, este resumen es útil para los lectores que desean descubrir rápidamente qué nuevos modelos de IA vale la pena probar, qué hace cada uno y dónde probarlos.**

发布于 2026年7月5日generalGEO 评分: 02 次阅读
Irodori-TTSSAM-AudioMatAnyone 2PrismAudiotutoriales de HyperAITTS en japonéscontrol de estilo con emojiseparación de fuentes de audiorecorte de vídeogeneración de audio a partir de vídeoUnlimited-OCREdgeTAMStep-Audio-EditXNemotron 3.5 ASRresumen de modelos de IAherramientas de IA generativa
Esta imagen es el gráfico de identidad de marca de HyperAI. El fondo es oscuro; a la izquierda aparece el texto blanco “HyperAI”, con la frase “Intelligence at Hyper Speed.” debajo. A la derecha hay una letra tridimensional “H” con un degradado de naranja a azul, rodeada por anillos luminosos de color naranja y azul violáceo, con un efecto de halo tecnológico. La imagen es la portada del artículo “HyperAI Weekly AI Model Update” y encaja con la portada de estilo tecnológico en formato 16:9 mencionada en el documento, así como con el tema de contenido centrado en las actualizaciones de modelos de IA.

Actualización semanal de modelos de IA de HyperAI: Irodori-TTS, SAM-Audio, MatAnyone 2, PrismAudio y más

Introducción

La actualización de HyperAI de esta semana se centra en una potente combinación de modelos de audio, video, comprensión de imágenes, OCR y reconocimiento de voz. El proyecto destacado es Irodori-TTS-500M-v3, un modelo abierto de texto a voz en japonés que combina generación de voz de alta fidelidad a 48 kHz, clonación de voz zero-shot y control de estilo detallado mediante anotaciones con emojis.

La actualización también incluye herramientas para separación de audio basada en prompts, matting de video, simulación de mundos 4D, generación de audio a partir de video, OCR de documentos, segmentación en el dispositivo, edición expresiva de audio y ASR en streaming de baja latencia. A continuación se presenta una versión depurada y lista para publicación del resumen semanal original, con las capturas de pantalla útiles conservadas en su contexto original.

Nota sobre la fuente

Este artículo se basa en la actualización semanal de BAAI Hub / HyperAI publicada en La página original indica que la fuente del artículo proviene de WeChat y que las imágenes pueden eliminarse si existen preocupaciones de derechos de autor.

Se eliminaron intencionalmente códigos QR, carteles promocionales, imágenes de invitación a grupos y banners de recomendaciones no relacionados. Los enlaces de imágenes de DiaMoE-TTS y DreamOmni2 se mantienen en sus posiciones originales, pero sus solicitudes de vista previa agotaron el tiempo de espera durante la verificación, por lo que se mencionan aquí en lugar de tratarse como capturas de pantalla plenamente verificadas.

Resumen de la actualización semanal de HyperAI

Del 27 de junio al 3 de julio, HyperAI actualizó varios recursos públicos en su sitio web oficial:

  • 12 tutoriales públicos seleccionados
  • 5 entradas populares de la enciclopedia de IA
  • 4 fechas límite de conferencias de IA en julio

El tema principal de esta semana es la experimentación práctica. La mayoría de las entradas no son solo descripciones de artículos académicos; ofrecen demos en línea o notebooks ejecutables para que los usuarios puedan probar rápidamente el comportamiento de los modelos.

Tutoriales públicos seleccionados

1. Irodori-TTS-500M-v3: TTS en japonés con control de estilo mediante emojis

Irodori-TTS es un proyecto de texto a voz en japonés de código abierto lanzado por el desarrollador Aratako en 2026. El modelo destacado, Irodori-TTS-500M-v3, está diseñado para síntesis de voz en japonés, clonación de voz zero-shot y control del estilo vocal guiado por emojis.

El modelo se basa en una arquitectura Rectified Flow Diffusion Transformer (RF-DiT) y genera voz en un espacio latente continuo DACVAE. En el uso práctico, el punto más interesante es que puede clonar una voz objetivo a partir de un breve clip de referencia, normalmente de alrededor de 3 a 10 segundos, sin ajuste fino adicional.

También admite control de estilo mediante anotaciones con emojis. Esto hace que el modelo sea más flexible que un sistema TTS básico: los usuarios pueden guiar el tono, la emoción, el ritmo y expresiones no verbales sutiles de una forma más ligera.

La imagen muestra la interfaz de Irodori-TTS-500M-v3 para conversión de texto japonés a voz, con soporte para control de estilo mediante emojis. A la izquierda hay tres pestañas: “Basic TTS”, “Voice Cloning” y “Emoji Guide”; actualmente está seleccionada “Basic TTS”. El cuadro de entrada inferior muestra el texto japonés “こんにちは、今日はいい天気ですね。” A la derecha aparece la forma de onda del audio seleccionado, y debajo hay un botón “Generate Speech”. La imagen se corresponde con el contenido anterior sobre la compatibilidad del modelo Irodori-TTS-500M-v3 con el control de estilo mediante emojis y presenta de forma intuitiva la interfaz de operación real del modelo.

2. MatAnyone 2: matting de video para extracción de primer plano

MatAnyone 2 es un modelo de matting de video lanzado por NTU S-Lab y SenseTime. Está diseñado para extraer primeros planos humanos y generar mapas alfa a partir de videos.

El modelo mejora la estabilidad mediante un evaluador de calidad aprendido. Esto ayuda a reducir artefactos en los bordes y a preservar detalles como cabello, bordes semitransparentes y contornos del primer plano. También resulta útil cuando el usuario desea aislar a una persona específica en un video con varias personas.

Esta imagen muestra la interfaz de demostración de MatAnyone 2, un modelo de IA para extracción de primer plano en video. En la parte superior de la interfaz aparece el nombre del modelo “MatAnyone 2: Video Matting” y se indica que su función es extraer el primer plano de videos. A la izquierda hay un panel de operación con opciones para cargar videos y ajustar parámetros, además de un indicador de estado del procesamiento en la parte inferior; a la derecha se muestran el fotograma original del video de entrada y la salida de máscara de primer plano generada por el modelo, donde la máscara delimita claramente la región objetivo en primer plano y presenta de forma intuitiva el efecto de recorte de video del modelo.

Demo en línea:

3. InSpatio-World: simulación de mundos 4D en tiempo real

InSpatio-World es un simulador de mundos 4D en tiempo real lanzado por el equipo de InSpatio en 2026. Puede tomar un video de entrada y una trayectoria de cámara especificada, y luego generar un video estable desde una nueva vista.

La idea central es hacer que las escenas de video sean más controlables. En lugar de observar pasivamente una vista de cámara fija, los usuarios pueden definir el movimiento de la cámara y explorar la escena desde nuevos puntos de vista, manteniendo la coherencia temporal.

La imagen muestra la interfaz y el efecto del simulador de mundos 4D en tiempo real InSpatio-World. A la izquierda se encuentra el área de entrada para cargar videos y seleccionar la trayectoria de la cámara, con un botón “Generate novel view” debajo. A la derecha se presenta el efecto de video generado por el simulador, mostrando objetos como una taza de café y pan desde diferentes ángulos, lo que refleja su capacidad para generar videos estables y controlables desde nuevas perspectivas, en consonancia con la función descrita en el contexto de que InSpatio-World puede generar videos estables de nuevas vistas a partir de un video de entrada y una trayectoria de cámara especificada.

4. DiaMoE-TTS: síntesis de voz multidialectal basada en IPA

DiaMoE-TTS es un marco de síntesis de voz multidialectal de Giant AI Lab. Utiliza el Alfabeto Fonético Internacional, o IPA, como frontend unificado para la generación de habla dialectal.

El modelo combina un diseño Mixture-of-Experts con métodos de adaptación eficientes en parámetros, como LoRA y adaptadores de condicionamiento. Esto permite que el sistema se adapte con mayor rapidez a nuevos dialectos, incluso cuando solo hay datos limitados disponibles.

![La imagen muestra la interfaz de DiaMoE-TTS: Multi-Dialect Speech Synthesis.](

Arriba se presenta una introducción al diseño Mixture-of-Experts basado en IPA y a métodos de adaptación eficientes en parámetros como LoRA y adaptadores condicionales. En el centro aparece el botón “Generate Speech”; debajo hay un cuadro de entrada de texto de ejemplo compatible con 9 dialectos chinos, y a la derecha se muestra la forma de onda del habla generada junto con la referencia de voz (indicaciones dialectales). En la parte inferior se enumeran los dialectos compatibles y sus audios de referencia correspondientes, además de información como el uso del modelo KPL para la síntesis dialectal y el tiempo de generación. La imagen está relacionada con el contenido del documento que presenta el modelo DiaMoE-TTS y muestra de forma intuitiva su interfaz de operación y sus funciones.](https://we0-cms.oss-cn-beijing.aliyuncs.com/cms-assets/image/2026/07/094c618c-2830-4af5-9cdc-ca950fe12565-05-c0ba34b2-8a4a-4e6a-9d15-517f152cb52a.png)

5. SAM-Audio: Segment Anything in Audio

SAM-Audio es el modelo fundacional de separación de fuentes de audio de Meta. Puede aislar un sonido objetivo de una señal de audio mezclada mediante descripciones en lenguaje natural, pistas visuales de un video o un intervalo de tiempo seleccionado.

Por ejemplo, un usuario puede describir el sonido que desea separar, como “hombre hablando”, “perro ladrando”, “motor de automóvil” o “piano tocando”. A continuación, el modelo intenta separar el audio objetivo de todo lo demás presente en la mezcla.

Esta imagen es una captura de pantalla de la interfaz del modelo SAM-Audio de Meta y corresponde a la sección “SAM-Audio: Segment Anything in Audio” del documento. La interfaz se utiliza para realizar separación de fuentes de audio: a la izquierda se muestran las formas de onda de dos pistas de entrada; debajo, el cuadro “Sound Description” contiene la instrucción de ejemplo “man speaking”, junto con la opción marcada “Enable Span Prediction”, y en la parte inferior hay un botón de acción naranja “Separate Sound”. A la derecha se muestra la forma de onda de salida del sonido objetivo procesado, y debajo se incluye una lista de categorías con descripciones de ejemplo que abarcan voces humanas, sonidos de animales, instrumentos musicales y otros tipos de sonidos que pueden separarse.

6. PrismAudio: generación de video a audio con CoT descompuesto y recompensas multidimensionales

PrismAudio es un modelo de generación de audio a partir de video desarrollado por Tongyi Lab. Se centra en generar audio que coincida con la escena visual, el ritmo, la atmósfera y la sensación espacial de un video.

El modelo introduce un proceso de planificación de Chain-of-Thought descompuesto. En lugar de tratar la generación de audio a partir de video como un único paso de razonamiento, separa el proceso en dimensiones semánticas, temporales, estéticas y espaciales. Cada dimensión se combina con una señal de recompensa específica para el aprendizaje por refuerzo.

La imagen muestra la interfaz del modelo PrismAudio de generación de audio a partir de video. A la izquierda está el área de entrada, con el botón “Upload Video”, y debajo una ventana de vista previa del video, en la que aparece una mujer sentada en un banco. Más abajo se encuentra el área “Caption / Prompt”, con el texto de ejemplo “A girl in the rain”. A la derecha se muestra el registro de ejecución, con pasos como la preparación del video y la comprobación de la duración. En la parte inferior está el área de salida, que presenta el audio y el video generados. La imagen muestra de forma intuitiva el flujo y el resultado del proceso de generación de video a audio del modelo PrismAudio, en correspondencia con la introducción del modelo en el documento.

7. DreamOmni2: edición y generación de imágenes multimodal basada en instrucciones

DreamOmni2 es un modelo multimodal de edición y generación de imágenes desarrollado por CUHK JIA Lab. Ha sido aceptado por CVPR 2026 como artículo destacado.

El modelo se basa en FLUX.1-Kontext-dev y utiliza un modelo de lenguaje visual Qwen2.5-VL-7B ajustado finamente para procesar instrucciones. Admite prompts en lenguaje natural junto con imágenes de referencia, lo que lo hace adecuado para tareas como sustitución de objetos, transferencia de estilo, imitación de poses y generación guiada por conceptos.

La imagen muestra ejemplos de edición y generación del modelo DreamOmni2. En la parte superior izquierda aparece una escena urbana original, y a la derecha una fotografía de una persona; en la parte inferior se muestra el resultado editado, con la persona de pie dentro de la escena urbana y una integración natural entre el fondo y el sujeto. La imagen está estrechamente relacionada con el contexto y presenta de forma intuitiva que DreamOmni2 admite prompts en lenguaje natural e imágenes de referencia, y puede realizar tareas como sustitución de objetos, transferencia de estilo e imitación de poses, por lo que resulta adecuado para la edición y generación de imágenes impulsadas por instrucciones multimodales.

8. PixelRefer: comprensión de objetos de grano fino para imágenes y videos

PixelRefer es un marco unificado de comprensión de objetos en imágenes y videos desarrollado por Alibaba DAMO Academy. Se centra en la comprensión detallada orientada a objetos, en lugar de limitarse a describir una escena completa.

El marco admite señalamiento a nivel de región, generación de descripciones y respuesta a preguntas. También introduce un tokenizador de objetos adaptativo a la escala y una variante más ligera, PixelRefer-Lite, para hacer que la representación de objetos sea más compacta y eficiente.

La imagen muestra la interfaz de demostración del modelo PixelRefer. En la parte superior aparece el título “Spatial-temporal object referring with arbitrary granularity”. En la pantalla se presenta una imagen de paisaje urbano con el puente de Brooklyn, rascacielos y otros elementos. Debajo hay pestañas “Image” y “Video”, con “Image” seleccionada actualmente. En la parte inferior de la interfaz se encuentra el botón “Generate Caption” y un área “Model Status”. La imagen está relacionada con el modelo PixelRefer presentado en el documento y muestra de forma intuitiva su aplicación en la comprensión de imágenes, con funciones como señalamiento a nivel de región, descripción y respuesta a preguntas.

9. Unlimited-OCR: OCR de documentos largos en una sola pasada y análisis de diseño

Unlimited-OCR es un proyecto de OCR y análisis de diseño documental lanzado por Baidu en 2026. Está diseñado para el análisis de documentos largos, no solo para el reconocimiento de páginas individuales.

El proyecto puede procesar imágenes de documentos individuales, imágenes multipágina y páginas convertidas desde archivos PDF. Es especialmente útil para artículos académicos, informes, documentos escaneados, tablas largas y materiales estructurados de varias páginas.

La imagen muestra la interfaz del proyecto Unlimited-OCR lanzado por Baidu en 2026. A la izquierda está el área de carga de documentos, con el mensaje “Drop your document here” u “or click anywhere to browse”, junto con las opciones “PDF”, “image” y “text”. A la derecha se encuentra el área de visualización de la salida OCR, con los mensajes “OCR output will appear here” y “Use a document size greater than 1MB”. La imagen está estrechamente relacionada con el contexto y muestra de forma intuitiva la interfaz de procesamiento de documentos de Unlimited-OCR, indicando que puede procesar imágenes de documentos individuales, imágenes multipágina y páginas convertidas desde PDF, y que es especialmente adecuado para materiales como artículos e informes.

10. EdgeTAM: segmentación de imágenes y videos con prompts para dispositivos edge

EdgeTAM es un modelo Track Anything ejecutable en el dispositivo desarrollado por Meta Reality Labs y NTU S-Lab. Está diseñado para dispositivos con recursos limitados, manteniendo al mismo tiempo la capacidad de segmentación interactiva de los modelos de estilo SAM.

El modelo reduce el cuello de botella de atención de memoria de SAM 2 mediante un 2D Spatial Perceiver y una canalización de destilación. En la práctica, esto significa que puede admitir una segmentación con prompts

segmentación y seguimiento de objetos en video de forma más eficiente en hardware de borde.

La imagen muestra la interfaz de demostración del modelo EdgeTAM, con el título “EdgeTAM: On-Device Track Anything Model”. A la izquierda se encuentra la sección de entrada, con un botón “Choose Image” en la parte superior y, debajo, la imagen “16943930.png”, que contiene un patrón azul con forma de símbolo de infinito. A la derecha se encuentra la sección de resultados, que muestra el efecto de segmentación aplicado al patrón de infinito, con opciones de primer plano (incluir) y fondo (excluir). Debajo aparece información como “Score: 0.6992 | Mask area: 5774 pixels”, así como los botones “Reset All Points” y “Undo Last Point”. La imagen presenta de forma intuitiva el efecto de aplicación del modelo EdgeTAM en la segmentación de imágenes.

11. Step-Audio-EditX: clonación de voz zero-shot y edición de audio expresiva

Step-Audio-EditX es un modelo de edición de audio de StepFun. Combina un modelo de audio basado en un LLM de 3.000 millones de parámetros con aprendizaje por refuerzo para admitir clonación de voz zero-shot y edición de audio expresiva.

El modelo puede trabajar con mandarín, inglés, sichuanés, cantonés, japonés y coreano. Está diseñado para tareas como control emocional, edición del estilo de habla, edición paralingüística y refinamiento iterativo de audio.

La imagen muestra la interfaz del modelo Step-Audio-EditX, utilizada para clonación de voz zero-shot y edición de audio expresiva. La interfaz se divide en dos pestañas: “Voice Cloning” y “Audio Editing”; actualmente está seleccionada “Voice Cloning”. A la izquierda hay un cuadro de entrada “Input Audio (Reference Voice)” y, debajo, un área “Target Text (Text to Synthesize)”, con el texto de ejemplo “Hi, the weather is good today.”. En la parte inferior hay un botón “CLONE”. A la derecha se encuentra el área “Cloned Audio Output”, que muestra la forma de onda del audio clonado y una barra de progreso. En la parte inferior aparece el mensaje “Clone completed. Output duration: 4.2s”. La imagen presenta de forma intuitiva la interfaz de operación del modelo y sus resultados.

12. Nemotron 3.5 ASR Streaming 0.6B: reconocimiento de voz en streaming ligero

Nemotron 3.5 ASR Streaming 0.6B es un modelo de reconocimiento automático de voz de NVIDIA. Está diseñado para transcripción en streaming de baja latencia y utiliza una arquitectura FastConformer-RNNT consciente de la caché.

El diseño clave es la reutilización del contexto. Durante la inferencia en streaming, el modelo reutiliza el contexto del codificador en lugar de recalcular fragmentos de audio superpuestos, lo que ayuda a reducir el cálculo redundante y mejorar el rendimiento en tiempo real.

La imagen muestra la interfaz del modelo de reconocimiento automático de voz Nemotron 3.5 ASR Streaming 0.6B. En la parte superior se indica que se puede subir o grabar un fragmento corto de voz para realizar una demostración con CPU. En el centro hay una forma de onda de audio. Debajo se encuentra un selector de idioma objetivo, actualmente configurado como en-US, así como un cuadro de tamaño de contexto de atención que muestra 56.13. En la parte inferior hay una zona naranja con el botón “Transcribe” y, debajo, un área de texto transcrito que muestra una descripción sobre caminos rurales y aulas escolares. La imagen está relacionada con el modelo Nemotron 3.5 ASR Streaming 0.6B descrito en el contexto y presenta de forma intuitiva su interfaz de operación y función de transcripción.

Entradas populares de la enciclopedia

HyperAI también destacó esta semana cinco entradas populares de su enciclopedia de IA:

  1. Modelo de lenguaje grande (LLM)
  2. Modelo de acción mundial (WAM)
  3. Media armónica
  4. Cribado virtual
  5. Aprendizaje por refuerzo a partir de retroalimentación de IA (RLAIF)

La wiki de HyperAI recopila cientos de conceptos y explicaciones relacionados con la IA. Es útil para lectores que desean una forma rápida de entender términos que aparecen con frecuencia en artículos, tutoriales y documentación de modelos.

Fechas límite de conferencias de IA en julio

La actualización original también enumera varias fechas límite de conferencias de IA e informática en julio. Todos los horarios de las fechas límite están marcados en hora AoE.

Fecha Hora Conferencia
09 de julio 23:59:59 POPL 2027
10 de julio 23:59:59 ICSE 2027
17 de julio 23:59:59 SIGMOD 2027
28 de julio 23:59:59 AAAI 2027

Acerca de HyperAI

HyperAI es una comunidad de inteligencia artificial y computación de alto rendimiento. Su sitio web ofrece recursos públicos para desarrolladores, investigadores y estudiantes de IA.

Según la fuente original, HyperAI ya ha recopilado o brindado soporte para:

  • Más de 2.100 conjuntos de datos públicos con nodos de aceleración nacionales
  • Más de 700 tutoriales en línea clásicos y populares
  • Más de 300 estudios de caso de artículos de AI4Science
  • Más de 700 entradas de enciclopedia relacionadas con la IA
  • Un espejo completo de documentación en chino para Apache TVM

Preguntas frecuentes

¿Qué es Irodori-TTS-500M-v3?

Irodori-TTS-500M-v3 es un modelo abierto japonés de texto a voz basado en una arquitectura RF-DiT. Admite generación de voz en japonés, clonación de voz zero-shot con una referencia corta y control de estilo basado en emojis.

¿Puede Irodori-TTS clonar una voz sin ajuste fino?

Sí. La actualización original describe Irodori-TTS como compatible con clonación de voz zero-shot a partir de un breve fragmento de audio de referencia, normalmente de unos 3 a 10 segundos. El resultado sigue dependiendo de la calidad y claridad del audio de referencia.

¿Para qué se utiliza SAM-Audio?

SAM-Audio se utiliza para separación de fuentes de audio basada en prompts. Los usuarios pueden describir el sonido que desean extraer, proporcionar pistas visuales o especificar un intervalo de tiempo para aislar un sonido objetivo de una grabación mezclada.

¿Cuál es la diferencia entre matting de video y segmentación de video?

La segmentación de video suele separar objetos en regiones o máscaras, mientras que el matting de video estima un mapa alfa más detallado. El matting es especialmente importante para una extracción limpia del primer plano, detalles del cabello, bordes semitransparentes y composición.

¿Qué genera PrismAudio?

PrismAudio genera audio para video. Intenta alinear el sonido generado con el contenido semántico, el ritmo, la sensación estética y las pistas espaciales del video.

¿Por qué Unlimited-OCR es útil para documentos largos?

Unlimited-OCR está diseñado para análisis de largo alcance, no solo para OCR aislado de una sola página. Puede ser útil al trabajar con artículos, informes, archivos escaneados, tablas largas o imágenes derivadas de PDF de varias páginas.

¿Nemotron 3.5 ASR Streaming 0.6B es adecuado para la transcripción de voz en tiempo real?

Sí, está diseñado para transcripción de voz de baja latencia.

ASR en streaming. Su arquitectura FastConformer-RNNT con caché reutiliza el contexto durante la inferencia en streaming, lo que ayuda a reducir el cálculo redundante.

Herramientas relacionadas

  • Irodori-TTS: TTS japonés de código abierto con clonación de voz mediante audio de referencia y control de estilo.
  • Irodori-TTS-500M-v3 en Hugging Face: Página del modelo para el checkpoint de TTS japonés 500M v3.
  • SAM-Audio: Repositorio de Meta para inferencia y ejemplos de Segment Anything in Audio.
  • MatAnyone 2: Página del proyecto del framework de matting de vídeo MatAnyone 2.
  • InSpatio-World: Página del proyecto para simulación interactiva en tiempo real de mundos 4D.
  • DiaMoE-TTS: Repositorio de GitHub para síntesis de voz multidialectal basada en IPA.
  • PrismAudio: Página del proyecto para generación de audio a partir de vídeo con CoT descompuesto y recompensas multidimensionales.
  • DreamOmni2: Proyecto de código abierto para edición y generación de imágenes multimodal basada en instrucciones.
  • PixelRefer: Framework de Alibaba DAMO Academy para la comprensión detallada de objetos en imágenes y vídeos.
  • Unlimited-OCR: Proyecto de Baidu para OCR de largo alcance y análisis de documentos.
  • EdgeTAM: Modelo de Meta para segmentación de imágenes y vídeos en el dispositivo, capaz de rastrear cualquier cosa mediante prompts.
  • Step-Audio-EditX: Modelo de StepFun para clonación de voz zero-shot y edición de audio expresiva.
  • Nemotron 3.5 ASR Streaming 0.6B: Página del modelo de NVIDIA en Hugging Face para ASR en streaming de baja latencia.

Enlaces relacionados

Resumen

Esta actualización semanal reúne un conjunto útil de nuevas demos de IA y recursos de modelos, especialmente en torno a la generación de audio, el reconocimiento de voz, el procesamiento de vídeo, la comprensión de imágenes y el OCR de documentos largos.

Las entradas más prácticas son Irodori-TTS para generación de voz en japonés, SAM-Audio para separación de sonido basada en prompts, MatAnyone 2 para matting de vídeo limpio, Unlimited-OCR para documentos largos y Nemotron 3.5 ASR para reconocimiento de voz en streaming.

En conjunto, este resumen es útil para lectores que quieren descubrir rápidamente qué nuevos modelos de IA vale la pena probar, qué hace cada uno y dónde probarlos.

HyperAI Weekly AI Model Update: Irodori-TTS, SAM-Audio, MatAnyone 2, PrismAudio, and More