Atualização Semanal de Modelos de IA da HyperAI: Irodori-TTS, SAM-Audio, MatAnyone 2, PrismAudio e mais

Esta atualização semanal reúne um conjunto útil de novas demonstrações de IA e recursos de modelos, especialmente nas áreas de geração de áudio, reconhecimento de fala, processamento de vídeo, compreensão de imagens e OCR para documentos longos. As entradas mais práticas são o Irodori-TTS para geração de voz em japonês, o SAM-Audio para separação de sons baseada em prompts, o MatAnyone 2 para recorte limpo em vídeos, o Unlimited-OCR para documentos longos e o Nemotron 3.5 ASR para reconhecimento de fala em streaming. **No geral, este resumo é útil para leitores que querem descobrir rapidamente quais novos modelos de IA valem a pena testar, o que cada um faz e onde experimentá-los.**

发布于 2026年7月5日generalGEO 评分: 04 次阅读
Irodori-TTSSAM-AudioMatAnyone 2PrismAudiotutoriais da HyperAITTS em japonêscontrole de estilo por emojiseparação de fontes de áudiorecorte de vídeogeração de áudio a partir de vídeoUnlimited-OCREdgeTAMStep-Audio-EditXNemotron 3.5 ASRresumo de modelos de IAferramentas de IA generativa
Esta imagem é uma identidade visual da marca HyperAI. O fundo é escuro; à esquerda aparece o texto “HyperAI” em branco, acompanhado abaixo pela frase “Intelligence at Hyper Speed.”. À direita há uma letra “H” tridimensional com gradiente de laranja a azul, rodeada por anéis luminosos em laranja e azul-arroxeado, criando um efeito de halo tecnológico. A imagem é a capa do artigo “HyperAI Weekly AI Model Update” e combina com o estilo tecnológico em 16:9 mencionado no documento, bem como com o tema de atualizações de modelos de IA.

Atualização semanal de modelos de IA da HyperAI: Irodori-TTS, SAM-Audio, MatAnyone 2, PrismAudio e mais

Introdução

A atualização desta semana da HyperAI concentra-se em uma combinação robusta de modelos de áudio, vídeo, compreensão de imagens, OCR e reconhecimento de fala. O projeto em destaque é o Irodori-TTS-500M-v3, um modelo aberto japonês de texto para fala que combina geração de fala de alta fidelidade a 48 kHz, clonagem de voz zero-shot e controle refinado de estilo por meio de anotações com emojis.

A atualização também inclui ferramentas para separação de áudio baseada em prompts, matting de vídeo, simulação de mundo 4D, geração de áudio a partir de vídeo, OCR de documentos, segmentação no dispositivo, edição expressiva de áudio e ASR em streaming de baixa latência. Abaixo está uma versão revisada e pronta para publicação do resumo semanal original, com as capturas de tela úteis preservadas em seu contexto original.

Nota sobre a fonte

Este artigo é baseado na atualização semanal do BAAI Hub / HyperAI publicada em A página original informa que a fonte do artigo é o WeChat e que as imagens podem ser removidas caso haja preocupações com direitos autorais.

QR codes, pôsteres promocionais, imagens de convite para grupos e banners de recomendações não relacionados foram removidos intencionalmente. Os links das imagens de DiaMoE-TTS e DreamOmni2 foram mantidos em suas posições originais, mas as solicitações de pré-visualização expiraram durante a verificação; por isso, eles são mencionados aqui em vez de serem tratados como capturas de tela totalmente verificadas.

Visão geral da atualização semanal da HyperAI

De 27 de junho a 3 de julho, a HyperAI atualizou vários recursos públicos em seu site oficial:

  • 12 tutoriais públicos selecionados
  • 5 verbetes populares da enciclopédia de IA
  • 4 prazos de conferências de IA em julho

O tema principal desta semana é a experimentação prática. A maioria das entradas não se limita à descrição de artigos científicos; elas oferecem demos online ou notebooks executáveis para que os usuários possam testar rapidamente o comportamento dos modelos.

Tutoriais públicos selecionados

1. Irodori-TTS-500M-v3: TTS em japonês com controle de estilo por emoji

O Irodori-TTS é um projeto open-source japonês de texto para fala lançado pelo desenvolvedor Aratako em 2026. O modelo em destaque, Irodori-TTS-500M-v3, foi desenvolvido para síntese de fala em japonês, clonagem de voz zero-shot e controle de estilo vocal guiado por emojis.

O modelo é construído em torno de uma arquitetura Rectified Flow Diffusion Transformer (RF-DiT) e gera fala em um espaço latente contínuo DACVAE. No uso prático, o ponto mais interessante é que ele consegue clonar uma voz-alvo a partir de apenas um pequeno clipe de referência, geralmente de cerca de 3 a 10 segundos, sem ajuste fino adicional.

Ele também oferece suporte a controle de estilo por meio de anotações com emojis. Isso torna o modelo mais flexível do que um sistema TTS básico: os usuários podem orientar tom, emoção, ritmo e expressões não verbais sutis de uma forma mais leve.

A imagem mostra a interface do Irodori-TTS-500M-v3 para conversão de texto em japonês para fala, com suporte a controle de estilo por emojis. À esquerda há três abas: “Basic TTS”, “Voice Cloning” e “Emoji Guide”, com “Basic TTS” selecionada no momento. A caixa de entrada abaixo exibe o texto em japonês “こんにちは、今日はいい天気ですね.” À direita aparece o gráfico de forma de onda do áudio selecionado, e abaixo há um botão “Generate Speech”. A imagem dialoga com a explicação acima sobre o suporte do modelo Irodori-TTS-500M-v3 ao controle de estilo por emojis, apresentando visualmente a interface prática de operação do modelo.

2. MatAnyone 2: matting de vídeo para extração de primeiro plano

MatAnyone 2 é um modelo de matting de vídeo lançado pelo NTU S-Lab e pela SenseTime. Ele foi criado para extrair primeiros planos humanos e gerar alpha mattes a partir de vídeos.

O modelo melhora a estabilidade usando um avaliador de qualidade aprendido. Isso ajuda a reduzir artefatos de borda e a preservar detalhes como cabelo, bordas semitransparentes e contornos do primeiro plano. Ele também é útil quando o usuário deseja isolar uma pessoa específica em um vídeo com várias pessoas.

Esta imagem mostra a interface de demonstração do MatAnyone 2, um modelo de IA para extração de primeiro plano em vídeo. Na parte superior da interface aparece o nome do modelo “MatAnyone 2: Video Matting” e a descrição de sua função: extrair o primeiro plano de vídeos. À esquerda há um painel de operação, com opções para enviar vídeo e ajustar parâmetros, além de uma indicação de status de processamento na parte inferior; à direita são exibidos o quadro original do vídeo de entrada e a saída de máscara de primeiro plano gerada pelo modelo. A máscara delineia claramente a região-alvo do primeiro plano, apresentando de forma intuitiva o efeito de recorte de vídeo do modelo.

Demo online:

3. InSpatio-World: simulação de mundo 4D em tempo real

InSpatio-World é um simulador de mundo 4D em tempo real lançado pela equipe InSpatio em 2026. Ele pode receber um vídeo de entrada e uma trajetória de câmera especificada e, em seguida, gerar um vídeo estável de uma nova perspectiva.

A ideia central é tornar as cenas de vídeo mais controláveis. Em vez de assistir passivamente a uma visão de câmera fixa, os usuários podem definir o movimento da câmera e explorar a cena a partir de novos pontos de vista, preservando a consistência temporal.

A imagem mostra a interface e o efeito do simulador de mundo 4D em tempo real InSpatio-World. À esquerda há uma área de entrada para enviar vídeo e selecionar a trajetória da câmera, com um botão “Generate novel view” abaixo. À direita são apresentados os efeitos de vídeo gerados pelo simulador, mostrando uma cena com objetos como uma xícara de café e pão vistos de diferentes ângulos. Isso demonstra sua capacidade de gerar vídeos estáveis e controláveis a partir de novas perspectivas, em consonância com a explicação contextual de que o InSpatio-World pode transformar um vídeo de entrada e uma trajetória de câmera especificada em um vídeo estável de nova perspectiva.

4. DiaMoE-TTS: síntese de fala multidialetal baseada em IPA

DiaMoE-TTS é uma estrutura de síntese de fala multidialetal do Giant AI Lab. Ela usa o Alfabeto Fonético Internacional, ou IPA, como frontend unificado para geração de fala em dialetos.

O modelo combina um design Mixture-of-Experts com métodos de adaptação eficientes em parâmetros, como LoRA e adaptadores de condicionamento. Isso permite que o sistema se adapte mais rapidamente a novos dialetos, mesmo quando há apenas dados limitados disponíveis.

![A imagem mostra a interface do DiaMoE-TTS: Multi-Dialect Speech Synthesis.

Acima há uma introdução ao design Mixture-of-Experts baseado em IPA e a métodos de adaptação eficientes em parâmetros, como LoRA e adaptadores condicionais. No centro há o botão “Generate Speech”; abaixo, há uma caixa de entrada de texto de exemplo com suporte a 9 dialetos chineses; à direita, são exibidas a forma de onda da fala gerada e a referência de voz (prompt de dialeto). Na parte inferior, são listados os dialetos suportados e os respectivos áudios de referência, além de informações como o uso do modelo KPL para síntese dialetal e o tempo de geração. A imagem está relacionada ao conteúdo do documento que apresenta o modelo DiaMoE-TTS, mostrando de forma intuitiva sua interface de operação e suas funções.](https://we0-cms.oss-cn-beijing.aliyuncs.com/cms-assets/image/2026/07/094c618c-2830-4af5-9cdc-ca950fe12565-05-c0ba34b2-8a4a-4e6a-9d15-517f152cb52a.png)

5. SAM-Audio: Segment Anything em Áudio

SAM-Audio é o modelo fundamental de separação de fontes de áudio da Meta. Ele consegue isolar um som-alvo de um sinal de áudio misto usando descrições em linguagem natural, pistas visuais de vídeo ou um intervalo de tempo selecionado.

Por exemplo, um usuário pode descrever o som que deseja separar, como “homem falando”, “cachorro latindo”, “motor de carro” ou “piano tocando”. Em seguida, o modelo tenta separar o áudio-alvo de todos os outros sons presentes na mistura.

Esta imagem é uma captura de tela da interface do modelo SAM-Audio da Meta, correspondente à seção “SAM-Audio: Segment Anything em Áudio” do documento. A interface é usada para realizar separação de fontes de áudio: à esquerda, há formas de onda de duas faixas de entrada; abaixo, a caixa “Sound Description” contém a instrução de exemplo “man speaking”; há também a opção marcada “Enable Span Prediction”; na parte inferior, há o botão laranja “Separate Sound”. À direita, é exibida a forma de onda do som-alvo processado; abaixo, há ainda uma lista de categorias de descrições de exemplo, abrangendo vozes humanas, sons de animais, instrumentos musicais e outros tipos de sons a serem separados.

6. PrismAudio: Geração de Vídeo para Áudio com CoT Decomposto e Recompensas Multidimensionais

PrismAudio é um modelo de geração de vídeo para áudio do Tongyi Lab. Ele se concentra em gerar áudio que corresponda à cena visual, ao tempo, à atmosfera e à sensação espacial de um vídeo.

O modelo introduz um processo de planejamento de Chain-of-Thought decomposto. Em vez de tratar a geração de vídeo para áudio como uma única etapa de raciocínio, ele separa o processo em dimensões semântica, temporal, estética e espacial. Cada dimensão é associada a um sinal de recompensa específico para aprendizagem por reforço.

A imagem mostra a interface do modelo PrismAudio de geração de vídeo para áudio. À esquerda, há a área de entrada, com o botão “Upload Video”; abaixo, há uma janela de pré-visualização do vídeo, cujo conteúdo mostra uma mulher sentada em um banco. Mais abaixo, há a área “Caption / Prompt”, com o texto de exemplo “A girl in the rain”. À direita, há o log de execução, que exibe etapas como preparação do vídeo e verificação da duração. Na parte inferior, fica a área de saída, que apresenta o áudio e o vídeo gerados. A imagem mostra de forma intuitiva o fluxo e o resultado da geração de vídeo para áudio do modelo PrismAudio, em correspondência com a apresentação do modelo no documento.

7. DreamOmni2: Edição e Geração de Imagens Multimodais Baseadas em Instruções

DreamOmni2 é um modelo multimodal de edição e geração de imagens do CUHK JIA Lab. Ele foi aceito pela CVPR 2026 como artigo Highlight.

O modelo é construído sobre o FLUX.1-Kontext-dev e usa um modelo de linguagem visual Qwen2.5-VL-7B ajustado para lidar com instruções. Ele oferece suporte a prompts em linguagem natural junto com imagens de referência, o que o torna adequado para tarefas como substituição de objetos, transferência de estilo, imitação de pose e geração orientada por conceitos.

A imagem mostra exemplos de edição e geração do modelo DreamOmni2. Na parte superior, à esquerda, há uma cena urbana original; à direita, há uma foto de uma pessoa. Na parte inferior, aparece o resultado da edição, com a pessoa posicionada na cena urbana e uma integração natural entre fundo e personagem. A imagem está intimamente relacionada ao contexto e mostra de forma intuitiva que o DreamOmni2 oferece suporte a prompts em linguagem natural e imagens de referência, podendo realizar tarefas como substituição de objetos, conversão de estilo e imitação de pose, sendo adequado para edição e geração de imagens orientadas por instruções multimodais.

8. PixelRefer: Compreensão Granular de Objetos em Imagens e Vídeos

PixelRefer é uma estrutura unificada de compreensão de objetos em imagens e vídeos da Alibaba DAMO Academy. Ela se concentra na compreensão detalhada centrada em objetos, em vez de apenas descrever uma cena inteira.

A estrutura oferece suporte a apontamento em nível de região, geração de legendas e resposta a perguntas. Ela também introduz um tokenizador de objetos adaptativo à escala e uma variante mais leve, PixelRefer-Lite, para tornar a representação de objetos mais compacta e eficiente.

A imagem mostra a interface de demonstração do modelo PixelRefer. O título na parte superior é “Spatial-temporal object referring with arbitrary granularity”. Na tela, aparece uma imagem de paisagem urbana com a Ponte do Brooklyn, arranha-céus e outros elementos. Abaixo, há as abas “Image” e “Video”, com “Image” selecionada no momento. Na parte inferior da interface, há o botão “Generate Caption” e a área “Model Status”. A imagem está relacionada ao modelo PixelRefer apresentado no documento e mostra de forma intuitiva sua aplicação na compreensão de imagens, com suporte a funções como apontamento em nível de região, descrição e perguntas e respostas.

9. Unlimited-OCR: OCR de Documentos Longos em Uma Única Etapa e Análise de Layout

Unlimited-OCR é um projeto de OCR e análise de layout de documentos lançado pela Baidu em 2026. Ele foi projetado para a análise de documentos longos, e não apenas para o reconhecimento de páginas individuais.

O projeto pode processar imagens de documentos individuais, imagens multipágina e páginas convertidas de PDFs. Ele é especialmente útil para artigos, relatórios, documentos digitalizados, tabelas longas e materiais estruturados com múltiplas páginas.

A imagem mostra a interface do projeto Unlimited-OCR lançado pela Baidu em 2026. À esquerda, há a área de upload de documentos, com a mensagem “Drop your document here” ou “or click anywhere to browse”, além das opções “PDF”, “image” e “text”. À direita, há a área de exibição da saída de OCR, com as mensagens “OCR output will appear here” e “Use a document size greater than 1MB”. A imagem está intimamente relacionada ao contexto e mostra de forma intuitiva a interface de processamento de documentos do projeto Unlimited-OCR, indicando que ele pode processar imagens de documentos individuais, imagens multipágina e páginas convertidas de PDFs, sendo especialmente adequado para materiais como artigos e relatórios.

10. EdgeTAM: Segmentação de Imagens e Vídeos com Prompts para Dispositivos de Borda

EdgeTAM é um Track Anything Model executado no dispositivo, desenvolvido pela Meta Reality Labs e pelo NTU S-Lab. Ele foi projetado para dispositivos com recursos limitados, mantendo a capacidade de segmentação interativa de modelos no estilo SAM.

O modelo reduz o gargalo de atenção de memória do SAM 2 por meio de um 2D Spatial Perceiver e de um pipeline de destilação. Na prática, isso significa que ele pode oferecer suporte a segmentação orientada por prompts

segmentação e rastreamento de objetos em vídeo de forma mais eficiente em hardware de borda.

A imagem mostra a interface de demonstração do modelo EdgeTAM, com o título “EdgeTAM: On-Device Track Anything Model”. À esquerda fica a seção de entrada, com o botão “Choose Image” na parte superior e, abaixo, a imagem “16943930.png”, que contém um padrão de símbolo de infinito azul. À direita fica a seção de resultados, exibindo o efeito de segmentação do padrão de infinito, com opções de primeiro plano (incluir) e fundo (excluir). Abaixo aparecem informações como “Score: 0.6992 | Mask area: 5774 pixels”, além dos botões “Reset All Points” e “Undo Last Point”. A imagem apresenta de forma intuitiva o efeito de aplicação do modelo EdgeTAM na segmentação de imagens.

11. Step-Audio-EditX: Clonagem de voz zero-shot e edição expressiva de áudio

Step-Audio-EditX é um modelo de edição de áudio da StepFun. Ele combina um modelo de áudio baseado em LLM com 3 bilhões de parâmetros e aprendizagem por reforço para oferecer suporte à clonagem de voz zero-shot e à edição expressiva de áudio.

O modelo pode lidar com mandarim, inglês, sichuanês, cantonês, japonês e coreano. Ele foi criado para tarefas como controle de emoção, edição de estilo de fala, edição paralinguística e refinamento iterativo de áudio.

A imagem mostra a interface do modelo Step-Audio-EditX, usada para clonagem de voz zero-shot e edição expressiva de áudio. A interface é dividida em duas abas: “Voice Cloning” e “Audio Editing”, com “Voice Cloning” selecionada no momento. À esquerda há um campo de entrada “Input Audio (Reference Voice)” e, abaixo, uma área “Target Text (Text to Synthesize)”, com o texto de exemplo “Hi, the weather is good today.”. Na parte inferior há o botão “CLONE”. À direita fica a área “Cloned Audio Output”, que exibe a forma de onda do áudio clonado e uma barra de progresso. Na parte inferior aparece a mensagem “Clone completed. Output duration: 4.2s”. A imagem apresenta de forma intuitiva a interface de operação e os resultados do modelo.

12. Nemotron 3.5 ASR Streaming 0.6B: Reconhecimento de fala em streaming leve

Nemotron 3.5 ASR Streaming 0.6B é um modelo de reconhecimento automático de fala da NVIDIA. Ele foi criado para transcrição em streaming de baixa latência e usa uma arquitetura FastConformer-RNNT ciente de cache.

O principal design é o reúso de contexto. Durante a inferência em streaming, o modelo reutiliza o contexto do codificador em vez de recalcular trechos de áudio sobrepostos, o que ajuda a reduzir cálculos redundantes e a melhorar o desempenho em tempo real.

A imagem mostra a interface do modelo de reconhecimento automático de fala Nemotron 3.5 ASR Streaming 0.6B. Na parte superior, há uma instrução para carregar ou gravar um curto trecho de áudio para demonstração usando CPU. No centro, há um gráfico de forma de onda do áudio. Abaixo, há um seletor de idioma de destino, atualmente definido como en-US, além de um campo de tamanho do contexto de atenção, que mostra 56.13. Na parte inferior, há uma área laranja com o botão “Transcribe”; abaixo dela fica a área de texto transcrito, exibindo uma descrição sobre estradas rurais e salas de aula. A imagem está relacionada ao modelo Nemotron 3.5 ASR Streaming 0.6B apresentado no contexto e mostra de forma intuitiva sua interface de operação e função de transcrição.

Entradas populares da enciclopédia

A HyperAI também destacou cinco entradas populares da enciclopédia de IA nesta semana:

  1. Modelo de Linguagem de Grande Porte (LLM)
  2. Modelo de Ação Mundial (WAM)
  3. Média Harmônica
  4. Triagem Virtual
  5. Aprendizagem por Reforço a partir de Feedback de IA (RLAIF)

A wiki da HyperAI reúne centenas de conceitos e explicações relacionados à IA. Ela é útil para leitores que desejam uma forma rápida de entender termos que aparecem com frequência em artigos, tutoriais e documentações de modelos.

Prazos de conferências de IA em julho

A atualização original também lista vários prazos de conferências de IA e ciência da computação em julho. Todos os horários dos prazos estão marcados como horário AoE.

Data Hora Conferência
09 de julho 23:59:59 POPL 2027
10 de julho 23:59:59 ICSE 2027
17 de julho 23:59:59 SIGMOD 2027
28 de julho 23:59:59 AAAI 2027

Sobre a HyperAI

A HyperAI é uma comunidade de inteligência artificial e computação de alto desempenho. Seu site oferece recursos públicos para desenvolvedores, pesquisadores e estudantes de IA.

Segundo a fonte original, a HyperAI já coletou ou oferece suporte a:

  • Mais de 2.100 conjuntos de dados públicos com nós de aceleração domésticos
  • Mais de 700 tutoriais online clássicos e populares
  • Mais de 300 estudos de caso de artigos sobre AI4Science
  • Mais de 700 entradas de enciclopédia relacionadas à IA
  • Um espelho completo da documentação chinesa do Apache TVM

FAQ

O que é o Irodori-TTS-500M-v3?

Irodori-TTS-500M-v3 é um modelo aberto japonês de texto para fala baseado em uma arquitetura RF-DiT. Ele oferece suporte à geração de fala em japonês, clonagem de voz zero-shot com uma referência curta e controle de estilo baseado em emojis.

O Irodori-TTS consegue clonar uma voz sem ajuste fino?

Sim. A atualização original descreve o Irodori-TTS como compatível com clonagem de voz zero-shot a partir de um curto clipe de áudio de referência, geralmente com cerca de 3 a 10 segundos. O efeito ainda depende da qualidade e da clareza do áudio de referência.

Para que o SAM-Audio é usado?

O SAM-Audio é usado para separação de fontes de áudio baseada em prompts. Os usuários podem descrever o som que desejam extrair, fornecer pistas visuais ou especificar um intervalo de tempo para isolar um som-alvo de uma gravação mista.

Qual é a diferença entre matting de vídeo e segmentação de vídeo?

A segmentação de vídeo geralmente separa objetos em regiões ou máscaras, enquanto o matting de vídeo estima uma máscara alfa mais detalhada. O matting é especialmente importante para extração limpa do primeiro plano, detalhes de cabelo, bordas semitransparentes e composição.

O que o PrismAudio gera?

O PrismAudio gera áudio para vídeo. Ele tenta alinhar o som gerado com o conteúdo semântico, o tempo, a sensação estética e as pistas espaciais do vídeo.

Por que o Unlimited-OCR é útil para documentos longos?

O Unlimited-OCR foi projetado para análise de longo horizonte, não apenas para OCR isolado de páginas únicas. Ele pode ser útil ao lidar com artigos, relatórios, arquivos digitalizados, tabelas longas ou imagens derivadas de PDFs com várias páginas.

O Nemotron 3.5 ASR Streaming 0.6B é adequado para transcrição de fala em tempo real?

Sim, ele foi projetado para baixa latência

ASR em streaming. Sua arquitetura FastConformer-RNNT com consciência de cache reutiliza o contexto durante a inferência em streaming, o que ajuda a reduzir computações redundantes.

Ferramentas relacionadas

  • Irodori-TTS: TTS japonês de código aberto com clonagem de voz por áudio de referência e controle de estilo.
  • Irodori-TTS-500M-v3 no Hugging Face: Página do modelo para o checkpoint de TTS japonês 500M v3.
  • SAM-Audio: Repositório da Meta para inferência e exemplos do Segment Anything in Audio.
  • MatAnyone 2: Página do projeto do framework de matting de vídeo MatAnyone 2.
  • InSpatio-World: Página do projeto para simulação interativa em tempo real de mundos 4D.
  • DiaMoE-TTS: Repositório no GitHub para síntese de fala multidialetal baseada em IPA.
  • PrismAudio: Página do projeto para geração de áudio a partir de vídeo com CoT decomposto e recompensas multidimensionais.
  • DreamOmni2: Projeto multimodal de código aberto para edição e geração de imagens baseada em instruções.
  • PixelRefer: Framework da Alibaba DAMO Academy para compreensão refinada de objetos em imagens e vídeos.
  • Unlimited-OCR: Projeto da Baidu para OCR de longo horizonte e análise de documentos.
  • EdgeTAM: Modelo da Meta executado no dispositivo para rastrear qualquer coisa, com segmentação de imagens e vídeos orientada por prompts.
  • Step-Audio-EditX: Modelo da StepFun para clonagem de voz zero-shot e edição expressiva de áudio.
  • Nemotron 3.5 ASR Streaming 0.6B: Página do modelo da NVIDIA no Hugging Face para ASR em streaming de baixa latência.

Links relacionados

Resumo

Esta atualização semanal reúne um conjunto útil de novas demos de IA e recursos de modelos, especialmente nas áreas de geração de áudio, reconhecimento de fala, processamento de vídeo, compreensão de imagens e OCR de documentos longos.

As entradas mais práticas são o Irodori-TTS para geração de voz em japonês, o SAM-Audio para separação de som baseada em prompts, o MatAnyone 2 para matting de vídeo limpo, o Unlimited-OCR para documentos longos e o Nemotron 3.5 ASR para reconhecimento de fala em streaming.

No geral, este resumo é útil para leitores que desejam descobrir rapidamente quais novos modelos de IA valem a pena testar, o que cada um faz e onde experimentá-los.