Mise à jour hebdomadaire des modèles d’IA HyperAI : Irodori-TTS, SAM-Audio, MatAnyone 2, PrismAudio, et plus encore

Cette mise à jour hebdomadaire rassemble une sélection utile de nouvelles démos d’IA et de ressources de modèles, en particulier autour de la génération audio, de la reconnaissance vocale, du traitement vidéo, de la compréhension d’images et de l’OCR pour documents longs. Les entrées les plus pratiques sont Irodori-TTS pour la génération de voix en japonais, SAM-Audio pour la séparation sonore à partir de prompts, MatAnyone 2 pour un détourage vidéo propre, Unlimited-OCR pour les documents longs, et Nemotron 3.5 ASR pour la reconnaissance vocale en streaming. **Dans l’ensemble, cette sélection est utile aux lecteurs qui souhaitent découvrir rapidement quels nouveaux modèles d’IA valent la peine d’être testés, ce que chacun fait et où les essayer.**

发布于 2026年7月5日generalGEO 评分: 05 次阅读
Irodori-TTSSAM-AudioMatAnyone 2PrismAudiotutoriels HyperAITTS japonaiscontrôle du style des émojisséparation des sources audiodétourage vidéogénération audio à partir de vidéoUnlimited-OCREdgeTAMStep-Audio-EditXNemotron 3.5 ASRtour d’horizon des modèles d’IAoutils d’IA générative
Cette image est une illustration de l’identité de marque de HyperAI. L’arrière-plan est sombre ; à gauche figure le texte blanc « HyperAI », accompagné en dessous de la phrase « Intelligence at Hyper Speed. ». À droite se trouve une lettre « H » tridimensionnelle avec un dégradé allant de l’orange au bleu, entourée d’anneaux lumineux orange et bleu-violet, avec un effet de halo technologique. Il s’agit de l’image de couverture de l’article « HyperAI Weekly AI Model Update », en accord avec le style de couverture technologique 16:9 mentionné dans le document et avec le thème des mises à jour de modèles d’IA.

Mise à jour hebdomadaire des modèles d’IA HyperAI : Irodori-TTS, SAM-Audio, MatAnyone 2, PrismAudio, et plus encore

Introduction

La mise à jour HyperAI de cette semaine met l’accent sur un ensemble solide de modèles couvrant l’audio, la vidéo, la compréhension d’images, l’OCR et la reconnaissance vocale. Le projet phare est Irodori-TTS-500M-v3, un modèle ouvert de synthèse vocale japonaise qui combine une génération vocale haute fidélité à 48 kHz, le clonage vocal zero-shot et un contrôle stylistique précis grâce à des annotations par emoji.

La mise à jour inclut également des outils de séparation audio guidée par prompt, de matting vidéo, de simulation de monde 4D, de génération audio à partir de vidéo, d’OCR de documents, de segmentation sur appareil, d’édition audio expressive et d’ASR en streaming à faible latence. Vous trouverez ci-dessous une version remaniée et prête à être publiée du tour d’horizon hebdomadaire original, avec les captures d’écran utiles conservées dans leur contexte d’origine.

Note sur la source

Cet article est basé sur la mise à jour hebdomadaire BAAI Hub / HyperAI publiée sur le site. La page originale indique que la source de l’article provient de WeChat et que les images peuvent être retirées en cas de préoccupations liées aux droits d’auteur.

Les codes QR, affiches promotionnelles, images d’invitation à des groupes et bannières de recommandations sans rapport ont été volontairement supprimés. Les liens d’images DiaMoE-TTS et DreamOmni2 sont conservés à leurs emplacements d’origine, mais leurs demandes de prévisualisation ont expiré lors de la vérification ; ils sont donc mentionnés ici au lieu d’être considérés comme des captures d’écran entièrement vérifiées.

Aperçu de la mise à jour hebdomadaire HyperAI

Du 27 juin au 3 juillet, HyperAI a mis à jour plusieurs ressources publiques sur son site officiel :

  • 12 tutoriels publics sélectionnés
  • 5 entrées populaires de l’encyclopédie IA
  • 4 échéances de conférences IA en juillet

Le thème principal de cette semaine est l’expérimentation pratique. La plupart des entrées ne se limitent pas à des descriptions d’articles scientifiques ; elles proposent des démonstrations en ligne ou des notebooks exécutables afin que les utilisateurs puissent tester rapidement le comportement des modèles.

Tutoriels publics sélectionnés

1. Irodori-TTS-500M-v3 : TTS japonais avec contrôle du style par emoji

Irodori-TTS est un projet open source de synthèse vocale japonaise publié par le développeur Aratako en 2026. Le modèle présenté, Irodori-TTS-500M-v3, est conçu pour la synthèse vocale en japonais, le clonage vocal zero-shot et le contrôle du style vocal guidé par emoji.

Le modèle repose sur une architecture Rectified Flow Diffusion Transformer (RF-DiT) et génère la parole dans un espace latent DACVAE continu. En usage pratique, son aspect le plus intéressant est qu’il peut cloner une voix cible à partir d’un court extrait de référence, généralement d’environ 3 à 10 secondes, sans affinage supplémentaire.

Il prend également en charge le contrôle du style via des annotations par emoji. Cela rend le modèle plus flexible qu’un système TTS de base : les utilisateurs peuvent guider le ton, l’émotion, le rythme et de subtiles expressions non verbales de manière plus légère.

L’image montre l’interface d’Irodori-TTS-500M-v3, utilisée pour la conversion de texte japonais en parole, avec prise en charge du contrôle stylistique par emoji. À gauche se trouvent trois onglets : « Basic TTS », « Voice Cloning » et « Emoji Guide », l’onglet « Basic TTS » étant actuellement sélectionné. Le champ de saisie inférieur affiche le texte japonais « こんにちは、今日はいい天気ですね。 ». À droite se trouve la forme d’onde de l’audio sélectionné, avec un bouton « Generate Speech » en dessous. Cette image fait écho à la présentation ci-dessus du modèle Irodori-TTS-500M-v3 et de sa prise en charge du contrôle stylistique par emoji, en montrant de manière intuitive l’interface d’utilisation réelle du modèle.

2. MatAnyone 2 : matting vidéo pour l’extraction de premier plan

MatAnyone 2 est un modèle de matting vidéo publié par NTU S-Lab et SenseTime. Il est conçu pour extraire des premiers plans humains et générer des mattes alpha à partir de vidéos.

Le modèle améliore la stabilité grâce à un évaluateur de qualité appris. Cela permet de réduire les artefacts de bord et de préserver des détails tels que les cheveux, les contours semi-transparents et les limites du premier plan. Il est également utile lorsque l’utilisateur souhaite isoler une personne spécifique dans une vidéo comprenant plusieurs personnes.

Cette image montre l’interface de démonstration de MatAnyone 2, un modèle d’IA destiné à l’extraction de premier plan dans les vidéos. Le nom du modèle, « MatAnyone 2: Video Matting », est indiqué en haut de l’interface, avec une description de sa fonction : extraire le premier plan d’une vidéo. À gauche se trouve le panneau de contrôle, avec des options permettant de téléverser une vidéo et d’ajuster les paramètres, ainsi qu’un indicateur d’état du traitement en bas ; à droite sont affichées l’image vidéo d’entrée originale et la sortie de masque de premier plan générée par le modèle. Le masque délimite clairement la zone cible au premier plan, illustrant de manière intuitive l’effet de détourage vidéo du modèle.

Démo en ligne :

3. InSpatio-World : simulation de monde 4D en temps réel

InSpatio-World est un simulateur de monde 4D en temps réel publié par l’équipe InSpatio en 2026. Il peut prendre une vidéo d’entrée et une trajectoire de caméra spécifiée, puis générer une vidéo stable depuis un nouveau point de vue.

L’idée centrale est de rendre les scènes vidéo plus contrôlables. Au lieu de regarder passivement une vue de caméra fixe, les utilisateurs peuvent définir le mouvement de la caméra et explorer la scène depuis de nouveaux points de vue tout en préservant la cohérence temporelle.

L’image montre l’interface et les résultats du simulateur de monde 4D en temps réel InSpatio-World. À gauche se trouve la zone d’entrée permettant de téléverser une vidéo et de sélectionner une trajectoire de caméra, avec un bouton « Generate novel view » en dessous. À droite sont présentés les effets vidéo générés par le simulateur, montrant une scène avec une tasse de café, du pain et d’autres objets sous différents angles. Cela illustre sa capacité à générer des vidéos stables et contrôlables depuis de nouveaux points de vue, conformément à la description ci-dessus indiquant qu’InSpatio-World peut produire une vidéo stable à partir d’une vidéo d’entrée et d’une trajectoire de caméra spécifiée.

4. DiaMoE-TTS : synthèse vocale multi-dialectale basée sur l’API

DiaMoE-TTS est un cadre de synthèse vocale multi-dialectale développé par Giant AI Lab. Il utilise l’alphabet phonétique international, ou API, comme interface frontale unifiée pour la génération de parole dialectale.

Le modèle combine une conception Mixture-of-Experts avec des méthodes d’adaptation efficaces en paramètres, telles que LoRA et les adaptateurs de conditionnement. Cela permet au système de s’adapter plus rapidement à de nouveaux dialectes, même lorsque seules des données limitées sont disponibles.

![L’image montre l’interface de DiaMoE-TTS: Multi-Dialect Speech Synthesis.

Ci-dessus figurent une présentation de la conception Mixture-of-Experts basée sur l’IPA ainsi que des méthodes d’adaptation efficaces en paramètres, telles que LoRA et les adaptateurs conditionnels. Au centre se trouve le bouton « Generate Speech » ; en dessous, une zone de saisie de texte d’exemple prend en charge 9 dialectes chinois ; à droite sont affichés la forme d’onde de la parole générée ainsi qu’une référence vocale (indice dialectal). En bas sont listés les dialectes pris en charge et les voix d’indication correspondantes, avec également des informations indiquant que le modèle utilise le modèle KPL pour la synthèse dialectale, le temps de génération, etc. Cette figure est liée au contenu du document présentant le modèle DiaMoE-TTS et montre de manière intuitive son interface d’utilisation et ses fonctionnalités.](https://we0-cms.oss-cn-beijing.aliyuncs.com/cms-assets/image/2026/07/094c618c-2830-4af5-9cdc-ca950fe12565-05-c0ba34b2-8a4a-4e6a-9d15-517f152cb52a.png)

5. SAM-Audio : segmenter n’importe quoi dans l’audio

SAM-Audio est le modèle fondation de séparation de sources audio de Meta. Il peut isoler un son cible à partir d’un signal audio mixte au moyen de descriptions en langage naturel, d’indices visuels issus d’une vidéo ou d’un intervalle temporel sélectionné.

Par exemple, un utilisateur peut décrire le son qu’il souhaite séparer, comme « homme qui parle », « chien qui aboie », « moteur de voiture » ou « piano qui joue ». Le modèle tente ensuite de séparer l’audio cible de tout le reste du mélange.

Cette image est une capture d’écran de l’interface du modèle SAM-Audio de Meta, correspondant à la section « SAM-Audio : segmenter n’importe quoi dans l’audio » du document. L’interface sert à effectuer la séparation de sources audio : à gauche, deux formes d’onde de pistes audio d’entrée sont configurées ; en dessous, le champ de saisie « Sound Description » contient l’instruction d’exemple « man speaking » ; une option cochable « Enable Span Prediction » est également présente, et un bouton d’action orange « Separate Sound » se trouve en bas. À droite, la forme d’onde de sortie du son cible traité est affichée ; en dessous figure également une liste de catégories de descriptions d’exemple, couvrant différents types de sons à séparer, tels que les voix humaines, les sons d’animaux et les instruments de musique.

6. PrismAudio : génération audio à partir de vidéo avec CoT décomposée et récompenses multidimensionnelles

PrismAudio est un modèle de génération audio à partir de vidéo développé par Tongyi Lab. Il vise à générer un audio correspondant à la scène visuelle, au timing, à l’atmosphère et à la sensation spatiale d’une vidéo.

Le modèle introduit un processus de planification de type chaîne de pensée décomposée. Au lieu de traiter la génération audio à partir de vidéo comme une seule étape de raisonnement, il sépare le processus en dimensions sémantique, temporelle, esthétique et spatiale. Chaque dimension est associée à un signal de récompense ciblé pour l’apprentissage par renforcement.

L’image présente l’interface du modèle de génération audio à partir de vidéo PrismAudio. À gauche se trouve la zone d’entrée, avec un bouton « Upload Video » ; en dessous apparaît une fenêtre d’aperçu vidéo montrant une femme assise sur un banc. Plus bas se trouve également une zone « Caption / Prompt », dont le texte d’exemple est « A girl in the rain ». À droite, un journal d’exécution affiche des étapes telles que la préparation de la vidéo et la vérification de sa durée. En bas, la zone de sortie présente l’audio et la vidéo générés. Cette figure montre de manière intuitive le processus et le résultat de génération audio à partir de vidéo du modèle PrismAudio, en écho à la présentation du modèle dans le document.

7. DreamOmni2 : édition et génération d’images multimodales fondées sur des instructions

DreamOmni2 est un modèle multimodal d’édition et de génération d’images développé par CUHK JIA Lab. Il a été accepté à la CVPR 2026 en tant qu’article Highlight.

Le modèle est construit sur FLUX.1-Kontext-dev et utilise un modèle vision-langage Qwen2.5-VL-7B affiné pour traiter les instructions. Il prend en charge les prompts en langage naturel associés à des images de référence, ce qui le rend adapté à des tâches telles que le remplacement d’objets, le transfert de style, l’imitation de pose et la génération guidée par des concepts.

L’image montre des exemples d’édition et de génération du modèle DreamOmni2. En haut à gauche se trouve l’image originale d’une scène de rue, et à droite une photo de personne ; en bas figure le résultat de l’édition, où la personne se tient dans la scène de rue, avec une intégration naturelle entre l’arrière-plan et le personnage. L’image est étroitement liée au contexte et montre de manière intuitive que DreamOmni2 prend en charge les prompts en langage naturel et les images de référence, permettant des tâches telles que le remplacement d’objets, le transfert de style et l’imitation de pose, et qu’il convient à l’édition et à la génération d’images pilotées par des instructions multimodales.

8. PixelRefer : compréhension fine des objets pour les images et les vidéos

PixelRefer est un cadre unifié de compréhension d’objets dans les images et les vidéos développé par Alibaba DAMO Academy. Il se concentre sur une compréhension fine centrée sur les objets, plutôt que sur la simple description d’une scène entière.

Le cadre prend en charge le pointage au niveau des régions, le captioning et la réponse aux questions. Il introduit également un tokenizer d’objets adaptatif à l’échelle, ainsi qu’une variante plus légère, PixelRefer-Lite, afin de rendre la représentation des objets plus compacte et plus efficace.

L’image présente l’interface de démonstration du modèle PixelRefer. Le titre en haut est « Spatial-temporal object referring with arbitrary granularity ». L’écran montre une image de paysage urbain comprenant le pont de Brooklyn, des gratte-ciel, etc. En dessous se trouvent les onglets « Image » et « Video », avec « Image » actuellement sélectionné. En bas de l’interface figurent un bouton « Generate Caption » ainsi qu’une zone « Model Status ». Cette image est liée au modèle PixelRefer présenté dans le document et montre de manière intuitive son application à la compréhension d’images, avec la prise en charge de fonctions telles que le pointage au niveau des régions, la description et la réponse aux questions.

9. Unlimited-OCR : OCR et analyse de mise en page de longs documents en une seule passe

Unlimited-OCR est un projet d’OCR et d’analyse de mise en page de documents publié par Baidu en 2026. Il est conçu pour l’analyse de longs documents, et non uniquement pour la reconnaissance de pages isolées.

Le projet peut traiter des images de documents uniques, des images multipages et des pages converties à partir de PDF. Il est particulièrement utile pour les articles scientifiques, les rapports, les documents numérisés, les longs tableaux et les documents structurés multipages.

L’image présente l’interface du projet Unlimited-OCR publié par Baidu en 2026. À gauche se trouve la zone de téléversement de documents, avec l’indication « Drop your document here » ou « or click anywhere to browse », ainsi que les options « PDF », « image » et « text ». À droite se trouve la zone d’affichage de sortie OCR, avec les indications « OCR output will appear here » et « Use a document size greater than 1MB ». Cette image est étroitement liée au contexte et montre de manière intuitive l’interface de traitement de documents du projet Unlimited-OCR, indiquant qu’il peut traiter des images de documents uniques, des images multipages et des pages converties à partir de PDF, et qu’il est particulièrement adapté aux articles scientifiques, rapports et autres documents.

10. EdgeTAM : segmentation d’images et de vidéos pilotable par prompts pour appareils en périphérie

EdgeTAM est un modèle embarqué Track Anything développé par Meta Reality Labs et NTU S-Lab. Il est conçu pour les appareils aux ressources limitées tout en conservant la capacité de segmentation interactive des modèles de type SAM.

Le modèle réduit le goulot d’étranglement de l’attention mémoire de SAM 2 grâce à un Perceiver spatial 2D et à un pipeline de distillation. En pratique, cela signifie qu’il peut prendre en charge une segmentation pilotable par prompts.

la segmentation et le suivi d’objets vidéo plus efficacement sur du matériel en périphérie.

L’image montre l’interface de démonstration du modèle EdgeTAM, avec le titre « EdgeTAM: On-Device Track Anything Model ». À gauche se trouve la section d’entrée, avec un bouton « Choose Image » en haut et, en dessous, l’image « 16943930.png », qui contient un motif bleu en forme de symbole infini. À droite se trouve la section des résultats, affichant l’effet de segmentation du motif infini, avec des options de premier plan (inclure) et d’arrière-plan (exclure). En dessous figurent des informations telles que « Score: 0.6992 | Mask area: 5774 pixels », ainsi que les boutons « Reset All Points » et « Undo Last Point ». L’image présente de manière intuitive l’effet d’application du modèle EdgeTAM à la segmentation d’images.

11. Step-Audio-EditX : clonage vocal zero-shot et édition audio expressive

Step-Audio-EditX est un modèle d’édition audio de StepFun. Il combine un modèle audio basé sur un LLM de 3 milliards de paramètres avec l’apprentissage par renforcement afin de prendre en charge le clonage vocal zero-shot et l’édition audio expressive.

Le modèle peut gérer le mandarin, l’anglais, le sichuanais, le cantonais, le japonais et le coréen. Il est conçu pour des tâches telles que le contrôle des émotions, l’édition du style de parole, l’édition paralinguistique et l’amélioration audio itérative.

L’image montre l’interface du modèle Step-Audio-EditX, utilisée pour le clonage vocal zero-shot et l’édition audio expressive. L’interface est divisée en deux onglets, « Voice Cloning » et « Audio Editing », l’onglet « Voice Cloning » étant actuellement sélectionné. À gauche se trouve un champ d’entrée « Input Audio (Reference Voice) », puis une zone « Target Text (Text to Synthesize) » avec l’exemple de texte « Hi, the weather is good today. », et un bouton « CLONE » en bas. À droite se trouve la zone « Cloned Audio Output », qui affiche la forme d’onde de l’audio cloné et une barre de progression ; en bas, un message indique « Clone completed. Output duration: 4.2s ». L’image présente de manière intuitive l’interface d’utilisation du modèle et son résultat.

12. Nemotron 3.5 ASR Streaming 0.6B : reconnaissance vocale en streaming légère

Nemotron 3.5 ASR Streaming 0.6B est un modèle de reconnaissance automatique de la parole développé par NVIDIA. Il est conçu pour la transcription en streaming à faible latence et utilise une architecture FastConformer-RNNT sensible au cache.

Le principe clé de sa conception est la réutilisation du contexte. Lors de l’inférence en streaming, le modèle réutilise le contexte de l’encodeur au lieu de recalculer les segments audio qui se chevauchent, ce qui permet de réduire les calculs redondants et d’améliorer les performances en temps réel.

L’image montre l’interface du modèle de reconnaissance automatique de la parole Nemotron 3.5 ASR Streaming 0.6B. En haut, un message invite à téléverser ou enregistrer un court extrait vocal pour une démonstration sur CPU. Au centre se trouve un graphique de forme d’onde audio. En dessous, un menu de sélection de la langue cible est affiché, avec en-US actuellement sélectionné, ainsi qu’un champ de taille du contexte d’attention indiquant 56.13. En bas, une zone orange contient le bouton « Transcribe », puis une zone de texte de transcription affichant un passage décrivant une route de campagne et une salle de classe. L’image est liée au modèle Nemotron 3.5 ASR Streaming 0.6B présenté dans le contexte et montre de manière intuitive son interface et sa fonction de transcription.

Entrées encyclopédiques populaires

HyperAI a également mis en avant cinq entrées populaires de son encyclopédie de l’IA cette semaine :

  1. Grand modèle de langage (LLM)
  2. Modèle d’action du monde (WAM)
  3. Moyenne harmonique
  4. Criblage virtuel
  5. Apprentissage par renforcement à partir de retours d’IA (RLAIF)

Le wiki de HyperAI rassemble des centaines de concepts et d’explications liés à l’IA. Il est utile aux lecteurs qui souhaitent comprendre rapidement des termes apparaissant souvent dans les articles scientifiques, les tutoriels et la documentation des modèles.

Dates limites des conférences IA en juillet

La mise à jour originale répertorie également plusieurs dates limites de conférences en IA et en informatique en juillet. Toutes les heures limites sont indiquées en heure AoE.

Date Heure Conférence
09 juillet 23:59:59 POPL 2027
10 juillet 23:59:59 ICSE 2027
17 juillet 23:59:59 SIGMOD 2027
28 juillet 23:59:59 AAAI 2027

À propos de HyperAI

HyperAI est une communauté dédiée à l’intelligence artificielle et au calcul haute performance. Son site web fournit des ressources publiques aux développeurs, chercheurs et apprenants en IA.

Selon la source originale, HyperAI a déjà rassemblé ou pris en charge :

  • plus de 2 100 jeux de données publics avec des nœuds d’accélération nationaux
  • plus de 700 tutoriels en ligne classiques et populaires
  • plus de 300 études de cas d’articles AI4Science
  • plus de 700 entrées encyclopédiques liées à l’IA
  • un miroir complet de la documentation chinoise d’Apache TVM

FAQ

Qu’est-ce qu’Irodori-TTS-500M-v3 ?

Irodori-TTS-500M-v3 est un modèle ouvert de synthèse vocale japonaise basé sur une architecture RF-DiT. Il prend en charge la génération de parole en japonais, le clonage vocal zero-shot avec une courte référence et le contrôle du style au moyen d’émojis.

Irodori-TTS peut-il cloner une voix sans ajustement fin ?

Oui. La mise à jour originale décrit Irodori-TTS comme prenant en charge le clonage vocal zero-shot à partir d’un court extrait audio de référence, généralement d’environ 3 à 10 secondes. Le résultat dépend toutefois de la qualité et de la clarté de l’audio de référence.

À quoi sert SAM-Audio ?

SAM-Audio sert à la séparation de sources audio guidée par des prompts. Les utilisateurs peuvent décrire le son qu’ils souhaitent extraire, fournir des indices visuels ou spécifier une plage temporelle afin d’isoler un son cible dans un enregistrement mixte.

Quelle est la différence entre le matting vidéo et la segmentation vidéo ?

La segmentation vidéo sépare généralement les objets en régions ou en masques, tandis que le matting vidéo estime un cache alpha plus détaillé. Le matting est particulièrement important pour une extraction propre du premier plan, les détails des cheveux, les bords semi-transparents et la composition.

Que génère PrismAudio ?

PrismAudio génère de l’audio pour la vidéo. Il cherche à aligner le son généré avec le contenu sémantique de la vidéo, son rythme, son ressenti esthétique et ses indices spatiaux.

Pourquoi Unlimited-OCR est-il utile pour les documents longs ?

Unlimited-OCR est conçu pour l’analyse à long horizon, et pas seulement pour l’OCR de pages isolées. Il peut être utile pour traiter des articles, rapports, fichiers numérisés, longs tableaux ou images dérivées de PDF multipages.

Nemotron 3.5 ASR Streaming 0.6B convient-il à la transcription vocale en temps réel ?

Oui, il est conçu pour la transcription vocale à faible latence.

ASR en streaming. Son architecture FastConformer-RNNT sensible au cache réutilise le contexte lors de l’inférence en streaming, ce qui contribue à réduire les calculs redondants.

Outils associés

  • Irodori-TTS : TTS japonais open source avec clonage vocal à partir d’un audio de référence et contrôle du style.
  • Irodori-TTS-500M-v3 sur Hugging Face : page du modèle pour le point de contrôle TTS japonais 500M v3.
  • SAM-Audio : dépôt de Meta pour l’inférence et les exemples de Segment Anything in Audio.
  • MatAnyone 2 : page du projet du framework de détourage vidéo MatAnyone 2.
  • InSpatio-World : page du projet de simulation interactive en temps réel de mondes 4D.
  • DiaMoE-TTS : dépôt GitHub pour la synthèse vocale multidialectale basée sur l’API.
  • PrismAudio : page du projet de génération audio à partir de vidéo avec CoT décomposé et récompenses multidimensionnelles.
  • DreamOmni2 : projet open source multimodal d’édition et de génération d’images à partir d’instructions.
  • PixelRefer : framework de l’Alibaba DAMO Academy pour la compréhension fine des objets dans les images et les vidéos.
  • Unlimited-OCR : projet de Baidu pour l’OCR à long contexte et l’analyse de documents.
  • EdgeTAM : modèle embarqué de Meta pour le suivi universel d’objets et la segmentation d’images et de vidéos guidée par invite.
  • Step-Audio-EditX : modèle de StepFun pour le clonage vocal zero-shot et l’édition audio expressive.
  • Nemotron 3.5 ASR Streaming 0.6B : page du modèle Hugging Face de NVIDIA pour l’ASR en streaming à faible latence.

Liens associés

Résumé

Cette mise à jour hebdomadaire rassemble un ensemble utile de nouvelles démos IA et de ressources de modèles, en particulier autour de la génération audio, de la reconnaissance vocale, du traitement vidéo, de la compréhension d’images et de l’OCR de documents longs.

Les entrées les plus pratiques sont Irodori-TTS pour la génération de voix japonaise, SAM-Audio pour la séparation sonore basée sur des invites, MatAnyone 2 pour un détourage vidéo propre, Unlimited-OCR pour les documents longs, et Nemotron 3.5 ASR pour la reconnaissance vocale en streaming.

Dans l’ensemble, cette sélection est utile aux lecteurs qui souhaitent découvrir rapidement quels nouveaux modèles d’IA valent la peine d’être testés, ce que chacun fait et où les essayer.