Еженедельное обновление AI-моделей HyperAI: Irodori-TTS, SAM-Audio, MatAnyone 2, PrismAudio и многое другое

В этом еженедельном обновлении собрана полезная подборка новых AI-демо и ресурсов моделей, особенно в областях генерации аудио, распознавания речи, обработки видео, понимания изображений и OCR для длинных документов. Наиболее практичные позиции — Irodori-TTS для генерации японской речи, SAM-Audio для разделения звуков по подсказкам, MatAnyone 2 для качественного видеоматтинга, Unlimited-OCR для длинных документов и Nemotron 3.5 ASR для потокового распознавания речи. **В целом эта подборка полезна для читателей, которые хотят быстро понять, какие новые AI-модели стоит протестировать, что делает каждая из них и где их можно попробовать.**

发布于 2026年7月5日generalGEO 评分: 06 次阅读
Irodori-TTSSAM-AudioMatAnyone 2PrismAudioруководства HyperAIяпонский TTSуправление стилем эмодзиразделение аудиоисточниковвидеоматтинггенерация аудио по видеоUnlimited-OCREdgeTAMStep-Audio-EditXNemotron 3.5 ASRобзор моделей ИИинструменты генеративного ИИ
На изображении показана фирменная графика HyperAI: фон выполнен в тёмных тонах, слева размещена белая надпись «HyperAI», под ней — текст «Intelligence at Hyper Speed.». Справа находится объёмная буква «H» с градиентом от оранжевого к синему, окружённая светящимися кольцами оранжевого и сине-фиолетового цвета, создающими технологичный эффект сияния. Это обложка статьи «HyperAI Weekly AI Model Update», соответствующая упомянутому в документе технологичному формату 16:9 и теме обновлений AI-моделей.

Еженедельное обновление AI-моделей HyperAI: Irodori-TTS, SAM-Audio, MatAnyone 2, PrismAudio и другие

Введение

Еженедельное обновление HyperAI на этой неделе посвящено сильной подборке моделей для аудио, видео, понимания изображений, OCR и распознавания речи. Главный проект выпуска — Irodori-TTS-500M-v3, открытая японская модель преобразования текста в речь, объединяющая высококачественную генерацию речи с частотой 48 кГц, zero-shot-клонирование голоса и тонкое управление стилем с помощью эмодзи-аннотаций.

В обновление также вошли инструменты для разделения аудио по промптам, видеоматтинга, 4D-симуляции мира, генерации аудио по видео, OCR документов, сегментации на устройстве, выразительного редактирования аудио и потокового ASR с низкой задержкой. Ниже представлена очищенная, готовая к публикации версия исходного еженедельного обзора, в которой полезные скриншоты сохранены в исходном контексте.

Примечание об источнике

Эта статья основана на еженедельном обновлении BAAI Hub / HyperAI, опубликованном на На исходной странице указано, что материал взят из WeChat, а изображения могут быть удалены при наличии вопросов, связанных с авторскими правами.

QR-коды, рекламные постеры, изображения с приглашениями в группы и нерелевантные рекомендательные баннеры были намеренно удалены. Ссылки на изображения DiaMoE-TTS и DreamOmni2 сохранены в исходных местах, но во время проверки запросы предпросмотра завершились по тайм-ауту, поэтому они отмечены здесь, а не рассматриваются как полностью проверенные скриншоты.

Обзор еженедельного обновления HyperAI

С 27 июня по 3 июля HyperAI обновила несколько публичных ресурсов на своем официальном сайте:

  • 12 отобранных публичных руководств
  • 5 популярных статей AI-энциклопедии
  • 4 дедлайна AI-конференций в июле

Главная тема этой недели — практические эксперименты. Большинство материалов представляют собой не просто описания статей: они предоставляют онлайн-демо или исполняемые ноутбуки, чтобы пользователи могли быстро протестировать поведение моделей.

Отобранные публичные руководства

1. Irodori-TTS-500M-v3: японский TTS с управлением стилем через эмодзи

Irodori-TTS — это открытый проект преобразования японского текста в речь, выпущенный разработчиком Aratako в 2026 году. Представленная модель, Irodori-TTS-500M-v3, предназначена для синтеза японской речи, zero-shot-клонирования голоса и управления голосовым стилем с помощью эмодзи.

Модель построена на архитектуре Rectified Flow Diffusion Transformer (RF-DiT) и генерирует речь в непрерывном латентном пространстве DACVAE. В практическом применении наиболее интересный момент заключается в том, что она может клонировать целевой голос всего по короткому референсному фрагменту, обычно длительностью около 3–10 секунд, без дополнительного дообучения.

Она также поддерживает управление стилем через эмодзи-аннотации. Это делает модель более гибкой, чем базовая TTS-система: пользователи могут более легким способом задавать тон, эмоции, темп и тонкие невербальные проявления.

На изображении показан интерфейс Irodori-TTS-500M-v3 для преобразования японского текста в речь с поддержкой управления стилем через эмодзи. Слева находятся три вкладки: “Basic TTS”, “Voice Cloning” и “Emoji Guide”; сейчас выбрана вкладка “Basic TTS”. В поле ввода ниже отображается японский текст “こんにちは、今日はいい天気ですね。” Справа показана форма волны выбранного аудио, ниже расположена кнопка “Generate Speech”. Изображение соответствует описанию модели Irodori-TTS-500M-v3, поддерживающей управление стилем с помощью эмодзи, и наглядно демонстрирует практический интерфейс работы модели.

2. MatAnyone 2: видеоматтинг для извлечения переднего плана

MatAnyone 2 — модель видеоматтинга, выпущенная NTU S-Lab и SenseTime. Она предназначена для извлечения переднего плана с человеком и генерации альфа-масок из видео.

Модель повышает стабильность за счет обученного оценщика качества. Это помогает уменьшить артефакты на границах и сохранить такие детали, как волосы, полупрозрачные края и контуры переднего плана. Она также полезна, когда пользователю нужно изолировать конкретного человека в видео с несколькими людьми.

На этом изображении показан демонстрационный интерфейс MatAnyone 2 — AI-модели для извлечения переднего плана из видео. В верхней части интерфейса указано название модели “MatAnyone 2: Video Matting” и описана ее функция — извлечение переднего плана из видео. Слева находится панель управления с параметрами загрузки видео и настройки, ниже отображается статус обработки; справа показаны исходный входной видеокадр и результат, сгенерированный моделью в виде маски переднего плана. Маска четко очерчивает целевую область переднего плана и наглядно демонстрирует эффект видеовырезания этой модели.

Онлайн-демо:

3. InSpatio-World: 4D-симуляция мира в реальном времени

InSpatio-World — это 4D-симулятор мира в реальном времени, выпущенный командой InSpatio в 2026 году. Он может принимать входное видео и заданную траекторию камеры, а затем генерировать стабильное видео с новым ракурсом.

Основная идея — сделать видеосцены более управляемыми. Вместо пассивного просмотра фиксированного ракурса пользователи могут задавать движение камеры и исследовать сцену с новых точек обзора, сохраняя временную согласованность.

Изображение демонстрирует интерфейс и результаты работы 4D-симулятора мира в реальном времени InSpatio-World. Слева расположена область ввода для загрузки видео и выбора траектории камеры, ниже находится кнопка “Generate novel view”. Справа представлены видеоэффекты, сгенерированные симулятором: сцена с кофейной чашкой, хлебом и другими предметами под разными углами. Это демонстрирует способность модели генерировать стабильное и управляемое видео с новым ракурсом, что соответствует описанной в контексте функции InSpatio-World — создавать стабильное видео с новой точкой обзора на основе входного видео и заданной траектории камеры.

4. DiaMoE-TTS: многодиалектный синтез речи на основе IPA

DiaMoE-TTS — это фреймворк многодиалектного синтеза речи от Giant AI Lab. Он использует Международный фонетический алфавит, или IPA, как единый фронтенд для генерации диалектной речи.

Модель сочетает архитектуру Mixture-of-Experts с методами параметрически эффективной адаптации, такими как LoRA и conditioning adapters. Это позволяет системе быстрее адаптироваться к новым диалектам, даже когда доступно лишь ограниченное количество данных.

![На изображении показан интерфейс DiaMoE-TTS: Multi-Dialect Speech Synthesis.

В верхней части представлено описание IPA-ориентированной архитектуры Mixture-of-Experts и методов параметрически эффективной адаптации, таких как LoRA и условные адаптеры. В центре находится кнопка «Generate Speech», ниже — поле ввода примерного текста с поддержкой 9 китайских диалектов. Справа отображаются waveform сгенерированной речи и речевой референс (диалектная подсказка). Внизу перечислены поддерживаемые диалекты и соответствующие голосовые подсказки, а также указана информация о том, что модель использует KPL-модель для синтеза диалектной речи, время генерации и другие сведения. Изображение связано с описанием модели DiaMoE-TTS в документе и наглядно показывает ее интерфейс и функции.](https://we0-cms.oss-cn-beijing.aliyuncs.com/cms-assets/image/2026/07/094c618c-2830-4af5-9cdc-ca950fe12565-05-c0ba34b2-8a4a-4e6a-9d15-517f152cb52a.png)

5. SAM-Audio: Segment Anything in Audio

SAM-Audio — это базовая модель Meta для разделения аудиоисточников. Она может выделять целевой звук из смешанного аудиосигнала с помощью описаний на естественном языке, визуальных подсказок из видео или выбранного временного интервала.

Например, пользователь может описать звук, который хочет отделить: «говорящий мужчина», «лай собаки», «двигатель автомобиля» или «игра на пианино». Затем модель пытается отделить целевой звук от всех остальных звуков в смеси.

Это изображение представляет собой скриншот интерфейса модели Meta SAM-Audio и соответствует разделу документа «SAM-Audio: Segment Anything in Audio». Интерфейс предназначен для разделения аудиоисточников: слева отображаются волновые формы двух входных аудиодорожек, ниже в поле «Sound Description» введена примерная команда «man speaking», также есть флажок «Enable Span Prediction», а внизу расположена оранжевая кнопка действия «Separate Sound». Справа показана волновая форма обработанного целевого звука, а ниже приведен список категорий примерных описаний, включающий человеческие голоса, звуки животных, музыкальные инструменты и другие типы звуков, подлежащих разделению.

6. PrismAudio: генерация аудио из видео с декомпозированной цепочкой рассуждений и многомерными наградами

PrismAudio — это модель генерации аудио из видео от Tongyi Lab. Она ориентирована на создание звука, который соответствует визуальной сцене, таймингу, атмосфере и пространственному ощущению видео.

Модель вводит декомпозированный процесс планирования Chain-of-Thought. Вместо того чтобы рассматривать генерацию аудио из видео как один единый шаг рассуждения, она разделяет процесс на семантическое, временное, эстетическое и пространственное измерения. Каждому измерению соответствует целевой сигнал награды для обучения с подкреплением.

Изображение показывает интерфейс модели PrismAudio для генерации аудио из видео. Слева находится область ввода с кнопкой «Upload Video», ниже — окно предварительного просмотра видео, в котором женщина сидит на скамейке. Еще ниже находится область «Caption / Prompt» с примерным текстом «A girl in the rain». Справа расположен журнал выполнения, показывающий этапы подготовки видео, проверки длительности и другие шаги. Внизу находится область вывода, где представлены сгенерированные аудио и видео. Изображение наглядно демонстрирует процесс и результат генерации аудио из видео в модели PrismAudio и соответствует описанию этой модели в документе.

7. DreamOmni2: мультимодальное редактирование и генерация изображений на основе инструкций

DreamOmni2 — это мультимодальная модель редактирования и генерации изображений от CUHK JIA Lab. Она была принята на CVPR 2026 в качестве Highlight paper.

Модель построена на базе FLUX.1-Kontext-dev и использует дообученную визуально-языковую модель Qwen2.5-VL-7B для обработки инструкций. Она поддерживает текстовые подсказки на естественном языке вместе с референсными изображениями, что делает ее подходящей для таких задач, как замена объектов, перенос стиля, имитация позы и генерация на основе концептов.

Изображение демонстрирует примеры редактирования и генерации с помощью модели DreamOmni2. В верхней части слева показана исходная сцена улицы, справа — фотография человека; в нижней части показан результат редактирования: человек стоит на улице, при этом фон и фигура человека естественно сочетаются. Изображение тесно связано с контекстом и наглядно показывает, что DreamOmni2 поддерживает подсказки на естественном языке и референсные изображения, позволяя выполнять замену объектов, перенос стиля, имитацию позы и другие задачи, а также подходит для мультимодального редактирования и генерации изображений на основе инструкций.

8. PixelRefer: детальное понимание объектов в изображениях и видео

PixelRefer — это унифицированный фреймворк для понимания объектов в изображениях и видео от Alibaba DAMO Academy. Он сосредоточен на детальном объектно-ориентированном понимании, а не только на описании всей сцены целиком.

Фреймворк поддерживает указание на уровне регионов, создание описаний и ответы на вопросы. Он также вводит масштабно-адаптивный объектный токенизатор и более легкую версию PixelRefer-Lite, чтобы сделать представление объектов более компактным и эффективным.

Изображение показывает демонстрационный интерфейс модели PixelRefer. В верхней части заголовок: «Spatial-temporal object referring with arbitrary granularity». На экране представлено изображение городского пейзажа, на котором видны Бруклинский мост, небоскребы и другие объекты. Ниже находятся вкладки «Image» и «Video», при этом выбрана вкладка «Image». В нижней части интерфейса есть кнопка «Generate Caption» и область «Model Status». Это изображение связано с описанием модели PixelRefer в документе и наглядно демонстрирует ее применение в понимании изображений, включая поддержку указания на уровне регионов, описаний, вопросов и ответов и других функций.

9. Unlimited-OCR: OCR длинных документов за один проход и разбор макета

Unlimited-OCR — это проект OCR и разбора макета документов, выпущенный Baidu в 2026 году. Он предназначен для анализа длинных документов, а не только для распознавания отдельных страниц.

Проект может обрабатывать отдельные изображения документов, многостраничные изображения и страницы, преобразованные из PDF. Он особенно полезен для научных статей, отчетов, отсканированных документов, длинных таблиц и многостраничных структурированных материалов.

Изображение показывает интерфейс проекта Unlimited-OCR, выпущенного Baidu в 2026 году. Слева находится область загрузки документов с подсказками «Drop your document here» или «or click anywhere to browse», а также варианты «PDF», «image», «text». Справа расположена область вывода OCR с подсказками «OCR output will appear here» и «Use a document size greater than 1MB». Изображение тесно связано с контекстом и наглядно демонстрирует интерфейс обработки документов в проекте Unlimited-OCR, показывая, что он может обрабатывать отдельные изображения документов, многостраничные изображения и страницы, преобразованные из PDF, и особенно подходит для научных статей, отчетов и других материалов.

10. EdgeTAM: сегментация изображений и видео с подсказками для периферийных устройств

EdgeTAM — это локальная модель Track Anything Model, разработанная Meta Reality Labs и NTU S-Lab. Она предназначена для устройств с ограниченными ресурсами, сохраняя при этом интерактивные возможности сегментации моделей в стиле SAM.

Модель уменьшает узкое место, связанное с attention-памятью в SAM 2, с помощью 2D Spatial Perceiver и конвейера дистилляции. На практике это означает, что она может поддерживать сегментацию с подсказками

сегментацию и отслеживание видеообъектов более эффективно на периферийном оборудовании.

Изображение демонстрирует интерфейс модели EdgeTAM с заголовком «EdgeTAM: On-Device Track Anything Model». Слева находится область ввода: сверху кнопка «Choose Image», ниже показано изображение «16943930.png» с синим символом бесконечности. Справа находится область результатов, где показан результат сегментации символа бесконечности; доступны варианты переднего плана (включить) и фона (исключить). Ниже отображается информация вроде «Score: 0.6992 | Mask area: 5774 pixels», а также кнопки «Reset All Points» и «Undo Last Point». Изображение наглядно демонстрирует применение модели EdgeTAM для сегментации изображений.

11. Step-Audio-EditX: клонирование голоса без обучения на примерах и выразительное редактирование аудио

Step-Audio-EditX — это модель для редактирования аудио от StepFun. Она объединяет аудиомодель на базе LLM с 3 млрд параметров и обучение с подкреплением, поддерживая клонирование голоса в режиме zero-shot и выразительное редактирование аудио.

Модель работает с мандаринским китайским, английским, сычуаньским диалектом, кантонским, японским и корейским языками. Она предназначена для таких задач, как управление эмоциями, редактирование манеры речи, редактирование паралингвистических характеристик и итеративное улучшение аудио.

Изображение демонстрирует интерфейс модели Step-Audio-EditX для zero-shot-клонирования голоса и выразительного редактирования аудио. Интерфейс разделён на две вкладки: «Voice Cloning» и «Audio Editing»; выбрана вкладка «Voice Cloning». Слева находится поле «Input Audio (Reference Voice)», ниже — область ввода «Target Text (Text to Synthesize)» с примером текста «Hi, the weather is good today.», внизу расположена кнопка «CLONE». Справа находится область «Cloned Audio Output», где показаны волновая форма клонированного аудио и индикатор прогресса; внизу отображается сообщение «Clone completed. Output duration: 4.2s». Изображение наглядно показывает интерфейс работы модели и результат.

12. Nemotron 3.5 ASR Streaming 0.6B: лёгкое потоковое распознавание речи

Nemotron 3.5 ASR Streaming 0.6B — это модель автоматического распознавания речи от NVIDIA. Она создана для потоковой транскрибации с низкой задержкой и использует архитектуру FastConformer-RNNT с учётом кэширования.

Ключевая идея конструкции — повторное использование контекста. Во время потокового инференса модель повторно использует контекст энкодера вместо повторного вычисления перекрывающихся аудиофрагментов, что помогает снизить избыточные вычисления и улучшить производительность в реальном времени.

Изображение демонстрирует интерфейс модели автоматического распознавания речи Nemotron 3.5 ASR Streaming 0.6B. Вверху предлагается загрузить или записать короткий аудиофрагмент для демонстрации на CPU. В центре показана аудиоволна, ниже находится выпадающий список выбора целевого языка, где выбран en-US, а также поле размера контекста внимания со значением 56.13. Внизу расположена оранжевая кнопка «Transcribe», под ней — область транскрибированного текста с описанием сельской дороги и школьного класса. Изображение связано с представленной в тексте моделью Nemotron 3.5 ASR Streaming 0.6B и наглядно показывает её интерфейс и функцию транскрибации.

Популярные статьи энциклопедии

На этой неделе HyperAI также выделила пять популярных статей AI-энциклопедии:

  1. Большая языковая модель (LLM)
  2. Модель действий мира (WAM)
  3. Среднее гармоническое
  4. Виртуальный скрининг
  5. Обучение с подкреплением на основе обратной связи от ИИ (RLAIF)

Вики HyperAI собирает сотни понятий и объяснений, связанных с ИИ. Она полезна читателям, которым нужен быстрый способ разобраться в терминах, часто встречающихся в научных статьях, руководствах и документации моделей.

Дедлайны AI-конференций в июле

В оригинальном обновлении также перечислены дедлайны нескольких конференций по ИИ и компьютерным наукам в июле. Все сроки указаны по времени AoE.

Дата Время Конференция
09 июля 23:59:59 POPL 2027
10 июля 23:59:59 ICSE 2027
17 июля 23:59:59 SIGMOD 2027
28 июля 23:59:59 AAAI 2027

О HyperAI

HyperAI — это сообщество в области искусственного интеллекта и высокопроизводительных вычислений. Его сайт предоставляет открытые ресурсы для разработчиков, исследователей и изучающих ИИ.

Согласно исходному источнику, HyperAI уже собрала или поддерживает:

  • 2 100+ открытых наборов данных с внутренними узлами ускоренного доступа
  • 700+ классических и популярных онлайн-руководств
  • 300+ кейс-стади по статьям AI4Science
  • 700+ энциклопедических статей, связанных с ИИ
  • Полное китайское зеркало документации Apache TVM

FAQ

Что такое Irodori-TTS-500M-v3?

Irodori-TTS-500M-v3 — это открытая японская модель преобразования текста в речь на основе архитектуры RF-DiT. Она поддерживает генерацию японской речи, zero-shot-клонирование голоса по короткому референсу и управление стилем с помощью эмодзи.

Может ли Irodori-TTS клонировать голос без дообучения?

Да. В оригинальном обновлении указано, что Irodori-TTS поддерживает zero-shot-клонирование голоса по короткому референсному аудиофрагменту, обычно длительностью около 3–10 секунд. При этом результат всё равно зависит от качества и чёткости референсного аудио.

Для чего используется SAM-Audio?

SAM-Audio используется для разделения аудиоисточников на основе промптов. Пользователи могут описать звук, который хотят извлечь, предоставить визуальные подсказки или указать временной диапазон, чтобы изолировать целевой звук из смешанной записи.

В чём разница между видеоматтингом и видеосегментацией?

Видеосегментация обычно разделяет объекты на области или маски, тогда как видеоматтинг оценивает более детализированную альфа-маску. Маттинг особенно важен для чистого извлечения переднего плана, детализации волос, полупрозрачных краёв и композитинга.

Что генерирует PrismAudio?

PrismAudio генерирует аудио для видео. Она стремится согласовать сгенерированный звук с семантическим содержанием видео, таймингом, эстетическим ощущением и пространственными подсказками.

Почему Unlimited-OCR полезна для длинных документов?

Unlimited-OCR разработана для долгосрочного парсинга, а не только для изолированного OCR отдельных страниц. Она может быть полезна при работе со статьями, отчётами, сканированными файлами, длинными таблицами или изображениями, полученными из многостраничных PDF.

Подходит ли Nemotron 3.5 ASR Streaming 0.6B для транскрибации речи в реальном времени?

Да, она разработана для потоковой транскрибации с низкой задержкой.

потокового ASR. Его архитектура FastConformer-RNNT с учетом кэша повторно использует контекст во время потокового вывода, что помогает снизить избыточные вычисления.

Связанные инструменты

  • Irodori-TTS: open-source японский TTS с клонированием голоса по референсному аудио и управлением стилем.
  • Irodori-TTS-500M-v3 on Hugging Face: страница модели для контрольной точки японского TTS 500M v3.
  • SAM-Audio: репозиторий Meta для инференса и примеров Segment Anything in Audio.
  • MatAnyone 2: страница проекта фреймворка видеоматтинга MatAnyone 2.
  • InSpatio-World: страница проекта для интерактивной 4D-симуляции мира в реальном времени.
  • DiaMoE-TTS: GitHub-репозиторий для синтеза речи на основе IPA с поддержкой нескольких диалектов.
  • PrismAudio: страница проекта по генерации аудио из видео с декомпозированным CoT и многомерными наградами.
  • DreamOmni2: open-source проект для мультимодального редактирования и генерации изображений на основе инструкций.
  • PixelRefer: фреймворк Alibaba DAMO Academy для детального понимания объектов на изображениях и видео.
  • Unlimited-OCR: проект Baidu для OCR на длинном горизонте и парсинга документов.
  • EdgeTAM: модель Meta для отслеживания любых объектов на устройстве с поддержкой подсказок для сегментации изображений и видео.
  • Step-Audio-EditX: модель StepFun для zero-shot клонирования голоса и выразительного редактирования аудио.
  • Nemotron 3.5 ASR Streaming 0.6B: страница модели NVIDIA на Hugging Face для потокового ASR с низкой задержкой.

Связанные ссылки

  • Original BAAI Hub Article: исходная статья для этого еженедельного обновления HyperAI.
  • HyperAI Official Website: основной портал с руководствами, статьями, датасетами и AI-ресурсами HyperAI.
  • HyperAI Wiki: портал AI-энциклопедии, охватывающий распространенные понятия и исследовательские термины.
  • HyperAI Conference Tracker: трекер дедлайнов конференций по AI и компьютерным наукам.
  • Meta SAM-Audio Research Page: официальная исследовательская страница Segment Anything Model Audio.
  • SAM-Audio Paper on arXiv: исследовательская статья, описывающая фундаментальную модель SAM-Audio.
  • MatAnyone 2 Paper on arXiv: статья о MatAnyone 2 и ее обученном оценщике качества маттинга.
  • Unlimited-OCR Paper on arXiv: технический отчет об Unlimited OCR и парсинге на длинном горизонте.

Резюме

Это еженедельное обновление объединяет полезную подборку новых AI-демо и ресурсов моделей, особенно в областях генерации аудио, распознавания речи, обработки видео, понимания изображений и OCR для длинных документов.

Самые практичные позиции — Irodori-TTS для генерации японской речи, SAM-Audio для разделения звуков на основе подсказок, MatAnyone 2 для качественного видеоматтинга, Unlimited-OCR для длинных документов и Nemotron 3.5 ASR для потокового распознавания речи.

В целом эта подборка полезна для читателей, которые хотят быстро понять, какие новые AI-модели стоит протестировать, что делает каждая из них и где их можно попробовать.