HyperAI週間AIモデルアップデート：Irodori-TTS、SAM-Audio、MatAnyone 2、PrismAudioほか

今週のアップデートでは、音声生成、音声認識、動画処理、画像理解、長文書OCRを中心に、新しいAIデモとモデルリソースを実用的にまとめています。特に実用性が高い項目は、日本語音声生成向けのIrodori-TTS、プロンプトベースの音分離に対応するSAM-Audio、きれいな動画マッティングを実現するMatAnyone 2、長文書向けのUnlimited-OCR、ストリーミング音声認識向けのNemotron 3.5 ASRです。 **全体として、このまとめは、試す価値のある新しいAIモデル、それぞれの機能、そして試用できる場所をすばやく把握したい読者に役立ちます。**

发布于 2026年7月5日•general•GEO 评分: 0•1 次阅读

Irodori-TTSSAM-AudioMatAnyone 2PrismAudioHyperAIチュートリアル日本語TTS絵文字スタイル制御音源分離動画マッティング動画から音声生成Unlimited-OCREdgeTAMStep-Audio-EditXNemotron 3.5 ASRAIモデルまとめ生成AIツール

选择语言

العربية Deutsch English Español Français Italiano 日本語 한국어 Português Русский 中文

この画像はHyperAIのブランドロゴ画像です。背景は暗色で、左側に白い「HyperAI」の文字があり、その下に「Intelligence at Hyper Speed.」というテキストが添えられています。右側にはオレンジから青へグラデーションする立体的な文字「H」があり、その周囲をオレンジ色と青紫色の発光リングが取り囲み、テクノロジー感のある光のにじみ効果が表現されています。この画像は記事「HyperAI Weekly AI Model Update」のカバー画像であり、文書内で言及されている16:9のテクノロジー風カバーや、AIモデルアップデートを中心とした内容テーマに合っています。

HyperAI 週間 AI モデルアップデート：Irodori-TTS、SAM-Audio、MatAnyone 2、PrismAudio ほか

はじめに

今週の HyperAI アップデートでは、音声、動画、画像理解、OCR、音声認識モデルを幅広く取り上げます。注目プロジェクトは Irodori-TTS-500M-v3 です。これは、高音質な 48 kHz 音声生成、ゼロショット音声クローニング、絵文字アノテーションによるきめ細かなスタイル制御を組み合わせた、オープンな日本語テキスト読み上げモデルです。

今回のアップデートには、プロンプトベースの音声分離、動画マッティング、4D ワールドシミュレーション、動画から音声への生成、文書 OCR、オンデバイスセグメンテーション、表現豊かな音声編集、低遅延ストリーミング ASR などのツールも含まれています。以下は、元の週間まとめを整理し、公開用に整えたバージョンで、有用なスクリーンショットは元の文脈のまま残しています。

ソース注記

この記事は、BAAI Hub / HyperAI が公開した週間アップデートに基づいています。元ページでは、記事の出典が WeChat であること、また著作権上の懸念がある場合は画像を削除できることが明記されています。

QR コード、プロモーションポスター、グループ招待画像、無関係な推薦バナーは意図的に削除しました。DiaMoE-TTS と DreamOmni2 の画像リンクは元の位置に保持していますが、確認時にプレビューリクエストがタイムアウトしたため、完全に検証済みのスクリーンショットとしてではなく、その旨をここに記載しています。

週間 HyperAI アップデート概要

6 月 27 日から 7 月 3 日にかけて、HyperAI は公式サイト上で複数の公開リソースを更新しました。

厳選公開チュートリアル 12 件
人気 AI 百科事典エントリ 5 件
7 月の AI カンファレンス締切 4 件

今週の主なテーマは実践的な実験です。ほとんどの項目は単なる論文紹介ではなく、オンラインデモや実行可能なノートブックを提供しており、ユーザーがモデルの挙動を素早く試せるようになっています。

厳選公開チュートリアル

1. Irodori-TTS-500M-v3：絵文字スタイル制御に対応した日本語 TTS

Irodori-TTS は、開発者 Aratako によって 2026 年に公開されたオープンソースの日本語テキスト読み上げプロジェクトです。今回取り上げるモデル Irodori-TTS-500M-v3 は、日本語音声合成、ゼロショット音声クローニング、絵文字による音声スタイル制御向けに設計されています。

このモデルは Rectified Flow Diffusion Transformer（RF-DiT） アーキテクチャを中心に構築されており、連続的な DACVAE 潜在空間で音声を生成します。実用面で最も興味深い点は、通常 3〜10 秒程度の短い参照クリップだけで、追加のファインチューニングなしにターゲット音声をクローンできることです。

また、絵文字アノテーションによるスタイル制御にも対応しています。これにより、基本的な TTS システムよりも柔軟性が高まり、ユーザーはトーン、感情、テンポ、微妙な非言語表現をより軽量な方法で誘導できます。

画像は、日本語テキスト読み上げに使用される Irodori-TTS-500M-v3 のインターフェースを示しており、絵文字によるスタイル制御に対応している。左側には「Basic TTS」「Voice Cloning」「Emoji Guide」の 3 つのタブがあり、現在は「Basic TTS」が選択されている。下部の入力欄には日本語テキスト「こんにちは、今日はいい天気ですね。」が表示され、右側には選択された音声の波形が表示されている。下部には「Generate Speech」ボタンがある。この図は、Irodori-TTS-500M-v3 モデルが絵文字によるスタイル制御に対応しているという上記の説明と対応しており、モデルの実際の操作画面を直感的に示している。

2. MatAnyone 2：前景抽出のための動画マッティング

MatAnyone 2 は、NTU S-Lab と SenseTime によって公開された動画マッティングモデルです。動画から人物の前景を抽出し、アルファマットを生成するために構築されています。

このモデルは、学習済みの品質評価器を用いることで安定性を向上させています。これにより、境界部分のアーティファクトを減らし、髪の毛、半透明のエッジ、前景の輪郭といった細部を保持しやすくなります。また、複数人が映る動画の中から特定の人物を分離したい場合にも有用です。

この画像は、動画の前景抽出に用いられる AI モデル MatAnyone 2 のデモ操作画面を示している。画面上部にはモデル名「MatAnyone 2: Video Matting」が表示され、動画から前景を抽出する機能であることが説明されている。左側は操作パネルで、動画アップロードやパラメータ調整のオプションがあり、下部には処理ステータスの表示もある。右側には、元の入力動画フレームと、モデル処理後に生成された前景マスク出力が対応して表示されている。マスクは対象となる前景領域を明確に輪郭づけており、このモデルの動画切り抜き効果を直感的に示している。

オンラインデモ：

3. InSpatio-World：リアルタイム 4D ワールドシミュレーション

InSpatio-World は、InSpatio チームが 2026 年に公開したリアルタイム 4D ワールドシミュレーターです。入力動画と指定されたカメラ軌道を受け取り、安定した新視点動画を生成できます。

中核となる考え方は、動画シーンをより制御しやすくすることです。固定されたカメラ視点を受動的に見るのではなく、ユーザーはカメラの動きを定義し、時間的一貫性を保ちながら新しい視点からシーンを探索できます。

画像は、InSpatio-World リアルタイム 4D ワールドシミュレーターのインターフェースと効果を示している。左側には、動画のアップロードとカメラ軌道の選択を行う入力領域があり、下部に「Generate novel view」ボタンがある。右側には、シミュレーターが生成した動画効果が表示されており、コーヒーカップやパンなどの物体が異なる角度から見えるシーンが示されている。これは、安定した制御可能な新視点動画を生成する能力を表しており、InSpatio-World が入力動画と指定されたカメラ軌道から安定した新視点動画を生成できるという本文の説明と一致している。

4. DiaMoE-TTS：IPA ベースの多方言音声合成

DiaMoE-TTS は、Giant AI Lab による多方言音声合成フレームワークです。方言音声生成のための統一フロントエンドとして、国際音声記号、すなわち IPA を使用します。

このモデルは、Mixture-of-Experts 設計と、LoRA や条件付けアダプターなどのパラメータ効率の高い適応手法を組み合わせています。これにより、利用可能なデータが限られている場合でも、システムは新しい方言により迅速に適応できます。

![画像は、DiaMoE-TTS: Multi-Dialect Speech Synthesis のインターフェースを示している。]

上部には、IPAベースのMixture-of-Experts設計と、LoRAや条件付きアダプターのようなパラメータ効率の高い適応手法の紹介があります。中央には「Generate Speech」ボタンがあり、下部にはサンプルテキスト入力欄が配置され、9種類の中国語方言に対応しています。右側には生成された音声波形と音声リファレンス（方言プロンプト）が表示されます。最下部には対応方言と対応するプロンプト音声が一覧表示され、モデルがKPLモデルを用いて方言音声合成を行うことや生成時間などの情報も示されています。この図は、ドキュメントで紹介されているDiaMoE-TTSモデルの内容に関連しており、その操作画面と機能を直感的に示しています。](https://we0-cms.oss-cn-beijing.aliyuncs.com/cms-assets/image/2026/07/094c618c-2830-4af5-9cdc-ca950fe12565-05-c0ba34b2-8a4a-4e6a-9d15-517f152cb52a.png)

5. SAM-Audio: 音声におけるSegment Anything

SAM-Audioは、Metaの音声ソース分離基盤モデルです。自然言語による説明、動画からの視覚的手がかり、または選択された時間範囲を用いて、混合音声信号から対象の音を分離できます。

たとえば、ユーザーは分離したい音を「男性が話している」「犬が吠えている」「車のエンジン」「ピアノ演奏」などと説明できます。するとモデルは、混合音の中から対象音声を他の音から分離しようとします。

この画像は、MetaのSAM-Audioモデルの操作画面のスクリーンショットで、ドキュメント内の「SAM-Audio: Segment Anything in Audio」の内容に対応しています。画面は音声ソース分離を実現するためのもので、左側には2種類の入力音声トラックの波形が設定されており、下部の「Sound Description」入力欄にはサンプル指示として「man speaking」と入力されています。また、「Enable Span Prediction」のチェック項目があり、最下部にはオレンジ色の「Separate Sound」操作ボタンが配置されています。右側には処理後の対象音声の出力波形が表示され、下部にはサンプル説明の分類リストもあり、人の声、動物の声、楽器音など、分離対象となるさまざまなカテゴリの音声例が含まれています。

6. PrismAudio: 分解されたCoTと多次元報酬による動画から音声への生成

PrismAudioは、Tongyi Labによる動画から音声を生成するモデルです。動画の視覚シーン、タイミング、雰囲気、空間的な感覚に合った音声を生成することに重点を置いています。

このモデルは、分解されたChain-of-Thought計画プロセスを導入しています。動画から音声への生成を単一の推論ステップとして扱うのではなく、意味、時間、美的、空間の各次元にプロセスを分離します。各次元には、強化学習のための対象を絞った報酬信号が組み合わされています。

画像は、PrismAudio動画音声生成モデルのインターフェースを示しています。左側は入力エリアで、「Upload Video」ボタンがあり、その下には動画プレビューウィンドウがあり、動画にはベンチに座っている女性が映っています。下部には「Caption / Prompt」エリアもあり、サンプルテキストとして「A girl in the rain」と表示されています。右側には実行ログがあり、動画の準備や長さの確認などの手順が表示されています。最下部は出力エリアで、生成された音声と動画が表示されています。この図は、PrismAudioモデルの動画から音声への生成プロセスと効果を直感的に示しており、ドキュメント内のPrismAudioモデルの紹介と対応しています。

7. DreamOmni2: マルチモーダル指示に基づく画像編集と生成

DreamOmni2は、CUHK JIA Labによるマルチモーダル画像編集・生成モデルです。CVPR 2026にHighlight論文として採択されています。

このモデルはFLUX.1-Kontext-devを基盤として構築され、指示を処理するためにファインチューニングされたQwen2.5-VL-7B視覚言語モデルを使用しています。自然言語プロンプトと参照画像を併用できるため、オブジェクト置換、スタイル変換、ポーズ模倣、コンセプト駆動生成などのタスクに適しています。

画像は、DreamOmni2モデルの編集および生成例を示しています。上部左側には元の街路シーン画像、右側には人物写真があり、下部には編集結果として、人物が街路シーンの中に立っており、背景と人物が自然に融合しています。この画像は文脈と密接に関連しており、DreamOmni2が自然言語プロンプトと参照画像をサポートし、オブジェクト置換、スタイル変換、ポーズ模倣などのタスクを実行できること、そしてマルチモーダル指示駆動の画像編集・生成に適していることを直感的に示しています。

8. PixelRefer: 画像と動画のためのきめ細かなオブジェクト理解

PixelReferは、Alibaba DAMO Academyによる統合型の画像・動画オブジェクト理解フレームワークです。シーン全体を説明するだけでなく、オブジェクト中心のきめ細かな理解に重点を置いています。

このフレームワークは、領域レベルの指示、キャプション生成、質問応答をサポートしています。また、スケール適応型オブジェクトトークナイザーと、より軽量なPixelRefer-Liteバリアントを導入し、オブジェクト表現をよりコンパクトかつ効率的にしています。

画像は、PixelReferモデルのデモ画面を示しています。上部タイトルは「Spatial-temporal object referring with arbitrary granularity」です。画面には都市景観の画像が表示されており、ブルックリン橋や高層ビルなどが写っています。下部には「Image」と「Video」のタブがあり、現在は「Image」が選択されています。画面下部には「Generate Caption」ボタンと「Model Status」エリアがあります。この画像は、ドキュメントで紹介されているPixelReferモデルに関連しており、画像理解における応用を直感的に示し、領域レベルのポインティング、説明生成、質問応答などの機能をサポートしていることを示しています。

9. Unlimited-OCR: ワンショット長文書OCRとレイアウト解析

Unlimited-OCRは、Baiduが2026年に公開したOCRおよび文書レイアウト解析プロジェクトです。単一ページ認識だけでなく、長文書の解析を目的として設計されています。

このプロジェクトは、単一の文書画像、複数ページの画像、PDFから変換されたページを処理できます。論文、レポート、スキャン文書、長い表、複数ページにわたる構造化資料に特に有用です。

画像は、Baiduが2026年に公開したUnlimited-OCRプロジェクトのインターフェースを示しています。左側は文書アップロードエリアで、「Drop your document here」または「or click anywhere to browse」と表示され、「PDF」「image」「text」のオプションがあります。右側はOCR出力表示エリアで、「OCR output will appear here」および「Use a document size greater than 1MB」と表示されています。この画像は文脈と密接に関連しており、Unlimited-OCRプロジェクトが文書を処理する画面を直感的に示し、単一文書画像、複数ページ画像、PDF変換ページを処理できること、特に論文やレポートなどの資料に適していることを説明しています。

10. EdgeTAM: エッジデバイス向けのプロンプト可能な画像・動画セグメンテーション

EdgeTAMは、Meta Reality LabsとNTU S-Labが開発したオンデバイスのTrack Anything Modelです。リソースが限られたデバイス向けに設計されており、SAMスタイルのモデルが持つインタラクティブなセグメンテーション能力を維持しています。

このモデルは、2D Spatial Perceiverと蒸留パイプラインによって、SAM 2のメモリアテンションのボトルネックを軽減します。実用上、これはプロンプト可能なセグメンテーションをサポートできることを意味します。

エッジハードウェア上で、セグメンテーションと動画オブジェクト追跡をより効率的に実行できます。

画像はEdgeTAMモデルのデモ画面を示しており、タイトルは「EdgeTAM: On-Device Track Anything Model」です。左側は入力部分で、上部に「Choose Image」ボタンがあり、下部には「16943930.png」画像が表示されています。画像には青色の無限大記号のパターンがあります。右側は結果部分で、無限大記号パターンのセグメンテーション結果が表示され、前景（含める）と背景（除外）オプションがあります。下部には「Score: 0.6992 | Mask area: 5774 pixels」などの情報や、「Reset All Points」「Undo Last Point」ボタンがあります。この図は、EdgeTAMモデルの画像セグメンテーションにおける応用効果を直感的に示しています。

11. Step-Audio-EditX: ゼロショット音声クローニングと表現豊かな音声編集

Step-Audio-EditX は、StepFunの音声編集モデルです。30億パラメータのLLMベース音声モデルと強化学習を組み合わせ、ゼロショット音声クローニングと表現豊かな音声編集をサポートします。

このモデルは、標準中国語、英語、四川語、広東語、日本語、韓国語に対応しています。感情制御、話し方の編集、パラ言語的編集、反復的な音声改善などのタスク向けに構築されています。

12. Nemotron 3.5 ASR Streaming 0.6B: 軽量ストリーミング音声認識

Nemotron 3.5 ASR Streaming 0.6B は、NVIDIAの自動音声認識モデルです。低遅延のストリーミング文字起こし向けに構築されており、キャッシュを意識したFastConformer-RNNTアーキテクチャを使用しています。

主要な設計はコンテキストの再利用です。ストリーミング推論中、モデルは重複する音声チャンクを再計算するのではなく、エンコーダーのコンテキストを再利用します。これにより、冗長な計算を削減し、リアルタイム性能を向上させることができます。

画像はNemotron 3.5 ASR Streaming 0.6B自動音声認識モデルのインターフェースを示しています。上部には、CPUデモ用に短い音声クリップをアップロードまたは録音するよう案内が表示されています。中央には音声波形図があり、その下に対象言語の選択ボックスがあり、現在はen-USが選択されています。また、注意コンテキストサイズのボックスには56.13と表示されています。下部のオレンジ色の領域は「Transcribe」ボタンで、その下は文字起こしテキスト領域になっており、田舎道と学校の教室に関する説明文が表示されています。この図は、本文で紹介されているNemotron 3.5 ASR Streaming 0.6Bモデルに関連しており、その操作画面と文字起こし機能を直感的に示しています。

7月のAIカンファレンス締切

元の更新情報では、7月のAIおよびコンピュータサイエンス関連カンファレンスの締切もいくつか掲載されています。すべての締切時刻はAoE時間で表示されています。

日付	時刻	カンファレンス
7月09日	23:59:59	POPL 2027
7月10日	23:59:59	ICSE 2027
7月17日	23:59:59	SIGMOD 2027
7月28日	23:59:59	AAAI 2027

HyperAIについて

HyperAIは、人工知能と高性能コンピューティングのコミュニティです。同ウェブサイトは、開発者、研究者、AI学習者向けに公開リソースを提供しています。

元の情報源によると、HyperAIはすでに以下を収集またはサポートしています。

国内アクセラレーションノード付きの公開データセット2,100件以上
定番および人気のオンラインチュートリアル700件以上
AI4Science論文ケーススタディ300件以上
AI関連の百科事典項目700件以上
Apache TVMの完全な中国語ドキュメントミラー

FAQ

Irodori-TTS-500M-v3とは何ですか？

Irodori-TTS-500M-v3は、RF-DiTアーキテクチャに基づくオープンな日本語テキスト音声合成モデルです。日本語音声生成、短い参照音声によるゼロショット音声クローニング、絵文字ベースのスタイル制御をサポートしています。

Irodori-TTSはファインチューニングなしで音声をクローニングできますか？

はい。元の更新情報では、Irodori-TTSは短い参照音声クリップ、通常3〜10秒程度からのゼロショット音声クローニングをサポートすると説明されています。ただし、その効果は参照音声の品質と明瞭さに依存します。

SAM-Audioは何に使われますか？

SAM-Audioは、プロンプトベースの音源分離に使用されます。ユーザーは抽出したい音を説明したり、視覚的な手がかりを提供したり、時間範囲を指定したりして、混合録音から対象音を分離できます。

動画マッティングと動画セグメンテーションの違いは何ですか？

動画セグメンテーションは通常、オブジェクトを領域またはマスクに分離します。一方、動画マッティングはより詳細なアルファマットを推定します。マッティングは、きれいな前景抽出、髪の毛のディテール、半透明のエッジ、合成において特に重要です。

PrismAudioは何を生成しますか？

PrismAudioは動画向けの音声を生成します。生成される音を、動画の意味内容、タイミング、美的感覚、空間的手がかりと整合させようとします。

Unlimited-OCRはなぜ長文書に有用ですか？

Unlimited-OCRは、単に孤立した1ページのOCRではなく、長期的な文書解析向けに設計されています。論文、レポート、スキャンファイル、長い表、複数ページのPDF由来画像を扱う際に役立ちます。

Nemotron 3.5 ASR Streaming 0.6Bはリアルタイム音声文字起こしに適していますか？

はい。低遅延向けに設計されています。

ストリーミング ASR。そのキャッシュ対応 FastConformer-RNNT アーキテクチャは、ストリーミング推論中にコンテキストを再利用することで、冗長な計算の削減に役立ちます。

まとめ

今回の週間アップデートでは、音声生成、音声認識、動画処理、画像理解、長文書 OCR を中心に、新しい AI デモやモデルリソースが役立つ形でまとめられています。

特に実用性が高いものとして、日本語音声生成向けの Irodori-TTS、プロンプトベースの音源分離向けの SAM-Audio、高品質な動画マッティング向けの MatAnyone 2、長文書向けの Unlimited-OCR、ストリーミング音声認識向けの Nemotron 3.5 ASR が挙げられます。

全体として、このまとめは、試す価値のある新しい AI モデル、それぞれの機能、そして試用できる場所を素早く把握したい読者にとって有用です。