HyperAI 주간 AI 모델 업데이트: Irodori-TTS, SAM-Audio, MatAnyone 2, PrismAudio 등

이번 주간 업데이트는 오디오 생성, 음성 인식, 영상 처리, 이미지 이해, 장문 문서 OCR을 중심으로 유용한 신규 AI 데모와 모델 리소스를 한데 모았습니다. 가장 실용적인 항목으로는 일본어 음성 생성을 위한 Irodori-TTS, 프롬프트 기반 소리 분리를 위한 SAM-Audio, 깔끔한 비디오 매팅을 위한 MatAnyone 2, 장문 문서를 위한 Unlimited-OCR, 스트리밍 음성 인식을 위한 Nemotron 3.5 ASR이 있습니다. **전반적으로 이 모음은 어떤 신규 AI 모델이 테스트해 볼 만한지, 각 모델이 무엇을 하는지, 어디에서 사용해 볼 수 있는지를 빠르게 파악하고 싶은 독자에게 유용합니다.**

发布于 2026年7月5日generalGEO 评分: 08 次阅读
Irodori-TTSSAM-AudioMatAnyone 2PrismAudioHyperAI 튜토리얼일본어 TTS이모지 스타일 제어오디오 소스 분리비디오 매팅비디오-오디오 생성Unlimited-OCREdgeTAMStep-Audio-EditXNemotron 3.5 ASRAI 모델 모음생성형 AI 도구
이 이미지는 HyperAI의 브랜드 아이덴티티 이미지로, 화면 배경은 어두운 색이며 왼쪽에는 흰색 ‘HyperAI’ 문구가 있고 그 아래에 ‘Intelligence at Hyper Speed.’라는 문구가 배치되어 있습니다. 오른쪽에는 주황색에서 파란색으로 그라데이션되는 입체 문자 ‘H’가 있으며, 그 주변을 주황색과 청자색의 빛나는 링이 감싸고 있어 기술적인 후광 효과를 줍니다. 이 이미지는 ‘HyperAI Weekly AI Model Update’ 기사의 커버 이미지로, 문서에서 언급된 16:9 테크 스타일 커버와 AI 모델 업데이트를 중심으로 한 콘텐츠 주제에 잘 어울립니다.

HyperAI 주간 AI 모델 업데이트: Irodori-TTS, SAM-Audio, MatAnyone 2, PrismAudio 등

소개

이번 주 HyperAI 업데이트는 오디오, 비디오, 이미지 이해, OCR, 음성 인식 모델을 폭넓게 다룹니다. 주요 프로젝트는 Irodori-TTS-500M-v3로, 고충실도 48 kHz 음성 생성, 제로샷 음성 복제, 이모지 주석을 통한 세밀한 스타일 제어를 결합한 오픈 일본어 텍스트 음성 변환 모델입니다.

이번 업데이트에는 프롬프트 기반 오디오 분리, 비디오 매팅, 4D 월드 시뮬레이션, 비디오-오디오 생성, 문서 OCR, 온디바이스 세그멘테이션, 표현력 있는 오디오 편집, 저지연 스트리밍 ASR을 위한 도구도 포함되어 있습니다. 아래는 원본 주간 요약을 정리해 발행 가능한 형태로 다듬은 버전이며, 유용한 스크린샷은 원래 문맥에 맞게 유지했습니다.

출처 안내

이 글은 BAAI Hub / HyperAI 주간 업데이트를 기반으로 합니다. 원문 페이지에는 글의 출처가 WeChat이며, 저작권 문제가 있을 경우 이미지를 삭제할 수 있다고 명시되어 있습니다.

QR 코드, 홍보 포스터, 그룹 초대 이미지, 관련 없는 추천 배너는 의도적으로 제거했습니다. DiaMoE-TTS와 DreamOmni2 이미지 링크는 원래 위치에 유지했지만, 확인 과정에서 미리보기 요청 시간이 초과되어 완전히 검증된 스크린샷으로 처리하지 않고 이곳에 별도로 언급합니다.

주간 HyperAI 업데이트 개요

6월 27일부터 7월 3일까지, HyperAI는 공식 웹사이트의 여러 공개 리소스를 업데이트했습니다.

  • 선별된 공개 튜토리얼 12개
  • 인기 AI 백과 항목 5개
  • 7월 AI 학회 마감 일정 4개

이번 주의 핵심 주제는 실용적인 실험입니다. 대부분의 항목은 단순한 논문 설명에 그치지 않고, 사용자가 모델 동작을 빠르게 테스트할 수 있도록 온라인 데모나 실행 가능한 노트북을 제공합니다.

선별된 공개 튜토리얼

1. Irodori-TTS-500M-v3: 이모지 스타일 제어를 지원하는 일본어 TTS

Irodori-TTS는 개발자 Aratako가 2026년에 공개한 오픈소스 일본어 텍스트 음성 변환 프로젝트입니다. 소개된 모델인 Irodori-TTS-500M-v3는 일본어 음성 합성, 제로샷 음성 복제, 이모지 기반 음성 스타일 제어를 위해 설계되었습니다.

이 모델은 Rectified Flow Diffusion Transformer(RF-DiT) 아키텍처를 기반으로 하며, 연속적인 DACVAE 잠재 공간에서 음성을 생성합니다. 실제 사용에서 가장 흥미로운 점은 추가 파인튜닝 없이도 보통 3~10초 정도의 짧은 참조 클립만으로 대상 음성을 복제할 수 있다는 것입니다.

또한 이모지 주석을 통한 스타일 제어도 지원합니다. 이를 통해 사용자는 기본 TTS 시스템보다 더 유연하게 톤, 감정, 말하기 속도, 미묘한 비언어적 표현을 가볍게 안내할 수 있습니다.

이미지는 일본어 텍스트 음성 변환을 위한 Irodori-TTS-500M-v3 인터페이스를 보여주며, 이모지 스타일 제어를 지원합니다. 왼쪽에는 “Basic TTS”, “Voice Cloning”, “Emoji Guide” 세 개의 탭이 있고, 현재 “Basic TTS”가 선택되어 있습니다. 아래 입력 상자에는 일본어 텍스트 “こんにちは、今日はいい天気ですね。”가 표시되어 있습니다. 오른쪽에는 선택된 오디오의 파형이 있으며, 아래에는 “Generate Speech” 버튼이 있습니다. 이 이미지는 Irodori-TTS-500M-v3 모델이 이모지 스타일 제어를 지원한다는 위의 설명과 맞물려 모델의 실제 조작 인터페이스를 직관적으로 보여줍니다.

2. MatAnyone 2: 전경 추출을 위한 비디오 매팅

MatAnyone 2는 NTU S-Lab과 SenseTime이 공개한 비디오 매팅 모델입니다. 비디오에서 사람 전경을 추출하고 알파 매트를 생성하도록 설계되었습니다.

이 모델은 학습된 품질 평가기를 사용해 안정성을 향상합니다. 이를 통해 경계 아티팩트를 줄이고 머리카락, 반투명 가장자리, 전경 윤곽과 같은 세부 정보를 보존하는 데 도움이 됩니다. 또한 여러 사람이 등장하는 비디오에서 특정 인물을 분리하려는 경우에도 유용합니다.

이 이미지는 비디오 전경 추출용 AI 모델인 MatAnyone 2의 데모 조작 인터페이스를 보여줍니다. 인터페이스 상단에는 모델명 “MatAnyone 2: Video Matting”이 표시되어 있으며, 비디오에서 전경을 추출하는 기능이라고 설명합니다. 왼쪽은 조작 패널로, 비디오 업로드와 매개변수 조정 옵션이 있고 아래에는 처리 상태 안내가 있습니다. 오른쪽에는 원본 입력 비디오 프레임과 모델 처리 후 생성된 전경 마스크 출력이 함께 표시됩니다. 마스크는 대상 전경 영역을 선명하게 윤곽 처리하여 이 모델의 비디오 매팅 효과를 직관적으로 보여줍니다.

온라인 데모:

3. InSpatio-World: 실시간 4D 월드 시뮬레이션

InSpatio-World는 InSpatio 팀이 2026년에 공개한 실시간 4D 월드 시뮬레이터입니다. 입력 비디오와 지정된 카메라 궤적을 받아 안정적인 새로운 시점의 비디오를 생성할 수 있습니다.

핵심 아이디어는 비디오 장면을 더 제어 가능하게 만드는 것입니다. 사용자는 고정된 카메라 뷰를 수동적으로 시청하는 대신, 카메라 움직임을 정의하고 시간적 일관성을 유지하면서 새로운 시점에서 장면을 탐색할 수 있습니다.

이미지는 InSpatio-World 실시간 4D 월드 시뮬레이터의 인터페이스와 효과를 보여줍니다. 왼쪽에는 비디오 업로드와 카메라 궤적 선택을 위한 입력 영역이 있고, 아래에는 “Generate novel view” 버튼이 있습니다. 오른쪽에는 시뮬레이터가 생성한 비디오 결과가 표시되며, 커피잔과 빵 등의 물체가 다양한 각도에서 보이는 장면을 보여줍니다. 이는 안정적이고 제어 가능한 새로운 시점 비디오를 생성하는 능력을 나타내며, 입력 비디오와 지정된 카메라 궤적으로 안정적인 새로운 시점 비디오를 생성할 수 있다는 InSpatio-World의 기능 설명과 부합합니다.

4. DiaMoE-TTS: IPA 기반 다중 방언 음성 합성

DiaMoE-TTS는 Giant AI Lab이 개발한 다중 방언 음성 합성 프레임워크입니다. 방언 음성 생성을 위한 통합 프런트엔드로 국제음성기호, 즉 IPA를 사용합니다.

이 모델은 Mixture-of-Experts 설계와 LoRA 및 조건부 어댑터 같은 매개변수 효율적 적응 방법을 결합합니다. 이를 통해 제한된 데이터만 있는 경우에도 시스템이 새로운 방언에 더 빠르게 적응할 수 있습니다.

이미지는 DiaMoE-TTS: Multi-Dialect Speech Synthesis의 인터페이스를 보여줍니다.

위쪽에는 IPA 기반 Mixture-of-Experts 설계와 LoRA 및 조건부 어댑터와 같은 파라미터 효율적 적응 방법에 대한 소개가 있다. 가운데에는 “Generate Speech” 버튼이 있고, 아래쪽에는 예시 텍스트 입력창이 있으며 9가지 중국 방언을 지원한다. 오른쪽에는 생성된 음성 파형과 음성 참조(방언 프롬프트)가 표시된다. 하단에는 지원되는 방언과 해당 프롬프트 음성이 나열되어 있으며, 모델이 KPL 모델을 사용해 방언 합성을 수행한다는 점과 생성 시간 등의 정보도 표시되어 있다. 이 그림은 문서에서 소개하는 DiaMoE-TTS 모델의 내용과 관련이 있으며, 해당 모델의 조작 인터페이스와 기능을 직관적으로 보여준다.](https://we0-cms.oss-cn-beijing.aliyuncs.com/cms-assets/image/2026/07/094c618c-2830-4af5-9cdc-ca950fe12565-05-c0ba34b2-8a4a-4e6a-9d15-517f152cb52a.png)

5. SAM-Audio: 오디오에서 무엇이든 분할하기

SAM-Audio는 Meta의 오디오 소스 분리 기반 모델이다. 자연어 설명, 비디오의 시각적 단서 또는 선택한 시간 구간을 사용해 혼합 오디오 신호에서 목표 소리를 분리할 수 있다.

예를 들어 사용자는 “man speaking”, “dog barking”, “car engine”, “piano playing”처럼 분리하고 싶은 소리를 설명할 수 있다. 그러면 모델은 혼합 신호에서 목표 오디오를 나머지 소리와 분리하려고 시도한다.

이 이미지는 Meta의 SAM-Audio 모델 조작 인터페이스 스크린샷으로, 문서의 “SAM-Audio: Segment Anything in Audio” 내용에 해당하는 전시 화면이다. 인터페이스는 오디오 소스 분리를 구현하는 데 사용되며, 왼쪽에는 두 가지 입력 오디오 트랙의 파형이 설정되어 있다. 아래쪽의 “Sound Description” 입력창에는 예시 지시어 “man speaking”이 입력되어 있고, “Enable Span Prediction” 체크 옵션도 있다. 하단에는 주황색 “Separate Sound” 실행 버튼이 있으며, 오른쪽에는 처리 후의 목표 소리 출력 파형이 표시된다. 아래쪽에는 예시 설명의 분류 목록도 함께 제공되며, 사람 목소리, 동물 소리, 악기 소리 등 분리할 수 있는 다양한 종류의 소리 예시를 포함한다.

6. PrismAudio: 분해된 CoT와 다차원 보상을 활용한 비디오-오디오 생성

PrismAudio는 Tongyi Lab의 비디오-오디오 생성 모델이다. 비디오의 시각 장면, 타이밍, 분위기, 공간감을 잘 반영하는 오디오를 생성하는 데 중점을 둔다.

이 모델은 분해된 Chain-of-Thought 계획 프로세스를 도입한다. 비디오-오디오 생성을 하나의 단일 추론 단계로 처리하는 대신, 과정을 의미, 시간, 미학, 공간 차원으로 분리한다. 각 차원은 강화학습을 위한 목적별 보상 신호와 연결된다.

이미지는 PrismAudio 비디오-오디오 생성 모델의 인터페이스를 보여준다. 왼쪽은 입력 영역으로, “Upload Video” 버튼이 있으며 그 아래에는 비디오 미리보기 창이 있다. 비디오 내용은 한 여성이 벤치에 앉아 있는 장면이다. 아래쪽에는 “Caption / Prompt” 영역도 있으며, 예시 텍스트는 “A girl in the rain”이다. 오른쪽은 실행 로그로, 비디오 준비와 길이 확인 등의 단계가 표시된다. 하단은 출력 영역으로, 생성된 오디오와 비디오가 나타난다. 이 그림은 PrismAudio 모델의 비디오-오디오 생성 흐름과 효과를 직관적으로 보여주며, 문서에서 PrismAudio 모델을 소개한 내용과 잘 대응된다.

7. DreamOmni2: 멀티모달 지시 기반 이미지 편집 및 생성

DreamOmni2는 CUHK JIA Lab의 멀티모달 이미지 편집 및 생성 모델이다. 이 모델은 CVPR 2026에서 Highlight 논문으로 채택되었다.

이 모델은 FLUX.1-Kontext-dev를 기반으로 구축되었으며, 지시어 처리를 위해 미세 조정된 Qwen2.5-VL-7B 시각 언어 모델을 사용한다. 자연어 프롬프트와 참조 이미지를 함께 지원하므로 객체 교체, 스타일 전환, 포즈 모방, 개념 기반 생성과 같은 작업에 적합하다.

이미지는 DreamOmni2 모델의 편집 및 생성 예시를 보여준다. 위쪽 왼쪽에는 원본 거리 장면 이미지가 있고, 오른쪽에는 인물 사진이 있다. 아래쪽은 편집 결과로, 인물이 거리 장면 안에 서 있으며 배경과 인물이 자연스럽게 융합되어 있다. 이 이미지는 문맥과 밀접하게 관련되어 있으며, DreamOmni2가 자연어 프롬프트와 참조 이미지를 지원하고 객체 교체, 스타일 전환, 포즈 모방 등의 작업을 수행할 수 있음을 직관적으로 보여준다. 또한 멀티모달 지시 기반 이미지 편집 및 생성에 적합하다는 점을 나타낸다.

8. PixelRefer: 이미지와 비디오를 위한 세밀한 객체 이해

PixelRefer는 Alibaba DAMO Academy의 통합 이미지 및 비디오 객체 이해 프레임워크이다. 전체 장면을 설명하는 데 그치지 않고, 객체 중심의 세밀한 이해에 초점을 맞춘다.

이 프레임워크는 영역 수준의 포인팅, 캡셔닝, 질의응답을 지원한다. 또한 객체 표현을 더 간결하고 효율적으로 만들기 위해 스케일 적응형 객체 토크나이저와 더 가벼운 PixelRefer-Lite 변형 모델을 도입한다.

이미지는 PixelRefer 모델의 데모 인터페이스를 보여준다. 위쪽 제목은 “Spatial-temporal object referring with arbitrary granularity”이다. 화면에는 도시 경관 이미지가 표시되어 있으며, 이미지에는 브루클린 브리지와 마천루 등이 포함되어 있다. 아래쪽에는 “Image”와 “Video” 탭이 있고, 현재는 “Image”가 선택되어 있다. 인터페이스 하단에는 “Generate Caption” 버튼과 “Model Status” 영역이 있다. 이 이미지는 문서에서 소개하는 PixelRefer 모델과 관련이 있으며, 이미지 이해 분야에서의 활용을 직관적으로 보여준다. 또한 영역 수준 포인터, 설명 생성, 질의응답 등의 기능을 지원한다는 점을 나타낸다.

9. Unlimited-OCR: 원샷 장문 문서 OCR 및 레이아웃 파싱

Unlimited-OCR는 Baidu가 2026년에 공개한 OCR 및 문서 레이아웃 파싱 프로젝트이다. 단일 페이지 인식에만 국한되지 않고 장문 문서 파싱을 위해 설계되었다.

이 프로젝트는 단일 문서 이미지, 다중 페이지 이미지, PDF에서 변환된 페이지를 처리할 수 있다. 특히 논문, 보고서, 스캔 문서, 긴 표, 다중 페이지 구조화 자료에 유용하다.

이미지는 Baidu가 2026년에 공개한 Unlimited-OCR 프로젝트 인터페이스를 보여준다. 왼쪽은 문서 업로드 영역으로, “Drop your document here” 또는 “or click anywhere to browse”라는 안내가 있으며 “PDF”, “image”, “text” 옵션이 있다. 오른쪽은 OCR 출력 표시 영역으로, “OCR output will appear here” 및 “Use a document size greater than 1MB”라는 안내가 표시된다. 이 이미지는 문맥과 밀접하게 관련되어 있으며, Unlimited-OCR 프로젝트가 문서를 처리하는 인터페이스를 직관적으로 보여준다. 또한 단일 문서 이미지, 다중 페이지 이미지 및 PDF 변환 페이지를 처리할 수 있고, 특히 논문과 보고서 등의 자료에 적합하다는 점을 설명한다.

10. EdgeTAM: 엣지 디바이스를 위한 프롬프트 기반 이미지 및 비디오 세그멘테이션

EdgeTAM은 Meta Reality Labs와 NTU S-Lab이 개발한 온디바이스 Track Anything Model이다. SAM 스타일 모델의 인터랙티브 세그멘테이션 능력을 유지하면서도 리소스가 제한된 디바이스를 위해 설계되었다.

이 모델은 2D Spatial Perceiver와 지식 증류 파이프라인을 통해 SAM 2의 메모리 어텐션 병목을 줄인다. 실제로 이는 프롬프트 기반을 지원할 수 있음을 의미한다.

에지 하드웨어에서 분할 및 비디오 객체 추적을 더 효율적으로 수행합니다.

이미지는 “EdgeTAM: On-Device Track Anything Model”이라는 제목의 EdgeTAM 모델 데모 인터페이스를 보여준다. 왼쪽은 입력 영역으로, 상단에 “Choose Image” 버튼이 있고 하단에는 “16943930.png” 이미지가 표시되어 있으며, 이미지에는 파란색 무한대 기호 패턴이 있다. 오른쪽은 결과 영역으로, 무한대 기호 패턴에 대한 분할 결과가 표시되며 전경(포함)과 배경(제외) 옵션이 있다. 아래에는 “Score: 0.6992 | Mask area: 5774 pixels” 등의 정보와 “Reset All Points”, “Undo Last Point” 버튼이 있다. 이 그림은 EdgeTAM 모델의 이미지 분할 적용 효과를 직관적으로 보여준다.

11. Step-Audio-EditX: 제로샷 음성 클로닝 및 표현력 있는 오디오 편집

Step-Audio-EditX는 StepFun의 오디오 편집 모델입니다. 30억 개 파라미터의 LLM 기반 오디오 모델과 강화학습을 결합하여 제로샷 음성 클로닝과 표현력 있는 오디오 편집을 지원합니다.

이 모델은 중국어 표준어, 영어, 쓰촨어, 광둥어, 일본어, 한국어를 처리할 수 있습니다. 감정 제어, 말하기 스타일 편집, 준언어적 편집, 반복적 오디오 개선과 같은 작업을 위해 구축되었습니다.

이미지는 제로샷 음성 클로닝 및 표현력 있는 오디오 편집을 위한 Step-Audio-EditX 모델 인터페이스를 보여준다. 인터페이스는 “Voice Cloning”과 “Audio Editing” 두 개의 탭으로 나뉘며, 현재 “Voice Cloning”이 선택되어 있다. 왼쪽에는 “Input Audio (Reference Voice)” 입력 상자가 있고, 아래에는 “Target Text (Text to Synthesize)” 입력 영역이 있으며 예시 텍스트로 “Hi, the weather is good today.”가 표시되어 있다. 하단에는 “CLONE” 버튼이 있다. 오른쪽은 “Cloned Audio Output” 영역으로, 클로닝된 오디오 파형과 진행 막대가 표시되며, 하단에는 “Clone completed. Output duration: 4.2s”라는 안내가 있다. 이 그림은 모델의 조작 인터페이스와 결과를 직관적으로 보여준다.

12. Nemotron 3.5 ASR Streaming 0.6B: 경량 스트리밍 음성 인식

Nemotron 3.5 ASR Streaming 0.6B는 NVIDIA의 자동 음성 인식 모델입니다. 저지연 스트리밍 전사를 위해 구축되었으며, 캐시 인식 FastConformer-RNNT 아키텍처를 사용합니다.

핵심 설계는 컨텍스트 재사용입니다. 스트리밍 추론 중 모델은 겹치는 오디오 청크를 다시 계산하는 대신 인코더 컨텍스트를 재사용하여 중복 계산을 줄이고 실시간 성능을 개선하는 데 도움이 됩니다.

이미지는 Nemotron 3.5 ASR Streaming 0.6B 자동 음성 인식 모델의 인터페이스를 보여준다. 상단에는 CPU 데모를 위해 짧은 음성 클립을 업로드하거나 녹음하라는 안내가 있다. 중앙에는 오디오 파형 그래프가 있고, 아래에는 목표 언어 선택 상자가 있으며 현재 en-US가 선택되어 있고, 주의 컨텍스트 크기 입력란에는 56.13이 표시되어 있다. 하단의 주황색 영역은 “Transcribe” 버튼이며, 그 아래에는 전사 텍스트 영역이 있어 시골길과 학교 교실에 관한 설명 문장이 표시된다. 이 그림은 문맥에서 소개된 Nemotron 3.5 ASR Streaming 0.6B 모델과 관련이 있으며, 조작 인터페이스와 전사 기능을 직관적으로 보여준다.

인기 백과 항목

HyperAI는 이번 주 인기 AI 백과 항목 다섯 가지도 소개했습니다.

  1. 대규모 언어 모델(LLM)
  2. 월드 액션 모델(WAM)
  3. 조화 평균
  4. 가상 스크리닝
  5. AI 피드백 기반 강화학습(RLAIF)

HyperAI의 위키는 AI 관련 개념과 설명 수백 가지를 모아 제공합니다. 논문, 튜토리얼, 모델 문서에 자주 등장하는 용어를 빠르게 이해하고 싶은 독자에게 유용합니다.

7월 AI 학회 마감일

원문 업데이트에는 7월의 여러 AI 및 컴퓨터 과학 학회 마감일도 나열되어 있습니다. 모든 마감 시간은 AoE 시간으로 표시되어 있습니다.

날짜 시간 학회
7월 09일 23:59:59 POPL 2027
7월 10일 23:59:59 ICSE 2027
7월 17일 23:59:59 SIGMOD 2027
7월 28일 23:59:59 AAAI 2027

HyperAI 소개

HyperAI는 인공지능 및 고성능 컴퓨팅 커뮤니티입니다. 해당 웹사이트는 개발자, 연구자, AI 학습자를 위한 공개 리소스를 제공합니다.

원문 출처에 따르면 HyperAI는 이미 다음을 수집하거나 지원하고 있습니다.

  • 국내 가속 노드를 갖춘 2,100개 이상의 공개 데이터셋
  • 700개 이상의 고전 및 인기 온라인 튜토리얼
  • 300개 이상의 AI4Science 논문 사례 연구
  • 700개 이상의 AI 관련 백과 항목
  • Apache TVM의 완전한 중국어 문서 미러

FAQ

Irodori-TTS-500M-v3는 무엇인가요?

Irodori-TTS-500M-v3는 RF-DiT 아키텍처를 기반으로 한 오픈 일본어 텍스트 음성 변환 모델입니다. 일본어 음성 생성, 짧은 참조 기반 제로샷 음성 클로닝, 이모지 기반 스타일 제어를 지원합니다.

Irodori-TTS는 파인튜닝 없이 음성을 클로닝할 수 있나요?

네. 원문 업데이트에서는 Irodori-TTS가 보통 약 3~10초 길이의 짧은 참조 오디오 클립을 통해 제로샷 음성 클로닝을 지원한다고 설명합니다. 다만 결과는 참조 오디오의 품질과 명료도에 따라 달라집니다.

SAM-Audio는 무엇에 사용되나요?

SAM-Audio는 프롬프트 기반 오디오 소스 분리에 사용됩니다. 사용자는 추출하려는 소리를 설명하거나, 시각적 단서를 제공하거나, 시간 범위를 지정하여 혼합 녹음에서 목표 소리를 분리할 수 있습니다.

비디오 매팅과 비디오 분할의 차이는 무엇인가요?

비디오 분할은 일반적으로 객체를 영역이나 마스크로 분리하는 반면, 비디오 매팅은 더 세밀한 알파 매트를 추정합니다. 매팅은 깔끔한 전경 추출, 머리카락 디테일, 반투명 가장자리, 합성 작업에 특히 중요합니다.

PrismAudio는 무엇을 생성하나요?

PrismAudio는 비디오용 오디오를 생성합니다. 생성된 사운드를 비디오의 의미적 내용, 타이밍, 미적 느낌, 공간적 단서와 정렬하려고 합니다.

Unlimited-OCR은 긴 문서에 왜 유용한가요?

Unlimited-OCR은 단순히 개별 단일 페이지 OCR이 아니라 장기 범위 파싱을 위해 설계되었습니다. 논문, 보고서, 스캔 파일, 긴 표, 여러 페이지 PDF에서 파생된 이미지를 처리할 때 유용할 수 있습니다.

Nemotron 3.5 ASR Streaming 0.6B는 실시간 음성 전사에 적합한가요?

네, 저지연 처리를 위해 설계되었습니다.

스트리밍 ASR. 캐시 인식 FastConformer-RNNT 아키텍처는 스트리밍 추론 중 컨텍스트를 재사용하여 중복 연산을 줄이는 데 도움이 됩니다.

관련 도구

  • Irodori-TTS: 참조 오디오 기반 음성 복제와 스타일 제어를 지원하는 오픈소스 일본어 TTS.
  • Hugging Face의 Irodori-TTS-500M-v3: 500M v3 일본어 TTS 체크포인트의 모델 페이지.
  • SAM-Audio: 오디오에서 Segment Anything 추론 및 예제를 제공하는 Meta의 저장소.
  • MatAnyone 2: MatAnyone 2 비디오 매팅 프레임워크의 프로젝트 페이지.
  • InSpatio-World: 실시간 인터랙티브 4D 월드 시뮬레이션 프로젝트 페이지.
  • DiaMoE-TTS: IPA 기반 다중 방언 음성 합성을 위한 GitHub 저장소.
  • PrismAudio: 분해된 CoT와 다차원 보상을 활용한 비디오-오디오 생성 프로젝트 페이지.
  • DreamOmni2: 오픈소스 멀티모달 지시 기반 이미지 편집 및 생성 프로젝트.
  • PixelRefer: 세밀한 이미지 및 비디오 객체 이해를 위한 Alibaba DAMO Academy의 프레임워크.
  • Unlimited-OCR: Baidu의 장기 범위 OCR 및 문서 파싱 프로젝트.
  • EdgeTAM: 프롬프트 기반 이미지 및 비디오 세그멘테이션을 위한 Meta의 온디바이스 트랙 애니싱 모델.
  • Step-Audio-EditX: 제로샷 음성 복제와 표현력 있는 오디오 편집을 위한 StepFun의 모델.
  • Nemotron 3.5 ASR Streaming 0.6B: 저지연 스트리밍 ASR을 위한 NVIDIA의 Hugging Face 모델 페이지.

관련 링크

요약

이번 주 업데이트는 오디오 생성, 음성 인식, 비디오 처리, 이미지 이해, 장문 문서 OCR을 중심으로 새로운 AI 데모와 모델 리소스를 유용하게 모아 소개합니다.

가장 실용적인 항목으로는 일본어 음성 생성을 위한 Irodori-TTS, 프롬프트 기반 사운드 분리를 위한 SAM-Audio, 깔끔한 비디오 매팅을 위한 MatAnyone 2, 장문 문서를 위한 Unlimited-OCR, 스트리밍 음성 인식을 위한 Nemotron 3.5 ASR이 있습니다.

전반적으로 이 모음은 어떤 새로운 AI 모델을 테스트해 볼 가치가 있는지, 각 모델이 무엇을 하는지, 어디에서 사용해 볼 수 있는지 빠르게 파악하려는 독자에게 유용합니다.