تحديث HyperAI الأسبوعي لنماذج الذكاء الاصطناعي: Irodori-TTS وSAM-Audio وMatAnyone 2 وPrismAudio والمزيد

يجمع هذا التحديث الأسبوعي مجموعة مفيدة من عروض الذكاء الاصطناعي الجديدة وموارد النماذج، لا سيما في مجالات توليد الصوت، والتعرّف على الكلام، ومعالجة الفيديو، وفهم الصور، والتعرّف البصري على الحروف في المستندات الطويلة. أبرز الأدوات العملية هي Irodori-TTS لتوليد الأصوات باللغة اليابانية، وSAM-Audio لفصل الأصوات اعتمادًا على الموجّهات، وMatAnyone 2 لعزل العناصر في الفيديو بدقة، وUnlimited-OCR للمستندات الطويلة، وNemotron 3.5 ASR للتعرّف على الكلام أثناء البث. **بشكل عام، تُعد هذه الجولة مفيدة للقراء الذين يرغبون في اكتشاف نماذج الذكاء الاصطناعي الجديدة الجديرة بالتجربة بسرعة، ومعرفة ما يفعله كل نموذج، وأين يمكن تجربته.**

发布于 2026年7月5日generalGEO 评分: 0
Irodori-TTSSAM-AudioMatAnyone 2PrismAudioدروس HyperAI التعليميةتحويل النص إلى كلام باللغة اليابانيةالتحكم في نمط الرموز التعبيريةفصل مصادر الصوتاستخراج القناع من الفيديوتوليد الصوت من الفيديوUnlimited-OCREdgeTAMStep-Audio-EditXNemotron 3.5 ASRملخص نماذج الذكاء الاصطناعيأدوات الذكاء الاصطناعي التوليدي
تعرض هذه الصورة الهوية البصرية لعلامة HyperAI التجارية، بخلفية داكنة، وعلى الجانب الأيسر تظهر كلمة “HyperAI” باللون الأبيض، وتحتها عبارة “Intelligence at Hyper Speed.”. وعلى الجانب الأيمن يظهر حرف “H” ثلاثي الأبعاد بتدرج لوني من البرتقالي إلى الأزرق، تحيط به حلقات مضيئة باللونين البرتقالي والأزرق البنفسجي، مع تأثير هالة ضوئية يوحي بطابع تقني. تُعد هذه الصورة غلافًا لمقال “HyperAI Weekly AI Model Update”، وهي منسجمة مع أسلوب الغلاف التقني بنسبة 16:9 المذكور في المستند ومع موضوع المحتوى المتعلق بتحديثات نماذج الذكاء الاصطناعي.

تحديث HyperAI الأسبوعي لنماذج الذكاء الاصطناعي: Irodori-TTS وSAM-Audio وMatAnyone 2 وPrismAudio والمزيد

مقدمة

يركّز تحديث HyperAI لهذا الأسبوع على مزيج قوي من نماذج الصوت والفيديو وفهم الصور والتعرّف الضوئي على الحروف (OCR) والتعرّف على الكلام. المشروع الأبرز هو Irodori-TTS-500M-v3، وهو نموذج مفتوح لتحويل النص الياباني إلى كلام، يجمع بين توليد كلام عالي الدقة بتردد 48 كيلوهرتز، واستنساخ الصوت دون تدريب مسبق على المثال، والتحكم الدقيق في الأسلوب عبر تعليقات الرموز التعبيرية.

يتضمن التحديث أيضًا أدوات لفصل الصوت بالاعتماد على التعليمات النصية، وعزل العناصر في الفيديو، ومحاكاة العوالم رباعية الأبعاد، وتوليد الصوت من الفيديو، والتعرّف الضوئي على المستندات، والتجزئة على الجهاز، وتحرير الصوت التعبيري، والتعرّف الآني منخفض التأخير على الكلام المتدفق. فيما يلي نسخة منقّحة وجاهزة للنشر من الملخص الأسبوعي الأصلي، مع الحفاظ على لقطات الشاشة المفيدة في سياقها الأصلي.

ملاحظة المصدر

تستند هذه المقالة إلى التحديث الأسبوعي الصادر عن BAAI Hub / HyperAI والمنشور في . وتشير الصفحة الأصلية إلى أن مصدر المقالة من WeChat، وأن الصور يمكن إزالتها في حال وجود مخاوف متعلقة بحقوق النشر.

تمت إزالة رموز QR والملصقات الترويجية وصور دعوات المجموعات ولافتات التوصيات غير ذات الصلة عمدًا. تم الإبقاء على روابط صور DiaMoE-TTS وDreamOmni2 في مواضعها الأصلية، لكن طلبات معاينتها انتهت مهلتها أثناء الفحص، لذلك جرى التنويه إليها هنا بدلًا من التعامل معها كلقطات شاشة موثّقة بالكامل.

نظرة عامة على تحديث HyperAI الأسبوعي

من 27 يونيو إلى 3 يوليو، حدّثت HyperAI عدة موارد عامة على موقعها الرسمي:

  • 12 درسًا تعليميًا عامًا مختارًا
  • 5 إدخالات شائعة في موسوعة الذكاء الاصطناعي
  • 4 مواعيد نهائية لمؤتمرات الذكاء الاصطناعي في يوليو

الموضوع الرئيسي لهذا الأسبوع هو التجريب العملي. فمعظم الإدخالات ليست مجرد أوصاف لأوراق بحثية؛ بل توفر عروضًا تجريبية عبر الإنترنت أو دفاتر قابلة للتشغيل كي يتمكن المستخدمون من اختبار سلوك النماذج بسرعة.

دروس عامة مختارة

1. Irodori-TTS-500M-v3: تحويل النص الياباني إلى كلام مع التحكم في الأسلوب عبر الرموز التعبيرية

Irodori-TTS هو مشروع مفتوح المصدر لتحويل النص الياباني إلى كلام، أصدره المطوّر Aratako في عام 2026. النموذج المميز، Irodori-TTS-500M-v3، مصمم لتوليف الكلام الياباني، واستنساخ الصوت دون تدريب مسبق على المثال، والتحكم في أسلوب الصوت بالاسترشاد بالرموز التعبيرية.

يعتمد النموذج على بنية Rectified Flow Diffusion Transformer (RF-DiT) ويولّد الكلام ضمن فضاء كامن مستمر لـ DACVAE. ومن الناحية العملية، تتمثل أكثر نقاطه إثارة للاهتمام في قدرته على استنساخ صوت مستهدف من مقطع مرجعي قصير فقط، عادةً في حدود 3 إلى 10 ثوانٍ، دون الحاجة إلى ضبط دقيق إضافي.

كما يدعم التحكم في الأسلوب عبر تعليقات الرموز التعبيرية. وهذا يجعل النموذج أكثر مرونة من نظام أساسي لتحويل النص إلى كلام: إذ يمكن للمستخدمين توجيه النبرة والعاطفة والإيقاع والتعبيرات غير اللفظية الدقيقة بطريقة أخف وزنًا.

تعرض الصورة واجهة Irodori-TTS-500M-v3 المستخدمة لتحويل النص الياباني إلى كلام، مع دعم التحكم في الأسلوب عبر الرموز التعبيرية. في الجهة اليسرى توجد ثلاث تبويبات: “Basic TTS” و“Voice Cloning” و“Emoji Guide”، والتبويب المحدد حاليًا هو “Basic TTS”. يظهر في مربع الإدخال أسفلها النص الياباني “こんにちは、今日はいい天気ですね.”، بينما تظهر في الجهة اليمنى موجة الصوت المحدد، وتحتها زر “Generate Speech”. تتوافق هذه الصورة مع ما ورد أعلاه حول دعم نموذج Irodori-TTS-500M-v3 للتحكم في الأسلوب عبر الرموز التعبيرية، وتعرض بصورة مباشرة واجهة التشغيل الفعلية للنموذج.

2. MatAnyone 2: عزل عناصر الفيديو لاستخراج المقدمة

MatAnyone 2 هو نموذج لعزل عناصر الفيديو أصدره NTU S-Lab وSenseTime. صُمم لاستخراج مقدمة تحتوي على أشخاص وتوليد خرائط ألفا من مقاطع الفيديو.

يحسّن النموذج الاستقرار باستخدام مقيّم جودة متعلّم. ويساعد ذلك على تقليل تشوهات الحواف والحفاظ على التفاصيل مثل الشعر والحواف شبه الشفافة وحدود عناصر المقدمة. كما يكون مفيدًا عندما يرغب المستخدم في عزل شخص محدد في فيديو يضم عدة أشخاص.

تعرض هذه الصورة واجهة عرض تجريبية لـ MatAnyone 2، وهو نموذج ذكاء اصطناعي لاستخراج مقدمة الفيديو. يظهر في أعلى الواجهة اسم النموذج “MatAnyone 2: Video Matting”، مع توضيح أن وظيفته هي استخراج المقدمة من الفيديو. في الجهة اليسرى توجد لوحة التحكم، وتتضمن خيارات رفع الفيديو وتعديل المعلمات، كما تظهر في الأسفل حالة المعالجة؛ أما الجهة اليمنى فتعرض إطار الفيديو الأصلي المُدخل، بالإضافة إلى خرج قناع المقدمة الذي أنشأه النموذج بعد المعالجة، حيث يحدد القناع منطقة المقدمة المستهدفة بوضوح، ما يبيّن مباشرة تأثير عزل عناصر الفيديو الذي يقدمه النموذج.

العرض التجريبي عبر الإنترنت:

3. InSpatio-World: محاكاة عوالم رباعية الأبعاد في الزمن الحقيقي

InSpatio-World هو محاكي عوالم رباعية الأبعاد في الزمن الحقيقي أصدره فريق InSpatio في عام 2026. يمكنه أخذ فيديو مُدخل ومسار كاميرا محدد، ثم توليد فيديو مستقر من منظور جديد.

الفكرة الأساسية هي جعل مشاهد الفيديو أكثر قابلية للتحكم. فبدلًا من مشاهدة منظور كاميرا ثابت بشكل سلبي، يستطيع المستخدمون تحديد حركة الكاميرا واستكشاف المشهد من زوايا رؤية جديدة مع الحفاظ على الاتساق الزمني.

تعرض الصورة واجهة وتأثيرات محاكي العوالم رباعية الأبعاد في الزمن الحقيقي InSpatio-World. في الجهة اليسرى توجد منطقة إدخال لرفع الفيديو واختيار مسار الكاميرا، وأسفلها زر “Generate novel view”. في الجهة اليمنى تظهر نتيجة الفيديو التي يولدها المحاكي، وتعرض مشهدًا يضم فنجان قهوة وخبزًا وعناصر أخرى من زوايا مختلفة، ما يبرز قدرته على توليد فيديو مستقر وقابل للتحكم من منظور جديد، ويتوافق ذلك مع ما ورد في السياق حول قدرة InSpatio-World على توليد فيديو مستقر من منظور جديد اعتمادًا على فيديو مُدخل ومسار كاميرا محدد.

4. DiaMoE-TTS: توليف كلام متعدد اللهجات قائم على الأبجدية الصوتية الدولية

DiaMoE-TTS هو إطار لتوليف الكلام متعدد اللهجات من Giant AI Lab. يستخدم الأبجدية الصوتية الدولية، أو IPA، كواجهة موحدة لتوليد الكلام باللهجات.

يجمع النموذج بين تصميم خليط الخبراء وأساليب التكيّف ذات الكفاءة في المعلمات مثل LoRA ومحوّلات التهيئة. ويتيح ذلك للنظام التكيّف بسرعة أكبر مع اللهجات الجديدة، حتى عند توفر بيانات محدودة فقط.

![تعرض الصورة واجهة DiaMoE-TTS: Multi-Dialect Speech Synthesis.

يوجد في الجزء العلوي عرض لتصميم Mixture-of-Experts القائم على IPA وطرق التكيّف الفعّالة من حيث المعاملات مثل LoRA والمحوّلات الشرطية. في الوسط يوجد زر “Generate Speech”، وفي الأسفل مربع إدخال نص تجريبي يدعم 9 لهجات صينية. وعلى اليمين تُعرض موجة الكلام المُولَّد ومرجع الصوت (تلميح اللهجة). وفي الأسفل تُدرج اللهجات المدعومة والأصوات الإرشادية المقابلة لها، مع الإشارة أيضًا إلى معلومات مثل استخدام النموذج لنموذج KPL في تركيب اللهجات ووقت التوليد. ترتبط هذه الصورة بالمحتوى الذي يعرّف بنموذج DiaMoE-TTS في الوثيقة، وتعرض بشكل مباشر واجهة تشغيله ووظائفه.](https://we0-cms.oss-cn-beijing.aliyuncs.com/cms-assets/image/2026/07/094c618c-2830-4af5-9cdc-ca950fe12565-05-c0ba34b2-8a4a-4e6a-9d15-517f152cb52a.png)

5. SAM-Audio: تجزئة أي شيء في الصوت

SAM-Audio هو نموذج أساسي من Meta لفصل مصادر الصوت. يمكنه عزل صوت مستهدف من إشارة صوتية مختلطة باستخدام أوصاف باللغة الطبيعية، أو إشارات بصرية من الفيديو، أو مقطع زمني محدد.

على سبيل المثال، يمكن للمستخدم وصف الصوت الذي يريد فصله، مثل “رجل يتحدث”، أو “كلب ينبح”، أو “محرك سيارة”، أو “عزف بيانو”. ثم يحاول النموذج فصل الصوت المستهدف عن كل ما عداه في المزيج.

هذه الصورة لقطة شاشة لواجهة تشغيل نموذج SAM-Audio من Meta، وتقابل عرض المحتوى المتعلق بـ “SAM-Audio: تجزئة أي شيء في الصوت” في الوثيقة. تُستخدم الواجهة لتنفيذ فصل مصادر الصوت؛ ففي الجهة اليسرى توجد موجتان لمسارين صوتيين كمدخلين، وأسفلها مربع إدخال “Sound Description” الذي يحتوي على التعليمة التجريبية “man speaking”، إلى جانب خيار تحديد “Enable Span Prediction”، وفي الأسفل زر تشغيل برتقالي بعنوان “Separate Sound”. أما الجهة اليمنى فتعرض موجة خرج الصوت المستهدف بعد المعالجة، وأسفلها قائمة تصنيف لأوصاف نموذجية تشمل أمثلة لأصوات قابلة للفصل من فئات مختلفة مثل الأصوات البشرية وأصوات الحيوانات وأصوات الآلات الموسيقية.

6. PrismAudio: توليد الصوت من الفيديو باستخدام سلسلة تفكير مفككة ومكافآت متعددة الأبعاد

PrismAudio هو نموذج لتوليد الصوت من الفيديو من Tongyi Lab. يركز على توليد صوت يطابق المشهد البصري والتوقيت والأجواء والإحساس المكاني للفيديو.

يقدّم النموذج عملية تخطيط مفككة قائمة على سلسلة التفكير. فبدلًا من التعامل مع توليد الصوت من الفيديو كخطوة استدلالية واحدة، يفصل العملية إلى أبعاد دلالية وزمنية وجمالية ومكانية. ويُقرن كل بُعد بإشارة مكافأة موجّهة للتعلّم المعزز.

تعرض الصورة واجهة نموذج PrismAudio لتوليد الصوت من الفيديو. في الجهة اليسرى توجد منطقة الإدخال، وبها زر “Upload Video”، وأسفله نافذة معاينة للفيديو يظهر فيها امرأة جالسة على مقعد طويل. كما توجد في الأسفل منطقة “Caption / Prompt” وبها النص التجريبي “A girl in the rain”. في الجهة اليمنى يوجد سجل التشغيل، ويعرض خطوات مثل تجهيز الفيديو والتحقق من مدته. وفي الأسفل توجد منطقة المخرجات، وتعرض الصوت والفيديو المُولّدين. تقدّم هذه الصورة عرضًا مباشرًا لعملية توليد الصوت من الفيديو ونتائجها في نموذج PrismAudio، بما يتوافق مع التعريف بالنموذج في الوثيقة.

7. DreamOmni2: تحرير الصور وتوليدها متعدد الوسائط والقائم على التعليمات

DreamOmni2 هو نموذج متعدد الوسائط لتحرير الصور وتوليدها من CUHK JIA Lab. وقد قُبل في CVPR 2026 كورقة مميزة.

بُني النموذج على FLUX.1-Kontext-dev ويستخدم نموذج اللغة والرؤية Qwen2.5-VL-7B بعد ضبطه دقيقًا لمعالجة التعليمات. ويدعم التعليمات النصية باللغة الطبيعية إلى جانب الصور المرجعية، ما يجعله مناسبًا لمهام مثل استبدال الكائنات، ونقل الأسلوب، ومحاكاة الوضعيات، والتوليد الموجّه بالمفاهيم.

تعرض الصورة أمثلة على التحرير والتوليد في نموذج DreamOmni2. في الجزء العلوي، تظهر على اليسار صورة أصلية لمشهد شارع، وعلى اليمين صورة لشخص. وفي الأسفل تظهر نتيجة التحرير، حيث يقف الشخص داخل مشهد الشارع، مع اندماج طبيعي بين الخلفية والشخص. ترتبط الصورة ارتباطًا وثيقًا بالسياق، وتعرض بشكل مباشر دعم DreamOmni2 للتعليمات باللغة الطبيعية والصور المرجعية، وقدرته على تنفيذ مهام مثل استبدال الكائنات، وتحويل الأسلوب، ومحاكاة الوضعيات، ما يجعله مناسبًا لتحرير الصور وتوليدها بدفع من تعليمات متعددة الوسائط.

8. PixelRefer: فهم دقيق للكائنات في الصور والفيديوهات

PixelRefer هو إطار موحّد لفهم الكائنات في الصور والفيديوهات من Alibaba DAMO Academy. يركز على الفهم الدقيق المتمحور حول الكائنات، بدلًا من الاكتفاء بوصف المشهد بالكامل.

يدعم الإطار الإشارة على مستوى المناطق، والتعليق الوصفي، والإجابة عن الأسئلة. كما يقدّم مُرمِّز كائنات متكيّفًا مع المقياس، ونسخة أخف باسم PixelRefer-Lite لجعل تمثيل الكائنات أكثر اختصارًا وكفاءة.

تعرض الصورة واجهة عرض توضيحي لنموذج PixelRefer. في الأعلى يظهر العنوان “Spatial-temporal object referring with arbitrary granularity”. وتعرض الشاشة صورة لمشهد حضري تتضمن جسر بروكلين وناطحات سحاب وغيرها. في الأسفل توجد علامتا تبويب “Image” و“Video”، والعلامة المحددة حاليًا هي “Image”. وفي أسفل الواجهة يوجد زر “Generate Caption” ومنطقة “Model Status”. ترتبط هذه الصورة بالنموذج PixelRefer المعرّف في الوثيقة، وتعرض بشكل مباشر تطبيقه في فهم الصور، مع دعمه لوظائف مثل الإشارة على مستوى المناطق، والوصف، والإجابة عن الأسئلة.

9. Unlimited-OCR: التعرف الضوئي على المستندات الطويلة وتحليل التخطيط دفعة واحدة

Unlimited-OCR هو مشروع للتعرف الضوئي على الحروف وتحليل تخطيط المستندات أصدرته Baidu في عام 2026. صُمم لتحليل المستندات الطويلة بدلًا من الاقتصار على التعرف على صفحة واحدة.

يمكن للمشروع معالجة صور المستندات المفردة، والصور متعددة الصفحات، والصفحات المحوّلة من ملفات PDF. وهو مفيد بشكل خاص للأبحاث والتقارير والمستندات الممسوحة ضوئيًا والجداول الطويلة والمواد المنظمة متعددة الصفحات.

تعرض الصورة واجهة مشروع Unlimited-OCR الذي أصدرته Baidu في عام 2026. في الجهة اليسرى توجد منطقة رفع المستندات، وبها التوجيه “Drop your document here” أو “or click anywhere to browse”، مع خيارات “PDF” و“image” و“text”. في الجهة اليمنى توجد منطقة عرض مخرجات OCR، وبها النص “OCR output will appear here” و“Use a document size greater than 1MB”. ترتبط الصورة ارتباطًا وثيقًا بالسياق، وتعرض بشكل مباشر واجهة معالجة المستندات في مشروع Unlimited-OCR، موضحة أنه يمكنه معالجة صور المستندات المفردة والصور متعددة الصفحات والصفحات المحوّلة من PDF، وأنه مناسب خصوصًا لمواد مثل الأوراق البحثية والتقارير.

10. EdgeTAM: تجزئة الصور والفيديوهات القابلة للتوجيه على الأجهزة الطرفية

EdgeTAM هو نموذج Track Anything يعمل على الجهاز، طوّرته Meta Reality Labs وNTU S-Lab. صُمم للأجهزة محدودة الموارد مع الحفاظ على قدرة التجزئة التفاعلية التي تتميز بها نماذج نمط SAM.

يقلل النموذج عنق الزجاجة في انتباه الذاكرة في SAM 2 من خلال 2D Spatial Perceiver وخط معالجة للتقطير. وعمليًا، يعني ذلك أنه يستطيع دعم التجزئة القابلة للتوجيه

تجزئة وتتبع كائنات الفيديو بكفاءة أكبر على عتاد الحافة.

تعرض الصورة واجهة عرض توضيحي لنموذج EdgeTAM بعنوان “EdgeTAM: On-Device Track Anything Model”. في الجانب الأيسر قسم الإدخال، وفي الأعلى زر “Choose Image”، وأسفله تظهر صورة باسم “16943930.png” تحتوي على نمط رمز اللانهاية باللون الأزرق. في الجانب الأيمن قسم النتائج، ويعرض تأثير تجزئة نمط رمز اللانهاية، مع خياري المقدمة «تضمين» والخلفية «استبعاد». وتظهر في الأسفل معلومات مثل “Score: 0.6992 | Mask area: 5774 pixels”، إضافة إلى زري “Reset All Points” و“Undo Last Point”. توضح الصورة بشكل مباشر تأثير تطبيق نموذج EdgeTAM في تجزئة الصور.

11. Step-Audio-EditX: استنساخ الصوت دون أمثلة مسبقة وتحرير صوتي تعبيري

Step-Audio-EditX هو نموذج لتحرير الصوت من StepFun. يجمع بين نموذج صوتي قائم على نموذج لغوي كبير بعدد 3 مليارات معلمة والتعلم المعزز، لدعم استنساخ الصوت دون أمثلة مسبقة والتحرير الصوتي التعبيري.

يمكن للنموذج التعامل مع الماندرينية والإنجليزية ولهجة سيتشوان والكانتونية واليابانية والكورية. وقد بُني لمهام مثل التحكم في العاطفة، وتحرير أسلوب التحدث، وتحرير السمات شبه اللغوية، والتحسين التكراري للصوت.

تعرض الصورة واجهة نموذج Step-Audio-EditX المخصص لاستنساخ الصوت دون أمثلة مسبقة والتحرير الصوتي التعبيري. تنقسم الواجهة إلى تبويبين هما “Voice Cloning” و“Audio Editing”، والتبويب المحدد حاليًا هو “Voice Cloning”. في الجانب الأيسر توجد خانة إدخال “Input Audio (Reference Voice)”، وأسفلها منطقة “Target Text (Text to Synthesize)” وبداخلها نص تجريبي: “Hi, the weather is good today.”، وفي الأسفل زر “CLONE”. في الجانب الأيمن توجد منطقة “Cloned Audio Output” التي تعرض موجة الصوت المستنسخ وشريط التقدم، وفي الأسفل رسالة “Clone completed. Output duration: 4.2s”. توضح الصورة بشكل مباشر واجهة تشغيل النموذج ونتيجته.

12. Nemotron 3.5 ASR Streaming 0.6B: تعرف خفيف على الكلام بالبث المتدفق

Nemotron 3.5 ASR Streaming 0.6B هو نموذج للتعرف الآلي على الكلام من NVIDIA. صُمم للنسخ النصي المتدفق بزمن استجابة منخفض، ويستخدم بنية FastConformer-RNNT واعية بالذاكرة المخبئية.

الفكرة التصميمية الأساسية هي إعادة استخدام السياق. أثناء الاستدلال المتدفق، يعيد النموذج استخدام سياق المرمّز بدلًا من إعادة حساب مقاطع الصوت المتداخلة، ما يساعد على تقليل الحسابات الزائدة وتحسين الأداء في الزمن الحقيقي.

تعرض الصورة واجهة نموذج التعرف الآلي على الكلام Nemotron 3.5 ASR Streaming 0.6B. في الأعلى توجيه لرفع مقطع صوتي قصير أو تسجيله من أجل العرض على وحدة المعالجة المركزية. في الوسط رسم لموجة صوتية، وأسفله مربع لاختيار اللغة المستهدفة، والمحدد حاليًا هو en-US، إلى جانب مربع لحجم سياق الانتباه يعرض القيمة 56.13. في الأسفل منطقة برتقالية تحتوي على زر “Transcribe”، وتحتها منطقة نص النسخ التي تعرض فقرة تصف طرقًا ريفية وفصولًا مدرسية. ترتبط الصورة بنموذج Nemotron 3.5 ASR Streaming 0.6B المذكور في السياق، وتوضح مباشرة واجهة تشغيله ووظيفة النسخ النصي.

مداخل موسوعية رائجة

سلّطت HyperAI الضوء أيضًا هذا الأسبوع على خمسة مداخل رائجة في موسوعة الذكاء الاصطناعي:

  1. النموذج اللغوي الكبير (LLM)
  2. نموذج الفعل العالمي (WAM)
  3. المتوسط التوافقي
  4. الفحص الافتراضي
  5. التعلم المعزز من تغذية راجعة صادرة عن الذكاء الاصطناعي (RLAIF)

تجمع ويكي HyperAI مئات المفاهيم والشروحات المتعلقة بالذكاء الاصطناعي. وهي مفيدة للقراء الذين يريدون طريقة سريعة لفهم المصطلحات التي تظهر كثيرًا في الأوراق البحثية والدروس التعليمية ووثائق النماذج.

مواعيد نهائية لمؤتمرات الذكاء الاصطناعي في يوليو

يسرد التحديث الأصلي أيضًا عدة مواعيد نهائية لمؤتمرات في الذكاء الاصطناعي وعلوم الحاسوب خلال يوليو. جميع أوقات المواعيد النهائية مذكورة بتوقيت AoE.

التاريخ الوقت المؤتمر
09 يوليو 23:59:59 POPL 2027
10 يوليو 23:59:59 ICSE 2027
17 يوليو 23:59:59 SIGMOD 2027
28 يوليو 23:59:59 AAAI 2027

نبذة عن HyperAI

HyperAI مجتمع للذكاء الاصطناعي والحوسبة عالية الأداء. يوفر موقعه موارد عامة للمطورين والباحثين ومتعلمي الذكاء الاصطناعي.

وفقًا للمصدر الأصلي، جمعت HyperAI أو دعمت بالفعل:

  • أكثر من 2,100 مجموعة بيانات عامة مع عقد تسريع محلية
  • أكثر من 700 درس تعليمي كلاسيكي وشائع على الإنترنت
  • أكثر من 300 دراسة حالة لأوراق AI4Science
  • أكثر من 700 مدخل موسوعي متعلق بالذكاء الاصطناعي
  • مرآة كاملة للوثائق الصينية الخاصة بـ Apache TVM

الأسئلة الشائعة

ما هو Irodori-TTS-500M-v3؟

Irodori-TTS-500M-v3 هو نموذج ياباني مفتوح لتحويل النص إلى كلام، قائم على بنية RF-DiT. يدعم توليد الكلام الياباني، واستنساخ الصوت دون أمثلة مسبقة باستخدام مرجع قصير، والتحكم في الأسلوب بالاعتماد على الرموز التعبيرية.

هل يستطيع Irodori-TTS استنساخ صوت دون ضبط دقيق؟

نعم. يصف التحديث الأصلي Irodori-TTS بأنه يدعم استنساخ الصوت دون أمثلة مسبقة من مقطع صوتي مرجعي قصير، عادةً بين 3 و10 ثوانٍ تقريبًا. ومع ذلك، تظل النتيجة معتمدة على جودة الصوت المرجعي ووضوحه.

فيمَ يُستخدم SAM-Audio؟

يُستخدم SAM-Audio لفصل مصادر الصوت بالاعتماد على المطالبات. يمكن للمستخدمين وصف الصوت الذي يريدون استخراجه، أو تقديم إشارات بصرية، أو تحديد نطاق زمني لعزل صوت مستهدف من تسجيل مختلط.

ما الفرق بين التثبيت غير الحاد للفيديو وتجزئة الفيديو؟

عادةً ما تفصل تجزئة الفيديو الكائنات إلى مناطق أو أقنعة، بينما يقدّر التثبيت غير الحاد للفيديو قناع ألفا أكثر تفصيلًا. ويكون التثبيت غير الحاد مهمًا على وجه الخصوص لاستخراج المقدمة بشكل نظيف، والحفاظ على تفاصيل الشعر، والحواف شبه الشفافة، والدمج التركيبي.

ماذا يولد PrismAudio؟

يولد PrismAudio صوتًا للفيديو. ويحاول مواءمة الصوت المولد مع المحتوى الدلالي للفيديو وتوقيته وإحساسه الجمالي وإشاراته المكانية.

لماذا يُعد Unlimited-OCR مفيدًا للوثائق الطويلة؟

صُمم Unlimited-OCR للتحليل طويل المدى، وليس فقط للتعرف الضوئي على الحروف في صفحة واحدة معزولة. ويمكن أن يكون مفيدًا عند التعامل مع الأوراق البحثية أو التقارير أو الملفات الممسوحة ضوئيًا أو الجداول الطويلة أو الصور المشتقة من ملفات PDF متعددة الصفحات.

هل Nemotron 3.5 ASR Streaming 0.6B مناسب للنسخ النصي للكلام في الزمن الحقيقي؟

نعم، فقد صُمم بزمن استجابة منخفض.

التعرّف الآلي على الكلام عبر البث المباشر. تعيد بنية FastConformer-RNNT الواعية بالذاكرة المؤقتة استخدام السياق أثناء الاستدلال بالبث، مما يساعد على تقليل الحسابات المكررة.

أدوات ذات صلة

  • Irodori-TTS: نظام ياباني مفتوح المصدر لتحويل النص إلى كلام، يدعم استنساخ الصوت اعتمادًا على صوت مرجعي والتحكم في الأسلوب.
  • Irodori-TTS-500M-v3 على Hugging Face: صفحة النموذج الخاصة بنقطة تحقق تحويل النص الياباني إلى كلام بإصدار 500M v3.
  • SAM-Audio: مستودع Meta للاستدلال والأمثلة الخاصة بنموذج Segment Anything in Audio.
  • MatAnyone 2: صفحة مشروع إطار عمل MatAnyone 2 لعزل العناصر في الفيديو.
  • InSpatio-World: صفحة مشروع لمحاكاة عوالم رباعية الأبعاد تفاعلية في الزمن الحقيقي.
  • DiaMoE-TTS: مستودع GitHub لتوليد الكلام متعدد اللهجات اعتمادًا على الأبجدية الصوتية الدولية IPA.
  • PrismAudio: صفحة مشروع لتوليد الصوت من الفيديو باستخدام سلسلة تفكير مفككة ومكافآت متعددة الأبعاد.
  • DreamOmni2: مشروع مفتوح المصدر لتوليد الصور وتحريرها متعدد الوسائط والقائم على التعليمات.
  • PixelRefer: إطار عمل أكاديمية Alibaba DAMO لفهم الكائنات في الصور والفيديوهات بدقة تفصيلية.
  • Unlimited-OCR: مشروع Baidu للتعرّف البصري على النصوص وتحليل المستندات طويلة الأمد.
  • EdgeTAM: نموذج Meta على الجهاز لتتبّع أي شيء، مخصص لتجزئة الصور والفيديوهات القابلة للتوجيه بالمطالبات.
  • Step-Audio-EditX: نموذج StepFun لاستنساخ الصوت دون أمثلة مسبقة وتحرير الصوت التعبيري.
  • Nemotron 3.5 ASR Streaming 0.6B: صفحة نموذج NVIDIA على Hugging Face للتعرّف الآلي على الكلام عبر البث بزمن استجابة منخفض.

روابط ذات صلة

الملخص

يجمع هذا التحديث الأسبوعي مجموعة مفيدة من عروض الذكاء الاصطناعي وموارد النماذج الجديدة، ولا سيما في مجالات توليد الصوت، والتعرّف على الكلام، ومعالجة الفيديو، وفهم الصور، والتعرّف البصري على النصوص في المستندات الطويلة.

أبرز الأدوات العملية هي Irodori-TTS لتوليد الأصوات اليابانية، وSAM-Audio لفصل الأصوات اعتمادًا على المطالبات، وMatAnyone 2 لعزل الفيديوهات بدقة ونظافة، وUnlimited-OCR للمستندات الطويلة، وNemotron 3.5 ASR للتعرّف على الكلام عبر البث.

عمومًا، هذه الجولة مفيدة للقراء الذين يريدون اكتشاف نماذج الذكاء الاصطناعي الجديدة الجديرة بالتجربة بسرعة، ومعرفة ما يفعله كل نموذج، وأين يمكن تجربته.

HyperAI Weekly AI Model Update: Irodori-TTS, SAM-Audio, MatAnyone 2, PrismAudio, and More