DeepSeek DSpark приходит на Apple Silicon: ускорение локальных LLM на Mac с помощью mlx-dspark

В этой статье объясняется, как метод спекулятивного декодирования DSpark от DeepSeek был перенесен на Apple Silicon через mlx-dspark, что ускорило локальный инференс на Mac для поддерживаемых моделей Gemma и Qwen. Ключевой момент в том, что этот перенос касается не только чистой скорости. Он также направлен на сохранение точности вывода: целевая модель проверяет сгенерированные токены, включая поддержку поведения при декодировании с выборкой. Интеграция DFlash добавляет еще одну полезную возможность, особенно для задач программирования и математики, где длинное черновое формирование блоков может дать заметный выигрыш. Для открытого чата DSpark по-прежнему может быть более подходящим вариантом, поскольку поддерживать длину принятых фрагментов сложнее. **Для локальной разработки ИИ на Mac mlx-dspark дает пользователям Apple Silicon практичный способ тестировать более быстрый инференс LLM без переноса всего на сервер.**

发布于 2026年7月5日generalGEO 评分: 02 次阅读
DeepSeek DSparkmlx-dsparkLLM для Apple Siliconлокальная модель ИИ для Macспекулятивное декодированиеMLXDFlashGemma-4 12BQwen3-4BQwen3-8Bлокальный инференс LLMускорение ИИ на Macускорение декодирования LLMDeepSpecчерновая модель Hugging Face
Изображение представляет собой промо-иллюстрацию DeepSeek DSpark: темно-синий фон с синими световыми эффектами и эффектом частиц. Слева белым и синим шрифтом показана надпись «DeepSeek DSpark», справа расположен синий кит, окруженный синим световым кольцом и звездами. Изображение связано с содержанием документа о DeepSeek DSpark и, вероятно, предназначено для демонстрации бренда или технологической темы DeepSeek DSpark, перекликаясь с упомянутой в документе информацией об ускорении локального инференса LLM на Mac с Apple Silicon с помощью DeepSeek DSpark.

DeepSeek DSpark приходит на Apple Silicon: ускорение локальных LLM на Mac с помощью mlx-dspark

Введение

DSpark от DeepSeek был открыт всего около недели назад, когда сообщество уже перенесло его на компьютеры Apple.

Порт называется mlx-dspark. Он запускает спекулятивное декодирование в стиле DSpark нативно на Apple Silicon через экосистему Apple MLX; тесты проводились на таких моделях, как Gemma-4 12B и Qwen3-4B. В опубликованных бенчмарках для Mac генерация Gemma-4 12B стала примерно в 1,6 раза быстрее, а Qwen3-4B ускорилась примерно в 1,4 раза.

Особый интерес здесь представляет не только скорость. Порт нацелен на сохранение соответствия генерируемого вывода базовой целевой модели, то есть ускорение достигается не за счет простого изменения поведения модели.

На изображении показан твит о работе DeepSeek DSpark на Apple Silicon. Автор твита — Abdur Rahim; в тексте говорится, что спекулятивное декодирование DSpark теперь доступно на Apple Silicon, оно перенесено в MLX, опубликованные draft-чекпойнты могут нативно работать на Mac, а вывод совпадает с базовой моделью, но генерируется быстрее. Ниже приведено сравнение базовой линии Gemma-4 12B и запуска DSpark, показывающее, что DSpark работает в 1,8 раза быстрее базовой линии. Изображение связано с описанием переноса DSpark на Apple Silicon и наглядно демонстрирует результат работы.

Источник и примечания к изображениям

  • Исходная статья: Новая технология DeepSeek перенесена на чипы Apple! Локальные большие модели на Mac ускорены на 60%
  • Примечание об исходном источнике на странице: статья была перепубликована из WeChat / QbitAI.
  • Эта Markdown-версия представляет собой SEO-готовую англоязычную адаптацию на основе фактов из источника и публичных страниц проекта. Это не построчный полный перевод оригинальной статьи.
  • Исходная статья не содержала исполняемых командных блоков или конфигурационных файлов. Поэтому никакие блоки кода не удалялись и не изменялись.
  • Изображения ниже — это релевантные к основному тексту скриншоты из исходной статьи. QR-коды, призывы подписаться, интерфейс комментариев и декоративные элементы платформы не включались как самостоятельный контент.

Apple Silicon теперь может запускать локальное ускорение LLM в стиле DSpark

DeepSeek выпустила DSpark 27 июня как подход к спекулятивному декодированию. В исходном серверном сценарии DSpark описывался как способ повысить скорость генерации примерно на 60–85% при определенных условиях обслуживания.

Однако сначала доступная реализация была ориентирована на GPU-среды дата-центров. Это не был нативный рабочий процесс для Apple Silicon. Ситуация изменилась с появлением mlx-dspark — реализации, созданной Abdur Rahim для инференса на Mac на базе MLX.

На изображении показана информация о mlx-dspark. Вверху крупно написано «mlx-dspark», ниже текст представляет DSpark от DeepSeek и спекулятивное декодирование DFlash от z-lab, которые могут нативно работать на Apple Silicon. Указано, что это lossless-драфтер, позволяющий Gemma-4 12B и Qwen3-4B работать на Mac быстрее, а также содержащий встроенное прямое сравнение DSpark и DFlash: DSpark — 1,6x / 1,4x; DFlash — до 2,1x на задачах кода и математики. Внизу изображения расположены значки pypi, python, платформы Apple, license и др., также указана версия v0.0.3.

Идею DSpark на высоком уровне понять довольно просто:

  1. Меньшая draft-модель заранее предлагает несколько кандидатных токенов.
  2. Более крупная целевая модель проверяет эти токены.
  3. Принятые токены сохраняются.
  4. Отклоненные токены заново генерируются обычным путем целевой модели.

Это и есть суть спекулятивного декодирования: позволить более дешевой draft-ветке угадывать наперед, а затем дать целевой модели проверить корректность.

На серверных GPU проверка группы токенов может быть относительно эффективной, поскольку узким местом часто является перемещение данных в памяти, а не чистые вычисления. В таких условиях проверка нескольких дополнительных токенов может не добавлять большой стоимости.

Apple Silicon ведет себя иначе. На Mac каждый дополнительный проверяемый токен может вносить более заметную задержку. Rahim измерил эту стоимость и оценил, что на Apple Silicon верхний предел ускорения для такого стиля составляет около 2,2 раза в протестированных условиях.

Чтобы сделать это практичным, он перенес draft-чекпойнты из Hugging Face в рабочий процесс MLX и связал их с целевыми моделями Gemma-4 12B и Qwen3-4B. Поток верификации был заново построен внутри MLX, а draft-веса были квантованы до 4 бит.

На изображении показан принцип работы DSpark. Сначала параллельная основная ветка — 5 слоев Gemma-4 — потребляет скрытые состояния целевой модели, извлеченные на слоях 5, 17, 29, 41 и 46 в стиле EAGLE3, и за один раз предлагает блок из 7 токенов. Затем марковская голова ранга 256 добавляет поправку предыдущего токена и выполняет последовательную выборку — это единственная последовательная стоимость, которая дешево устраняет «затухание суффикса». Наконец, confidence head оценивает каждую draft-позицию, при необходимости адаптируя длину блока. Целевая модель проверяет каждый токен, поэтому вывод по построению является greedy-корректным — совпадает с чистым greedy-декодированием с точностью до приближений оценок с плавающей точкой.

В опубликованных тестах на M4 Pro по сравнению с официальными инструментами MLX от Apple:

  • Gemma-4 12B выросла примерно с 18,4 ток/с до около 30 ток/с, то есть стала примерно в 1,6 раза быстрее.
  • Qwen3-4B выросла примерно с 52,9 ток/с до около 73 ток/с, то есть стала примерно в 1,4 раза быстрее.

Для разработчиков локального ИИ это существенный прирост. MacBook все еще не является сервером инференса уровня дата-центра, но оптимизация такого рода делает более крупные локальные модели заметно удобнее для разработки, тестирования и персональных рабочих процессов.

Порт также сосредоточен на высокой точности вывода

Многие локальные порты ускорения больших моделей сначала фокусируются на greedy-декодировании. При greedy-декодировании модель просто выбирает токен с наибольшей вероятностью на каждом шаге. Это упрощает проверку корректности, поскольку вывод можно сравнивать токен за токеном.

mlx-dspark идет дальше, реализуя метод температурной выборки, описанный в статье DSpark. Draft-модель предлагает токены, а целевая модель принимает их по правилу, основанному на вероятностях. Отклоненные части заново сэмплируются из

оставшееся распределение.

Это важно, потому что сэмплирование используется во многих реальных приложениях. Чат-интерфейсы, творческое письмо, исследование агентами и генерация рекламных текстов часто полагаются на temperature, а не на строгое жадное декодирование.

Рахим проверил, что поток сэмплирования сохраняет распределение целевой модели при той же настройке temperature. Иными словами, цель состоит не в том, чтобы получить «достаточно похожее» приближение. Порт спроектирован так, чтобы ускорение не меняло предполагаемое поведение вывода модели.

Во время портирования также было получено несколько практических выводов:

  • Если черновая модель сопряжена с базовой целевой моделью вместо соответствующей instruction-tuned целевой модели, доля принятия может резко снизиться.
  • В описанном тесте переход на соответствующую instruction-tuned целевую модель повысил долю принятия примерно с 47% до примерно 82%.
  • Использование bf16 для целевой модели увеличило стоимость верификации сильнее, чем улучшило принятие, поэтому 8-битная конфигурация целевой модели оказалась более практичной в этом рабочем процессе на Mac.
  • Черновая модель была сжата до 4 бит и уменьшена примерно до 1,8 ГБ, что облегчило ее удержание в памяти на локальных машинах.

В результате получилась локальная реализация, которая не просто работает быстрее. Она также старается сохранить поведение, которого пользователи ожидают от исходной целевой модели.

DFlash также был интегрирован для ускорения задач по коду и математике

После того как публикация о mlx-dspark привлекла внимание, в обсуждение вошел DFlash. Цзянь Чэнь, один из авторов DFlash, спросил, можно ли протестировать модель DFlash в той же конфигурации Mac.

На изображении показан твит Цзянь Чэня в Twitter. Текст твита: «Great work! Could you try huggingface.co/z - lab/gemma4 - 12B - it - DFlash?», также приложена ссылка «huggingface.co/z - lab/gemma4 - 12B - it - DFlash». Внизу изображения есть отметка «из huggingface.co». Это изображение связано с разделом документа «DFlash вошел в обсуждение» и дает контекст запроса Цзянь Чэня протестировать модель DFlash в той же конфигурации Mac.

DFlash — еще один подход к спекулятивному декодированию от z-lab. Его архитектура отличается от DSpark. Вместо того чтобы генерировать токены-кандидаты шаг за шагом с более сильной обработкой зависимостей, DFlash использует метод в стиле блочной диффузии, чтобы параллельно очищать от шума целый блок токенов.

В протестированной конфигурации Рахим использовал скрипт портирования Цзяня, чтобы подключить z-lab/gemma4-12B-it-DFlash к целевой модели Gemma-4 на базе MLX. Затем он сравнил DFlash и DSpark на том же Mac.

В структурированных задачах, таких как код и математика, DFlash показал очень хорошие результаты. Его принятая длина достигала примерно 5,95–6,20, а пропускная способность — около 36 ток/с, что в описанной конфигурации составляет примерно 2,1×.

Изображение представляет собой таблицу, сравнивающую DSpark, z - lab DFlash (cap 2) и z - lab DFlash (full 16) по пропускной способности (ток/с) и принятой длине (токены) в задачах chat, code и math. У DSpark пропускная способность в трех типах задач составляет 2,45, 2,78 и 2,86, а принятая длина — 28,5, 32,8 и 32,4; у z - lab DFlash (cap 2) пропускная способность в трех типах задач составляет 2,15, 2,76 и 2,71, а принятая длина — 24,2, 31,3 и 29,6; у z - lab DFlash (full 16) пропускная способность в трех типах задач составляет 2,68, 5,95 и 6,20, а принятая длина — 16,9, 36,6 и 36,3. Таблица соответствует контексту, в котором описывается производительность DFlash и DSpark в разных задачах.

Это не означает, что DFlash всегда лучше. DFlash формирует черновик сразу полного блока из 16 токенов, но целевая модель не всегда принимает весь блок. Количество принятых токенов называется принятой длиной.

В открытом чате следующие токены сложнее предсказать. Принятая длина может оставаться ниже, а значит полный блок из 16 токенов не превращается в реальное преимущество по скорости. В такой конфигурации DSpark может быть быстрее, потому что его марковская голова разработана для снижения проблемы «затухания суффикса», которая часто возникает при параллельном черновом построении токенов.

Изображение показывает публикацию Абдура Рахима в Twitter о сравнении производительности DFlash и DSpark. Он благодарит Цзянь Чэня за подключение модели z - lab/gemma4 - 12B - it - DFlash к MLX и тестирование с целевой моделью mlx - vlm/gemma - 4 - 12B - it - 8Bit на Mac M4 Pro. В структурированных задачах, таких как код и математика, DFlash показывает отличные результаты: принятая длина достигает 5,95–6,20, пропускная способность — около 36 ток/с, что немного выше, чем у DSpark. Но в открытом чате полный блок DFlash из 16 токенов трудно принять полностью, а марковская коррекция DSpark дает небольшое преимущество.

В более позднем обновлении mlx-dspark исходный путь DFlash от z-lab был добавлен прямо в пакет. Также был добавлен параметр для настройки эффективной длины блока. Это дает пользователям более гибкий выбор:

  • Использовать более короткие блоки для задач, похожих на чат.
  • Использовать полный блок из 16 токенов для задач по коду и математике.
  • Сравнивать DSpark и DFlash в одном пакете вместо переключения между отдельными проектами.

Это делает mlx-dspark менее похожим на эксперимент с одним методом и более похожим на практичный локальный инструментарий инференса для пользователей Apple Silicon.

Почему это важно для локальной разработки ИИ

Локальные рабочие процессы с LLM становятся все более распространенными среди разработчиков, исследователей и небольших команд. Запуск моделей локально дает больше контроля над задержкой, обработкой данных, экспериментами и офлайн-сценариями.

Но у локального инференса часто есть одно болезненное ограничение: скорость. Даже когда модель помещается в память, генерация может ощущаться медленной.

mlx-dspark интересен тем, что решает эту проблему, не требуя полностью новой целевой модели. Он использует спекулятивное декодирование, чтобы существующая модель ощущалась быстрее, при этом по-прежнему позволяя целевой модели проверять вывод.

Для разработчиков, создающих локальные AI-приложения на Mac, это может быть полезно в нескольких сценариях:

  1. Тестирование ИИ

функции перед переходом к серверному инференсу.
2. Запуск локальных ассистентов для программирования или работы с документами.
3. Сравнение стратегий декодирования для разных типов задач.
4. Создание легковесных локальных сервисов, совместимых с OpenAI.
5. Оценка того, достаточно ли менее мощной конфигурации Mac для конкретного прототипа.

Компромисс по-прежнему важен. Метод, который хорошо работает с кодом и математикой, может быть не лучшим выбором для открытого диалога. Метод, который хорошо показывает себя на M4 Pro, может вести себя иначе на более старых чипах Apple Silicon или на машинах с ограниченным объемом памяти.

Поэтому практический вывод состоит не в том, что «один метод побеждает везде». Он в том, что у Apple Silicon теперь есть более сильная основа для экспериментов с DSpark, DFlash и нативным для MLX спекулятивным декодированием.

FAQ

Что такое DSpark?

DSpark — это метод спекулятивного декодирования, связанный с проектом DeepSpec от DeepSeek. Он использует черновую модель, чтобы заранее предлагать токены, а целевая модель проверяет их, что позволяет ускорить инференс при сохранении поведения вывода.

Что такое mlx-dspark?

mlx-dspark — это реализация сообщества, которая переносит спекулятивное декодирование в стиле DSpark и DFlash на Apple Silicon через MLX. Она позволяет поддерживаемым целевым моделям Gemma и Qwen работать на Mac с ускорением за счет черновой модели.

Запускает ли mlx-dspark DeepSeek-V4 локально?

Нет. Проект mlx-dspark поясняет, что его локальные целевые модели для Mac — это плотные модели, такие как Gemma и Qwen, а не сам DeepSeek-V4. Он использует метод чернового декодера DSpark от DeepSeek, но целевая модель, генерирующая токены в рабочем процессе на Mac, — это Gemma или Qwen.

Насколько быстрее DSpark на Mac?

В опубликованных тестах Gemma-4 12B улучшила скорость примерно с 18,4 ток/с до примерно 30 ток/с, а Qwen3-4B — примерно с 52,9 ток/с до примерно 73 ток/с. Фактическая скорость зависит от чипа Mac, модели, точности, типа промпта и настроек декодирования.

Что такое DFlash?

DFlash — это метод блочно-диффузионного спекулятивного декодирования от z-lab. Он параллельно создает черновой блок токенов и может быть особенно эффективен в структурированных задачах, таких как код и математика, когда принятая длина велика.

DSpark лучше, чем DFlash?

Не всегда. DFlash может работать лучше в задачах программирования и математики, тогда как DSpark может быть сильнее в открытом чате, где длинные параллельные блоки труднее предсказывать. Лучший выбор зависит от целевой модели и типа задачи.

Нужен ли Apple Silicon для использования mlx-dspark?

mlx-dspark разработан для Apple Silicon через MLX, поэтому предполагаемой средой является Mac с Apple Silicon. Также требуется совместимая среда Python и поддерживаемые веса моделей из Hugging Face или локальных путей.

Подходит ли спекулятивное декодирование для продакшена?

Может подходить, но использование в продакшене требует тщательного бенчмаркинга. Прежде чем полагаться на него, необходимо проверить точность соответствия вывода, принятую длину, задержку, поведение при батчинге, использование памяти, совместимость моделей и производительность на конкретном оборудовании.

Связанные инструменты

  • mlx-dspark: проект сообщества, который запускает спекулятивное декодирование DSpark и DFlash нативно на Apple Silicon через MLX.
  • DeepSpec: полнофункциональная кодовая база DeepSeek для обучения и оценки черновых моделей спекулятивного декодирования.
  • MLX: фреймворк машинного обучения Apple, разработанный для эффективной работы на Apple Silicon.
  • z-lab/gemma4-12B-it-DFlash: черновая модель DFlash для рабочих процессов Gemma-4 12B, настроенных под инструкции.
  • Hugging Face: платформа хостинга моделей, используемая проектами и контрольными точками, упомянутыми в этой статье.
  • Организация DeepSeek на Hugging Face: официальная организация DeepSeek на Hugging Face для публикации моделей и контрольных точек.

Связанные ссылки

Резюме

В этой статье объясняется, как метод спекулятивного декодирования DSpark от DeepSeek был перенесен на Apple Silicon через mlx-dspark, что ускорило локальный инференс на Mac для поддерживаемых моделей Gemma и Qwen.

Ключевой момент в том, что портирование касается не только чистой скорости. Оно также сосредоточено на сохранении точности вывода, позволяя целевой модели проверять сгенерированные токены, включая поддержку поведения декодирования с выборкой.

Интеграция DFlash добавляет еще один полезный вариант,

особенно для задач, связанных с кодом и математикой, где подготовка длинных блоков может окупиться. Для открытого чата DSpark всё ещё может быть более подходящим вариантом, поскольку поддерживать приемлемую длину сложнее.

Для локальной разработки ИИ на Mac mlx-dspark даёт пользователям Apple Silicon практичный способ протестировать более быстрый инференс LLM, не перенося всё на сервер.