DeepSeek DSparkがApple Siliconに対応：mlx-dsparkによるMacローカルLLM推論の高速化

この記事では、DeepSeekのDSpark投機的デコーディング手法がmlx-dsparkを通じてApple Siliconに移植され、対応するGemmaおよびQwenモデルでローカルMac推論を高速化する仕組みを解説します。重要なのは、この移植が単なる処理速度の向上だけを目的としているわけではない点です。ターゲットモデルに生成されたトークンを検証させることで、サンプリングを用いたデコーディング動作への対応も含め、出力の忠実性を維持することにも重点を置いています。 DFlashとの統合により、特に長いブロックのドラフト生成が効果を発揮するコードや数学タスクにおいて、もう一つの有用な選択肢が加わります。一方で、オープンエンドなチャットでは受理される長さを維持するのが難しいため、DSparkのほうが依然として適している場合があります。 **MacベースのローカルAI開発において、mlx-dsparkはApple Siliconユーザーに、すべてをサーバーへ移行することなく、より高速なLLM推論を試せる実用的な手段を提供します。**

发布于 2026年7月5日•general•GEO 评分: 0•3 次阅读

DeepSeek DSparkmlx-dsparkApple Silicon LLMMacローカルAIモデル投機的デコーディングMLXDFlashGemma-4 12BQwen3-4BQwen3-8BローカルLLM推論Mac AIアクセラレーションLLMデコーディング高速化DeepSpecHugging Faceドラフトモデル

选择语言

العربية Deutsch English Español Français Italiano 日本語 한국어 Português Русский 中文

画像はDeepSeek DSparkのプロモーション画像で、背景は濃い青色、青い光の効果と粒子効果が施されています。左側には白と青の文字で「DeepSeek DSpark」と表示され、右側には青いクジラの図柄があり、その周囲を青い光の輪と星が取り囲んでいます。この画像は、文書で紹介されているDeepSeek DSparkの内容に関連しており、DeepSeek DSparkのブランドイメージや技術的テーマを示すためのものと考えられます。また、文書で述べられているApple Silicon上でDeepSeek DSparkがMacのローカルLLM推論を高速化するという情報とも呼応しています。

DeepSeek DSparkがApple Siliconに登場：mlx-dsparkによるMacローカルLLM高速化

はじめに

DeepSeekのDSparkがオープンソース化されてから、わずか約1週間でコミュニティはそれをAppleコンピュータ上に移植しました。

この移植版は mlx-dspark と呼ばれています。AppleのMLXエコシステムを通じて、Apple Silicon上でDSparkスタイルの投機的デコーディングをネイティブに実行でき、Gemma-4 12B や Qwen3-4B などのモデルでテストされています。報告されたMacでのベンチマークでは、Gemma-4 12Bの生成速度は約 1.6倍、Qwen3-4Bは約 1.4倍 に向上しました。

さらに興味深いのは、単なる速度向上だけではありません。この移植版は、生成される出力をベースとなるターゲットモデルと一致させることを目指しており、モデルの挙動を単純に変えることで高速化を実現しているわけではありません。

画像は、DeepSeek DSparkがApple Silicon上で動作していることを示すツイートです。ツイートの投稿者はAbdur Rahimで、DSparkの投機的デコーディングがApple Siliconで利用可能になり、MLXに移植したこと、公開されたドラフトチェックポイントがMac上でネイティブに動作し、出力はベースモデルと同じまま高速化されることが述べられています。下部にはGemma-4 12BのベースラインとDSpark実行時の比較グラフがあり、DSparkの実行速度がベースラインより1.8倍速いことを示しています。この画像は、DSparkのApple Silicon移植を紹介する本文の内容に関連しており、実行効果を視覚的に示しています。

出典と画像に関する注記

出典記事：DeepSeek新技术移植苹果芯片！Mac本地大模型加速60%
元ページの出典注記：この記事はWeChat / QbitAIから転載されたものです。
このMarkdown版は、出典の事実情報と公開プロジェクトページに基づく、SEO向けの英語版アダプテーションです。元記事を一行ずつ完全に翻訳したものではありません。
出典記事には、実行可能なコマンドブロックや設定ファイルは含まれていませんでした。そのため、コードブロックの削除や変更は行っていません。
以下に含まれる画像は、出典記事本文に関連するスクリーンショットです。QRコード、フォロー促進表示、コメントUI、装飾的なプラットフォーム要素は、単独のコンテンツとしては含めていません。

Apple SiliconでDSparkスタイルのローカルLLM高速化が可能に

DeepSeekは6月27日、投機的デコーディング手法としてDSparkを公開しました。元のサーバー側の環境では、DSparkは特定のサービング条件下で生成速度を約 60%〜85% 向上させる方法として説明されていました。

しかし当初、利用可能な実装はデータセンター向けGPU環境に焦点を当てたものでした。Apple Silicon向けのネイティブなワークフローではありませんでした。これを変えたのが、Abdur Rahimによって作成されたMac上のMLXベース推論向け実装である mlx-dspark です。

画像はmlx-dsparkに関する情報を示しています。上部に大きく「mlx-dspark」とあり、その下のテキストでは、DeepSeekのDSparkとz-labのDFlash投機的デコーディングがApple Silicon上でネイティブに動作することが紹介されています。これはロスレスなドラフターであり、Mac上でGemma-4 12BとQwen3-4Bを高速化でき、DSparkとDFlashの直接比較も内蔵されています（DSparkは1.6倍／1.4倍、DFlashはコード／数学で最大2.1倍）。画像下部にはpypi、python、Appleプラットフォーム、licenseなどのバッジがあり、バージョン番号v0.0.3も表示されています。

DSparkの背後にある考え方は、高いレベルでは簡単に理解できます。

小さなドラフトモデルが、複数の候補トークンを先に提案します。
大きなターゲットモデルが、それらのトークンを検証します。
受理されたトークンは保持されます。
拒否されたトークンは、通常のターゲットモデルの経路で再生成されます。

これが投機的デコーディングの核心です。低コストなドラフト経路に先読みをさせ、その後ターゲットモデルに正しさを検証させます。

サーバーGPUでは、ボトルネックが純粋な計算よりもメモリ移動であることが多いため、トークンのまとまりを検証する処理は比較的効率的に行えます。そのような環境では、追加でいくつかのトークンをチェックしても、コストはそれほど増えない場合があります。

Apple Siliconでは挙動が異なります。Macでは、検証するトークンが1つ増えるごとに、より目に見えるレイテンシが発生する可能性があります。Rahimはこのコストを測定し、Apple Silicon上では、テスト条件下におけるこのスタイルの高速化の上限は約 2.2倍 だと推定しました。

実用化するために、彼はドラフトチェックポイントをHugging FaceからMLXワークフローへ移し、Gemma-4 12BおよびQwen3-4Bのターゲットモデルと組み合わせました。検証フローはMLX内で再構築され、ドラフト重みは4ビットに量子化されました。

画像はDSparkの仕組みを示しています。まず、並列バックボーン（5層のGemma-4）がターゲットモデルの隠れ状態（第5、17、29、41、46層から抽出、EAGLE3スタイル）を消費し、7トークンのブロックを一度に提案します。次に、rank-256のマルコフヘッドが直前トークンの補正を加え、順番にサンプリングします。これが唯一の逐次コストであり、「サフィックス減衰」を低コストで抑制します。最後に、信頼度ヘッドが各ドラフト位置にスコアを付けます（ブロック長の適応は任意）。ターゲットモデルが各トークンを検証するため、出力は構成上、貪欲デコーディングとして正しいものになります（浮動小数点近似スコアの範囲で、純粋な貪欲デコーディングと同一）。

報告されたM4 Proでのテストでは、Apple公式のMLXツールと比較して次の結果が示されています。

Gemma-4 12B は約 18.4 tok/s から約 30 tok/s に向上し、約 1.6倍高速 になりました。
Qwen3-4B は約 52.9 tok/s から約 73 tok/s に向上し、約 1.4倍高速 になりました。

ローカルAIを構築する開発者にとって、これは意味のある改善です。MacBookは依然としてデータセンターの推論サーバーではありませんが、この種の最適化により、より大きなローカルモデルを開発、テスト、個人のワークフローでより実用的に感じられるようになります。

この移植版は高忠実度な出力にも重点を置いている

大規模モデル高速化のローカル移植の多くは、まず貪欲デコーディングに焦点を当てます。貪欲デコーディングでは、モデルは各ステップで最も確率の高いトークンを単純に選択します。これにより、出力をトークンごとに比較できるため、正しさをテストしやすくなります。

mlx-dsparkはさらに進んで、DSpark論文で説明されている温度付きサンプリング手法を実装しています。ドラフトモデルがトークンを提案し、ターゲットモデルが確率ベースのルールを用いてそれらを受理します。拒否された部分は再サンプリングされます。

残りの分布。

これが重要なのは、サンプリングが多くの実際のアプリケーションで使われているからです。チャットインターフェース、創作文章、エージェントの探索、商品コピー生成では、厳密な貪欲デコーディングではなく、temperature に依存することがよくあります。

Rahim は、同じ temperature 設定のもとで、サンプリングフローがターゲットモデルの分布を保持していることを確認しました。言い換えると、目標は「十分に似た」近似を生成することではありません。この移植は、高速化によってモデル本来の出力挙動が変わらないように設計されています。

移植の過程では、いくつかの実践的な教訓もありました。

ドラフトモデルを、対応する instruction-tuned ターゲットではなくベースのターゲットモデルと組み合わせると、受理率が急激に低下する可能性がある。
報告されたテストでは、対応する instruction-tuned ターゲットに切り替えることで、受理率が約 47% から約 82% に上昇した。
ターゲットモデルに bf16 を使うと、受理率の改善よりも検証コストの増加のほうが大きかったため、この Mac ワークフローでは 8-bit ターゲット構成のほうが実用的だった。
ドラフトモデルは 4-bit に圧縮され、約 1.8 GB まで小さくなったため、ローカルマシンのメモリに保持しやすくなった。

その結果、単に高速に動作するだけではないローカル実装が生まれました。元のターゲットモデルに対してユーザーが期待する挙動を保つことも目指しています。

DFlash も統合され、コード・数学タスクが高速化

mlx-dspark の投稿が注目を集めたあと、DFlash も議論に加わりました。DFlash の作者の一人である Jian Chen は、DFlash モデルを同じ Mac 環境でテストできるかどうかを尋ねました。

画像は Jian Chen による Twitter の投稿を示している。投稿内容は「Great work! Could you try huggingface.co/z - lab/gemma4 - 12B - it - DFlash?」で、リンク「huggingface.co/z - lab/gemma4 - 12B - it - DFlash」も添付されている。画像下部には「huggingface.co から」の表示がある。この画像は、文書内の「DFlash が議論に加わった」部分に関連しており、Jian Chen が同じ Mac 環境で DFlash モデルをテストするよう依頼した文脈を示している。

DFlash は、z-lab による別の投機的デコーディング手法です。その設計は DSpark とは異なります。候補トークンを依存関係をより強く扱いながら逐次生成するのではなく、DFlash はブロック拡散型の手法を使い、トークンのブロック全体を並列にノイズ除去します。

テストされた構成では、Rahim は Jian の移植スクリプトを使って z-lab/gemma4-12B-it-DFlash を MLX ベースの Gemma-4 ターゲットモデルに接続しました。そのうえで、同じ Mac 上で DFlash と DSpark を比較しました。

コードや数学のような構造化タスクでは、DFlash は非常に優れた性能を示しました。受理長は約 5.95〜6.20 に達し、スループットは約 36 tok/s、報告された設定ではおよそ 2.1倍 でした。

画像は表で、DSpark、z - lab DFlash（cap 2）、z - lab DFlash（full 16）について、chat、code、math タスクにおけるスループット（tok/s）と受理長（tokens）を比較している。DSpark の 3 種類のタスクでのスループットはそれぞれ 2.45、2.78、2.86、受理長は 28.5、32.8、32.4。z - lab DFlash（cap 2）のスループットはそれぞれ 2.15、2.76、2.71、受理長は 24.2、31.3、29.6。z - lab DFlash（full 16）のスループットはそれぞれ 2.68、5.95、6.20、受理長は 16.9、36.6、36.3。この表は、文脈で紹介されている DFlash と DSpark の各タスクでの性能と対応している。

ただし、これは DFlash が常に優れているという意味ではありません。DFlash は一度に 16 トークンのブロック全体をドラフトしますが、ターゲットモデルが常にそのブロック全体を受理するわけではありません。受理されたトークン数は 受理長 と呼ばれます。

オープンエンドなチャットでは、次のトークンの予測がより難しくなります。受理長が低いままになる可能性があり、その場合、16 トークンの完全なブロックは実際の速度上の利点にはつながりません。このような設定では、DSpark のほうが速くなることがあります。これは、DSpark のマルコフヘッドが、並列トークンドラフトでよく現れる「サフィックス減衰」問題を低減するように設計されているためです。

画像は Abdur Rahim が Twitter に投稿した、DFlash と DSpark の性能比較に関する内容を示している。彼は Jian Chen が z - lab/gemma4 - 12B - it - DFlash モデルを MLX に接続し、M4 Pro Mac 上で mlx - vlm/gemma - 4 - 12B - it - 8Bit ターゲットモデルとともにテストしたことに感謝している。コードや数学のような構造化タスクでは、DFlash は優れた性能を示し、受理長は 5.95〜6.20、スループットは約 36 tok/s で、DSpark をわずかに上回った。一方、オープンエンドなチャットでは、DFlash の 16 トークン全ブロックを完全に受理するのは難しく、DSpark のマルコフ補正がわずかに優位だった。

その後の mlx-dspark のアップデートでは、z-lab のオリジナル DFlash パスがパッケージに直接追加されました。また、有効ブロック長を調整するためのパラメータも追加されました。これにより、ユーザーはより柔軟に選択できるようになりました。

チャットのようなタスクでは短いブロックを使う。
コードや数学タスクでは 16 トークンの完全なブロックを使う。
別々のプロジェクトを切り替えるのではなく、同じパッケージ内で DSpark と DFlash を比較する。

これにより、mlx-dspark は単一手法の実験というより、Apple Silicon ユーザー向けの実用的なローカル推論ツールキットに近づきました。

これがローカル AI 開発にとって重要な理由

ローカル LLM ワークフローは、開発者、研究者、小規模チームの間でますます一般的になっています。モデルをローカルで実行すると、レイテンシ、データの扱い、実験、オフラインワークフローをより細かく制御できます。

しかし、ローカル推論にはしばしば厄介な制約があります。それは速度です。モデルがメモリに収まる場合でも、生成は遅く感じられることがあります。

mlx-dspark が興味深いのは、まったく新しいターゲットモデルを必要とせずにこの問題に取り組んでいる点です。投機的デコーディングを使って既存のモデルをより高速に感じられるようにしつつ、ターゲットモデルが出力を検証できるようにしています。

Mac 上でローカル AI アプリを構築する開発者にとって、これはいくつかの場面で有用になり得ます。

AI のテスト

サーバー推論へ移行する前の機能。
2. ローカルのコーディングアシスタントやドキュメントアシスタントを実行すること。
3. タスクの種類ごとにデコード戦略を比較すること。
4. 軽量な OpenAI 互換のローカルサービスを構築すること。
5. 特定のプロトタイプに対して、より小規模な Mac 環境で十分かどうかを評価すること。

それでもトレードオフは重要です。コードや数学でうまく機能する方法が、自由な会話に最適とは限りません。M4 Pro で良好に動作する方法が、古い Apple Silicon チップやメモリ制約のあるマシンでは異なる挙動を示す場合もあります。

したがって実践的な結論は、「1つの方法があらゆる場面で勝つ」ということではありません。Apple Silicon では現在、DSpark、DFlash、そして MLX ネイティブの投機的デコードを試すためのより強力な道筋が整った、ということです。

FAQ

DSpark とは何ですか？

DSpark は、DeepSeek の DeepSpec プロジェクトに関連する投機的デコード手法です。ドラフトモデルを使ってトークンを先に提案し、ターゲットモデルにそれらを検証させることで、出力の挙動を維持しながら推論を高速化することを目指します。

mlx-dspark とは何ですか？

mlx-dspark は、MLX を通じて DSpark および DFlash 形式の投機的デコードを Apple Silicon にもたらすコミュニティ実装です。対応する Gemma および Qwen のターゲットモデルを、Mac 上でドラフトモデルによる高速化付きで実行できます。

mlx-dspark は DeepSeek-V4 をローカルで実行できますか？

いいえ。mlx-dspark プロジェクトでは、ローカル Mac 向けのターゲットは Gemma や Qwen などの密なモデルであり、DeepSeek-V4 自体ではないと説明されています。DeepSeek の DSpark ドラフト手法を使用しますが、Mac のワークフローで実際にトークンを生成するターゲットモデルは Gemma または Qwen です。

Mac 上で DSpark はどのくらい高速ですか？

報告されたテストでは、Gemma-4 12B は約 18.4 tok/s から約 30 tok/s に向上し、Qwen3-4B は約 52.9 tok/s から約 73 tok/s に向上しました。実際の速度は、Mac のチップ、モデル、精度、プロンプトの種類、デコード設定によって異なります。

DFlash とは何ですか？

DFlash は、z-lab によるブロック拡散型の投機的デコード手法です。トークンのブロックを並列にドラフト生成し、受理される長さが長い場合、コードや数学のような構造化タスクで特に効果を発揮することがあります。

DSpark は DFlash より優れていますか？

常にそうとは限りません。DFlash はコードや数学タスクでより優れた性能を示す場合があり、一方で DSpark は長い並列ブロックの予測が難しい自由形式のチャットでより強みを発揮することがあります。最適な選択は、ターゲットモデルとタスクの種類によって異なります。

mlx-dspark を使うには Apple Silicon が必要ですか？

mlx-dspark は MLX を通じて Apple Silicon 向けに設計されているため、Apple Silicon 搭載 Mac が想定環境です。また、互換性のある Python 環境と、Hugging Face またはローカルパスにある対応モデルの重みも必要です。

投機的デコードは本番環境に適していますか？

適している場合もありますが、本番利用には慎重なベンチマークが必要です。実際に依存する前に、出力の忠実性、受理長、レイテンシ、バッチ処理の挙動、メモリ使用量、モデル互換性、ハードウェア固有の性能を確認する必要があります。

まとめ

この記事では、DeepSeek の DSpark 投機的デコード手法が mlx-dspark を通じて Apple Silicon に移植され、対応する Gemma および Qwen モデルのローカル Mac 推論が高速化された仕組みを説明しました。

重要な点は、この移植が単なる生の速度向上だけを目的としているわけではないことです。サンプリング付きデコードの挙動への対応を含め、生成されたトークンをターゲットモデルに検証させることで、出力の忠実性を維持することにも重点を置いています。

DFlash の統合により、もう1つの有用な選択肢が追加されます。

特にコードや数学のタスクでは、長いブロックを下書きすることが効果を発揮する場合があります。自由度の高いチャットでは、許容される長さを維持するのが難しいため、DSpark のほうが依然として適しているかもしれません。

Mac ベースのローカル AI 開発において、mlx-dspark は Apple Silicon ユーザーに、すべてをサーバーへ移行することなく、より高速な LLM 推論を試せる実用的な手段を提供します。