DeepSeek V3-0324の最新動向と性能向上の詳細
DeepSeekが最新の大規模言語モデル「DeepSeek V3-0324」をリリース。推論能力やコーディング性能の向上など、その詳細を専門的に解説します。

はじめに
中国・杭州を拠点とするAIスタートアップ企業、DeepSeek(深度求索)は、2025年3月24日に最新の大規模言語モデル「DeepSeek V3-0324」をリリースしました。本記事では、その技術的特徴と性能向上の詳細について解説します。
開発の背景
DeepSeekは2023年に創業され、AI分野におけるオープンソースモデルの提供を主なミッションとしています。創業者である梁文鋒(リャン・ウェンフォン)氏は、金融業界での経験を活かし、高性能かつ効率的なAIモデルの開発を推進しています。
モデルのアーキテクチャと技術仕様
DeepSeek V3-0324は、Mixture-of-Experts(MoE)型のTransformerベースの言語モデルです。総パラメータ数は約6850億で、各トークン処理時に活性化されるのは約370億パラメータです。256個のエキスパート層を持ち、入力に応じて動的にエキスパートが選択されるため、高い計算効率を実現しています。
トレーニングデータと手法
約14.8兆トークンの多様なジャンルの高品質データを用いてトレーニングが行われました。FP8精度の混合精度トレーニングを採用し、約55日間(合計278.8万GPU時間)で学習を完了しています。
主な性能向上
- 推論能力の向上: 数学的・論理的推論能力が大幅に改善され、数学ベンチマークAIMEで前バージョンを約20ポイント上回るスコアを達成しています。
- コーディング性能の強化: フロントエンド開発(HTML/CSS/JavaScript等)において高品質なコード生成が可能となり、プログラミング系ベンチマーク(LiveCodeBench等)でも高いスコアを記録しています。
- 文章生成能力の向上: 中国語を含む多言語での文章作成能力が強化され、スタイルや一貫性が向上しています。
他モデルとの比較
DeepSeek V3-0324は、他の主要オープンソースモデル(MetaのLlamaシリーズやAlibabaのQwenシリーズ等)と比較してもトップクラスの性能を有しており、特に推論能力やコード生成能力において優位性を持ちます。
モデルの公開状況
DeepSeek V3-0324はオープンソースとしてMITライセンスのもとで公開されており、Hugging Faceなどのプラットフォームからダウンロード可能です。DeepSeek社は公式サイトやスマートフォン向けアプリでもモデルの利用環境を提供しています。
まとめ
DeepSeek V3-0324は、推論能力やコーディング性能の向上など、多岐にわたる改良が施された大規模言語モデルです。オープンソースとして公開されているため、研究者や開発者にとって有用なリソースとなるでしょう。
関連記事