株式会社ファーストイノベーション

DeepSeek V3-0324の最新動向と性能向上の詳細

DeepSeekが最新の大規模言語モデル「DeepSeek V3-0324」をリリース。推論能力やコーディング性能の向上など、その詳細を専門的に解説します。

DeepSeek V3-0324の最新動向と性能向上の詳細

はじめに

中国・杭州を拠点とするAIスタートアップ企業、DeepSeek(深度求索)は、2025年3月24日に最新の大規模言語モデル「DeepSeek V3-0324」をリリースしました。本記事では、その技術的特徴と性能向上の詳細について解説します。

開発の背景

DeepSeekは2023年に創業され、AI分野におけるオープンソースモデルの提供を主なミッションとしています。創業者である梁文鋒(リャン・ウェンフォン)氏は、金融業界での経験を活かし、高性能かつ効率的なAIモデルの開発を推進しています。

モデルのアーキテクチャと技術仕様

DeepSeek V3-0324は、Mixture-of-Experts(MoE)型のTransformerベースの言語モデルです。総パラメータ数は約6850億で、各トークン処理時に活性化されるのは約370億パラメータです。256個のエキスパート層を持ち、入力に応じて動的にエキスパートが選択されるため、高い計算効率を実現しています。

トレーニングデータと手法

約14.8兆トークンの多様なジャンルの高品質データを用いてトレーニングが行われました。FP8精度の混合精度トレーニングを採用し、約55日間(合計278.8万GPU時間)で学習を完了しています。

主な性能向上

  • 推論能力の向上: 数学的・論理的推論能力が大幅に改善され、数学ベンチマークAIMEで前バージョンを約20ポイント上回るスコアを達成しています。
  • コーディング性能の強化: フロントエンド開発(HTML/CSS/JavaScript等)において高品質なコード生成が可能となり、プログラミング系ベンチマーク(LiveCodeBench等)でも高いスコアを記録しています。
  • 文章生成能力の向上: 中国語を含む多言語での文章作成能力が強化され、スタイルや一貫性が向上しています。

他モデルとの比較

DeepSeek V3-0324は、他の主要オープンソースモデル(MetaのLlamaシリーズやAlibabaのQwenシリーズ等)と比較してもトップクラスの性能を有しており、特に推論能力やコード生成能力において優位性を持ちます。

モデルの公開状況

DeepSeek V3-0324はオープンソースとしてMITライセンスのもとで公開されており、Hugging Faceなどのプラットフォームからダウンロード可能です。DeepSeek社は公式サイトやスマートフォン向けアプリでもモデルの利用環境を提供しています。

まとめ

DeepSeek V3-0324は、推論能力やコーディング性能の向上など、多岐にわたる改良が施された大規模言語モデルです。オープンソースとして公開されているため、研究者や開発者にとって有用なリソースとなるでしょう。