ゲートニュース 4月27日 — 半導体およびAI分析企業のSemiAnalysisは、GPT-5.5、Claude Opus 4.7、DeepSeek V4を含むコーディングアシスタントの比較ベンチマークを公開した。主要な発見:GPT-5.5は、コーディングモデルにおいて、OpenAIが6か月ぶりに最先端へ戻ったことを示す。SemiAnalysisのエンジニアは、以前ほぼ独占的にClaudeに依存していたのに対し、現在はCodexとClaude Codeを交互に使っている。GPT-5.5は「Spud」とコードネームされた新しい事前学習アプローチに基づいており、GPT-4.5以来となるOpenAIの事前学習スケールの初めての拡張を表している。
実践的なテストでは、明確な役割分担が見えてきた。Claudeは新しいプロジェクトの計画と初期セットアップを担当し、Codexは推論を多く要するバグ修正に強い。Codexはデータ構造の理解と論理的推論がより強い一方で、曖昧なユーザー意図の推測には苦戦する。単一のダッシュボード課題では、Claudeは参照ページのレイアウトを自動的に再現したが、大量のデータを捏造していた。一方Codexはレイアウトは省略したものの、はるかに正確なデータを提示した。
分析は、ベンチマーク操作の詳細を明らかにしている。OpenAIは2月のブログ投稿で、コーディングベンチマークの新しい標準としてSWE-bench Proの採用を業界に促していた。しかし、GPT-5.5の発表は「Expert-SWE」という新しいベンチマークへ切り替わっている。その理由は細かな注記の中に埋もれているが、GPT-5.5はSWE-bench ProでOpus 4.7に追い抜かれ、Anthropicの未リリースであるMythos (77.8%)に対して大きく劣っていたためだ。
Opus 4.7については、Anthropicがリリースの1週間後にポストモーテム分析を公開し、3つのバグを認めている。これらはClaude Codeに存在し、3月から4月にかけて数週間持続し、ほぼ全ユーザーに影響した。複数のエンジニアがそれ以前にバージョン4.6でパフォーマンスが低下したと報告していたが、主観的な観測として退けられていた。さらに、Opus 4.7の新しいトークナイザーはトークン使用量を最大35%増やすと、Anthropic自身が公然と認めており、実質的に隠れた価格上昇を意味している。
DeepSeek V4は「最先端に追随はしているが、リードしてはいない」と評価され、クローズドソースのモデル群の中では最も低コストの選択肢として位置づけられた。分析ではまた、「Claudeは高難度の中国語ライティング課題においてDeepSeek V4 Proを引き続き上回っており」、さらに「Claudeは自国の言語で中国のモデルに勝った」とのコメントもあった。
記事は重要な概念を提示する。モデルの価格は「トークンあたりのコスト」ではなく「タスクあたりのコスト」で評価されるべきだ、というものだ。GPT-5.5の価格はGPT-5.4の2倍で、(input $5, output $30 per million tokens) だが、より少ないトークンで同じタスクを完了するため、実際のコストが必ずしも高いとは限らない。最初のSemiAnalysisのデータでは、Codexの入力対出力比が80:1で、Claude Codeの100:1より低い。
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は
免責事項をご参照ください。
関連記事
Claw IntelligenceがBlock Sec Arenaと提携し、BNB Chainのセキュリティを強化
Block Sec Arenaの4月30日の公式発表によると、BNB Chain上に構築されたAI駆動のWeb3プラットフォームであるClaw Intelligenceが、エコシステムに高度なサイバーセキュリティ基盤を統合するためにBlock Sec Arenaとの戦略的パートナーシップを発表した。この共同事業は、強化を目指しているp
GateNews6時間前
NTT、AI × OWNイニシアチブを発表、日本の電力供給能力を2033年までに10億ワット(1 GW)に3倍増やす計画
4月27日、NTTの社長・島田明氏は、AI x OWNイニシアチブを発表しました。これは、同社がリアルタイムAI活用のためにインターネット基盤を再設計しようとする取り組みです。NTTは、電気通信大手として、国内の電力供給能力を現在の約300MWから、2033年度までに約1ギガワットへと3倍にする計画です。
GateNews7時間前
AIプラットフォームCertifydeが5月1日に実施された200万ドルのシードラウンドを完了、Ripple CEOのBrad Garlinghouseが支援
TechfundingNewsによると、AIアプリケーションプラットフォームのCertifydeは5月1日に200万ドルのシード資金調達ラウンドを完了した。投資家にはK5 Global、Flamingo Capitalが含まれ、またHoneyの共同創業者であるGeorge Ruan、RippleのCEOであるBrad Garlinghouse、そしてNutraの共同創業者であるRolandを含むエンジェル投資家がいる
GateNews8時間前
ペンタゴンの技術担当:Anthropic は引き続きブラックリスト、Mythos は例外対応
米国国防総省の技術責任者(ペンタゴンの技術責任者)5月1日に議会へ、「Anthropicは依然としてブラックリスト上にあるが、Mythos Previewは別の話だ」と述べ、国防総省がAnthropicの主力ブランドと新モデルのMythosに対して区別して対応していることを正式に認めた。このような表明は、4月19日にAxiosが明らかにした、NSA(国家安全保障局)が実際にMythosを使っているという情報と呼応しており、さらに「Mythosの例外ルート」の政策方針を正式に確立するものでもある——同時に、国防総省が法廷で、Anthropicのツールの使用は国安を脅かすと主張していたことと、現在の実際の運用との間に、法律上の論理矛盾があることも意味している。
Anthropic vs Pentagon
ChainNewsAbmedia9時間前
137 Venturesは新たな資金で$700M を閉鎖し、運用資産(AUM)が150億ドルに到達
ChainCatcherによると、SpaceXの初期投資家である137 Venturesは、最近2つの新ファンドの資金調達を完了し、合計で7億ドル超となりました。その結果、運用資産は150億ドル超に達しています。新たな資金は、AIエージェント、ロボティクス、そして宇宙推進の分野への投資を支える予定です。
GateNews9時間前
Redditは好調な第2四半期見通しを受けて16%急騰;AppleはAI需要が供給を上回りMacの品不足に直面
金曜の取引開始前に、同社が来四半期の売上見通しを予想以上に引き上げたことを受けて、Redditの株価は16%上昇した。日次アクティブ訪問者数は17%増えて1.27億人、ユーザー1人当たりの平均収益は世界的に44%増加し、AIによる
GateNews9時間前