XでDeepSeek V4のベンチマークリークが話題。SWE-Bench Verifiedで83.7%を記録し、現行トップのClaude Opus 4.5(80.9%)を上回ると主張。しかし、DeepSeek公式はV4を発表しておらず、リーク情報の信頼性は現時点で不明。Read the postDeepSeek V4のベンチマークリーク、SWE-Bench Verifiedで83.7%の驚異的スコアか