アリババのQwenチームが、わずか3〜4秒の参照音声から高精度なボイスクローンが可能な音声生成AIモデル「Qwen3-TTS Family」をオープンソース公開した。モデルサイズは1.7Bと0.6Bで、低遅延(97ms)と多言語(日本語含む)対応が特徴。GitHubやHugging Faceで利用可能。Read the postアリババ、わずか3秒の音声でクローン可能なTTSモデル「Qwen3-TTS」をオープンソース公開