2026年01月23日
提供:共同通信PRワイヤー
プレスリリース詳細 https://kyodonewsprwire.jp/release/202601222899
本プレスリリースは発表元が入力した原稿をそのまま掲載しております。詳細は上記URLを参照下さい。また、プレスリリースへのお問い合わせは発表元に直接お願いいたします。
Hugging Face世界1位を獲得。わずか数秒のサンプルから「本人の声」を再現するオープンソースAI
2026年1月23日
FlashIntel Japan株式会社
FlashIntel Japan株式会社(本社:東京都千代田区、代表取締役:細井 洋一)は、FlashLabsが1月16日、世界初となるオープンソースのエンドツーエンド・リアルタイム音声対話モデル「Chroma 1.0(クロマ)」を正式公開したことを発表いたします。Chroma1.0はAI開発のための世界最大級のオープンソースプラットフォームHugging Faceにてマルチモーダルカテゴリで1位を獲得(2026年1月22日時点)。Chroma公開のXの投稿は100万回表示を突破しています。 Chroma 1.0は、音声入力から音声出力まで約147ミリ秒の低遅延を実現し、数秒の参照音声から高精度な個別化音声生成を可能にします。コールセンターや営業の電話対応など、ビジネスの現場で人間に代わって対話するAIとしての活用が期待され、すでにFlashIntel Japan株式会社が提供するエンタープライズ向け音声エージェント基盤FlashAI 2.0上で実運用されています。クローズドAPIが主流であったリアルタイム音声AI分野において、Chroma 1.0は研究・開発・実装のすべてを開放した、初の実用レベルのオープンモデルとなります。
従来の音声AI システムは、音声認識(ASR)→テキスト処理(LLM)→音声合成(TTS)という多段階処理により、応答遅延が発生していました。また、話者の声質を保持したままリアルタイムで対話する技術は、計算コストと精度の両立が困難でした。コールセンターや顧客対応の現場では、自然な会話速度と個別対応が求められており、技術的なブレークスルーが必要とされていました。
Chroma 1.0は、音声を音声のまま処理する「Speech-to-Speech(S2S)」設計を採用し、以下の特徴を備えた世界初のモデルです(当社調べ、2026年1月時点)。
世界初の特徴(当社調べ、2026年1月時点):
・オープンソース(コード・モデル重みを含む全公開)
・エンドツーエンド音声間処理(ASR→LLM→TTSを介さない)
・リアルタイム対話(200ミリ秒未満の応答)
・数秒の参照音声からの個別化音声クローニング
調査範囲:
主要オープンソースリポジトリ、論文データベース(arXiv等)、主要ベンダー公開情報(OpenAI Realtime API、Elevenlabs等)を対象に、上記4条件を同時に満たすモデルの有無を確認。
Chroma 1.0は、研究・管理環境下で以下の性能を示しました。
エンドツーエンドTTFT(Time To First Token):146.87ミリ秒
音声入力から最初の音声出力までの時間
測定条件:単一GPU環境、標準ネットワーク、平均3〜5秒の音声入力
RTF(Real-Time Factor):0.43
実時間の半分以下で処理完了(実時間の2倍以上の速度)
測定条件:同上
Speaker Similarity(話者類似度):0.817
人間ベースライン(0.73)比で +10.96% の向上
評価指標:客観的話者類似度評価
数秒の参照音声から高精度な個別化音声を生成
パラメータ数:約40億(4B)
Qwen2.5-Omni-3B、Llama 3クラスに匹敵する対話性能
ストリーミング生成に対応し、連続的な音声出力を実現
テキスト-音声トークンスケジュール(1:2)
テキストと音声を同期生成し、自然なターンテイキング(会話の交代)を実現
Chroma 1.0は、以下の分野での活用を想定しています。
音声応答の待ち時間を短縮し、自然な会話フローを実現。顧客ごとに最適化された音声で対応することで、満足度向上とオペレーター負荷軽減を両立。
リアルタイム音声エージェントが初期対応を担当し、商談機会の取りこぼしを削減。人間らしい声での見込み顧客との自然な対話で、人的リソースを高付加価値業務にシフト。
24時間365日、遅延のない音声対応を提供。飲食店、医療機関、公共施設等での無人受付や多言語対応に活用可能。
音声インターフェースを核とした新サービスの構築。教育、エンターテインメント、アクセシビリティ支援等、多様な領域での応用が期待される。
個別化された音声で対話するAIキャラクターやアバター。ゲーム、メタバース、パーソナルアシスタント等での利用を見込む。
FlashLabsが提供している電話対応AIエージェントFlashAI上でも実装され、大手システム提供会社を含めた同サービス利用者にも順次公開されます。
Chroma 1.0は、研究・開発・実装のすべてを公開しています。
モデルウェイト(Hugging Face)
https://huggingface.co/FlashLabs/Chroma-4B
ソースコード(GitHub)
https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma
技術論文(arXiv)
https://arxiv.org/abs/2601.11141
Apache License 2.0
商用利用、改変、再配布が可能。研究機関・企業・個人開発者が自由に活用できます。
GPU推奨(NVIDIA A100、H100等)
transformersライブラリ最新版
PyTorch最新版
リアルタイム対話と個別化音声生成の実際の動作を確認できます。
https://www.youtube.com/watch?v=AOMmxTwsam0
測定方法、ベンチマーク詳細、アーキテクチャ解説を論文で公開。再現手順も含め、第三者による検証が可能です。
主要な音声理解・推論・対話タスクにおいて、同クラスのモデルと競合する性能を確認。詳細は論文のTable 5を参照。
FlashLabs 創業者兼Global CEO 石 一(Yi Shi) は次のように述べています。
「リアルタイム音声AIは、クローズドであるべきではありません。Chroma 1.0は、音声AIを"開かれた知能"として次の段階へ進めるための第一歩です。従来の多段階処理では、遅延、誤り伝播、副言語情報の損失が避けられませんでした。エンドツーエンド設計により、これらの課題を根本から解決しました。開発者コミュニティとともに、音声AIの民主化を推進します。」
FlashIntel Japan株式会社は、次世代AIエージェントおよび音声AI基盤の研究・開発・提供を行うAI企業です。営業AI基盤システムFlashRev、電話AIエージェントFlashAIをはじめ、に日本市場における生産性革新を推進しています。
会社名: FlashIntel Japan株式会社
代表者: 代表取締役 細井 洋一
所在地: 東京都千代田区
事業内容: AIエージェント基盤、リアルタイム音声AI、企業向けAIソリューションの研究開発・提供
ウェブサイト: https://www.flashlabs.ai/
FlashIntel Japan株式会社
電話: 03-6869-2514
担当: 広報担当