FlashLabs、世界初となるリアルタイム音声対話モデル「Chroma 1.0」を公開

プレスリリース詳細　https://kyodonewsprwire.jp/release/202601222899

本プレスリリースは発表元が入力した原稿をそのまま掲載しております。詳細は上記URLを参照下さい。また、プレスリリースへのお問い合わせは発表元に直接お願いいたします。

FlashLabs、世界初となるリアルタイム音声対話モデル「Chroma 1.0」を公開

Hugging Face世界1位を獲得。わずか数秒のサンプルから「本人の声」を再現するオープンソースAI

2026年1月23日
FlashIntel Japan株式会社

FlashIntel Japan株式会社（本社：東京都千代田区、代表取締役：細井洋一）は、FlashLabsが1月16日、世界初となるオープンソースのエンドツーエンド・リアルタイム音声対話モデル「Chroma 1.0（クロマ）」を正式公開したことを発表いたします。Chroma1.0はAI開発のための世界最大級のオープンソースプラットフォームHugging Faceにてマルチモーダルカテゴリで1位を獲得（2026年1月22日時点）。Chroma公開のXの投稿は100万回表示を突破しています。 Chroma 1.0は、音声入力から音声出力まで約147ミリ秒の低遅延を実現し、数秒の参照音声から高精度な個別化音声生成を可能にします。コールセンターや営業の電話対応など、ビジネスの現場で人間に代わって対話するAIとしての活用が期待され、すでにFlashIntel Japan株式会社が提供するエンタープライズ向け音声エージェント基盤FlashAI 2.0上で実運用されています。クローズドAPIが主流であったリアルタイム音声AI分野において、Chroma 1.0は研究・開発・実装のすべてを開放した、初の実用レベルのオープンモデルとなります。

背景：音声AIの遅延問題と個別化の課題

従来の音声AI システムは、音声認識（ASR）→テキスト処理（LLM）→音声合成（TTS）という多段階処理により、応答遅延が発生していました。また、話者の声質を保持したままリアルタイムで対話する技術は、計算コストと精度の両立が困難でした。コールセンターや顧客対応の現場では、自然な会話速度と個別対応が求められており、技術的なブレークスルーが必要とされていました。

Chroma 1.0とは：「声を声のまま理解するAI」

Chroma 1.0は、音声を音声のまま処理する「Speech-to-Speech（S2S）」設計を採用し、以下の特徴を備えた世界初のモデルです（当社調べ、2026年1月時点）。

世界初の特徴（当社調べ、2026年1月時点）：

・オープンソース（コード・モデル重みを含む全公開）

・エンドツーエンド音声間処理（ASR→LLM→TTSを介さない）

・リアルタイム対話（200ミリ秒未満の応答）

・数秒の参照音声からの個別化音声クローニング

調査範囲：
主要オープンソースリポジトリ、論文データベース（arXiv等）、主要ベンダー公開情報（OpenAI Realtime API、Elevenlabs等）を対象に、上記4条件を同時に満たすモデルの有無を確認。

技術的特徴：性能データと計測条件

Chroma 1.0は、研究・管理環境下で以下の性能を示しました。

◆ 低遅延リアルタイム応答

エンドツーエンドTTFT（Time To First Token）：146.87ミリ秒

音声入力から最初の音声出力までの時間

測定条件：単一GPU環境、標準ネットワーク、平均3〜5秒の音声入力

◆ 高速推論

RTF（Real-Time Factor）：0.43

実時間の半分以下で処理完了（実時間の2倍以上の速度）

測定条件：同上

◆ 高精度音声類似度

Speaker Similarity（話者類似度）：0.817

人間ベースライン（0.73）比で +10.96% の向上

評価指標：客観的話者類似度評価

数秒の参照音声から高精度な個別化音声を生成

◆ 軽量・高効率設計

パラメータ数：約40億（4B）

Qwen2.5-Omni-3B、Llama 3クラスに匹敵する対話性能

ストリーミング生成に対応し、連続的な音声出力を実現

◆ インターリーブ設計

テキスト-音声トークンスケジュール（1:2）

テキストと音声を同期生成し、自然なターンテイキング（会話の交代）を実現

想定ユースケース

Chroma 1.0は、以下の分野での活用を想定しています。

1. コールセンター・カスタマーサポート

音声応答の待ち時間を短縮し、自然な会話フローを実現。顧客ごとに最適化された音声で対応することで、満足度向上とオペレーター負荷軽減を両立。

2. 営業・インサイドセールス

リアルタイム音声エージェントが初期対応を担当し、商談機会の取りこぼしを削減。人間らしい声での見込み顧客との自然な対話で、人的リソースを高付加価値業務にシフト。

3. 予約・問い合わせ対応

24時間365日、遅延のない音声対応を提供。飲食店、医療機関、公共施設等での無人受付や多言語対応に活用可能。

4. 音声ネイティブなマルチモーダルAIアプリケーション

音声インターフェースを核とした新サービスの構築。教育、エンターテインメント、アクセシビリティ支援等、多様な領域での応用が期待される。

5. 音声アシスタント・バーチャルヒューマン

個別化された音声で対話するAIキャラクターやアバター。ゲーム、メタバース、パーソナルアシスタント等での利用を見込む。

FlashLabsが提供している電話対応AIエージェントFlashAI上でも実装され、大手システム提供会社を含めた同サービス利用者にも順次公開されます。

オープンソース公開内容：

Chroma 1.0は、研究・開発・実装のすべてを公開しています。

◆ 公開内容

モデルウェイト（Hugging Face）
https://huggingface.co/FlashLabs/Chroma-4B

ソースコード（GitHub）
https://github.com/FlashLabs-AI-Corp/FlashLabs-Chroma

技術論文（arXiv）
https://arxiv.org/abs/2601.11141

◆ ライセンス

Apache License 2.0
商用利用、改変、再配布が可能。研究機関・企業・個人開発者が自由に活用できます。

◆ 動作環境

GPU推奨（NVIDIA A100、H100等）

transformersライブラリ最新版

PyTorch最新版

デモと検証

◆ デモ動画

リアルタイム対話と個別化音声生成の実際の動作を確認できます。
https://www.youtube.com/watch?v=AOMmxTwsam0

◆ 技術レポート

測定方法、ベンチマーク詳細、アーキテクチャ解説を論文で公開。再現手順も含め、第三者による検証が可能です。

◆ ベンチマーク結果

主要な音声理解・推論・対話タスクにおいて、同クラスのモデルと競合する性能を確認。詳細は論文のTable 5を参照。

FlashLabs 創業者兼Global CEO 石一（Yi Shi）は次のように述べています。

「リアルタイム音声AIは、クローズドであるべきではありません。Chroma 1.0は、音声AIを"開かれた知能"として次の段階へ進めるための第一歩です。従来の多段階処理では、遅延、誤り伝播、副言語情報の損失が避けられませんでした。エンドツーエンド設計により、これらの課題を根本から解決しました。開発者コミュニティとともに、音声AIの民主化を推進します。」

FlashIntel Japan株式会社について

FlashIntel Japan株式会社は、次世代AIエージェントおよび音声AI基盤の研究・開発・提供を行うAI企業です。営業AI基盤システムFlashRev、電話AIエージェントFlashAIをはじめ、に日本市場における生産性革新を推進しています。

会社名： FlashIntel Japan株式会社
代表者： 代表取締役細井洋一
所在地： 東京都千代田区
事業内容： AIエージェント基盤、リアルタイム音声AI、企業向けAIソリューションの研究開発・提供
ウェブサイト： https://www.flashlabs.ai/