AIと「被せて」話す時代へ。Full Duplex(全二重)音声対話最前線 Moshi, PersonaPlex, FireRedChat, FlexDuoに見る、リアルタイム対話の進化
木村 優志
Published: 2/1/2026, 5:24:00 AM

「AIと話す」体験が、今まさに劇的な転換点を迎えています。 これまでスマートスピーカーや、企業のコールセンターで自動音声応答(IVR)を利用した際、こんな経験はないでしょうか?
「AIが長い説明を終えるまで、じっと待たなければならない」「言い間違えたことに気づいても、割り込んで訂正できず、最初からやり直しになる」——このほんの数秒の「間」や「待機時間」が、人間とAIの対話における最大のストレス要因でした。
従来のシステムはHalf Duplex(半二重)、つまりトランシーバーのように「どちらか一方しか話せない(送信と受信を切り替える)」仕組みが主流でした。ユーザーが話している間、AIは「聞く」ことだけに集中し、AIが話している間はマイクをオフにするか、ユーザーの声を無視する必要があったのです。
しかし現在、私たちが注目し、実証実験を進めているのはFull Duplex(全二重)技術です。これは電話や対面での会話のように、「お互いが同時に話し、聞き、反応できる」仕組みを指します。
今回は、この分野のパイオニアであるMoshiから、2026年初頭に登場した最新のPersonaPlexまで、主要な4つのモデル・フレームワークを紹介し、これらが次世代の顧客体験(CX)や問い合わせ対応業務をどう変革するのか、その可能性を深掘りして解説します。
1. なぜ今「Full Duplex」なのか?
人間同士の会話は、非常に複雑な信号のやり取りで成立しています。相手の話を聞きながら「うんうん」「へえ」と相槌(バックチャネル)を打って理解を示したり、説明の途中で「あ、そこは大丈夫です、次をお願いします」と遮って進行を早めたりします。これをAIで実現するのがFull Duplex技術です。 技術的には、以下の2点が大きなブレイクスルーとなりました。
End-to-End音声モデルの進化 (Audio-to-Audio):
これまでの音声対話は「音声認識(ASR)→テキスト生成(LLM)→音声合成(TTS)」という3段階のリレー方式(カスケード)でした。これでは各処理の間に遅延が発生し、声の抑揚(パラ言語情報)も失われてしまいます。最新のモデルは、音声をテキストに変換せず、音声トークンとして直接処理するため、圧倒的な低遅延と感情表現が可能になりました。
割り込み(Barge-in)検知と自己音声キャンセル:
AIが喋っている最中にユーザーが発話した場合、AIは自分の声を「ノイズ」として除去しつつ、ユーザーの微細な声を拾う必要があります(エコーキャンセレーションの高度化)。さらに、「単なる物音」なのか「意味のある割り込み発話」なのかを瞬時に判断するセマンティックな検知能力が向上しました。
2. 注目すべき4つの最新モデル・フレームワーク
ここ1〜2年で登場した象徴的な技術を、一次情報(論文・コード)とともに整理します。それぞれの特徴を知ることで、自社の課題にどの技術がマッチするかのヒントになるはずです。
(1) Kyutai “Moshi”(モシ)
概要:
フランスの研究所Kyutaiが2024年に発表したFull Duplexのパイオニア的存在。世界で初めて「実用的な対話感」をデモで示したことで衝撃を与えました。
特徴:
独自の音声コーデック「Mimi」: テキストと音声をシームレスに扱うための軽量コーデックを採用しており、感情の機微を含む音声情報を効率的に処理します。 Inner Monologue(内言): 発話する前にモデル内部で思考をテキスト生成し、それを音声に変換して出力します。これにより、「考えながら話す」ような自然な間合いと、文脈の維持を両立しています。 軽量・低リソース: ブラウザ上やラップトップPCでも動作するほど軽量化されており、エッジデバイスへの組み込みにも適しています。
- Links:
- 📄 Paper (arXiv): Moshi: a speech-text foundation model for real-time dialogue
- 💻 Code (GitHub): kyutai-labs/moshi
(2) NVIDIA “PersonaPlex”(ペルソナプレックス)
概要:
2026年1月にNVIDIAが発表した最新モデル(PersonaPlex-7B-v1)。「AIの人格(ペルソナ)」を維持したまま全二重対話を行うことに特化しています。
特徴:
圧倒的な低遅延 (0.07秒): 話者交代(Turn-taking)の遅延はわずか0.07秒です。従来の高性能モデルでも0.5〜1秒前後のラグがあったことを考えると、人間が「食い気味」と感じるレベルの即応性を実現しています。 ペルソナと声質の制御: テキストプロンプトで「冷静沈着な技術サポート」や「親しみやすく明るい旅行ガイド」といった役割(Role)を指定できます。割り込みが発生してもそのキャラ設定が崩れない堅牢性が魅力です。 Dual-stream Transformer: 「ユーザーの声を聞くストリーム」と「自分が話すストリーム」を並列処理するアーキテクチャを採用しており、話しながら聞くという人間の脳に近い処理を行っています。
- Links:
- 📄 Paper : PersonaPlex: Voice and Role Control for Full Duplex Conversational Speech Models
- 💻 Code (GitHub): NVIDIA/personaplex
(3) “FireRedChat”(ファイアレッドチャット)
概要:
既存のLLMにFull Duplex機能を後付けできる「プラグ可能(Pluggable)」なフレームワーク。
特徴:
商用実装のハードルを下げるアプローチ: すべてをゼロから学習させるAudio-to-Audioモデルは開発コストが莫大ですが、FireRedChatは既存のLLM(Llamaなど)を活用します。
外付けの制御モジュール: 専用の「Turn-taking Controller(話者交代制御)」をアドオンとして機能させることで、既存のチャットボットに「耳」と「割り込み機能」を追加します。
RAG(検索拡張生成)との親和性: 企業独自の社内マニュアルやデータベースを検索する既存の仕組み(RAG)がある場合、その資産を活かしたまま、インターフェースだけをFull Duplex化できるため、実務への適用において非常に現実的な選択肢となります。
- Links:
- 📄 Paper (arXiv): FireRedChat: A Pluggable, Full-Duplex Voice Interaction System
- 💻 Code (GitHub): FireRedTeam/FireRedChat
(4) “FlexDuo”(フレックスデュオ)
概要:
状況に応じて対話モードを柔軟に切り替える「Flexible Duplex」アプローチ。
特徴:
コストと品質のバランス: 常時Full Duplexで待機し続けることは、GPUリソース(計算コスト)を大量に消費します。FlexDuoは、ユーザーがただ聞いているだけの時はリソースを抑え、議論が白熱して双方向性が必要な時だけFull Duplexモードにするなど、動的な判断を行います。
大規模コンタクトセンター向け: 何百、何千という回線を同時に処理する必要がある大規模センターにおいて、サーバー負荷を抑えつつ、必要な瞬間だけ高品質な対話体験を提供するための鍵となる技術です。
- Links:
- 📄 Paper (arXiv): FlexDuo: A Pluggable System for Enabling Full-Duplex Capabilities
3. Convergence Lab.の視点:顧客対応(CX)はどう変わる?
私たちConvergence Lab.では、このFull Duplex技術が単なる「新しい機能」ではなく、「問い合わせ対応」や「カスタマーサポート」のあり方を根本から変える革命だと考えています。
ストレスフリーな自動応答(IVR)の実現
従来のIVR:「(長いアナウンスを聞かされ)…お支払いに関するお問い合わせは1を、お届け日の変更は2を…(まだ続く)…」→ ユーザーは待つしかなく、イライラが募ります。 Full Duplex IVR:「(説明の途中で)あ、予約の変更で!」→「かしこまりました、予約変更ですね」 ユーザーはAIの説明をいつでも遮って要件を伝えられるため、熟練のオペレーターと話しているようなテンポで手続きが完了します。これにより、途中離脱率の大幅な改善が見込めます。 感情に寄り添う「相槌」と「間」の共有
顧客が言葉に詰まったり、悩みながら話している時に、AIが無言で待機していると「通じているのかな?」と不安になります。
Full Duplexであれば、「ええ…」「そうですね…」「はい、聞いております」といった自然な相槌(Backchannel)を挟むことが可能です。特にクレーム対応や深刻な相談業務において、相手の話を遮らずに「傾聴する姿勢」を音響的に示すことは、顧客の安心感と解決率向上に直結します。 ペルソナ維持による一貫したブランディング
PersonaPlexのような技術を用いれば、企業のブランドイメージに合わせた「声」と「話し方」を維持したまま、高度な対話が可能になります。
高級ホテルのコンシェルジュのような落ち着いたトーン、あるいはアパレルブランドの親しみやすい販売員のようなトーンなど、TPOに合わせたAIオペレーターの実装が現実的になってきました。これは単なる効率化だけでなく、ブランド体験の向上に寄与します。
おわりに
音声対話は今、「コマンドを入力して結果を待つ」インターフェースから、「パートナーとリアルタイムで思考を共有する」体験へと進化しました。
Convergence Lab.では、こうした最新論文の技術検証を日々行い、実際のビジネス現場への落とし込み(実装)を進めています。
「自社のコールセンターシステムに、割り込み可能な音声対話を組み込みたい」
「最新の対話モデルを使ったPoC(概念実証)を行いたい」
「エッジデバイスで、遅延のない音声操作を実現したい」
そのようなご相談があれば、ぜひお気軽にお問い合わせください。技術的なフィジビリティ調査から実装まで、私たちがサポートいたします。



