Audio LLMの新時代：Qwen 3.5とOmniモデルが書き換える「音とAI」の境界線（2026年版）

2024年から2026年にかけて、AIの主戦場は「テキスト」から「オーディオ・ネイティブ」へと完全に移行しました。かつてはSFの世界だった「感情を理解し、瞬時に声で応えるAI」は、今やOmni（全能）モデルという形で私たちの現実、そしてビジネスの現場に深く根付いています。

本記事では、驚異的な進化を遂げるAlibabaのQwen 3.5、OpenAIのGPT-4o、そして注目のオープンソースモデルMoshiなど、最新のオーディオLLM動向をConvergence Labの視点で徹底解説します。

1. 「Omni」モデルがもたらしたパラダイムシフト

従来の音声AIは、ASR（音声認識）、LLM（言語モデル）、TTS（音声合成）を繋ぎ合わせる「パイプライン方式」でした。しかし、この方式には「情報の欠落」と「遅延」という二つの大きな壁がありました。

これを打破したのが、すべてのモダリティを一つのニューラルネットワークで処理するEnd-to-End（ネイティブ）構造です。

情報の完全性: 声の震え、皮肉なトーン、周囲のガヤなどの「非言語情報」をテキストに変換する過程で捨て去ることなく、トークンとして直接処理します。
ゼロ・レイテンシへの挑戦: 処理工程を一体化させたことで、人間同士の自然な会話に近い200〜300ms以下の反応速度を安定して実現できるようになりました。

Alibaba Cloud（通称：通義千問）が放つQwen 3.5世代は、オーディオLLMに「推論（Reasoning）」の概念を深く持ち込みました。これは単に「音が聞こえる」状態からの大きな飛躍です。

これまでのQwen2-Audioなどは「何が聞こえるか（環境音の分析など）」に長けていましたが、Qwen 3.5ではさらに一歩踏み込んでいます。

ネイティブ・オーディオ・推論: 音声情報をテキストに変換することなく、音響的な特徴を保持したまま論理的な思考を行います。例えば、話者の感情が次第に苛立っていることを音の波形から察知し、即座に宥めるようなトーンへ自身の声を調整する、といったリアルタイムの判断が可能です。
複雑な環境理解: 複数の人間が同時に話している状況（カクテルパーティー効果）での正確な聞き分けや、背景に流れる微かな音の識別能力が大幅に向上しました。
クロスモーダル連携: Qwen 3.5は動画（Vision）と音声（Audio）を同時に、高い時間解像度で同期して処理できるため、映像の中のわずかな音のズレから不自然さを指摘するといった高度なタスクが可能です。

フランスのKyutai LabsによるMoshiは、正確なアーキテクチャの公開によってその後のエコシステムに多大な影響を与えた革新的モデルです。

Helium (LLM): 7B（70億パラメータ）クラスの強力なテキスト推論エンジン。これがMoshiの「脳」として機能します。
Mimi (Codec): 従来のコーデックを凌駕する高度なオーディオ処理能力。音声をセマンティック（意味）とアコースティック（音響）の両面で捉え、1.1kbpsという極低ビットレートでありながら豊かな音声を伝送する「耳」の役割を果たします。
フルデュプレックス対話: ユーザーの声を「聞きながら」、同時に自身の音声を「生成する」二重ストリーム構造を持っています。これにより、会話の途中で遮られても自然に反応を切り替えることが可能です。

商用モデルとオープンソースが競い合う中で、多様な特徴を持つモデルが登場しています。

「Omni」の代名詞。その圧倒的な表現力と、ささやき声や歌声までも自在に操る柔軟性は、依然として業界の強力なベンチマークです。

中国勢の中でも特に「声の質感と演技力」にこだわったモデルです。感情の起伏が非常に豊かで、プロのナレーターや声優と区別がつかないレベルの表現力を備えています。

Llama 3などの既存の強力なテキストモデルをベースに、音声アダプターを統合する手法です。軽量でありながら、特定のドメイン（カスタマーサポートや語学のチューターなど）において非常に高いレスポンス性能を発揮します。

Omniモデルの核心は、音声を**「離散トークン（Discrete Tokens）」**として扱う技術にあります。LLMは文字の羅列を予測するのが得意ですが、その仕組みを「音」に応用しているのです。

トークナイズ: Mimiなどの高度なコーデックが、連続的な音の波形を「0215, 8432…」といったデジタルな記号（トークン）の列に変換します。
インターリービング: テキストのトークンとオーディオのトークンを、同じタイムライン上に並べてLLMに学習させます。これにより、モデルは言葉の意味と、その発音やニュアンスを同じ次元で結びつけます。
予測: モデルは次の「単語」を予測するのと全く同じロジックで、次の「音の成分」を予測して出力します。これがリアルタイムの音声生成に繋がります。

現在、これらの技術は私たちの日常生活やビジネスの在り方を根本から変えようとしています。

パーソナル・コンパニオン: ユーザーの声のトーンからストレスや気分を察知し、最適なタイミングと言葉選びで寄り添う対話AI。
ハンズフリー・ワークフロー: 画面を見ずに、音声だけで複雑なデータ分析、スケジューリング、さらにはコーディングの指示まで行う「スクリーンレス」な環境の浸透。
言語の壁の消失: リアルタイムで、かつ自分の声質と感情のトーンを維持したまま外国語に変換される、真の同時通訳体験。