Google、感情表現を強化しマルチ話者に対応したGemini 3.1 Flash TTSを発表

Gate News記事、4月17日 — Googleは4月15日、感情表現と制御機能が強化された先進のテキスト読み上げモデルGemini 3.1 Flash TTSを公開しました。新モデルは、開発者API、エンタープライズ向けのVertex AI、そしてコラボレーションツールを通じて、段階的に展開されます。

モデルの中核機能には、微調整のための音声タグを自然言語ベースで指定して速度、イントネーション、感情を調整できることに加え、シーンやキャラクターの役割を指定してよりニュアンスのある音声出力を生成するための「Director Mode」が含まれます。マルチ話者機能により対話の同時生成が可能となり、ポッドキャスト、音声コンテンツ、AIアシスタントに適した、より自然な会話の流れを実現します。モデルは70以上の言語と方言に対応しており、地域ごとの訛りや表現を反映して、世界中でローカライズされた音声体験を提供することを示しています。

Googleは、パフォーマンスとコスト効率を強調し、Flashアーキテクチャによって計算コストを抑えつつ、ブラインドの人間評価ベンチマークで高いスコアを達成しました。生成される音声には、AI生成コンテンツを識別し誤情報と戦うためのSynthIDウォーターマーキングが含まれます。

この動きは、音声インターフェース分野での競争がいっそう激化していることを反映しています。OpenAIは、リアルタイムの音声機能を会話型AIと組み合わせ、人間らしいインタラクションを実現しようとしています。一方、Metaは、音声を使ったソーシャル体験を通じてAIキャラクターへの投資を拡大しています。業界の観測者は、現時点では高度な演技や創作といった領域は人が主導し続ける可能性があるものの、反復的で大規模な制作市場では、吹き替え、広告、オーディオブックの分野でAIの導入が段階的に進む可能性があると指摘しています。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

AI、デジタル経済、ブロックチェーンのための立法枠組みを強化へ:中国

中国は、インターネット開発のニーズに対応するため、ネットワークの法制度を強化する計画だ。AI、デジタル経済、その他のテック分野に関する立法に重点を置く。2025年12月までに180以上の法律が見込まれる一方で、現在の規制は依然として国民の期待に遅れをとっている。

GateNews15分前

Intchains Group、ステーキング8,040 ETHを開示し、AI搭載の運用変革を加速

Intchains Groupは累計で8,040 ETHのステーキングを報告しており、戦略にはFalconXプラットフォームと自社のGoldshell Stakeが含まれています。同社は、効率と意思決定を高めるためのAI自動化によって業務も強化しています。

GateNews45分前

G・Dのマネジメント会社がドバイ王室と極秘に会談し、IPO、AI、ロボットについて協議——エイデータとジェイ・チョウが大もうけ?

韓国のエンターテインメントテクノロジー企業 Galaxy Corporation が最近中東市場に進出し、ドバイ法人「Galaxy ME」を設立。さらにアラブ首長国連邦の王室メンバーと会談し、AI とコンテンツの統合を探っている。同社は IPO に向けて証券会社を選定済みで、昨年の売上高は 3000 億ウォンに達し、周杰倫(ジェイ・チョウ)や威剛などの投資を呼び込んだ。この布陣は、中東のエンターテインメント・エコシステムの発展を後押しすることを目的としており、グローバル化戦略の重要性を強調している。

ChainNewsAbmedia2時間前

中国チーム EvoMap が怒り爆発、爆発的に話題になった Hermes Agent の盗用:自律進化システムには高い類似性が存在

中国のチームEvoMapは、Nous ResearchのHermes Agentが自社のEvolver/GEPアーキテクチャを盗用していると非難しており、両者が複数の重要なモジュールで非常に類似していると考えています。EvoMapによれば、Hermesの設計は自分たちが以前に公開した内容を参照せず、また謝意も示していないとのことで、論争が起きたことによりコミュニティの注目が広がり、中国の一部のネットユーザーがEvoMapを支持し、Hermesの盗用行為を批判しています。Nous研究チームはまだ、申し立てに対して逐条で反論していないものの、事件はすでにAIの世論の中で急速に拡散しています。

ChainNewsAbmedia2時間前

OpenAI 早期投資家に支持!ブレイン・マシン・インターフェース新興企業 Sabi は、最速で年末までに出荷。「考えるだけで文字を書ける」ヘッドキャップ

シリコンバレーの新興企業Sabiは、侵襲的な手術を必要としないウェアラブルの脳―コンピューター・インターフェースを開発していると発表した。ユーザーは「考える」だけで文字を画面に入力でき、2026年末の発売を見込んでいる。この装置には最大10万個の微小センサーが搭載され、脳の活動を正確に解釈するのに役立つ。Sabiはまた、データのプライバシー保護を強調している。

ChainNewsAbmedia2時間前

データが「Claude 降智」は都市伝説ではないことを暴露、AIモデルの不安定さは企業リスクとなる

この記事では、AI企業の業務アプリケーションにおいて、大規模言語モデル(LLM)が不安定に振る舞う現象を「降智」と呼び、その企業の業務フローに対する実質的な影響を例示して説明している。データによれば、多くの主流モデルはすでに降級(デグレード)の状態にあり、企業の生産性と安定性に影響を及ぼしている。企業は、新たな標準としてモデルの安定性を重視し始める必要があり、さもなければインフラ上のリスクに直面することになる。

ChainNewsAbmedia3時間前
コメント
0/400
コメントなし