Керівник із взаємодії з розробниками Google AI Logan Kilpatrick 15 квітня оголосив про запуск Gemini 3.1 Flash TTS — найновішої моделі перетворення тексту на мовлення від Google. Ця модель підтримує 70 мов, точне керування рівнями сценарного спрямування (scene direction), рівнями мовців та аудіомітками; наразі її доступно для використання в аудіо-плейграунді Google AI Studio і в Gemini API.

Чотири основні функції

Gemini 3.1 Flash TTS порівняно з попередником має чотири помітні оновлення:

Сценарне спрямування (Scene Direction) — можна налаштовувати контекст для голосу, наприклад «пошепки говорити в галасливому кафе» або «з ентузіазмом оголосити добрі новини»; модель відповідно до сцени змінює інтонацію, темп і емоцію

Керування на рівні мовця (Speaker-Level Specificity) — у діалогах із кількома персонажами можна для кожного з них задати відмінні голосові характеристики

Аудіомітки (Audio Tags) — підтримує вставлення в текст інструкцій зі звуковими ефектами, керуючи такими деталями, як паузи та зміни манери подачі

Підтримка 70 мов — значно розширює покриття багатомовності, включно з китайською

Природніший і більш виразний звук

Google наголошує на прогресі цієї моделі в природності мовлення. Традиційні моделі TTS часто критикують за те, що їхній результат «звучить як AI». Gemini 1.1 Flash TTS намагається скоротити розрив із людською мовою завдяки більш багатим варіаціям мелодики та емоційного вираження. Kilpatrick зазначив, що прогрес від Gemini 2.5 до 3.1 «дуже помітний».

Як розробникам користуватися

Розробники можуть використовувати двома способами:

Google AI Studio Audio Playground — напряму тестуйте та попередньо переглядайте ефекти мовлення в вебінтерфейсі

Gemini API — інтегруйте в застосунки для таких сценаріїв, як голосові асистенти, аудіокниги, автоматичне створення Podcast, багатомовна служба підтримки тощо

Розширення продуктової лінійки Gemini

Flash TTS — це частина нещодавно розгорнутого циклу інтенсивних релізів у серії Gemini 3.1. Раніше Google вже представила Gemini Robotics ER 1.6 (роботизоване візуальне міркування), Tab Tab Tab (доповнення підказки Vibe Coding) та можливості дизайн-прев’ю. Google розширює Gemini з «чата» до всемодального AI-платформеного, що охоплює текст, мовлення, візію та роботів.

Ця стаття Google: Gemini 3.1 Flash TTS — підтримує 70 мов і сценарне спрямування, AI-голос звучить природніше — вперше з’явилася на ланцюжку новин ABMedia.

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

OpenClaw, Hermes і SillyTavern Підтверджені як підтримувані в GLM Coding Plan

Новини індустрії ШІ

PM від Zhipu AI Лі оголошує OpenClaw, Hermes і SillyTavern як підтримувані проєкти в межах GLM Coding Plan; інші інструменти будуть оцінені в кожному конкретному випадку. Не діліться обліковими даними та не використовуйте підписки як доступ до API; зверніться в підтримку через помилку 1313. Продуктовий менеджер Zhipu AI Лі оголосив, що OpenClaw, Hermes і SillyTavern офіційно підтримуються в межах GLM Coding Plan, а інші інструменти оцінюватимуться в кожному конкретному випадку. У примітці застерігають від поширення облікових даних або використання підписок як доступу до API та вказують користувачам із помилкою 1313 звернутися в підтримку.

GateNews2год тому

Генеральний директор Google Cloud: Gemini забезпечить запуск персоналізованого Siri від Apple у 2026 році

Новини індустрії ШІ

Підсумок: Gemini забезпечить персоналізований Apple Siri у 2026 році, створений на основі Foundation Models від Apple та співпраці Gemini; Apple тестує чатоподібний Siri в iOS 27/macOS 27, запланований до показу на WWDC 2026. Анотація: Google Cloud's Gemini має бути задіяний для створення персоналізованого Apple Siri до 2026 року, поєднуючи Gemini з Foundation Models від Apple у межах співпраці приблизно на $1 мільярд. Apple тестує перероблену, чатоподібну версію Siri в iOS 27/macOS 27 з інтерфейсом Dynamic Island та новими функціями, напередодні офіційної презентації на WWDC 2026 8 червня.

GateNews2год тому

Угода SpaceX $60B Cursor Підживлює Наступ СБФ за Помилування, а Частка $200K FTX Тепер Варто $3B

Примусові заходи Новини індустрії ШІ Інструменти та застосунки ШІ

Повідомлення Gate News, 22 квітня — сьогодні SpaceX оголосила про масштабне партнерство з AI-стартапом з програмування Cursor, з опцією викупити компанію за $60 мільярд. Угода дала нові аргументи Семові Бенкману-Фрідові (SBF), який наразі перебуває в ув’язненні та добивається президентського помилування, оскільки вона демонструє потенціал відновлення вартості, який він давно стверджував, що FTX могла б досягти, як він

GateNews2год тому

Акції Chegg падають на 99% через те, що ШІ порушує ринок edtech

Акції Новини індустрії ШІ

Короткий огляд: Chegg різко злетіла на тлі попиту на онлайн-освіту, а потім інструменти на базі ШІ зруйнували її модель, що спричинило масові скорочення та падіння нижче $2, при цьому ширші зміни, зумовлені ШІ, вдарили по майнерах криптовалют і фінтех-компаніях. Анотація: У цій статті розглядається злет Chegg як улюблениці edtech у період пандемії та її подальше падіння на тлі стрімкого впровадження генеративного ШІ, який дає швидкі відповіді й підриває ціннісну пропозицію Chegg. Тут описано скорочення у 2025 році та падіння акцій із наближенням до делістингу, а також показано досвід Chegg у ширшому контексті збоїв через ШІ, які змінюють технології та криптоіндустрію: майнери Bitcoin переорієнтовуються на операції з ШІ, а AI-орієнтовані стратегії переозначають конкурентоспроможність у фінтеху та за його межами.

CryptoFrontier2год тому

OpenAI випустила модель фільтра конфіденційності з відкритим кодом для виявлення та редагування ПД

Новини індустрії ШІ

Анотація: Фільтр конфіденційності OpenAI — це модель із відкритим кодом, яку можна запускати локально, і яка виявляє та редагує ПД (персональні дані) у тексті. Вона підтримує великі контексти, визначає багато категорій ПД та призначена для робочих процесів із збереженням конфіденційності, зокрема підготовки даних, індексації, журналювання та модерації. Фільтр конфіденційності OpenAI — це локально запущена модель із відкритим кодом (128k-token context), яка виявляє та редагує ПД у тексті, охоплюючи контактні, фінансові та облікові дані для робочих процесів із конфіденційністю.

GateNews3год тому

OpenAI планує розгорнути 30 ГВт обчислювальної потужності до 2030 року

Новини індустрії ШІ

OpenAI прагне досягти 30 ГВт обчислювальної потужності до 2030 року, щоб задовольнити зростаючі потреби в ШІ, при цьому вже завершено 8 ГВт із цільових 10 ГВт на 2025 рік. Розширення сигналізує про стратегію масштабування інфраструктури для розробки й розгортання ШІ нового покоління. OpenAI має намір досягти 30 ГВт обчислювальної потужності до 2030 року, щоб задовольнити зростаючі потреби в ШІ, уже виконавши 8 ГВт із цілі 10 ГВт на 2025 рік. Крок відображає стратегічне розширення інфраструктури для підтримки розробки й розгортання ШІ нового покоління.

GateNews3год тому

Прокоментувати

0/400

Немає коментарів