Google представя Gemini 2.5
Gemini 2.5 е ново поколение мултимодален AI с гласови диалози в реално време
По време на ежегодната конференция за разработчици Google I/O 2025, Google обяви новата версия на своя мултимодален модел с изкуствен интелект – Gemini 2.5, който вече предлага възможности за генериране на аудио и водене на реалистични гласови диалози в реално време.
Gemini 2.5 е наличен за предварителен преглед чрез платформите Google AI Studio и Vertex AI, като носи редица подобрения в гласовото взаимодействие между хора и AI. Новият модел поддържа емоционално разпознаване на речта, адаптация на интонация и акцент, както и автоматично превключване между над 24 езика, което го прави универсален инструмент за глобални приложения.
Системата е способна да игнорира фонов шум и да използва външни източници – включително вградена търсачка – за извличане на информация в реално време. Разширените възможности за текст-в-реч (TTS) позволяват на потребителите да настройват стила, темпото и емоционалната изразителност на гласа, което прави модела особено подходящ за подкасти, аудиокниги и други мултимедийни проекти.
Gemini 2.5 поддържа генериране на диалози с множество гласове, улеснявайки създаването на по-ангажиращо аудио съдържание. Всички аудиофайлове, създадени с помощта на модела, са маркирани с технологията SynthID, която осигурява прозрачност и възможност за идентификация на изкуствено създаденото съдържание.
Новите функционалности могат да бъдат тествани от разработчици чрез новите раздели „Stream“ и „Generate Media“ в Google AI Studio.
С пълна поддръжка на текст, изображение, аудио и видео, Gemini 2.5 представлява значителна стъпка напред в изграждането на интерактивни AI системи – с огромен потенциал за иновации в сфери като образование, виртуални асистенти и творчески индустрии.