Google Gemini 2.0 wprowadza interakcje głosowe z wideo

Google pokazał dziś nowe możliwości swojego flagowego modelu konwersacyjnego Gemini 2.0. Najnowsza aktualizacja pozwala na prowadzenie głosowych interakcji z obrazem wideo lub zawartością ekranu komputera w czasie rzeczywistym. Oznacza to, że asystent Gemini potrafi „zobaczyć” i zrozumieć to, co jest mu pokazywane, a następnie prowadzić na ten temat naturalną rozmowę głosową z użytkownikiem.

Jest to ogromny przełom w dziedzinie asystentów konwersacyjnych, łączący przetwarzanie języka naturalnego z rozumieniem obrazu w czasie rzeczywistym. Gemini 2.0 przynosi nas o krok bliżej do wizji inteligentnych, wszechstronnych asystentów AI, potrafiących wchodzić w złożone interakcje ze światem na podstawie wielu modalności – wzroku, słuchu i mowy. Oczekuje się, że inne firmy, takie jak OpenAI czy Anthropic, niedługo zaprezentują podobne rozszerzenia swoich chatbotów.


Opublikowano

w

,

przez

Komentarze

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany. Wymagane pola są oznaczone *