Gemini překonává hranice: rychlejší model, delší kontext a AI agenti

Představujeme řadu aktualizací napříč celou rodinou modelů Gemini, včetně nového odlehčeného modelu 1.5 Flash optimalizovaného pro rychlost a efektivitu a také naší vizi AI agentů budoucnosti nazvanou Projekt Astra.

Datum aktualizace: 23.08.2024 Datum vydání: 28.07.2024 Autor: Jiří Šťastný 0
Štítky: Gemini Pro

Demis Hassabis, generální ředitel a spoluzakladatel Google DeepMind

V prosinci jsme uvedli na trh náš první nativně multimodální model Gemini 1.0 ve třech formátech: Ultra, Pro a Nano. Jen o několik měsíců později jsme vydali verzi 1.5 Pro s vylepšeným výkonem a dosud nejdelším kontextovým oknem dosahujícím až milion tokenů.
 
Vývojáři a zákazníci dokázali využít verzi 1.5 Pro mnoha neuvěřitelnými způsoby a jako její hlavní výhodu uvádějí dlouhé kontextové okno, multimodální uvažování a obecně působivý výkon.
 
Od uživatelů víme, že některé aplikace vyžadují ke svému fungování nižší latenci a nižší náklady na obsluhu. To nás inspirovalo k dalším inovacím a proto dnes představujeme model Gemini 1.5 Flash, který je odlehčenější než 1.5 Pro a navržený pro vyšší rychlost a efektivitu.
 
Verze 1.5 Pro i 1.5 Flash jsou dostupné v tzv. public preview verzi v nástrojích Google AI Studio a Vertex AI a to včetně kontextového okna pro 1 milion tokenů. A k dnešnímu dni je prostřednictvím čekací listiny k dispozici i kontextové okno se dvěma miliony tokenů a to vývojářům využívajícím API a zákazníkům Google Cloudu.
 

Rovněž představujeme další generaci našich otevřených modelů, kterou jsme nazvali Gemma 2 a pokrok v oblasti AI asistentů budoucnosti, který jsme nazvali projekt Astra.

Gemini je nyní ve čtyřech velikostech: Ultra, Pro, Flash a Nano
 

Aktualizace řady modelů rodiny Gemini

Nový 1.5 Flash, optimalizovaný pro rychlost a efektivitu

1.5 Flash je nejnovějším přírůstkem do rodiny Gemini a zároveň nejrychlejším Gemini modelem běžícím v rozhraní API. Je optimalizovaný pro velkoobjemové a vysokofrekvenční úkoly ve velkém měřítku, je nákladově efektivnější, přitom si ale zachovává naše průlomové dlouhé kontextové okno.
 
I přestože je odlehčenější než model 1.5 Pro, dosahuje mimořádných výsledků v multimodálním uvažování napříč velkým množstvím informací a dodává vzhledem ke své velikosti úctyhodnou kvalitu.
Nový model Gemini 1.5 Flash je optimalizován pro rychlost a efektivitu, je vysoce schopný multimodálního uvažování a obsahuje naše průlomové dlouhé kontextové okno.
 
1.5 Flash vyniká například v psaní shrnutí nebo titulků k obrázkům a videím, ve vytváření chatovacích aplikací, extrakci dat z dlouhých dokumentů či tabulek a v mnoha dalších úkonech. Byl totiž vytrénován modelem 1.5 Pro procesem zvaným „destilace“, tzn. přenosem nejpodstatnějších znalostí a dovedností většího modelu do modelu menšího a efektivnějšího.
 
Více informací o 1.5 Flash najdete na technologické stránce Gemini a zde se pak dozvíte více o dostupnosti a cenách verze 1.5 Flash.
 

Výrazné vylepšení verze 1.5 Pro

V posledních měsících jsme výrazně vylepšili náš nejlepší model 1.5 Pro napříč širokým spektrem úloh. Kromě rozšíření jeho kontextového okna na dva miliony tokenů, jsme zdokonalili jeho generování kódu, logické uvažování a plánování, delší konverzaci a porozumění zvuku i obrazu prostřednictvím dat a algoritmických pokroků. U každé z těchto úloh jsme zaznamenali výrazné zlepšení veřejných i interních referenčních hodnot.
 
Tento model nyní dokáže sledovat stále složitější pokyny s rozlišováním drobných rozdílů, včetně pokynů, které určují chování na úrovni konkrétní služby, například roli, formát a styl. Vylepšili jsme také kontrolu nad odpověďmi modelu pro specifické případy použití, jako je vytváření persony a stylu odpovědí chatovacího agenta nebo automatizace pracovních postupů prostřednictvím vyvolání více funkcí najednou. A umožnili jsme uživatelům řídit chování modelu nastavením systémových instrukcí.
 
Do rozhraní Gemini API a aplikace Google AI Studio jsme také přidali porozumění zvuku, takže verze 1.5 Pro teď dokáže uvažovat napříč obrazem a zvukem u videí nahraných do aplikace Google AI Studio. 1.5 Pro teď integrujeme do Gemini Advanced a aplikací Workspace.
 
Přečtěte si víc o 1.5 Pro na technologické stránce Gemini.
 

Aktualizace Gemini Nano do on-device modelu/systému Android

Gemini Nano se učí chápat víc než jen text a nově bude zvládat i obrázky. Počínaje řadou Pixel, budou aplikace využívající Gemini Nano s Multimodalitou schopny porozumět světu tak, jak ho vidíme my, lidé - nejen prostřednictvím textových vstupů, ale také pomocí zraku, zvuku a mluvené řeči.
 
Více se dozvíte zde Gemini 1.0 Nano on Android.
 

Gemini Nano rozumí multimodálním vstupům

Gemini Nano se rozšiřuje nejen o textové vstupy, ale také o obrázky. Počínaje Pixelem budou aplikace využívající Gemini Nano s multimodalitou schopny porozumět světu stejně jako lidé - nejen prostřednictvím textu, ale také zraku, zvuku a mluvené řeči.


Přečtěte si více o aplikaci Gemini 1.0 Nano v systému Android.
 

Další generace otevřených modelů
Dnes také uvádíme několik aktualizací do modelů Gemma, naší rodiny otevřených modelů vystavěných na stejném výzkumu a technologiích využitých k tvorbě modelů Gemini.

Oznamujeme Gemmu 2, naši novou generaci otevřených modelů pro zodpovědné AI inovace. Gemma 2 má novou architekturu pro průlomový výkon a efektivitu a bude k dispozici v nových velikostech.

Rodina modelů Gemma se také rozrůstá o PaliGemma, náš první vision-language model inspirovaný PaLI-3. A vylepšili jsme naši sadu nástrojů Responsible Generative AI Toolkit o nástroj LLM Comparator pro vyhodnocování kvality odpovědí modelu.

Více se dozvíte na Developer blogu.
 

Náš pokrok ve vývoji univerzálního AI agenta

V rámci poslání Google DeepMindu vytvářet umělou inteligenci zodpovědně ve prospěch lidstva jsme vždy chtěli vyvinout univerzální agenty umělé inteligence, kteří budou užiteční v každodenním životě. Proto dnes představíme náš pokrok v budování budoucích AI asistentů: Projekt Astra (advanced seeing and talking responsive agent).
 
Aby byli skutečně užiteční, musí agenti rozumět složitému a dynamickému světu okolo nás. Umět na něj reagovat stejně jako lidé, vnímat a pamatovat si, co vidí nebo slyší tak, aby pochopili souvislosti. Musí být také proaktivní, učenliví a osobní, aby s nimi uživatelé mohli mluvit přirozeně bez prodlev a zpoždění.
 
Ačkoli jsme dosáhli neuvěřitelného pokroku ve vývoji systémů umělé inteligence, které dokážou porozumět multimodálním informacím, snížit dobu odezvy na konverzační úroveň je obtížný inženýrský úkol. V posledních několika letech jsme pracovali na zlepšení způsobu, jakým naše modely vnímají, uvažují a konverzují, aby tempo a kvalita interakce působily přirozeněji.
 
Dvoudílná ukázka projektu Astra, naší vize budoucnosti asistentů s umělou inteligencí. Každá část byla natočena na jeden záběr v reálném čase.
 
Tito asistenti byli postaveni na našem modelu Gemini a dalších modelech specifických pro daný úkol. Byli navrženi tak, aby zpracovávali informace rychleji díky průběžnému kódování videosnímků, spojování videozáznamu a řečového vstupu do časové osy událostí a ukládání těchto informací do mezipaměti pro lepší uchovávání vstupů
 
S využitím našich špičkových modelů řeči jsme také vylepšili jejich zvukovou podobu a poskytli asistentům širší škálu intonací. Díky tomu lépe rozumí kontextu, ve kterém jsou používáni, a rychle reagují v konverzacích.
 
Je snadné si představit budoucnost, kdy budete mít po svém boku odborného asistenta prostřednictvím telefonu nebo brýlí. Některé z těchto schopností se objeví v produktech společnosti Google, například v aplikaci Gemini, ještě letos.

 

Pokračující zkoumání

Dosud jsme s naší rodinou modelů Gemini udělali neuvěřitelný pokrok a neustále se snažíme posouvat se ještě dál. Díky investicím do inovací jsme schopni zkoumat nové myšlenky za hranicemi toho, co jsme dřív považovali za možné. To všechno odkrývá možnosti nových a vzrušujících využití modelů Gemini.

Více informací o Gemini a jeho schopnostech.

Sdílení:

Komentáře (0)

Přidat komentář

Tyto stránky využívají Cookies. Používáním těchto stránek vyjadřujete souhlas s používáním. Zjistit více