Gemini překonává hranice: rychlejší model, delší kontext a AI agenti
Představujeme řadu aktualizací napříč celou rodinou modelů Gemini, včetně nového odlehčeného modelu 1.5 Flash optimalizovaného pro rychlost a efektivitu a také naší vizi AI agentů budoucnosti nazvanou Projekt Astra.
Datum aktualizace: 23.08.2024Datum vydání: 28.07.2024Autor: Jiří Šťastný
0
Demis Hassabis, generální ředitel a spoluzakladatel Google DeepMind
V prosinci jsme uvedli na trh náš první nativně multimodální model Gemini 1.0 ve třech formátech: Ultra, Pro a Nano. Jen o několik měsíců později jsme vydali verzi 1.5 Pro s vylepšeným výkonem a dosud nejdelším kontextovým oknem dosahujícím až milion tokenů.
Vývojáři a zákazníci dokázali využít verzi 1.5 Pro mnoha neuvěřitelnými způsoby a jako její hlavní výhodu uvádějí dlouhé kontextové okno, multimodální uvažování a obecně působivý výkon.
Od uživatelů víme, že některé aplikace vyžadují ke svému fungování nižší latenci a nižší náklady na obsluhu. To nás inspirovalo k dalším inovacím a proto dnes představujeme model Gemini 1.5 Flash, který je odlehčenější než 1.5 Pro a navržený pro vyšší rychlost a efektivitu.
Verze 1.5 Pro i 1.5 Flash jsou dostupné v tzv. public preview verzi v nástrojích Google AI Studio a Vertex AI a to včetně kontextového okna pro 1 milion tokenů. A k dnešnímu dni je prostřednictvím čekací listiny k dispozici i kontextové okno se dvěma miliony tokenů a to vývojářům využívajícím API a zákazníkům Google Cloudu.
Rovněž představujeme další generaci našich otevřených modelů, kterou jsme nazvali Gemma 2 a pokrok v oblasti AI asistentů budoucnosti, který jsme nazvali projekt Astra.
Gemini je nyní ve čtyřech velikostech: Ultra, Pro, Flash a Nano
Aktualizace řady modelů rodiny Gemini
Nový 1.5 Flash, optimalizovaný pro rychlost a efektivitu
1.5 Flash je nejnovějším přírůstkem do rodiny Gemini a zároveň nejrychlejším Gemini modelem běžícím v rozhraní API. Je optimalizovaný pro velkoobjemové a vysokofrekvenční úkoly ve velkém měřítku, je nákladově efektivnější, přitom si ale zachovává naše průlomové dlouhé kontextové okno.
I přestože je odlehčenější než model 1.5 Pro, dosahuje mimořádných výsledků v multimodálním uvažování napříč velkým množstvím informací a dodává vzhledem ke své velikosti úctyhodnou kvalitu.
Nový model Gemini 1.5 Flash je optimalizován pro rychlost a efektivitu, je vysoce schopný multimodálního uvažování a obsahuje naše průlomové dlouhé kontextové okno.
1.5 Flash vyniká například v psaní shrnutí nebo titulků k obrázkům a videím, ve vytváření chatovacích aplikací, extrakci dat z dlouhých dokumentů či tabulek a v mnoha dalších úkonech. Byl totiž vytrénován modelem 1.5 Pro procesem zvaným „destilace“, tzn. přenosem nejpodstatnějších znalostí a dovedností většího modelu do modelu menšího a efektivnějšího.
Více informací o 1.5 Flash najdete na technologické stránce Gemini a zde se pak dozvíte více o dostupnosti a cenách verze 1.5 Flash.
Výrazné vylepšení verze 1.5 Pro
V posledních měsících jsme výrazně vylepšili náš nejlepší model 1.5 Pro napříč širokým spektrem úloh. Kromě rozšíření jeho kontextového okna na dva miliony tokenů, jsme zdokonalili jeho generování kódu, logické uvažování a plánování, delší konverzaci a porozumění zvuku i obrazu prostřednictvím dat a algoritmických pokroků. U každé z těchto úloh jsme zaznamenali výrazné zlepšení veřejných i interních referenčních hodnot.
Tento model nyní dokáže sledovat stále složitější pokyny s rozlišováním drobných rozdílů, včetně pokynů, které určují chování na úrovni konkrétní služby, například roli, formát a styl. Vylepšili jsme také kontrolu nad odpověďmi modelu pro specifické případy použití, jako je vytváření persony a stylu odpovědí chatovacího agenta nebo automatizace pracovních postupů prostřednictvím vyvolání více funkcí najednou. A umožnili jsme uživatelům řídit chování modelu nastavením systémových instrukcí.
Do rozhraní Gemini API a aplikace Google AI Studio jsme také přidali porozumění zvuku, takže verze 1.5 Pro teď dokáže uvažovat napříč obrazem a zvukem u videí nahraných do aplikace Google AI Studio. 1.5 Pro teď integrujeme do Gemini Advanced a aplikací Workspace.
Aktualizace Gemini Nano do on-device modelu/systému Android
Gemini Nano se učí chápat víc než jen text a nově bude zvládat i obrázky. Počínaje řadou Pixel, budou aplikace využívající Gemini Nano s Multimodalitou schopny porozumět světu tak, jak ho vidíme my, lidé - nejen prostřednictvím textových vstupů, ale také pomocí zraku, zvuku a mluvené řeči.
Gemini Nano se rozšiřuje nejen o textové vstupy, ale také o obrázky. Počínaje Pixelem budou aplikace využívající Gemini Nano s multimodalitou schopny porozumět světu stejně jako lidé - nejen prostřednictvím textu, ale také zraku, zvuku a mluvené řeči.
Dnes také uvádíme několik aktualizací do modelů Gemma, naší rodiny otevřených modelů vystavěných na stejném výzkumu a technologiích využitých k tvorbě modelů Gemini.
Oznamujeme Gemmu 2, naši novou generaci otevřených modelů pro zodpovědné AI inovace. Gemma 2 má novou architekturu pro průlomový výkon a efektivitu a bude k dispozici v nových velikostech.
V rámci poslání Google DeepMindu vytvářet umělou inteligenci zodpovědně ve prospěch lidstva jsme vždy chtěli vyvinout univerzální agenty umělé inteligence, kteří budou užiteční v každodenním životě. Proto dnes představíme náš pokrok v budování budoucích AI asistentů: Projekt Astra (advanced seeing and talking responsive agent).
Aby byli skutečně užiteční, musí agenti rozumět složitému a dynamickému světu okolo nás. Umět na něj reagovat stejně jako lidé, vnímat a pamatovat si, co vidí nebo slyší tak, aby pochopili souvislosti. Musí být také proaktivní, učenliví a osobní, aby s nimi uživatelé mohli mluvit přirozeně bez prodlev a zpoždění.
Ačkoli jsme dosáhli neuvěřitelného pokroku ve vývoji systémů umělé inteligence, které dokážou porozumět multimodálním informacím, snížit dobu odezvy na konverzační úroveň je obtížný inženýrský úkol. V posledních několika letech jsme pracovali na zlepšení způsobu, jakým naše modely vnímají, uvažují a konverzují, aby tempo a kvalita interakce působily přirozeněji.
Dvoudílná ukázka projektu Astra, naší vize budoucnosti asistentů s umělou inteligencí. Každá část byla natočena na jeden záběr v reálném čase.
Tito asistenti byli postaveni na našem modelu Gemini a dalších modelech specifických pro daný úkol. Byli navrženi tak, aby zpracovávali informace rychleji díky průběžnému kódování videosnímků, spojování videozáznamu a řečového vstupu do časové osy událostí a ukládání těchto informací do mezipaměti pro lepší uchovávání vstupů
S využitím našich špičkových modelů řeči jsme také vylepšili jejich zvukovou podobu a poskytli asistentům širší škálu intonací. Díky tomu lépe rozumí kontextu, ve kterém jsou používáni, a rychle reagují v konverzacích.
Je snadné si představit budoucnost, kdy budete mít po svém boku odborného asistenta prostřednictvím telefonu nebo brýlí. Některé z těchto schopností se objeví v produktech společnosti Google, například v aplikaci Gemini, ještě letos.
Pokračující zkoumání
Dosud jsme s naší rodinou modelů Gemini udělali neuvěřitelný pokrok a neustále se snažíme posouvat se ještě dál. Díky investicím do inovací jsme schopni zkoumat nové myšlenky za hranicemi toho, co jsme dřív považovali za možné. To všechno odkrývá možnosti nových a vzrušujících využití modelů Gemini.