Digio infrastruktura

AI modeli i GPU

Pokrenite agente na upravljanim graničnim modelima već danas—ili iznajmite kapacitet GPU-a, rasporedite vlastite težine i usmjerite Digio zadatke na privatne krajnje tačke u istom radnom prostoru.

Klod, GPT, Blizanci Odabir modela po agentu Iznajmljivanje GPU-a & BYOM
Upravljani modeli

Modeli dostupni u Digiu danas

Dodijelite zadani model po agentu ili zaobiđite po zadatku. Korištenje se mjeri u Digio tokenima iz stanja vašeg plana – istog novčanika bez obzira da li agent zove Sonnet, GPT-4o ili Gemini Flash.

Oznaka korisničkog sučelja B2B SaaS web stranice. Prevedi na prirodni bs: Anthropic Claude

  • Claude Opus 4.7 Vodeće razmišljanje, dug kontekst, arhitektura i rad strategije.
  • Claude Opus 4.6 Opus prethodne generacije za stabilnu analizu visokog kvaliteta.
  • Claude Sonnet 4.6 Dnevni pokretač—kodiranje, pisanje i višestepene agentske petlje.
  • Claude Sonnet 4.5 / 4 Brzi nivoi soneta sa brzim keširanjem na podržanim radnim opterećenjima.
  • Claude Haiku 4.5 Nacrti sa malim kašnjenjem, klasifikacija i podzadaci velikog obima.

Oznaka korisničkog sučelja B2B SaaS web stranice. Prevedi na prirodni bs: OpenAI

  • GPT-5.5 / GPT-5.4 / GPT-5.2 Najnovija GPT-5 porodica za opšta i agentska radna opterećenja.
  • GPT-4.1 & GPT-4o Pouzdan multimodalni razgovor i upotreba alata za proizvodne agente.
  • GPT-4o mini Isplativo usmjeravanje za sažetke i lagane korake.
  • o3 / o3-pro / o3-mini / o4-mini Modeli fokusirani na rasuđivanje za matematiku, planiranje i verifikaciju.
  • GPT-5.3 Codex & Codex mini Generisanje koda, refaktori i veštine agenta koji su svesni repo.

Oznaka korisničkog sučelja B2B SaaS web stranice. Prevedi na prirodni bs: Google Gemini

  • Gemini 2.5 Pro Istraživanje dugog konteksta i strukturirano izdvajanje.
  • Gemini 2.5 Flash Koraci agenta visoke propusnosti s konkurentnim stopama tokena.
  • Gemini 2.0 Flash Izuzetno brzi prolazi za raščlanjivanje, označavanje i grupne poslove.

Otvoreni i specijalistički API-ji

  • DeepSeek Chat & Reasoner Snažna vrijednost za razgovore i zadatke u stilu lanca misli.
  • Mistral Large Opcija sa evropskim domaćinom za timove agenata koji govore više jezika.
  • Llama 3.3 70B Model otvorene klase težine preko API-ja—dobro se uparuje sa privatnim GPU-om.
  • Grok 3 Model orijentiran u realnom vremenu za agente vijesti i društvenog praćenja.
  • Sonar Pro Odgovori utemeljeni na pretraživanju za istraživače.
  • Command R+ RAG-prilagođeni poslovni procesi za ćaskanje i pronalaženje.

Model list and token economics evolve with provider releases. Your workspace shows live options when you assign a model to an agent; Digio Tokens debit from the same balance as in pricing.

Upotreba

Kako agenti biraju model

Koordinator može preporučiti Sonnet vs Opus u odnosu na jeftiniji model blica na osnovu tipa zadatka. Napredni korisnici postavljaju zadane postavke po ulozi agenta – istraživanje na Sonetu, konačna recenzija na Opusu, masovno označavanje na Haiku ili Gemini Flash.

  • Per agent — default model in agent settings; override in To do or chat when needed.

  • Metered fairly — input, output, and cached tokens map to Digio Token charges (see usage in your wallet).

  • Skills stay the same — tools and integrations work across models; only latency and cost profile change.

  • Plan limits — more agents and monthly Digio Tokens on higher tiers; top up anytime on the pricing page.

Iznajmljivanje GPU-a

Iznajmite GPU i pokrenite vlastite modele

Trebate fino podešavanje, kontrolnu tačku sa zračnim razmakom ili predvidljive cijene? Dodajte namjenski GPU kapacitet u svoj Digio radni prostor, instalirajte stog za posluživanje koji preferirate i usmjerite agente na svoju privatnu krajnju tačku.

Namjenski primjerci

Satni ili mjesečni GPU čvorovi (A100, H100, L40S klasa) priključeni na vašeg stanara—izolovani od drugih korisnika.

Tvoje težine

Učitajte safetensors, GGUF ili povucite iz vašeg registra; pokrenite Llama, Mistral, Qwen i prilagođena fina podešavanja.

Standardno serviranje

vLLM, TGI, Ollama ili slike kontejnera koje održavate—Digio agenti pozivaju osnovni URL kompatibilan sa OpenAI.

Ista orkestracija

Za obavljanje, timski razgovor, vještine i saradnja nepromijenjeni – samo je pozadinska strana zaključivanja vaša.

Hibridno rutiranje

Pošaljite osjetljive korake privatnom GPU-u i koristite Claude ili GPT za javno istraživanje u jednom toku rada.

Kontrole preduzeća

VPC peering, statički izlaz, evidencije revizije i liste dozvoljenih modela za regulirane timove.

Ponesite svoj model

Instalirajte i povežite prilagođeni model

Tipično podešavanje od nule do agenata koji pozivaju vašu krajnju tačku:

  1. Rezervni GPU

    Odaberite VRAM, regiju i vrijeme neprekidnog rada (burst vs uvijek uključeno). Skladište za utege isporučuje se s instancom ili montira vašu kantu.

  2. Postavite stek

    Pokrenite sliku za posluživanje ili SSH u, instalirajte CUDA drajvere i učitajte kontrolne tačke. Zdravstveni pregledi potvrđuju da je model spreman.

  3. Registrirajte krajnju tačku

    Dodajte osnovni URL, API ključ i ID modela u postavkama radnog prostora. Digio provjerava kašnjenje i format tokena prije objavljivanja uživo.

  4. Dodijelite agentima

    Odaberite svoj privatni model kao zadani za odabrane agente; upravljani Claude/GPT modeli ostaju dostupni jedan pored drugog.

Najam GPU-a se naplaćuje odvojeno od pretplate na Digio plan. Kontaktirajte nas za planiranje kapaciteta, SLA-ove i migraciju iz postojećeg klastera zaključivanja.

Oznaka korisničkog sučelja B2B SaaS web stranice. Prevedi na prirodni bs: FAQ

Pitanja o modelima i GPU-u

Odabir upravljanih API-ja u odnosu na zaključke koji se sami hostuju na Digio-u.

Da li plaćam dva puta—plan plus API?

Vaša Digio pretplata pokriva infrastrukturu, agente i uključene Digio tokene. Korištenje upravljanog modela tereti to stanje tokena po stvarnim ulaznim/izlaznim tokenima. Iznajmljivanje GPU-a je dodatak za mašine koje kontrolišete.

Mogu li različiti agenti koristiti različite modele?

Da—svaki agent može imati vlastitu zadanu vrijednost. Zadaci i razgovori mogu se nadjačati za jedno pokretanje bez promjene globalne zadane vrijednosti.

Koja je razlika između Soneta i Opusa?

Opus je podešen za teže rasuđivanje i duže koherentne planove; Sonet je brži i jeftiniji za svakodnevne agentske petlje. Haiku i modeli klase flash su najbolji za obimne podzadatke.

Mogu li pokrenuti samo svoj model i blokirati cloud API-je?

Radni prostori preduzeća mogu ograničiti dobavljače izlaznih modela i usmjeriti sav promet agenta na vašu krajnju točku GPU-a. Hibridni način rada je zadani za većinu timova.

Koje veličine GPU-a su dostupne?

Ponude zavise od regiona i potražnje—obično 24–80 GB VRAM nivoa za modele klase 7B–70B i multi-GPU čvorovi za veće stekove. Pomažemo u veličini VRAM-a na osnovu broja vaših parametara i kvantizacije.

Da li privatno korištenje GPU-a i dalje troši Digio tokene?

Orkestracija (agenti, zadaci, skladište) ostaje u vašem planu. Zaključak o vašem GPU-u se naplaćuje kao GPU vrijeme; opciono možete mjeriti upotrebu u obliku tokena za interni povraćaj.

Odaberite upravljane modele ili ponesite svoj GPU

Počnite s Claudeom i GPT-om već danas, a zatim dodajte namjenski GPU kada budete spremni da ugostite prilagođene težine—istih agenata, istih zadataka, vaših zaključaka.