🔒 On-Premise & Private Cloud

Kun data ei saa lähteä talosta, mutta tekoälyä silti tarvitaan.

Asennamme avoimen lähdekoodin kielimallit (Llama, Mistral, Poro) organisaatiosi omalle palvelimelle tai privaatille pilvelle. Datasuvereniteetti, GDPR, EU AI Act — kaikki kunnossa, eikä yksikään tavu poistu hallinnastasi.

Varaa kartoitus → Sopiiko meille?

Miksi paikallinen

Mihin paikallinen LLM ratkaisee

Cloud-LLM:t (OpenAI, Anthropic) ovat erinomaisia yleiskäyttöön. Mutta jotkin tilanteet edellyttävät että data ei poistu omasta hallinnasta — silloin paikallinen on ainoa vaihtoehto.

🔐

Täysi datasuvereniteetti

Promptit, vastaukset, käyttäjätiedot — kaikki pysyy omilla palvelimilla. Ei sopimusta amerikkalaisen pilven kanssa, ei US CLOUD Act -riskiä.

🇪🇺

GDPR & EU AI Act -valmius

Henkilötiedot eivät siirry EU:n ulkopuolelle. AI Actin korkean riskin käyttötapauksiin (terveys, finanssi, oikeudellinen) suora yhteensopivuus.

⚙️

Ei vendor lockia

Avoimen lähdekoodin mallit (Llama, Mistral, Qwen, Poro). Voit vaihtaa mallia, finetunaa omaa, ei riippuvuutta yhdestä toimittajasta.

💸

Ennustettavat kustannukset

Suuressa volyymissa per-token-laskutus on kallista. Oma palvelin = kiinteä kk-kulu, ei laskuyllätyksiä.

🏗️

Toimialakohtaiset finetune:t

Lääketieteelliset asiakirjat, lakiteksti, oma sisäinen käsitteistö — finetune oman aineiston päälle ilman että data vuotaa.

🌐

Toiminta ilman internetiä

Suljetut verkot, kenttätyöskentely, korkean turvallisuuden ympäristöt — malli toimii myös offline.

Stack

Mitä asennamme

Kypsät, tuotannossa todistautuneet open source -työkalut. Ei räätälöityä prototyyppiä jota kukaan ei osaa ylläpitää.

Ollama / vLLM / llama.cpp

Mallin ajoympäristö. Ollama nopeaan käyttöönottoon, vLLM korkean throughputin tarpeisiin, llama.cpp CPU-only-tilanteisiin.

Inference

OpenWebUI / LibreChat

Käyttöliittymä loppukäyttäjille. ChatGPT-tyyppinen kokemus, mutta data pysyy omalla palvelimella.

pgvector + RAG-pipeline

Oma tietopohja: lataa dokumentit, embedataan paikallisesti, vektorihaku PostgreSQL:llä.

RAG

OpenAI-yhteensopiva API

Stack tarjoaa OpenAI-rajapinnan — sovelluksesi voivat puhua paikalliselle mallille kuin se olisi OpenAI.

Integraatiot

Tekojärki Voice AI -alustan rinnalla

Provider-abstraktion (BYO-LLM) ansiosta sama Tekojärki-alusta voi käyttää paikallista mallia OpenAI:n sijaan.

Voice + chat

Monitorointi & lokitus

Token-käytön seuranta, latenssimittarit, audit log -vaatimukset — kaikki samalla stackillä, ei kolmannen osapuolen analytiikkaa.

Observability

Mallit

Suosituksemme open source -malleista

Mallin valinta riippuu käyttötapauksesta ja saatavissa olevasta GPU-kapasiteetista. Autamme valitsemaan oikean.

Llama 3.3 70B

~140 GB · vaatii 2× A100/H100

Meta. Yleiskäyttöinen huippumalli, GPT-4o -tasoinen suomeksi useissa tehtävissä. Ensisijainen suositus jos GPU-budjetti riittää.

Llama 3.2 11B / 3B

~22 GB / 6 GB

Pienemmät mallit yhdelle GPU:lle (RTX 4090, A10). Sopii useimpiin chat- ja RAG-tehtäviin. Hyvä testattava ennen 70B:tä.

Mistral Large 2

~250 GB · vaatii useamman GPU:n

Eurooppalainen vaihtoehto Llamalle. Toimii erinomaisesti suomeksi ja muilla EU-kielillä. Lisenssi sallii kaupallisen käytön.

Poro 34B (TurkuNLP)

~70 GB

Suomeksi kotimaisesti finetunattu. Erityisen hyvä jos käyttötapauksessa tarvitaan suomenkielisten erityispiirteiden ymmärtämistä.

Qwen 2.5 72B

~145 GB

Alibaba. Vahva tool-call-tuki ja koodaus. Hyvä vaihtoehto kun tarvitaan agenttikäyttötapauksia paikallisesti.

Embeddings: bge-m3 / e5

~2 GB

RAG-haku ilman cloudia. Toimii suomeksi, sopii lähes mille tahansa GPU:lle (myös CPU-only mahdollista).

Milloin valita paikallinen

Kenelle palvelu sopii — ja kenelle ei

🏥

Terveydenhuolto Potilastiedot, hoitokertomukset, lääketieteelliset päätökset — ei voi siirtyä cloudiin.

⚖️

Asianajotoimistot Asiakassalaisuuksien suoja, kansainväliset case-tiedot, vastapuoliriskit.

🏛️

Julkinen sektori Kunnat, virastot, ministeriöt — kansalaisten henkilötiedot, hankintavaatimukset, EU AI Act.

🏦

Finanssi Tilitiedot, luottoselvitykset, sijoitusneuvonta — DORA + AI Act -compliance.

⚔️

Puolustus & turvallisuus Suljetut verkot, salatut työkuormat, kotimainen sotateollisuus.

🏭

Teollisuus IPR-suojattu R&D-data, prosessi-IP, kilpailuetuun liittyvä tieto.

Olkaamme rehellisiä — milloin paikallinen ei ole oikea valinta

Käyttötapauksesi on yksinkertainen chat tai asiakaspalvelu eikä data ole erityisen arkaluonteista — pilvi-LLM on halvempi ja helpompi.
Et halua investoida GPU-rautaan tai pilvi-GPU-instansseihin (€500–€5000/kk per malli).
Tarvitset uusimman state-of-the-art-mallin heti — open source on yleensä 6–12 kk jäljessä OpenAI/Anthropicin huippumalleista.
Tiimissäsi ei ole DevOps-/SRE-kapasiteettia ylläpitää inference-stackia (tai et halua ulkoistaa sitä).

Hyvä lähtökohta: pilvi-LLM tuotantoon, paikallinen vaihtoehtona kun compliance- tai datasuvereniteetti-vaatimukset vaativat sitä.