Ollama Quick Reference — รัน LLM บน local

Install

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# macOS via Homebrew
brew install ollama

คำสั่งพื้นฐาน

ollama pull llama3.2          # ดาวน์โหลด model
ollama run llama3.2           # รัน interactive chat
ollama list                   # ดู model ที่มีอยู่
ollama rm llama3.2            # ลบ model
ollama ps                     # ดู model ที่รันอยู่ตอนนี้

Serve API (background)

ollama serve                  # เปิด API ที่ localhost:11434

# ทดสอบ
curl http://localhost:11434/api/generate \
  -d '{"model":"llama3.2","prompt":"สวัสดี","stream":false}'

Model ที่แนะนำตาม RAM

RAM	Model	ขนาด
8 GB	llama3.2:3b, qwen2.5:3b	~2 GB
16 GB	llama3.2:8b, qwen2.5:7b	~5 GB
32 GB+	llama3.1:70b (Q4)	~40 GB
ใดก็ได้	nomic-embed-text	~274 MB

ENV ที่ควรรู้

OLLAMA_HOST=0.0.0.0:11434    # เปิดให้เครื่องอื่น access ได้
OLLAMA_NUM_PARALLEL=2         # รัน request พร้อมกัน
OLLAMA_MAX_LOADED_MODELS=1    # จำกัด RAM

ใช้กับ Python

import ollama

response = ollama.chat(
    model='llama3.2',
    messages=[{'role': 'user', 'content': 'สวัสดี'}]
)
print(response['message']['content'])