AI & LLM

Ollama Quick Reference — รัน LLM บน local

คำสั่งที่ใช้บ่อยสำหรับ Ollama: pull, run, serve, model list, memory config — พิมพ์ไว้ให้เลย

Nat ·
#ollama #local-ai #llm #linux #macos

Install

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# macOS via Homebrew
brew install ollama

คำสั่งพื้นฐาน

ollama pull llama3.2          # ดาวน์โหลด model
ollama run llama3.2           # รัน interactive chat
ollama list                   # ดู model ที่มีอยู่
ollama rm llama3.2            # ลบ model
ollama ps                     # ดู model ที่รันอยู่ตอนนี้

Serve API (background)

ollama serve                  # เปิด API ที่ localhost:11434
# ทดสอบ
curl http://localhost:11434/api/generate \
  -d '{"model":"llama3.2","prompt":"สวัสดี","stream":false}'

Model ที่แนะนำตาม RAM

RAMModelขนาด
8 GBllama3.2:3b, qwen2.5:3b~2 GB
16 GBllama3.2:8b, qwen2.5:7b~5 GB
32 GB+llama3.1:70b (Q4)~40 GB
ใดก็ได้nomic-embed-text~274 MB

ENV ที่ควรรู้

OLLAMA_HOST=0.0.0.0:11434    # เปิดให้เครื่องอื่น access ได้
OLLAMA_NUM_PARALLEL=2         # รัน request พร้อมกัน
OLLAMA_MAX_LOADED_MODELS=1    # จำกัด RAM

ใช้กับ Python

import ollama

response = ollama.chat(
    model='llama3.2',
    messages=[{'role': 'user', 'content': 'สวัสดี'}]
)
print(response['message']['content'])