タグ
2 記事
RTX 3070 で Gemma 4 E2B と E4B を実測。TPS、TTFT、難問と実用タスクの品質比較に加え、E2B が不可解に遅い原因を追跡した結果、Ollama の gemma4 renderer が公式ドキュメントに反して <|think|> トークンを既定で注入していることが判明。最後にベストプラクティスと Claude Code をローカルで動かす際の注意点もまとめます。
ローカル環境でオープンソースの大規模言語モデル(LLM)を動かす最も手軽な方法、Ollama の入門ガイドです。Windows・Linux・macOS でのインストール、最初のモデル実行、自分のハードウェアに合ったモデルサイズの選び方、Python やあらゆる REST クライアントから Ollama を呼び出す方法まで解説します。