自宅ローカルLLMサーバー構築ガイド 2026年版:24時間常時稼働・省電力・宅内/社内からAPIで叩く構成を Strix Halo / Mac Studio / RTX で組む
ローカルLLMを「使うたびに起動」から「常時立てっぱなしのAPIサーバー」へ。Ryzen AI MAX+ 395 / Mac Studio / RTX 5090 を24時間稼働サーバーとして使うときの消費電力・発熱・OpenAI互換API公開・リモートアクセス・モデル常駐の構成を、用途別に整理する2026年版ガイドです。
- #ローカルLLM
- #LLMサーバー
- #常時稼働
- #省電力
- #Ollama
- #Strix Halo
- #Mac Studio
- #RTX 5090
本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細は プライバシーポリシー をご覧ください。

結論:ローカルLLMを「常時立てっぱなしのAPIサーバー」にするなら、選定軸はピーク速度ではなく「アイドル電力・容量・静音」。電気代と静かさを最優先するなら Ryzen AI MAX+ 395 ミニPC か Mac Studio、速度最優先で電力に目をつぶれるなら RTX 5090 デスクトップ。OpenAI互換APIは Ollama / LM Studio / llama.cpp のサーバーモードで立て、外から叩くときはポート直開けせず Tailscale などのVPN越しにするのが安全です。24時間稼働では「推論していない時間に何ワット食うか」が電気代を決めます。
ローカルLLMをしばらく使っていると、必ず「毎回モデルを起動するのが面倒」「別の端末やスマホからも叩きたい」という段階が来ます。そこからが、単体マシンでの利用から常時稼働のAPIサーバー化へのステップアップです。
この記事は、すでにマシンを持っている・これから選ぶ人に向けて、ローカルLLMを24時間立てっぱなしのサーバーとして運用するときの構成を整理します。どの機種が速いかという話は既存の機種比較・ベンチ記事に譲り、ここでは常時稼働・省電力・API公開・リモートアクセスという運用設計に絞ります。マシン選定そのものは「ローカルLLM 用 PC の最低スペック 2026年版」を先に押さえておくと判断が早くなります。
常時稼働サーバーで効く指標は「ピーク」ではなく「アイドル」
単体利用なら「推論時に何 tok/s 出るか」が主役ですが、24時間サーバーでは話が変わります。1日のうち実際に推論しているのは数分〜数時間で、残りはアイドル(待機)です。だから電気代と発熱を決めるのは、推論していない時間の消費電力です。
| 指標 | 単体利用での重要度 | 常時稼働サーバーでの重要度 |
|---|---|---|
| ピーク tok/sec | 高 | 中 |
| アイドル消費電力 | 低 | 最高 |
| 静音性 | 中 | 高(生活空間に置くため) |
| メモリ容量 | 高 | 高(モデル常駐のため) |
| 発熱・冷却 | 中 | 高(連続運転のため) |
この視点で見ると、ピーク速度は速いがアイドルでも電気を食う構成より、そこそこの速度で待機電力が低い構成のほうがサーバーには向く、という逆転が起きます。
3構成の比較:Strix Halo / Mac Studio / RTX
代表的な3パターンを、常時稼働サーバーの観点で比較します。消費電力は構成・負荷で大きく動くため、断定ではなく目安として読んでください。
| Ryzen AI MAX+ 395 ミニPC | Mac Studio(M4 Max / M3 Ultra) | RTX 5090 デスクトップ | |
|---|---|---|---|
| メモリ(モデル常駐) | 最大128GB Unified | 最大512GB Unified | VRAM 32GB(本体RAM別) |
| アイドル電力 | 低い(ミニPC級) | 低い | 高め(数十W〜) |
| 推論ピーク電力 | 中 | 中(60〜140W目安) | 高(500W超) |
| 静音性 | ○ | ◎(非常に静か) | △(負荷時ファン音) |
| 速度(tok/sec) | 中 | 中〜高(帯域次第) | 高 |
| 置き場所 | 棚に置ける | 棚に置ける | フルタワーの設置場所が要る |
ざっくりの使い分けはこうです。
- 電気代・静音を最優先、大型モデルも常駐したい → Ryzen AI MAX+ 395 ミニPC または Mac Studio。アイドルが低く、大容量メモリで70B〜120B級を載せたまま待機できる
- 速度を最優先、電力と騒音に目をつぶれる → RTX 5090 デスクトップ。推論は速いが、アイドルでも電気を食い、24時間運転だと電気代と発熱が効いてくる
Strix Halo(Ryzen AI MAX+ 395)の実力は「Strix Halo(Ryzen AI MAX+ 395)ローカルLLM ベンチマーク 2026年版」、機種の選び方は「ミニPC・SFF ローカルLLM ガイド 2026年版」を参照してください。Mac Studio と Ryzen AI MAX+ 395 の直接比較は「Ryzen AI MAX+ 395 vs Mac Studio M4 Max ローカルLLM 2026年版」にまとめています。
OpenAI互換APIとして公開する
マシンが決まったら、ローカルLLMをAPIとして立てます。難しく考える必要はなく、主要ツールはどれもサーバーモードと OpenAI互換エンドポイントを備えています。
- Ollama:
ollama serveで常駐。OpenAI互換の/v1/chat/completionsを提供。モデル管理が簡単で入口に最適 - LM Studio:GUI からサーバーを起動でき、同じく OpenAI互換APIを公開。設定の見通しが良い
- llama.cpp(server):軽量で細かいパラメータを詰めたい人向け。OpenAI互換エンドポイントに対応
クライアント側は、OpenAI SDK のベースURLを自分のサーバー(例: http://<サーバーのLAN IP>:11434/v1)に向けるだけで、既存のコードをほぼそのまま使えます。これがローカルLLMをサーバー化する一番の旨味です。複数のモデルを切り替えて常駐させたい場合は「llama-swap で複数モデルを VRAM 内で切り替える 2026年版」の構成が役立ちます。
モデルを常駐させ、プロセスを自動で立て続ける
サーバー用途では「再起動しても勝手に立ち上がる」ことが重要です。
- 常駐化:Linux なら systemd のサービスとして登録し、
enableで自動起動。Mac なら launchd、Windows ならタスクスケジューラやサービス化を使う - モデルのメモリ常駐:Ollama の
keep_aliveなどで、よく使うモデルをメモリに載せたままにしておくと、最初の1リクエストの待ち(ロード時間)が消える。ここで大容量メモリが効く - 自動復帰:プロセスが落ちても再起動するよう、サービスの restart 設定を入れておく
大型モデルを常駐させたまま待機できるのが、128GB〜512GBのUnified Memory機の強みです。VRAM 32GB のGPU機だと、複数の大型モデルを同時常駐させるのは厳しく、都度ロードが入りがちになります。
宅内・社内から安全にアクセスする
「別の部屋のノートから」「外出先のスマホから」叩きたくなりますが、ここはセキュリティに一言注意です。
- 宅内LANだけでよい → サーバーのLAN IP に直接アクセスすれば十分。ルーター外には開けない
- 別拠点・外出先から → ポートをインターネットに直接開けるのは避ける。Tailscale などのVPNで自分の端末同士を同じ仮想ネットワークに入れる、もしくは認証付きのリバースプロキシ越しにするのが安全
- 社内利用 → 社内ネットワーク内に閉じ、アクセス制御をかける。APIキーや簡易認証を前段に置く
ローカルLLMサーバーは「内部に閉じている」ことが前提のセキュリティ設計です。インターネットに直接さらすと、誰でも叩ける計算リソース兼情報窓口になってしまうため、踏み込んだ公開をする前にネットワークの閉じ方を必ず固めてください。
電気代の概算
24時間×30日=720時間の運転で、ざっくり見積もります(日本の電力単価を1kWhあたり約31円と仮定。実際の単価は契約・時間帯で変動します)。
| 平均消費電力(24h平均) | 月間電力量 | 月額の目安 |
|---|---|---|
| 15W(省電力ミニPC・アイドル中心) | 約11kWh | 約340円 |
| 30W(Mac Studio・アイドル中心) | 約22kWh | 約680円 |
| 80W(GPU機・アイドル高め+時々推論) | 約58kWh | 約1,800円 |
| 150W(GPU機・推論多め) | 約108kWh | 約3,300円 |
ポイントは、ピーク電力ではなく24時間の平均で効くことです。推論が短時間なら平均はアイドル電力に近づくため、アイドルが低い省電力機ほど電気代で有利になります。GPU機でも、使わない時間にスリープやモデルのアンロードを挟めば平均を下げられます。
結論:用途で機種と運用を割り切る
- 電気代・静音・大型モデル常駐を重視 → Ryzen AI MAX+ 395 ミニPC か Mac Studio を、Ollama+systemd で常駐化し、Tailscale で宅内外から叩く
- 速度最優先・電力は許容 → RTX 5090 デスクトップ。ただしアイドルのスリープ運用で電気代を抑える工夫をセットにする
- まず試したい → 手持ちのマシンに Ollama を入れ、LAN内で OpenAI互換APIを叩くところから。サーバー化の旨味を体感してから機種を投資する
「速いマシンを買う」より「使い方に合った省電力サーバーを静かに立てっぱなしにする」ほうが、ローカルLLMを日常的に使う体験はずっと良くなります。まずは手持ちのマシンでサーバー化を試し、足りなければ常駐向きの機種へ投資するのが堅い順序です。
入手先・関連商品
当サイトは Amazon.co.jp アソシエイト・プログラムに参加予定です。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。
本文で比較した3構成は以下から探せます。
- Ryzen AI MAX+ 395 ミニPC を Amazon.co.jp で見る
- Mac Studio M4 Max を Amazon.co.jp で見る
- GeForce RTX 5090 を Amazon.co.jp で見る
あなたに合うPCを診断する
用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。
→ 診断スタート