自宅でローカルLLMを24時間サーバーとして立てるなら、どのマシンが向いている？

アイドル電力と容量のバランスで選びます。電気代と静音を最優先するなら Ryzen AI MAX+ 395 ミニPC か Mac Studio。どちらもアイドル時の消費電力が低く、128GB〜大容量のメモリで大型モデルを常駐できます。速度を最優先で電力に目をつぶれるなら RTX 5090 デスクトップ。常時稼働では「ピーク速度」より「アイドル時に何ワット食うか」のほうが電気代に効くため、推論していない時間が長いサーバー用途ほど省電力機の価値が上がります。

ローカルLLMをOpenAI互換APIとして公開するには？

Ollama / LM Studio / llama.cpp のサーバーモードを使えば、OpenAI互換のエンドポイント（/v1/chat/completions 等）が立ちます。あとは systemd などでプロセスを常駐させ、宅内LANからアクセスするだけです。外部や別拠点から叩きたい場合は、ポートをそのまま外に開けず、Tailscale などのVPNや認証付きリバースプロキシ越しにするのが安全です。インターネットに直接公開するのは避けてください。

ローカルLLMサーバーの電気代はどれくらい？

アイドル中心の使い方なら、省電力機（Ryzen AI MAX+ 395 ミニPC や Mac Studio）でおおむね月数百円〜千円台が目安です。推論時のピーク電力ではなく、24時間のうち大半を占めるアイドル電力が効きます。RTX 5090 デスクトップはアイドルでも数十W〜と高めで、常時稼働だと電気代が膨らみやすいので、稼働時間と用途次第で省電力機との差が月数千円規模になることもあります。

自宅ローカルLLMサーバー構築ガイド 2026年版：24時間常時稼働・省電力・宅内/社内からAPIで叩く構成を Strix Halo / Mac Studio / RTX で組む

本記事は Amazon.co.jp および各販売店のアフィリエイトリンクを含む場合があります。推奨は性能・コスパ・実機ベンチマーク基準で編集判断しており、提供記事は受け付けていません。詳細はプライバシーポリシーをご覧ください。

自宅ローカルLLMサーバー構築ガイド 2026：24時間常時稼働・省電力・APIで叩く構成

結論：ローカルLLMを「常時立てっぱなしのAPIサーバー」にするなら、選定軸はピーク速度ではなく「アイドル電力・容量・静音」。電気代と静かさを最優先するなら Ryzen AI MAX+ 395 ミニPC か Mac Studio、速度最優先で電力に目をつぶれるなら RTX 5090 デスクトップ。OpenAI互換APIは Ollama / LM Studio / llama.cpp のサーバーモードで立て、外から叩くときはポート直開けせず Tailscale などのVPN越しにするのが安全です。24時間稼働では「推論していない時間に何ワット食うか」が電気代を決めます。

ローカルLLMをしばらく使っていると、必ず「毎回モデルを起動するのが面倒」「別の端末やスマホからも叩きたい」という段階が来ます。そこからが、単体マシンでの利用から常時稼働のAPIサーバー化へのステップアップです。

この記事は、すでにマシンを持っている・これから選ぶ人に向けて、ローカルLLMを24時間立てっぱなしのサーバーとして運用するときの構成を整理します。どの機種が速いかという話は既存の機種比較・ベンチ記事に譲り、ここでは常時稼働・省電力・API公開・リモートアクセスという運用設計に絞ります。マシン選定そのものは「ローカルLLM 用 PC の最低スペック 2026年版」を先に押さえておくと判断が早くなります。

常時稼働サーバーで効く指標は「ピーク」ではなく「アイドル」

単体利用なら「推論時に何 tok/s 出るか」が主役ですが、24時間サーバーでは話が変わります。1日のうち実際に推論しているのは数分〜数時間で、残りはアイドル（待機）です。だから電気代と発熱を決めるのは、推論していない時間の消費電力です。

指標	単体利用での重要度	常時稼働サーバーでの重要度
ピーク tok/sec	高	中
アイドル消費電力	低	最高
静音性	中	高（生活空間に置くため）
メモリ容量	高	高（モデル常駐のため）
発熱・冷却	中	高（連続運転のため）

この視点で見ると、ピーク速度は速いがアイドルでも電気を食う構成より、そこそこの速度で待機電力が低い構成のほうがサーバーには向く、という逆転が起きます。

3構成の比較：Strix Halo / Mac Studio / RTX

代表的な3パターンを、常時稼働サーバーの観点で比較します。消費電力は構成・負荷で大きく動くため、断定ではなく目安として読んでください。

	Ryzen AI MAX+ 395 ミニPC	Mac Studio（M4 Max / M3 Ultra）	RTX 5090 デスクトップ
メモリ（モデル常駐）	最大128GB Unified	最大512GB Unified	VRAM 32GB（本体RAM別）
アイドル電力	低い（ミニPC級）	低い	高め（数十W〜）
推論ピーク電力	中	中（60〜140W目安）	高（500W超）
静音性	○	◎（非常に静か）	△（負荷時ファン音）
速度（tok/sec）	中	中〜高（帯域次第）	高
置き場所	棚に置ける	棚に置ける	フルタワーの設置場所が要る

ざっくりの使い分けはこうです。

電気代・静音を最優先、大型モデルも常駐したい → Ryzen AI MAX+ 395 ミニPC または Mac Studio。アイドルが低く、大容量メモリで70B〜120B級を載せたまま待機できる
速度を最優先、電力と騒音に目をつぶれる → RTX 5090 デスクトップ。推論は速いが、アイドルでも電気を食い、24時間運転だと電気代と発熱が効いてくる

Strix Halo（Ryzen AI MAX+ 395）の実力は「Strix Halo（Ryzen AI MAX+ 395）ローカルLLM ベンチマーク 2026年版」、機種の選び方は「ミニPC・SFF ローカルLLM ガイド 2026年版」を参照してください。Mac Studio と Ryzen AI MAX+ 395 の直接比較は「Ryzen AI MAX+ 395 vs Mac Studio M4 Max ローカルLLM 2026年版」にまとめています。

OpenAI互換APIとして公開する

マシンが決まったら、ローカルLLMをAPIとして立てます。難しく考える必要はなく、主要ツールはどれもサーバーモードと OpenAI互換エンドポイントを備えています。

Ollama：ollama serve で常駐。OpenAI互換の /v1/chat/completions を提供。モデル管理が簡単で入口に最適
LM Studio：GUI からサーバーを起動でき、同じく OpenAI互換APIを公開。設定の見通しが良い
llama.cpp（server）：軽量で細かいパラメータを詰めたい人向け。OpenAI互換エンドポイントに対応

クライアント側は、OpenAI SDK のベースURLを自分のサーバー（例: http://<サーバーのLAN IP>:11434/v1）に向けるだけで、既存のコードをほぼそのまま使えます。これがローカルLLMをサーバー化する一番の旨味です。複数のモデルを切り替えて常駐させたい場合は「llama-swap で複数モデルを VRAM 内で切り替える 2026年版」の構成が役立ちます。

モデルを常駐させ、プロセスを自動で立て続ける

サーバー用途では「再起動しても勝手に立ち上がる」ことが重要です。

常駐化：Linux なら systemd のサービスとして登録し、enable で自動起動。Mac なら launchd、Windows ならタスクスケジューラやサービス化を使う
モデルのメモリ常駐：Ollama の keep_alive などで、よく使うモデルをメモリに載せたままにしておくと、最初の1リクエストの待ち（ロード時間）が消える。ここで大容量メモリが効く
自動復帰：プロセスが落ちても再起動するよう、サービスの restart 設定を入れておく

大型モデルを常駐させたまま待機できるのが、128GB〜512GBのUnified Memory機の強みです。VRAM 32GB のGPU機だと、複数の大型モデルを同時常駐させるのは厳しく、都度ロードが入りがちになります。

宅内・社内から安全にアクセスする

「別の部屋のノートから」「外出先のスマホから」叩きたくなりますが、ここはセキュリティに一言注意です。

宅内LANだけでよい → サーバーのLAN IP に直接アクセスすれば十分。ルーター外には開けない
別拠点・外出先から → ポートをインターネットに直接開けるのは避ける。Tailscale などのVPNで自分の端末同士を同じ仮想ネットワークに入れる、もしくは認証付きのリバースプロキシ越しにするのが安全
社内利用 → 社内ネットワーク内に閉じ、アクセス制御をかける。APIキーや簡易認証を前段に置く

ローカルLLMサーバーは「内部に閉じている」ことが前提のセキュリティ設計です。インターネットに直接さらすと、誰でも叩ける計算リソース兼情報窓口になってしまうため、踏み込んだ公開をする前にネットワークの閉じ方を必ず固めてください。

電気代の概算

24時間×30日＝720時間の運転で、ざっくり見積もります（日本の電力単価を1kWhあたり約31円と仮定。実際の単価は契約・時間帯で変動します）。

平均消費電力（24h平均）	月間電力量	月額の目安
15W（省電力ミニPC・アイドル中心）	約11kWh	約340円
30W（Mac Studio・アイドル中心）	約22kWh	約680円
80W（GPU機・アイドル高め＋時々推論）	約58kWh	約1,800円
150W（GPU機・推論多め）	約108kWh	約3,300円

ポイントは、ピーク電力ではなく24時間の平均で効くことです。推論が短時間なら平均はアイドル電力に近づくため、アイドルが低い省電力機ほど電気代で有利になります。GPU機でも、使わない時間にスリープやモデルのアンロードを挟めば平均を下げられます。

結論：用途で機種と運用を割り切る

電気代・静音・大型モデル常駐を重視 → Ryzen AI MAX+ 395 ミニPC か Mac Studio を、Ollama＋systemd で常駐化し、Tailscale で宅内外から叩く
速度最優先・電力は許容 → RTX 5090 デスクトップ。ただしアイドルのスリープ運用で電気代を抑える工夫をセットにする
まず試したい → 手持ちのマシンに Ollama を入れ、LAN内で OpenAI互換APIを叩くところから。サーバー化の旨味を体感してから機種を投資する

「速いマシンを買う」より「使い方に合った省電力サーバーを静かに立てっぱなしにする」ほうが、ローカルLLMを日常的に使う体験はずっと良くなります。まずは手持ちのマシンでサーバー化を試し、足りなければ常駐向きの機種へ投資するのが堅い順序です。

入手先・関連商品

当サイトは Amazon.co.jp アソシエイト・プログラムに参加予定です。下記リンク経由で購入された場合、紹介料を受け取ることがあります。読者の負担は増えません。リンクは記事評価とは独立しており、編集判断には影響しません。

本文で比較した3構成は以下から探せます。

あなたに合うPCを診断する

用途や予算をもう少し細かく入力すると、3つの候補構成を提案します。

→ 診断スタート