動くものができると、次に気になるのはコストだ。
「1回の会議でいくらかかるのか」を計算したことがなかった。
数字を出してみると、思ったより単純だった。
そして、スケールしたときに何が起きるかも見えてきた。
#2 実装編で、会議終了から2.1秒でメールが届くところまで作った。 動くことを確認して満足していたが、ふと気になった。「これ、1回の会議でいくらかかってるんだろう」と。
Quill が使っているAPIは2つ。音声を文字にする Whisper API と、議事録を作る Claude API だ。 それぞれの料金を確認して、1時間の会議を処理した場合のコストを計算した。
1時間の会議を処理するコストは、合計で約55円。 内訳はほぼWhisper API(54円)で、Claude APIは誤差の範囲(1〜2円)だ。 議事録の生成に使うトークン数は、音声の長さほど多くないためだ。
55円という数字は安く見える。だが、これがSaaSになって利用者が増えたらどうなるか。 会議の本数が増えるにつれ、コストは線形に増える。
| 月間会議数 | Whisper API | Claude API | 合計(月) |
|---|---|---|---|
| 100回(個人・小規模) | ¥5,400 | ¥150 | ¥5,550 |
| 1,000回(中規模) | ¥54,000 | ¥1,500 | ¥55,500 |
| 10,000回(本格運用) | ¥540,000 | ¥15,000 | ¥555,000 |
月1万回を超えると、APIコストだけで月55万円になる。 これはまだサーバー費用も人件費も含んでいない。 SaaSとして成立させるには、この数字を意識した価格設計が必要になる。
Whisper はOpenAIのAPIを使わず、自前のサーバーで動かすこともできる。 オープンソース版のWhisperをGPUサーバーに乗せれば、APIに払うコストがゼロになる。 ただし、サーバーの維持費と構築コストがかかる。
クラウドGPU(AWS g4dn.xlarge)を使うとして、時間あたり約80円。
1時間の音声を処理するのに必要な時間は約5〜6分なので、
1会議あたりの処理コスト ≈ 8円。
APIの54円に対して、自前なら8円。差は46円。
ただし、サーバーを常時起動しておくと月57,600円(80円×720時間)かかる。 処理のたびに起動・停止する運用にすれば費用は下がるが、 起動時間のロスや運用の複雑さが増す。
内製化(自前サーバー)が得になる目安
切替えのタイミングは、利用ボリュームの変化点を見て判断する。 月1,000回を超えたあたりで内製化の準備を始め、2,000回を超えたら切り替える——というのが現実的な判断軸だ。
コスト構造がわかると、価格設計の考え方も変わる。 1会議55円のコストに対して、どのくらいのマージンを乗せるか。
| 月額プラン | 想定会議数/月 | APIコスト | 粗利率 |
|---|---|---|---|
| ¥1,980(ライト) | 20回 | ¥1,100 | 44% |
| ¥4,980(スタンダード) | 50回 | ¥2,750 | 45% |
| ¥9,800(ビジネス) | 100回 | ¥5,500 | 44% |
粗利率は約44〜45%で安定する。 ただしこれはAPIコストだけで、サーバー・開発・サポートのコストは含まない。 SaaSとして黒字にするには、実際には60〜70%の粗利が必要とされることが多い。
その差を埋める方法は2つだ。価格を上げるか、内製化でコストを下げるか。 どちらを先にやるかは、ユーザー数と交渉力次第になる。
Quill はまだプロトタイプだ。コストの計算は、実際に課金する前に把握しておくべき数字を整理しただけに過ぎない。 だが、こうして数字を出してみると、「APIで始めて、スケールしたら内製化する」という#1で書いた方針が、現実的な判断軸として機能することが確認できた。
動いているものを作る。コストを把握する。価格を設計する。 順番はこれでいい。