Meta open models

Llama 3.1 70B cost planner

Fireworks and other hosts expose Llama 3.1 70B for pennies. Model your token budget before rolling out to the whole org.

Last pricing check: Mar 13, 2026

$0.80 per 1M prompt tokens$1.20 per 1M completion tokens128,000 token context

Why teams choose this model

Custom knowledge copilots

On-prem/private deployments

Developer assistants

Open main calculator

Scenario planning

Realistic cost examples

Numbers use Llama 3.1 70B Instruct (Fireworks) pricing

Dev copilot

Inline code suggestions + doc lookups inside your IDE.

Per request

$0.0015

Per month

$13.50

Tokens sent

13,950,000

900 prompt tokens650 completion tokens9,000 requests/mo

Private RAG

Self-hosted knowledge bot serving sensitive content.

Per request

$0.0015

Per month

$8.88

Tokens sent

9,600,000

1100 prompt tokens500 completion tokens6,000 requests/mo

Ops assistant

Shift handoff + incident timeline summaries.

Per request

$0.0011

Per month

$13.20

Tokens sent

13,800,000

700 prompt tokens450 completion tokens12,000 requests/mo

Compare with

Anthropic

Claude 3.7 Sonnet Pricing Guide

Updated Mar 13, 2026

Anthropic

Claude Sonnet 4.6 Cost Planner

Updated Mar 13, 2026

DeepSeek

DeepSeek Reasoner Cost Calculator

Updated Mar 13, 2026

FAQs

Are these Fireworks prices?

Yes, we use Fireworks’ public rates as the default. If you self-host, your infra cost replaces the per-token number shown here.

Why choose Llama over closed models?

Control + portability. TokenTally lets you compare hosted Llama costs to the likes of GPT or Claude before committing.

Can I fine-tune Llama 3.1?

Absolutely. Token costs above assume inference only; training/fine-tune costs depend on your GPU footprint.

Pricing sources

https://fireworks.ai/pricing
Checked Mar 13, 2026