2人参与 • 2026-03-20 • Python
在现代 python 开发中,json 几乎无处不在——从 web api 响应、配置文件到日志分析和数据管道。当数据量增大时,json 解析与序列化的性能往往会成为系统瓶颈。
社区中流传着各种“超快 json 库”的传说:simdjson 声称比标准库快 10 倍,orjson 则号称“最快的 python json 库”。但这些说法是否适用于你的实际场景?“快”到底指什么?解析快?序列化快?还是整体 etl 流程快?
本文将通过原理剖析 + 多维度实测,全面对比 python 中三大主流 json 方案:
json(python 内置)simdjson(极致解析速度)orjson(全能型高性能选手)并给出明确的选型建议:在什么场景下该用哪个库?
pysimdjsondict/list,可直接修改datetime、numpy、uuid 等类型bytes,减少编码开销💡 安装方式:
pip install simdjson orjson
我们设计两个典型场景进行 benchmark:
仅解析 json,不做任何修改或序列化
→ 适合日志分析、指标提取等场景
- 解析 json
- 遍历每条记录,根据
score添加grade字段- 将修改后的数据重新序列化为 json 字符串
→ 模拟真实业务逻辑(如 api 数据增强)
测试数据:5 万条结构化记录(约 9 mb)
import json
import time
import simdjson
import orjson
import random
import string
def generate_large_json(num_records: int = 50000) -> str:
def random_string(length=10):
return ''.join(random.choices(string.ascii_letters + string.digits, k=length))
data = []
for i in range(num_records):
record = {
"id": i,
"name": random_string(8),
"email": f"{random_string(5)}@example.com",
"score": round(random.uniform(0, 100), 2),
"tags": [random_string(4) for _ in range(random.randint(1, 5))],
"active": random.choice([true, false])
}
data.append(record)
return json.dumps(data, ensure_ascii=false)
def benchmark_pure_parse():
print("正在生成测试数据...")
json_str = generate_large_json(num_records=50000)
print(f"生成完成,json 大小: {len(json_str) / (1024 * 1024):.2f} mb")
# warm-up
small_json = '{"test": true}'
_ = json.loads(small_json)
_ = simdjson.parser().parse(small_json)
_ = orjson.loads(small_json)
# --- 标准 json ---
print("正在测试标准 json 库(仅解析)...")
start = time.perf_counter()
for _ in range(5):
obj = json.loads(json_str)
std_time = (time.perf_counter() - start) / 5
# --- simdjson ---
print("正在测试 simdjson(仅解析)...")
start = time.perf_counter()
for _ in range(5):
parser = simdjson.parser()
obj = parser.parse(json_str) # 注意:不调用 .as_dict()
simd_time = (time.perf_counter() - start) / 5
# --- orjson ---
print("正在测试 orjson(仅解析)...")
start = time.perf_counter()
for _ in range(5):
obj = orjson.loads(json_str)
orjson_time = (time.perf_counter() - start) / 5
# --- 结果 ---
print("\n📊 纯解析性能对比结果:")
print(f"标准 json 平均时间: {std_time:.6f} 秒")
print(f"simdjson 平均时间: {simd_time:.6f} 秒")
print(f"orjson 平均时间: {orjson_time:.6f} 秒")
print(f"simdjson 加速比: {std_time / simd_time:.2f}x")
print(f"orjson 加速比: {std_time / orjson_time:.2f}x")
if __name__ == "__main__":
benchmark_pure_parse()
正在生成测试数据... 生成完成,json 大小: 6.25 mb 正在测试标准 json 库(仅解析)... 正在测试 simdjson(仅解析)... 正在测试 orjson(仅解析)... 📊 纯解析性能对比结果: 标准 json 平均时间: 0.124597 秒 simdjson 平均时间: 0.013677 秒 orjson 平均时间: 0.088928 秒 simdjson 加速比: 9.11x orjson 加速比: 1.40x
✅ 结论:在纯解析场景,
simdjson确实遥遥领先。
import json
import time
import orjson
import simdjson
import random
import string
def generate_large_json(num_records: int = 50000) -> str:
def random_string(length=10):
return ''.join(random.choices(string.ascii_letters + string.digits, k=length))
data = []
for i in range(num_records):
record = {
"id": i,
"name": random_string(8),
"email": f"{random_string(5)}@example.com",
"score": round(random.uniform(0, 100), 2),
"tags": [random_string(4) for _ in range(random.randint(1, 5))],
"active": random.choice([true, false])
}
data.append(record)
return json.dumps(data, ensure_ascii=false)
def benchmark_etl():
print("正在生成测试数据...")
json_str = generate_large_json(num_records=50000)
print(f"生成完成,json 大小: {len(json_str) / (1024 * 1024):.2f} mb")
# warm-up
small_json = '{"test": true}'
_ = json.loads(small_json)
_ = orjson.loads(small_json)
_ = simdjson.parser().parse(small_json)
# --- 标准 json:解析 → 修改 → 序列化 ---
print("正在测试标准 json 库(完整流程)...")
start = time.perf_counter()
for _ in range(5):
data = json.loads(json_str)
for item in data:
item["grade"] = "a" if item["score"] >= 90 else "b"
new_json = json.dumps(data, ensure_ascii=false)
std_time = (time.perf_counter() - start) / 5
# --- orjson:解析 → 修改 → 序列化 ---
print("正在测试 orjson(完整流程)...")
start = time.perf_counter()
for _ in range(5):
data = orjson.loads(json_str)
for item in data:
item["grade"] = "a" if item["score"] >= 90 else "b"
new_json = orjson.dumps(data)
orjson_time = (time.perf_counter() - start) / 5
# --- simdjson:解析 → 转 dict → 修改 → 序列化 ---
print("正在测试 simdjson(完整流程,含 .as_list())...")
start = time.perf_counter()
for _ in range(5):
parser = simdjson.parser()
obj = parser.parse(json_str)
data = obj.as_list() # 转为可修改的 python 对象
for item in data:
item["grade"] = "a" if item["score"] >= 90 else "b"
new_json = json.dumps(data, ensure_ascii=false)
simd_time = (time.perf_counter() - start) / 5
# --- 结果 ---
print("\n📊 完整 etl 流程性能对比结果(解析 + 修改 + 序列化):")
print(f"标准 json 平均时间: {std_time:.6f} 秒")
print(f"orjson 平均时间: {orjson_time:.6f} 秒")
print(f"simdjson 平均时间: {simd_time:.6f} 秒")
print(f"orjson 相对加速比: {std_time / orjson_time:.2f}x")
print(f"simdjson 相对加速比: {std_time / simd_time:.2f}x (越小越慢)")
if __name__ == "__main__":
benchmark_etl()
正在生成测试数据... 生成完成,json 大小: 6.25 mb 正在测试标准 json 库(完整流程)... 正在测试 orjson(完整流程)... 正在测试 simdjson(完整流程,含 .as_list())... 📊 完整 etl 流程性能对比结果(解析 + 修改 + 序列化): 标准 json 平均时间: 0.259784 秒 orjson 平均时间: 0.119655 秒 simdjson 平均时间: 0.328153 秒 orjson 相对加速比: 2.17x simdjson 相对加速比: 0.79x (越小越慢)
simdjson.object 是对原始缓冲区的只读视图obj["key"] = value 会报错.as_dict() 才能获得可修改的 python 对象json.loads() 更慢(因后者是高度优化的 c 循环)json.dumps(),无法享受端到端加速parser = simdjson.parser() obj1 = parser.parse(json1) # ok obj2 = parser.parse(json2) # ❌ runtimeerror!
只要 obj1 还存在,就不能复用 parser——这在批量处理中极易出错。
orjson 在保持高性能的同时,解决了 simdjson 的关键短板:
| 特性 | simdjson | orjson | json |
|---|---|---|---|
| 解析速度 | ⚡ 极快 | ⚡ 快 | 慢 |
| 序列化速度 | ❌ 不支持 | ⚡ 快 | 慢 |
| 返回可修改对象 | ❌ 否 | ✅ 是 | ✅ 是 |
| 支持 datetime 等类型 | ❌ 否 | ✅ 是 | 需自定义 |
🌟 特别提示:
orjson.dumps()返回bytes,若需str可加.decode('utf-8'),但多数场景(如写文件、http 响应)直接使用bytes更高效。
| 使用场景 | 推荐库 | 理由 |
|---|---|---|
| 高频只读分析 (如日志过滤、指标统计) | simdjson | 解析速度最快,内存占用低,适合流式处理 |
| 需要修改 json 并写回 (如 api 增强、数据清洗) | orjson | 解析+序列化都快,返回原生对象,代码改动最小 |
| 简单脚本或兼容性优先 | json | 无需安装,行为稳定,适合小数据或非性能敏感场景 |
| 处理含 datetime/decimal 的 json | orjson | 内置支持,避免自定义 default 函数 |
json,确认 json 是瓶颈后再替换。orjson:它在大多数真实业务中表现最佳。simdjson:但务必确保不调用 .as_dict()/.as_list()。orjson:无需担心对象生命周期问题。bytes:orjson.dumps() 返回 bytes,直接用于网络或文件 i/o,避免额外编码。“快”不是绝对的,而是相对于你的使用模式。
simdjson 是王者;orjson 才是真正的性能赢家;json 依然是最稳妥的选择。不要被“10 倍加速”的宣传迷惑——理解你的数据流,才是性能优化的第一步。
到此这篇关于python json库json、simdjson与orjson深度对比的文章就介绍到这了,更多相关python json、simdjson与orjson内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
您想发表意见!!点此发布评论
版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。
发表评论