📰 DeepSeek开源新模型DeepSeek-OCR,可高效压缩长文本
10月20日,DeepSeek-AI团队发布了名为DeepSeek-OCR的新模型,采用了一种创新的方法来利用视觉模态压缩长文本上下文。该模型的参数量为3B,能够在压缩比低于10倍时实现97%的OCR精度,且单张A100显卡每日可处理超过20万页文档,为长文本处理提供了高效且低成本的解决方案。
在此之前,DeepSeek于9月29日发布了实验性版本DeepSeek-V3.2-Exp,首次实现了细粒度稀疏注意力机制,显著提升了长文本训练和推理的效率。近期,美国《时代周刊》公布了2025年最佳发明榜单,DeepSeek等20余个中国企业的产品成功入选,显示出中国在AI领域的创新能力。
DeepSeek R1高级推理模型的发布被誉为AI领域的“震惊世界第一枪”,在行业基准测试中与OpenAI的产品相媲美。尽管科技巨头们在生成式AI项目上投入巨资,DeepSeek却以仅600万美元的训练成本和极低的算力消耗,迅速崛起并向用户免费开放,展现了其强大的竞争力。
🏷️ #DeepSeek #OCR #长文本 #稀疏注意力 #AI创新
🔗 原文链接
📰 DeepSeek开源新模型DeepSeek-OCR,可高效压缩长文本
10月20日,DeepSeek-AI团队发布了名为DeepSeek-OCR的新模型,采用了一种创新的方法来利用视觉模态压缩长文本上下文。该模型的参数量为3B,能够在压缩比低于10倍时实现97%的OCR精度,且单张A100显卡每日可处理超过20万页文档,为长文本处理提供了高效且低成本的解决方案。
在此之前,DeepSeek于9月29日发布了实验性版本DeepSeek-V3.2-Exp,首次实现了细粒度稀疏注意力机制,显著提升了长文本训练和推理的效率。近期,美国《时代周刊》公布了2025年最佳发明榜单,DeepSeek等20余个中国企业的产品成功入选,显示出中国在AI领域的创新能力。
DeepSeek R1高级推理模型的发布被誉为AI领域的“震惊世界第一枪”,在行业基准测试中与OpenAI的产品相媲美。尽管科技巨头们在生成式AI项目上投入巨资,DeepSeek却以仅600万美元的训练成本和极低的算力消耗,迅速崛起并向用户免费开放,展现了其强大的竞争力。
🏷️ #DeepSeek #OCR #长文本 #稀疏注意力 #AI创新
🔗 原文链接