#稀疏注意力

⁣
📰 DeepSeek开源新模型DeepSeek-OCR，可高效压缩长文本

10月20日，DeepSeek-AI团队发布了名为DeepSeek-OCR的新模型，采用了一种创新的方法来利用视觉模态压缩长文本上下文。该模型的参数量为3B，能够在压缩比低于10倍时实现97%的OCR精度，且单张A100显卡每日可处理超过20万页文档，为长文本处理提供了高效且低成本的解决方案。

在此之前，DeepSeek于9月29日发布了实验性版本DeepSeek-V3.2-Exp，首次实现了细粒度稀疏注意力机制，显著提升了长文本训练和推理的效率。近期，美国《时代周刊》公布了2025年最佳发明榜单，DeepSeek等20余个中国企业的产品成功入选，显示出中国在AI领域的创新能力。

DeepSeek R1高级推理模型的发布被誉为AI领域的“震惊世界第一枪”，在行业基准测试中与OpenAI的产品相媲美。尽管科技巨头们在生成式AI项目上投入巨资，DeepSeek却以仅600万美元的训练成本和极低的算力消耗，迅速崛起并向用户免费开放，展现了其强大的竞争力。

🏷️ #DeepSeek #OCR #长文本 #稀疏注意力 #AI创新

🔗 原文链接