📰 DeepSeek开源新模型DeepSeek-OCR,可高效压缩长文本
10月20日,DeepSeek-AI团队发布了名为DeepSeek-OCR的新模型,采用了一种创新的方法来利用视觉模态压缩长文本上下文。该模型的参数量为3B,能够在压缩比低于10倍时实现97%的OCR精度,且单张A100显卡每日可处理超过20万页文档,为长文本处理提供了高效且低成本的解决方案。
在此之前,DeepSeek于9月29日发布了实验性版本DeepSeek-V3.2-Exp,首次实现了细粒度稀疏注意力机制,显著提升了长文本训练和推理的效率。近期,美国《时代周刊》公布了2025年最佳发明榜单,DeepSeek等20余个中国企业的产品成功入选,显示出中国在AI领域的创新能力。
DeepSeek R1高级推理模型的发布被誉为AI领域的“震惊世界第一枪”,在行业基准测试中与OpenAI的产品相媲美。尽管科技巨头们在生成式AI项目上投入巨资,DeepSeek却以仅600万美元的训练成本和极低的算力消耗,迅速崛起并向用户免费开放,展现了其强大的竞争力。
🏷️ #DeepSeek #OCR #长文本 #稀疏注意力 #AI创新
🔗 原文链接
📰 DeepSeek开源新模型DeepSeek-OCR,可高效压缩长文本
10月20日,DeepSeek-AI团队发布了名为DeepSeek-OCR的新模型,采用了一种创新的方法来利用视觉模态压缩长文本上下文。该模型的参数量为3B,能够在压缩比低于10倍时实现97%的OCR精度,且单张A100显卡每日可处理超过20万页文档,为长文本处理提供了高效且低成本的解决方案。
在此之前,DeepSeek于9月29日发布了实验性版本DeepSeek-V3.2-Exp,首次实现了细粒度稀疏注意力机制,显著提升了长文本训练和推理的效率。近期,美国《时代周刊》公布了2025年最佳发明榜单,DeepSeek等20余个中国企业的产品成功入选,显示出中国在AI领域的创新能力。
DeepSeek R1高级推理模型的发布被誉为AI领域的“震惊世界第一枪”,在行业基准测试中与OpenAI的产品相媲美。尽管科技巨头们在生成式AI项目上投入巨资,DeepSeek却以仅600万美元的训练成本和极低的算力消耗,迅速崛起并向用户免费开放,展现了其强大的竞争力。
🏷️ #DeepSeek #OCR #长文本 #稀疏注意力 #AI创新
🔗 原文链接
📰 DeepSeek-V3.2-Exp官宣发布,API价格下调超50%_《财经》客户端
梁文锋发布了DeepSeek-V3.2-Exp,这是一个实验性版本,旨在优化长文本的训练和推理效率。该版本在V3.1-Terminus的基础上引入了稀疏注意力机制,提升了模型的易用性。官方还开源了TileLang版本的GPU算子,支持更深入的研究和开发。
新版本的API价格大幅降低,输入和输出的费用分别减少了50%以上,极大地降低了开发者的使用成本。DeepSeek-V3.2-Exp在各个领域的基准测试中表现与前一版本相当,显示出其在处理长文本时的高效性。
此外,TileLang编程语言的开发也为算子的实现提供了支持,使得代码量大幅减少,同时保持了性能。与DeepSeek类似,阿里和智谱等公司也在推进大模型的迭代升级,展示了AI领域的快速发展。
🏷️ #DeepSeek #稀疏注意力 #TileLang #API降价 #大模型升级
🔗 原文链接
📰 DeepSeek-V3.2-Exp官宣发布,API价格下调超50%_《财经》客户端
梁文锋发布了DeepSeek-V3.2-Exp,这是一个实验性版本,旨在优化长文本的训练和推理效率。该版本在V3.1-Terminus的基础上引入了稀疏注意力机制,提升了模型的易用性。官方还开源了TileLang版本的GPU算子,支持更深入的研究和开发。
新版本的API价格大幅降低,输入和输出的费用分别减少了50%以上,极大地降低了开发者的使用成本。DeepSeek-V3.2-Exp在各个领域的基准测试中表现与前一版本相当,显示出其在处理长文本时的高效性。
此外,TileLang编程语言的开发也为算子的实现提供了支持,使得代码量大幅减少,同时保持了性能。与DeepSeek类似,阿里和智谱等公司也在推进大模型的迭代升级,展示了AI领域的快速发展。
🏷️ #DeepSeek #稀疏注意力 #TileLang #API降价 #大模型升级
🔗 原文链接