Skip to main content

18 posts tagged with "AI 大语言模型"

View All Tags

英伟达主流的企业级显卡有几种?

· 4 min read

英伟达目前的企业级显卡主要分为两条产品线(注:两者本质上都是 GPU,只是市场定位不同):

训练卡

  • Ampere 架构:A100
  • Hopper 架构:H100 / H200 / H800(中国特供) / H20(中国特供)
  • Blackwell 架构:B100 / GB200 / B200

推理卡

  • Ada Lovelace 架构:L4 / L40 / L40S

此外,华为也有昇腾系列 NPU(如 2026 年发布的 950PR)作为替代方案。

选购建议:训练选 H100/H200,推理选 L40S,尝鲜等 B100。

强化学习强在哪?

· 6 min read

强化学习强在哪?一句话:它不需要正确答案,只需要对错信号

监督学习从标注数据里找规律,强化学习从环境奖惩里学策略。两者的区别不是"强弱",而是解决问题的类型完全不同——SL 学映射,RL 学决策。

最容易被误解的一点:强化学习的目标不是每次选最优动作,而是最大化长期累积回报。只看眼前奖励的 RL 跟贪心算法没区别,价值函数才是它的灵魂。

Actor-Critic 架构让模型同时扮演"演员"和"评论家"两个角色——一个负责决策,一个负责评判,互相对抗、一起进化,AlphaGo 的底层思路也源于此。

最关键的应用:PPO 算法驱动了 RLHF,让大模型通过人类反馈学会"察言观色"。训练数据见顶的背景下,RL 是提升模型推理能力的核心引擎。

DeepSeek 多模态视觉源语是什么?

· 8 min read

多模态模型的真正瓶颈不是 "看不清",而是 "指不准"

  1. Reference Gap(指代断裂):模型看到了目标对象,但在推理链中无法稳定引用"到底是哪一个"。"左边那个""他旁边的"这类自然语言描述在视觉空间里不是精确地址——场景越复杂、相似物体越多,语言变量就越容易在几步推理后漂移到另一个实体上。

  2. 解法:把边界框和坐标点变成推理链的中间变量。 每写下一个框 = 在草稿纸上钉一颗钉子,后续推理围绕这些坐标展开,不再依赖模糊的自然语言指代。论文将框和点定义为"视觉原语(Visual Primitive)"——本质上就是把人类"用手指点着数"的动作形式化到了 token 序列里。

  3. 工程压缩比 7056×:2916 patch tokens → 3×3 空间压缩 → 324 → CSA 注意力缓存压缩 → 81。语言模型 DeepSeek V4 Flash(284B/13B MoE)+ 从头训练 DeepSeek ViT,视觉 token 限制在 81–384,不靠无限堆 token。

  4. 数据说话:~90 个视觉缓存条目跑出 77.2 分,Gemini 3 Flash 用 1100 个拿 76.5 分。视觉 token 不是越多越好,关键是模型有没有办法把"这个对象"稳定地绑定到图像坐标上。