用AI学AI.4 [注意力]

上一篇我们了解了多模态模型,它们能够处理文本、图像、音频等多种信息。但无论是处理单一模态还是多模态,现代AI模型的核心驱动力之一,就是“注意力机制”(Attention Mechanism)。本篇我们就来深入探讨这个让模型“抓住重点”的关键技术。 本篇由AI起稿,人工精修。 系列文章 用AI学AI.1 用AI学AI.2 用AI学AI.3 用AI学AI.4 什么是注意力机制 想象一下你在阅读一段文字:“在巴黎的那个雨天,我把那把红色的雨伞落在了卢浮宫的入口处。” 当被问到“丢失了什么颜色的东西?”时,你的大脑会瞬间聚焦到“红色”和“雨伞”这两个词上,而暂时忽略“巴黎”、“雨天”等其他信息。 ...

August 31, 2025 · 6 min

用AI学AI.3 [多模态]

上一篇发布已过去一年半,这段时间生成式AI进化肉眼可见: 上下文长度从万级到百万级; 多模态模型(文本、图像、音频、视频); 数学与编程能力大幅提升; 联网搜索与检索增强(RAG); 深度思考和推理; 指令遵循能力大幅提升; Agent与MCP; 除语言模型外,图像、视频、3D模型、动画等生成全面应用; 世界模型可生成数分钟的可交互视频; 国内大模型方面,24年底横空出世的DeepSeek V3/R1用极低的训练成本跻身最强模型之列,并通过开源在极短时间内集成进各类App。8月20日V3.1发布,更是拉开了国产GPU芯片替代Nvdia GPU训练的大幕。 ...

August 30, 2025 · 4 min

关于使用AI的小思考

最近一两年,用AI的方式变化得太快了。每当我指望它“一次给出完美答案”,十有八九会失望;可当我把任务拆成几步,允许它犯错、允许我随时插话校准,结果反而稳、而且更快。这件小事让我意识到:我们真正迫切需要的,或许不只是“更强的模型”,而是“更好的协作方式”。 ...

August 10, 2025 · 3 min

软件的未来

近期看了一些大佬对AI时代软件形态的探讨,记录一些感悟。 编写软件不再只是程序员可以做的酷酷的事。 过去几十年的发展,“机器”的形态发生了巨大变化,现在,LLM本身也变成了“机器”。 ...

June 30, 2025 · 3 min

用AI学AI.2

上一篇我们聊了AI模型的分类和大致架构,目前最火的两类模型LLM和Diffusion都基于Transformer架构训练而成,ChatGPT则是LLM家族中最出色的产品。本文就来聊聊最近出现的基于ChatGPT的创新架构和应用。由于ChatGPT的训练数据截止到2021年9月,且笔者并没有Plus会员才能使用的ChatGPT Plugin,所以这次请到的是Dr. Phind(The AI search engine for developers),大家欢迎。 系列文章 用AI学AI.1 用AI学AI.2 用AI学AI.3 用AI学AI.4 笔记 Agent如何工作 Autonomous agents (e.g., AutoGPT, BabyAGI) can auto-create tasks towards the GOAL you give them, and auto-find the way to complete task based on GPT models and other data sources (websites, your documents, etc), and even auto-improve themselves from previous mistakes. The basic structure is somehow similar to GOAP in video game’s AI design. ...

May 14, 2023 · 4 min

用AI学AI.1

按照目前AI在学术界、工业界推陈出新的速度,感兴趣的同学们纷纷表示:真的学不动啦!不要慌,AI老师来了~ 在本系列中,我不会提前学习预备知识,以门外汉的视角去追问AI并了解一些基本概念。既可以锻炼提问技巧,还可以在听完高屋建瓴的讲解后有针对性的去学习感兴趣的部分,效率倍增! ...

April 16, 2023 · 5 min

Generative AI Toolkit (5.12)

“There are decades where nothing happens; and there are weeks where decades happen.” ― Vladimir Lenin 基于大语言模型的AI在这个月带给人们的感受,用列宁的这句话概括再贴切不过了。作为普通人,去拥抱这些AI工具,就像会使用智能手机和搜索引擎;对人类来说,就像学会用电,学会用火。 ...

March 26, 2023 · 2 min