Press "Enter" to skip to content

月度归档: 2025 年 9 月

推荐系统架构中的“召回、粗排、精排、混排”这几个核心环节

在工业级的推荐系统中,需要处理的物品(例如新闻、商品、视频)数量极其庞大,可能达到数亿甚至数十亿级别。为了在极短的时间内(通常是毫秒级)为用户提供精准的个性化推荐,系统需要一套高效的多阶段过滤和排序流程,这就是经典的“召回 -> 粗排 -> 精排 -> 混排”架构。这套架构就像一个层层筛选的漏斗,旨在平衡计算效率和推荐效果。 1. 召回 (Recall) 目标:快速从海量的物品库…

Leave a Comment

告别龟速!下一代 Python 包管理器 uv 入门教程

你好,Python 开发者!你是否还在忍受 pip 缓慢的依赖安装速度?是否在 venv, pip-tools, poetry, pyenv 等众多工具中反复横跳,感到心累? 今天,让我们来认识一款可能终结这一切的工具 —— uv。 uv 是一个用 Rust 编写的、速度极快的 Python 包和项目管理器。 它的目标是提供一个统一、高效的开发工作流程,取代前面提到的多个工具,让你的 Python…

Leave a Comment

深度解析 Linux & Mac 中的 source 命令

在 Linux 和 macOS 的命令行世界中,我们每天都在和脚本打交道。执行一个脚本最常见的方式可能就是给它执行权限,然后通过 ./myscript.sh 来运行。然而,你一定也见过或用过另一个命令:source (或者它的简写形式一个点 .)。 这两种方式都能让脚本运行起来,但它们之间存在着本质的区别,而这个区别正是 source 命令强大且不可或-缺的原因。这篇博客将带你深入理解 sourc…

Leave a Comment

MySQL可重复读(Repeatable Read)的快照实现原理:MVCC

这个“快照”实际上是一个逻辑上的概念,它的实现核心技术叫做 MVCC(Multi-Version Concurrency Control),即多版本并发控制。 MVCC的实现,主要依赖于以下三个关键要素: 1. 每行记录中的隐藏字段 在InnoDB中,每一行数据记录的末尾,除了我们自己定义的字段外,还会额外添加几个隐藏字段。其中最重要的有两个: DB_TRX_ID (6字节): 记录了最后一次修改…

Leave a Comment

别让MySQL事务超时毁了你的数据

为开发者,我们每天都在和数据库打交道,而事务(Transaction)是保证数据一致性的核心武器。但你是否真正了解MySQL事务在并发和异常情况下的“脾气”?一个被忽略的超时异常,可能正在悄悄地侵蚀你数据的完整性。 本文将通过几个开发者最常遇到的场景,深入探讨MySQL事务的工作细节,特别是默认配置下可能隐藏的“陷阱”。 场景一:A事务执行中,B事务更新并提交了数据,A再读时会读到什么? 这是一个…

Leave a Comment

mikrotik路由器网速跑不满带宽解决办法

手上有个AX2的mikrotik路由器,最近没事测速,发现带宽居然跑不满,怎么跑都只能跑到400多兆。切换到X86的CHR软路由,轻松跑到1000M,为啥呢? 我尝试帮我的AX2规则清空,可以帮网速跑到1000M,但是我总不能买个mikrotik路由器0规则吧 看到网速资料https://www.chiphell.com/thread-2641339-1-1.html 配置硬件加速规则:/ip f…

Leave a Comment

机器学习基石:深入理解独热编码(One-Hot Encoding)

在处理机器学习问题时,我们接触到的数据多种多样,不仅有数值型的连续数据,还有类别丰富的离散数据,比如性别、年级、城市等。然而,大多数机器学习模型都偏爱“吃”数值型数据,对于文本类别的特征常常感到“消化不良”。为了让模型能理解这些类别信息,我们需要对它们进行预处理,而独热编码(One-Hot Encoding)就是其中最常用、最重要的一种技术。 为什么需要独热编码? 想象一下,我们有这样一个关于学生…

Leave a Comment

深入理解 AI 核心:数据处理的基石——向量化与嵌入

在人工智能和机器学习的奇妙世界里,我们每天都在处理各种各样的数据:文字、图片、声音、视频……但机器并不能像人类一样直接“理解”这些信息。它们需要一个共同的语言——数值。 这就是我们今天要探讨的两个核心概念:向量化 (Vectorization) 和 嵌入 (Embedding)。它们是数据从“人类语言”翻译成“机器语言”的关键步骤,是构建任何智能系统的基石。 💡 为什么要将数据变成向量? 想象一下…

Leave a Comment

[译] AI Agent(智能体)技术白皮书(Google,2024)

译者序 本文翻译自 2024 年 Google 团队的一份 Agents 白皮书, 作者 Julia Wiesinger, Patrick Marlow, Vladimir Vuskovic。 Agent 可以理解为是一个扩展了大模型出厂能力的应用程序。 工具的使用,是人类区别于动物的标志 —— 也是 Agent 区别于大模型的标志。 本文转载自:https://arthurchiao.…

Leave a Comment