机器学习

[AI Glimpse 科普系列] KV Cache 的原理推导与代码实现(基于 GPT2)

2025-06-04T08:34:06Z

博客地址: LLM KV Cache: A Simple Implementation
重点讲解了为什么需要在推理阶段做 KV Cache
代码基于 GPT2 实现，可以在 16G 显卡上运行复现，代码开源在 ai-glimpse/toyllm: ToyLLM: Learning LLM from Scratch

关于 OCR 以及以图找图识别

2025-05-27T03:22:16Z

我现在使用 com.google.mlkit:text-recognition:16.0.1 ，com.google.mlkit:text-recognition-chinese:16.0.1 这个库进行 OCR 提取，在确认使用这个库的情况下有什么方法可以提高 OCR 识别的正确率呢？ opencv 的图片匹配是否也可以同理提升正确率？

这类型的英语学习视频，是用哪个模型生成？

2025-05-16T14:08:25Z

这个模型生成的视频，人物表情不僵硬、相当自然，哪个模型调出这样的效果？

原视频： https://www.youtube.com/shorts/ygWC9GH3c0A

用了几个国产模型，做不出来这个效果

怎么实现提取俩个图片的一些特征，然后进行特征比对

2025-05-13T09:44:06Z

图片有这些特征：颜色、形状、清晰度、是否 ps

检测画面中存在漏水，给点思路

2025-05-12T09:55:52Z

场景是：可见光摄像头实时拍摄一片区域，很小部分是双目(带热成像)，区域内存在错综交叉的管道(就是粗水管)

现在需要检测漏水，水状态有 2 种：管道破裂喷再空中、地面积水，主要就是这种异常图像太少，个位数级别

用了 yolo 检测模型+图像整个画面和基准图的判别，发现漏判严重，主要是摄像头不时对焦+有窗户、光斑会映射到地面上+其他异常情况

有没有其他思路指导一下。

学习 AI, 跑下模型, 应该用什么 N 卡?

2025-04-20T09:38:30Z

看了下 5060TI 5070TI 5080 都是 16G 显存, 4090 和 5090 又太贵, 计算速度还可以忍受慢一点 , 跑 AI 应该是显存决定能不能跑起来吧, 先跑起来再说的情况下, 买哪个?

有没有大佬了解机器学习的 mlops 框架或者平台

2025-04-18T09:42:46Z

最近有个需求，就是需要部署一套机器学习平台，满足已有公司内一些模型的管理啥的（主要是传统的图像识别模型）

需要支持服务器算力、模型版本、训练、测试分析、数据集等等这类的管理

看了一下 kubeflow 、腾讯的 cube-studio ，感觉内容有点大又复杂

因为我不是搞 AI 的所以不太懂，有大佬在用的或是了解这块的吗？是否还有其他推荐的一些易于使用的框架或平台

如何把本地文件作为大模型的知识库

2025-04-17T05:47:58Z

如题，我这有大量的图片内容，PDF ，Excel ，以及 PPT 文件，我看很多大模型知识库需要上传文件，有没有方法可以不上传，直接读取文件然后做成大模型的知识库？

使用大语言模型进行文本分类任务需要微调吗？

2025-04-17T04:00:32Z

楼主是做经济学研究的，近期工作涉及到利用 LLM 进行文本分类。在查阅文献（主要是经济学交叉应用类）时，我观察到一个趋势：作者们倾向于获取特定任务的标注数据，然后在 BERT 、ERNIE 等模型上进行微调，以完成分类。

由于我的技术背景有限，对于这种方法的选择及其替代方案有些疑问，想听听大家的专业意见：

1.微调的实际可行性：用专门的分类数据去微调一个通用预训练模型，会不会损失模型基础性能，导致在遇到与微调数据不太一样的文本时，表现反而变差？
2.是否可以直接使用 GPT 等模型替代：现在有许多能力非常强大的 LLM ，似乎可以通过给出清晰的指令（ Prompt ）就能完成很多任务。对于文本分类来说，直接使用这类强模型+好 Prompt ，相比于“训练”一个基础模型，是不是一种更高效（开发时间短、可能效果还好）的选择？在这种情况下，应该如何验证分类的准确性？
我主要想理解这两种技术路径的适用场景、优缺点以及实际操作中的考量。任何经验分享或建议都将对我非常有帮助！谢谢大家！

lima 和 colima 居然是有关系的

2025-04-13T04:06:31Z

怪不得看起来那么相似呢

https://lima-vm.io/docs/faq/colima/ Colima is a third-party project that wraps Lima to provide an alternative user experience for launching containers.

gpt4o 图像生成的技术讨论(自回归模型又好起来了?)

2025-04-10T08:30:32Z

gpt4o 图像生成的特点是，生成时从上到下逐渐清晰化（并不只是显示技巧）

如果使用 diffusion 进行生成，它的过程可能是这样的

但已知的是 gpt4o 图像生成（似乎）已经转向 autoregressive(自回归模型)+transformer

目前外网也对 gpt4o 的技术进行了猜测，但也没讨论出个结果来（大多是认同转向了 ar 模型）

自回归模型是要打败 diffusion ，并在多模态领域又好用起来了吗？

另外，目前开源界似乎还没有什么动静，国内的字节跳动在 ar 的图像生成领域探索得还挺多（发了不少 paper ）

[AI Glimpse 科普系列] 不到 100 行 Python 代码从零实现 LLM 的推测采样算法

2025-04-08T07:00:48Z

TLDR

WHAT: 介绍并复现 DeepMind 的一篇关于 LLM Speculative Sampling 的论文：Accelerating large language model decoding with speculative sampling. 我们将用不到 100 行代码来复现这篇论文，并得到 2 倍以上的速度提升。
亮点：基于 GPT2, 代码，模型权重全部可以下载并本地运行；只需要 16GB 的显存即可完整本地复现。
博客: https://datahonor.com/blog/2025/03/08/llm_sps
公众号文章(内容同博客，便于收藏)： https://mp.weixin.qq.com/s/3rFk8cgJuxjW30A4-emhEA
代码: https://github.com/ai-glimpse/toyllm/tree/master/toyllm/sps

具体实现

什么？唠唠嗑就能生成游戏关卡! Unreal Engine + MCP 来了！

2025-04-06T23:08:10Z

即使没有编程基础，只要怀揣独特创意，MCP+Unreal 也能助你将想象变为触手可及的精品良作

想必关注游戏开发领域的独立游戏开发者已经注意到了 blender-mcp 这个项目它允许 Blender 连接到 Claude AI ，允许 Claude 直接与 Blender 交互和控制，使即时辅助 3D 建模、场景创建和操作成为可能。

现在，通过 UnrealMCP 插件和 Python Editor Script 插件，控制虚幻引擎制作游戏场景 POC 也成为了可能。

效果展示🥳

唠唠嗑就能生成游戏关卡，谁能不爱😘？

白色的小不点是小狗🐕哦

从地面下看看~

配置步骤🤖

01 确保 Python Editor Script 插件已启用

打开 Settings/Plugins

搜索并勾选 Python Editor Script Plugin

02 安装 UnrealMCP 插件

UnrealMCP 是一个非官方的虚幻引擎插件，旨在通过人工智能工具控制虚幻引擎。它在虚幻引擎内部实现了一种机器控制协议 (MCP)，允许外部人工智能系统以编程方式与虚幻环境进行交互和操作

在项目根目录下创建 Plugins 插件

在 Plugin 目录下打开命令行并运行

git clone <https://github.com/kvick-games/UnrealMCP>

确保在 Plugins\UnrealMCP 目录下包含 GitHub 上的文件

重启虚幻引擎编辑器，在 Settings/Plugins 中搜索并勾选 UnrealMCP 插件（同第一步）

03 配置 UnrealMCP Server

Plugins\UnrealMCP\MCP 中运行 setup_unreal_mcp.bat 脚本

04 将项目转换成 C++项目

这一步主要是为了编译第二步下载的插件，不需要真的去写 C++

新建一个 C++ class 即可，后续根据 UI 创建一个默认类即可

打开 Visual Studio

关闭虚幻引擎编辑器，编译项目

重新打开虚幻引擎编辑器，点击工具栏最右侧的图标打开 MCP Server Control Panel

点击 Start Server

Server Status 变成 Running 说明 Unreal MCP Server 可以运行了

05 在 Cursor 中添加 UnrealMCP Server

打开 Cursor Settings

点击 + Add new global MCP server

在“mcpServer”中加入配置

"unreal": { "command": "powershell", "args": ["/Plugins/UnrealMCP/MCP/run_unreal_mcp.bat"] }

在 Cursor Settings 中出现下图说明添加成功

之后就可以愉快的在 Chat 中愉快的让 AI 帮我们在虚幻引擎中创建 POC 场景啦~~~

项目限制🥲

由于 UnrealMCP 插件项目还在非常早期的阶段，现在仅可支持有限的基本操作：获取场景基本信息，Python 脚本运行，基础材质操作等。而且就算使用了顶尖的大语言模型也不能一次性生成正确的 MCP Server 调用，需要反复修正。

展望未来😍

虽然目前 UnrealMCP 插件还有诸多限制，但是 MCP 还是为虚幻引擎打开了一句话生成游戏的大门！

试想一下，未来 UnrealMCP 支持了更多的 Unreal 操作：动画、地形、AI 、PCG 等等，并且能支持蓝图或第三方游戏开发可热更脚本（例如腾讯的 PuerTS ），那么不论是游戏场景制作还是 gameplay 逻辑编写，都可以通过在 Cursor/Cluade/Windsurf/VSCode 等编辑器中通过自然语言描述生成游戏。

这不仅能将游戏开发、原型制作的效率大大提高，更能将游戏开发门槛大大降低！

也许在未来某一天，这样的场景会变成现实：借助 MCP+游戏引擎，零基础创作者也能将灵感轻松转化为专业级品质的游戏作品。

有趣游戏资讯👾开发分享🖥️尽在游戏碰碰🎮

微信号：游戏碰碰扫码关注了解更多

大模型是如何执行像数学运算、编程等精确性要求比较高的任务的？

2025-03-29T02:46:08Z

我的理解就是大模型是一个 Token 预测的网络，通过大量数据的预训练，从输入的 context 中预测下一个最有可能的 token ；那我有一个很小白的问题，诸如数学运算，比如 673 X 3666 = ? 这种运算，大模型是如何通过 token 预测得出答案的？而且之前也有一些很明显的应用，比如让大模型扮演一个编译器等等执行非常精确的运算，我实在想不通，如果不是由专有的程序，仅仅依靠神经网络，就能执行这种类似的运算吗？

我跟 Gemini 聊了半天，发现一个非常有意思的事情，比如我问他 "请告诉我圆周率小数点后 x 位的数字"，当 10 位，30 位，50 位的时候，都没有问题，但是超过一定量，比如 1000 位，它就会宕机; 如果用 deepseek 的推理模式，他就会自己计算；所以我的理解是：

1. 大模型理解问题，是靠神经网络进行 token 预测的
2. 大模型解决数学类的精确问题，必须是混合模型(MoE)，调用专门处理精确计算的那个部分，才能得出正确答案？

这个理解对吗？

有没有 LLM 入门的系统学习教程

2025-03-27T08:04:12Z

我想系统学习一下 LLM 的使用比如发起请求、一些基本概念比如温度、上下文窗口、MCP 等，但不需要深入学什么人工智能方面专业的知识，网友们有没有什么好的教程或者书推荐

mtranserver 的翻译效果还是差一点

2025-03-26T02:20:50Z

左边 google ，右边 mtranserver：

求助，有没有视觉大模型可以识别一个 UI 设计图中各个模块的划分

2025-03-13T00:34:22Z

我有一些设计图，想用视觉大模型将图中有哪些模块，各个模块的位置信息给标出来（左上角位置和右下角位置）。
试了几个模型，能识别出来有几个模块，但不能准确标出位置信息。
大家有了解这块的吗

多模态大模型的大小远低于单文本模型啊。

2025-03-02T12:31:42Z

图文大模型开源的一般就 3b ，7b ，72b 。应该是某种原因限制了多模态模型的大小？比如图片不像文字一样自回归预训练大模型？单文本的 600b 都有，这是不是意味着 gpt4o 其实模型并没有 gpt4 大？那对比的时候这些多模态模型应该打不过单文字模型吧？

利用 deepseek 分析医学影像找出结节这是什么技术原理？

2025-03-02T01:39:26Z

新闻链接： https://mp.weixin.qq.com/s/p3msf_1p4uwTdZFTH8JNdA

Deepseek 是文本生成的，他是怎么结合医学影像找出结节的？

大语言模型与深度学习书籍推荐

2025-02-21T05:26:30Z

TLDR

LLM 相关

Build a Large Language Model (From Scratch)
Super Study Guide: Transformers & Large Language Models
Natural Language Processing with Transformers

DL 相关

Neural Networks and Deep Learning(NNDL)
Neural Networks from Scratch in Python(NNFS)
Dive into Deep Learning(D2L)
Grokking Deep Learning(前 6 章)

详情

博客原文: 有简单书评和推荐语
公众号：主要是方便大家收藏查阅(因为很多朋友其实不太习惯订阅博客)

为什么 LLM 不擅长数饺子？

2025-02-19T01:24:13Z

突然冒出一个点子，利用现在热门的 AI 来做 web 外挂工具

2025-02-18T02:46:46Z

现在很多日常工作，是在各个 web 应用之间 copy paste ，理论上应用之间数据打通可能就没这些破事了，但是现实中还是不少需要人去干所以如果能训练 AI 来干这个事情我们就能够更愉快的摸鱼要做的开发大概是油猴脚本对接大模型？

请问训练或者调试 yolo 用什么配置性价比较高。

2025-02-11T16:07:05Z

目前有 macmini m4 和 i7-12700 + amd 的显卡想买个 n 卡玩玩 ai

求玩过的老哥说下经验

大模型能记住所有它训练过的数据吗？

2025-01-22T04:19:15Z

大模型能记住它训练过的数据吗？

如果你让 GPT 背诵红楼梦全文，它会回答它无法逐字逐句背诵，因为超过它的生成容量限制，但是如果你需要某一部分的内容（比如某一回的片段、某个经典场景或对话），它可以根据你的需求生成相应的段落或章节。

所以它的数据库里面是真的录进去全文了吗？红楼梦全文 80 万字，当我们说到某个模型要多少 Billion 参数时，这 80 万字能否理解为其中的一部分参数？

我问了 GPT ，它回答它通过学习这些文本的规律和模式，能够在需要时生成相应的内容。总之无法理解...

如何从头构建一个自己的大模型呢？从底层最基础的神经网络开始实现

2025-01-11T13:10:05Z

我最近闲来无事，想系统性的学习一下神经网络，之前看到的都很片面，希望有懂的推荐一下

LLM 静态批处理和 Continuous Batch 相关疑问的求解

2025-01-11T11:50:44Z

问题来自在看这篇博客时看到的图片

这张图片中是静态 batch 的示意图，但我的理解似乎有所偏差，希望有大佬能答疑解惑。

问题 1：对于静态 batch 场景，同一个 batch 中不同的 sample 的 prefill 是同时完成的吗？

我的理解：对于一个单独的短 prompt ，prefill 阶段肯定是一个比很长的 prompt 快的。但是当这 2 个长度不同的 sample 经过 padding 然后拼成了一个静态 batch 之后，也就是维度变成了 [batch_size, ..] （当然这里可能不止 2 个 sample ）。在 prefill 阶段，他们肯定是同时开始的，因为 transformers 内部是很多的矩阵乘法。并且要经过很多层，比如：

emb = layer1(emb) emb = layer2(emb) ...

上面的 emb 的维度应该也都会是 [batch_size, ....]

虽然同一个 batch 之间不同 sample 单独做 prefill 需要的时间不同，但是当他们成为一个 batch 之后，变成了一个大矩阵，他们在经过不同的 layer 的时候，都是一起一层一层过的，也就相当于他们同时开始 prefill 阶段，然后同时完成 layer1, 同时完成 layer2, ......。最后一起完成最后一层，获得第一个预测的 new_tokens （ batch 中每个 sample 都有一个 new_token)。所以，在我的理解中，prefill 阶段应该是左右对齐的。

问题 2: 以下我对 Continuous Batch 的理解是否正确？

我的理解：

首先模型每次 forward 都是生成一个新的 token （无论是 prefill 还是 decoder 阶段）。prefill 完成生成第一个 new_token 后接着自回归。
如果是 continous batch 配置情况下，如果有 sample 输出 end_token ，那 batch_size 就少一个，可能就可以再放一个 sample 进来。这样子的话这个新 sample 要做 prefill （目的也是生成 new token ），别的 sample 是继续在 decoder 阶段。不过别的 sample 都是有前面的 kvcache 的，所以这个时候这个新 sample 的 prefill 就拖累了旧的 sample 中的 decoder 过程，毕竟大家都还是在一个 batch 中，大家最终还是一起一层 layer 一层 layer 过。
如果同一个 batch 都在 decoder 阶段，因为 kvcache 的存在大家都很快。但是只要有一个 sample 输出了 end_token, 就可能允许新的 sample 进来，这个新 sample 的 prefill 过程因为可能没有 kvcache 会拖累其他的 sample 。所以有一些工作提出要将 prefill 和 decoder 分离。

以上是我的理解，不知道有多少错误的内容，希望有大佬指正。我的描述可能有点啰嗦，抱歉。

有没有久坐提醒类服务，最好是基于啥啥啥模型的那种活体检测。

2025-01-08T01:49:06Z

最好是基于 AI 模型的，通过笔记本前置摄像头，或其它普通摄像头检测活体长时间坐在电脑前的。实现久坐 1h 弹出提示的。

LLMs 文本标签（分类）任务怎么做比较好？

2025-01-06T10:58:59Z

现在大概有三组共 100 多个标签，用来对多段文本进行分类，是应该设置三个 prompt 分三次进行生成，还是用一个长 prompt ？

另外现在通用型 LLMs 好像对标签工作都不太完美，经常出现标出其他不在字典的标签，或是标签过多之后分类效果不佳。

有没有朋友在做相关工作有经验的，可以分享下方法嘛

能推荐个偏实战的 tranformer/LLM 的课程么？

2025-01-06T06:09:22Z

早年间通过吴恩达的机器学习教程入的门。最近几年 transformer/vit/llm 什么的出来以后，知识不够用了，感觉需要跟着例子上手跑一跑才行。有推荐的课程么？偏技术、偏实战的。不是吹牛逼、写提示词那种。

模型部署的姿势

2025-01-01T10:07:19Z

小白想问问现在的模型一般都是怎么部署的？直接用 python 的框架部署上去吗？还是导出给 c++部署？看到好像 onnx 部署的文章好像很稀少，大伙都是直接用 python 部署的吗？

深度学习在自己电脑上跑， Linux 环境，选择 WSL 还是物理机 Ubuntu？

2024-12-29T08:09:02Z

毕业设计的课题训练的模型数据量不那么大，想在自己电脑上训练。
不是很喜欢物理机装 Ubuntu ，毕竟还需要写论文以及行业软件只支持 Windows 。
那么在 WSL 跑深度学习显卡直通损耗大概多少？可行吗？有过来人吗？

CUDA 搞深度学习， 1TB 的一块硬盘， C 盘留多大合适？

2024-12-28T11:28:50Z

怎么理解 RNN 循环神经网络工作原理？

2024-12-25T22:46:01Z

对于简单的网络（网络结构是固定不变的，静态的），比如全连接的我可以理解，就是训练一个函数：
y = f(x, θ)
这里函数 f 的定义是固定的。那么，只要输入一组 x 和 y ，就可以训练出θ。

但是对于 RNN ，我不大理解的是：
1. 它的网络结构是不定的，多重的。假如循环了 n 次，相当于要训练 n 个函数: f1(x,θ), f2(x,θ),,, fn(x,θ).
2. 对于这样多重的网络结构，它是怎么训练收敛的？
3. 后面输入进来训练的 x ，是否会对前面已经训练好的θ产生影响（类似灾难性遗忘）

ReLU 函数在 x＞ 0 的时候也是线性的，套 ReLU 函数是怎么实现激活作用的？

2024-12-22T09:42:32Z

神经网络每一层节点输出值，都要套一层非线性激活函数。现在使用较多的激活函数 ReLU 激活函数在 x ＞ 0 的时候也是线性的，并且是 y=x ，这能起到“线性”=>“非线性”的作用吗？不太理解 ReLU 是怎么实现激活作用的

阿里新开源的 QwQ-32B-Preview 模型有啥特殊性？

2024-11-28T01:13:56Z

说是数学和编程领域表现出色，但他不是有了 coder 和 math 两个单独的模型了么

上楼梯的时候，人是怎么判断脚该抬多高的

2024-11-25T05:28:22Z

似乎不是太高的楼梯，都能自然而然的抬上去，脑子也不用可以去算楼梯有多高🤔

小白求教，输入语音指令输出统计图表这样的功能是否可以实现？

2024-11-20T01:22:17Z

背景是，现在部门有在搭建数据仓库。领导提了一个想法，是否能老板说一句话，自动根据语音转文字，然后统计局输出图表。
问了 ChatGPT ，也不是很明确。大概思路是语音转文字，文字传入 AI ，返回相关 SQL 和指令，再通过代码做统计，图表生成，输出给用户。
不知道现在是否可以实现这样的功能？现在只会用 ChatGPT ，看了下 Qwen2 微调，想是否可以把数据库表加入大模型进行训练。应该学习哪些只是可以做到这个效果，还有就是后续可能数据仓库变动，AI 也跟着更新。(排版和语言组织的不太好，大家见谅)

能分享一下研究大模型微调的技术论坛和站点吗？

2024-10-15T15:51:54Z

感觉站里讨论这个的很少。

狗东 cfe 滑块验证码轨迹模拟

2024-10-15T08:39:32Z

有没有大佬知道狗东 cfe 滑块验证码的轨迹如何模拟？使用了四阶贝塞尔曲线进行了验证，始终无法通过。

有没有针对机器学习“图片训练集”的管理软件？

2024-10-08T04:02:34Z

之前在 V 友的帮助下，已经使用 YOLO 训练好了我需要的模型，（ t/1077539 ）由于当前收集的图片样本比较少，我想继续增加训练样本以提高分类精度。

但目前遇到几个问题：管理这些训练样本很麻烦。

我现在的操作是，搞一个文件夹收集原始数据，然后统一规划这些数据用于训练。

[原始数据目录] ---->> {使用 python 统一格式、裁剪、缩放大小} --->> [存放到用于训练的新目录]

问题 1:

去重问题，图片来源比较分散，有可能数据会被重复放进 [原始数据目录] 可能是文件名重复（这个还好说），也可能是图片本身是重复的

问题 2:

每次搞到新的图片数据，我得打开 Finder 一层一层找到归类子文件夹放进去感觉比较繁琐

以上，有没有什么管理软件能让我更轻松管理这些数据集合

[请教][内存问题]Flux 部署

2024-09-23T03:27:24Z

配置:
CPU i9-13900K
GPU 4090
RAM 36G

问题：
使用 WSL2 部署 FLUX 时超时被 Killed ，但是跑在 Windows 上时勉强启动起来，好像是内存不够（看资源占用有一小段时间内存借道 SSD 了）。请问各位大佬如何评估大模型对 RAM 的需求？

有深度学习交流群吗？没有我拉一个

2024-09-05T10:05:35Z

目前想法是

认识朋友，交流技术，互相学习，一起搞一些有趣的项目（水论文？），创业，以及推荐工作机会等等。。。

包括不限于： cv/nlp/大模型/aigc/自动驾驶/rl/各种奇奇怪怪的方向，这些。。。

感兴趣加我 wx-base64：cmF2ZW4zMTY=

有多少人工就有多少智能: 标签聚合/真值推断算法 Dawid-Skene 深入介绍

2024-09-04T10:41:51Z

TL;DR: ChatGPT 的成功离不开 RLHF 和人类的标注数据(Scale AI)，那么如何从人类标注数据得到可用于模型训练的标签就成为了一个关键的问题，这就是标签聚合/真值推断算法要解决的问题。这篇博客就介绍了标签聚合/真值推断领域一个非常经典的算法: Dawid-Skene.
Details: EM 算法，DS 算法，DS 算法编程实践，DS 算法在工业环境的改进。

怎么感觉现阶段 Gemini Advanced 的中文回答还没 Gemini 好

2024-08-31T13:57:56Z

订了一个月 Gemini Advanced ，发现化学公式下角标 Gemini 能正常输出，而 advanced 会显示为一般数字。甚至 Gemini 很久没碰见的中英词汇混杂也在 advanced 上遇到了

话说 V 站似乎没有大语言模型相关节点？我这主题应该放哪，机器学习吗？

关于 immich 机器学习智能搜索的疑问。

2024-08-31T12:34:29Z

用外部图库管理相册，原来测试的时候用的十几张照片，CLIP 模型用的 XLM-Roberta-Large-Vit-B-16Plus ，搜索的时候可以搜索图片中的文字，搜索文字后一般包含这些文字的照片都在靠前位置。

这几天把所有相册通过外部图库管理，总共两千多张照片，两百多视频。智能搜索这些任务也都重新运行了，然而现在搜索文字，出现在靠前的要么是无关视频要么是不包含搜索文字内容的图片，但我用 immich 主要原因就是为了搜索图片中的文字，目前 immich 已升级最新 v1.113.0 ，CLIP 模型 XLM-Roberta-Large-Vit-B-16Plus 也是最新。

纳闷是什么问题造成的，是照片数量太多了？不知道你们有没有这种问题，主要是搜索图片中的文字这个能力。

怎么可以有效利用 LLM 分析开源项目，如 Vue/React？

2024-08-30T02:53:02Z

最近在学习新框架的过程中，我想通过大语言模型（ LLM ）来强化对项目源代码的理解。我发现 Claude 可以将代码块通过 Mermaid 转换成图形，这无疑能让开发者更好地学习和理解代码模块。

然而，由于 LLM 有 Token 数量的限制，开源项目的文件和代码量通常很大，直接将完整代码提供给 LLM 进行分析并不现实。

如果手动分段和汇总代码，操作也不太现实（当代码量很大时，多个 LLM 会话还是需要手动处理）。

我发现编译过程中有一个抽象语法树（ AST ）的概念，可以解析代码，生成一种结构化表示，便于理解代码各部分的关系。通过 AST 可以很容易提取函数、类、变量等信息。

尽管将代码转成 AST 之后再让 LLM 理解是一种抽象的解决方案，但这种方法可能依然会超出 Token 的限制。

像通过 CodeBERT 结合 RAG 这样的方案，虽然可以通过代码的特定标识做检索，但不能在抽象理解后让 LLM 再次处理。

关于这种组合策略，还有哪些其他方向可以考虑？

有一个关于现在很多 AI 图片特效处理的疑惑

2024-08-13T04:38:07Z

在 AI 大火之前，也有很多图片处理软件，能够实现图片滤镜，特效，风格转化等功能。在 AI 流行起来后，这种图片处理很多都变成了由各种训练后的模型来实现。传统的图片处理和当下流行的 AI 处理是有什么不同吗？ AI 图像处理相比传统图片处理有何种优势？希望有懂图像处理和机器学习相关的大佬解惑一下。

求推荐机器学习入门资料

2024-08-11T01:33:49Z

请教各位大佬，有朋友想让帮忙做一点机器学习产品的前端，自己也很感兴趣。目前不需要自己去写机器学习的算法和后端。但是自己希望自己能有个基础知识，方便和其他人合作

诉求

想了解，各种常见的算法产生的结果都是什么意思。比如分类算法产生的什么 auc ，roc 的这些代表啥，常用的算法模型都有啥之类的。不需要了解其背后数学原理或者推导过程
想快速，最好是 300 页以内比较通俗易懂的图书（类似《算法图解》这类更好)，或者 3 个小时以内的视频

感谢

计算机视觉任务，数据集是 10000 张 2562563 的图片，输出标签是 2562561，数据量算大吗？ 1060 能跑吗？

2024-08-07T07:53:09Z

机器学习

[AI Glimpse 科普系列] KV Cache 的原理推导与代码实现(基于 GPT2)

关于 OCR 以及以图找图识别

这类型的英语学习视频，是用哪个模型生成？

怎么实现提取俩个图片的一些特征，然后进行特征比对

检测画面中存在漏水，给点思路

学习 AI, 跑下模型, 应该用什么 N 卡?

有没有大佬了解机器学习的 mlops 框架或者平台

如何把本地文件作为大模型的知识库

使用大语言模型进行文本分类任务需要微调吗？

lima 和 colima 居然是有关系的

gpt4o 图像生成的技术讨论(自回归模型又好起来了?)

[AI Glimpse 科普系列] 不到 100 行 Python 代码从零实现 LLM 的推测采样算法

TLDR

具体实现

什么？唠唠嗑就能生成游戏关卡! Unreal Engine + MCP 来了！

效果展示🥳

配置步骤🤖

01 确保 Python Editor Script 插件已启用

02 安装 UnrealMCP 插件

03 配置 UnrealMCP Server

04 将项目转换成 C++项目

打开 Visual Studio

05 在 Cursor 中添加 UnrealMCP Server

项目限制🥲

展望未来😍

有趣游戏资讯👾开发分享🖥️尽在游戏碰碰🎮

大模型是如何执行像数学运算、编程等精确性要求比较高的任务的？

有没有 LLM 入门的系统学习教程

mtranserver 的翻译效果还是差一点

求助，有没有视觉大模型可以识别一个 UI 设计图中各个模块的划分

多模态大模型的大小远低于单文本模型啊。

利用 deepseek 分析医学影像找出结节这是什么技术原理？

大语言模型与深度学习书籍推荐

TLDR

详情

为什么 LLM 不擅长数饺子？

突然冒出一个点子，利用现在热门的 AI 来做 web 外挂工具

请问训练或者调试 yolo 用什么配置性价比较高。

大模型能记住所有它训练过的数据吗？

如何从头构建一个自己的大模型呢？从底层最基础的神经网络开始实现

LLM 静态批处理和 Continuous Batch 相关疑问的求解

有没有久坐提醒类服务，最好是基于啥啥啥模型的那种活体检测。

LLMs 文本标签（分类）任务怎么做比较好？

能推荐个偏实战的 tranformer/LLM 的课程么？

模型部署的姿势

深度学习在自己电脑上跑， Linux 环境，选择 WSL 还是物理机 Ubuntu？

CUDA 搞深度学习， 1TB 的一块硬盘， C 盘留多大合适？

怎么理解 RNN 循环神经网络工作原理？

ReLU 函数在 x＞ 0 的时候也是线性的，套 ReLU 函数是怎么实现激活作用的？

阿里新开源的 QwQ-32B-Preview 模型有啥特殊性？

上楼梯的时候，人是怎么判断脚该抬多高的

小白求教，输入语音指令输出统计图表这样的功能是否可以实现？

能分享一下研究大模型微调的技术论坛和站点吗？

狗东 cfe 滑块验证码轨迹模拟

有没有针对机器学习“图片训练集”的管理软件？

问题 1:

问题 2:

[请教][内存问题]Flux 部署

有深度学习交流群吗？没有我拉一个

有多少人工就有多少智能: 标签聚合/真值推断算法 Dawid-Skene 深入介绍

怎么感觉现阶段 Gemini Advanced 的中文回答还没 Gemini 好

关于 immich 机器学习智能搜索的疑问。

怎么可以有效利用 LLM 分析开源项目，如 Vue/React？

有一个关于现在很多 AI 图片特效处理的疑惑

求推荐机器学习入门资料

计算机视觉任务，数据集是 10000 张 256*256*3 的图片，输出标签是 256*256*1，数据量算大吗？ 1060 能跑吗？

计算机视觉任务，数据集是 10000 张 2562563 的图片，输出标签是 2562561，数据量算大吗？ 1060 能跑吗？