机器学习 way to explore https:https://cdn.v2ex.com/navatar/9fe8/593a/678_normal.png?m=1628872967 https:https://cdn.v2ex.com/navatar/9fe8/593a/678_large.png?m=1628872967 2025-06-04T08:34:06Z Copyright © 2010-2018, V2EX [AI Glimpse 科普系列] KV Cache 的原理推导与代码实现(基于 GPT2) tag:www.v2ex.com,2025-06-04:/t/1136339 2025-06-04T08:34:06Z 2025-06-04T08:34:06Z huangyezhufeng member/huangyezhufeng
  • 博客地址: LLM KV Cache: A Simple Implementation
  • 重点讲解了为什么需要在推理阶段做 KV Cache
  • 代码基于 GPT2 实现,可以在 16G 显卡上运行复现,代码开源在 ai-glimpse/toyllm: ToyLLM: Learning LLM from Scratch
  • ]]> 关于 OCR 以及以图找图识别 tag:www.v2ex.com,2025-05-27:/t/1134586 2025-05-27T03:22:16Z 2025-05-27T05:19:01Z fenglirookie member/fenglirookie 我现在使用 com.google.mlkit:text-recognition:16.0.1 ,com.google.mlkit:text-recognition-chinese:16.0.1 这个库进行 OCR 提取,在确认使用这个库的情况下有什么方法可以提高 OCR 识别的正确率呢? opencv 的图片匹配是否也可以同理提升正确率?

    ]]>
    这类型的英语学习视频,是用哪个模型生成? tag:www.v2ex.com,2025-05-16:/t/1132328 2025-05-16T14:08:25Z 2025-05-16T14:08:25Z jacketma member/jacketma 这个模型生成的视频,人物表情不僵硬、相当自然,哪个模型调出这样的效果?

    ai.PNG

    原视频: https://www.youtube.com/shorts/ygWC9GH3c0A

    用了几个国产模型,做不出来这个效果

    ]]>
    怎么实现提取俩个图片的一些特征,然后进行特征比对 tag:www.v2ex.com,2025-05-13:/t/1131503 2025-05-13T09:44:06Z 2025-05-14T02:21:53Z hmxxmh member/hmxxmh 图片有这些特征:颜色、形状、清晰度、是否 ps

    ]]>
    检测画面中存在漏水,给点思路 tag:www.v2ex.com,2025-05-12:/t/1131241 2025-05-12T09:55:52Z 2025-05-13T13:47:11Z momomoi member/momomoi 场景是: 可见光摄像头实时拍摄一片区域,很小部分是双目(带热成像),区域内存在错综交叉的管道(就是粗水管)

    现在需要检测漏水,水状态有 2 种:管道破裂喷再空中 、地面积水,主要就是这种异常图像太少,个位数级别

    用了 yolo 检测模型+图像整个画面和基准图的判别,发现漏判严重, 主要是摄像头不时对焦+有窗户、光斑会映射到地面上+其他异常情况

    有没有其他思路 指导一下。

    ]]>
    学习 AI, 跑下模型, 应该用什么 N 卡? tag:www.v2ex.com,2025-04-20:/t/1126818 2025-04-20T09:38:30Z 2025-04-25T02:59:57Z nananqujava member/nananqujava 有没有大佬了解机器学习的 mlops 框架或者平台 tag:www.v2ex.com,2025-04-18:/t/1126539 2025-04-18T09:42:46Z 2025-04-18T09:56:37Z JoeDH member/JoeDH 最近有个需求,就是需要部署一套机器学习平台,满足已有公司内一些模型的管理啥的(主要是传统的图像识别模型)

    需要支持服务器算力、模型版本、训练、测试分析、数据集等等这类的管理

    看了一下 kubeflow 、腾讯的 cube-studio ,感觉内容有点大又复杂

    因为我不是搞 AI 的所以不太懂,有大佬在用的或是了解这块的吗?是否还有其他推荐的一些易于使用的框架或平台

    ]]>
    如何把本地文件作为大模型的知识库 tag:www.v2ex.com,2025-04-17:/t/1126159 2025-04-17T05:47:58Z 2025-04-17T06:59:01Z iOTOi member/iOTOi 使用大语言模型进行文本分类任务需要微调吗? tag:www.v2ex.com,2025-04-17:/t/1126133 2025-04-17T04:00:32Z 2025-04-17T10:39:19Z marklu member/marklu
    由于我的技术背景有限,对于这种方法的选择及其替代方案有些疑问,想听听大家的专业意见:

    1.微调的实际可行性: 用专门的分类数据去微调一个通用预训练模型,会不会损失模型基础性能,导致在遇到与微调数据不太一样的文本时,表现反而变差?
    2.是否可以直接使用 GPT 等模型替代: 现在有许多能力非常强大的 LLM ,似乎可以通过给出清晰的指令( Prompt )就能完成很多任务。对于文本分类来说,直接使用这类强模型+好 Prompt ,相比于“训练”一个基础模型,是不是一种更高效(开发时间短、可能效果还好)的选择?在这种情况下,应该如何验证分类的准确性?
    我主要想理解这两种技术路径的适用场景、优缺点以及实际操作中的考量。任何经验分享或建议都将对我非常有帮助!谢谢大家! ]]>
    lima 和 colima 居然是有关系的 tag:www.v2ex.com,2025-04-13:/t/1125074 2025-04-13T04:06:31Z 2025-04-13T04:06:31Z julyclyde member/julyclyde 怪不得看起来那么相似呢

    https://lima-vm.io/docs/faq/colima/ Colima is a third-party project that wraps Lima to provide an alternative user experience for launching containers.

    ]]>
    gpt4o 图像生成的技术讨论(自回归模型又好起来了?) tag:www.v2ex.com,2025-04-10:/t/1124516 2025-04-10T08:30:32Z 2025-04-10T11:05:43Z lthero member/lthero gpt4o 图像生成的特点是,生成时从上到下逐渐清晰化(并不只是显示技巧)

    s1

    如果使用 diffusion 进行生成,它的过程可能是这样的

    s2

    但已知的是 gpt4o 图像生成(似乎)已经转向 autoregressive(自回归模型)+transformer

    s3

    目前外网也对 gpt4o 的技术进行了猜测,但也没讨论出个结果来(大多是认同转向了 ar 模型)

    自回归模型是要打败 diffusion ,并在多模态领域又好用起来了吗?

    另外,目前开源界似乎还没有什么动静,国内的字节跳动在 ar 的图像生成领域探索得还挺多(发了不少 paper )

    ]]>
    [AI Glimpse 科普系列] 不到 100 行 Python 代码从零实现 LLM 的推测采样算法 tag:www.v2ex.com,2025-04-08:/t/1123968 2025-04-08T07:00:48Z 2025-04-08T07:00:48Z huangyezhufeng member/huangyezhufeng TLDR

    具体实现

    ]]>
    什么?唠唠嗑就能生成游戏关卡! Unreal Engine + MCP 来了! tag:www.v2ex.com,2025-04-06:/t/1123593 2025-04-06T23:08:10Z 2025-04-08T18:39:10Z albertxavier001 member/albertxavier001 请添加图片描述

    即使没有编程基础,只要怀揣独特创意,MCP+Unreal 也能助你将想象变为触手可及的精品良作

    想必关注游戏开发领域的独立游戏开发者已经注意到了 blender-mcp 这个项目 它允许 Blender 连接到 Claude AI ,允许 Claude 直接与 Blender 交互和控制,使即时辅助 3D 建模、场景创建和操作成为可能。

    现在,通过 UnrealMCP 插件和 Python Editor Script 插件,控制虚幻引擎制作游戏场景 POC 也成为了可能。

    效果展示🥳

    唠唠嗑就能生成游戏关卡,谁能不爱😘?

    在这里插入图片描述 在这里插入图片描述

    白色的小不点是小狗🐕哦

    在这里插入图片描述

    从地面下看看~

    配置步骤🤖

    01 确保 Python Editor Script 插件已启用

    打开 Settings/Plugins

    在这里插入图片描述

    搜索并勾选 Python Editor Script Plugin 在这里插入图片描述

    02 安装 UnrealMCP 插件

    UnrealMCP 是一个非官方的虚幻引擎插件,旨在通过人工智能工具控制虚幻引擎。它在虚幻引擎内部实现了一种机器控制协议 (MCP),允许外部人工智能系统以编程方式与虚幻环境进行交互和操作

    在项目根目录下创建 Plugins 插件 在这里插入图片描述

    在 Plugin 目录下打开命令行并运行

    git clone <https://github.com/kvick-games/UnrealMCP>

    确保在 Plugins\UnrealMCP 目录下包含 GitHub 上的文件

    在这里插入图片描述

    重启虚幻引擎编辑器,在 Settings/Plugins 中搜索并勾选 UnrealMCP 插件(同第一步)

    03 配置 UnrealMCP Server

    Plugins\UnrealMCP\MCP 中运行 setup_unreal_mcp.bat 脚本

    04 将项目转换成 C++项目

    这一步主要是为了编译第二步下载的插件,不需要真的去写 C++

    新建一个 C++ class 即可,后续根据 UI 创建一个默认类即可 在这里插入图片描述

    打开 Visual Studio

    在这里插入图片描述

    关闭虚幻引擎编辑器,编译项目 在这里插入图片描述

    重新打开虚幻引擎编辑器,点击工具栏最右侧的图标打开 MCP Server Control Panel

    点击 Start Server 在这里插入图片描述

    Server Status 变成 Running 说明 Unreal MCP Server 可以运行了 在这里插入图片描述

    05 在 Cursor 中添加 UnrealMCP Server

    打开 Cursor Settings 在这里插入图片描述

    点击 + Add new global MCP server

    在这里插入图片描述

    在“mcpServer”中加入配置

    "unreal": { "command": "powershell", "args": ["<YOUR_GAME_ROOT>/Plugins/UnrealMCP/MCP/run_unreal_mcp.bat"] } 

    在 Cursor Settings 中出现下图说明添加成功 在这里插入图片描述

    之后就可以愉快的在 Chat 中愉快的让 AI 帮我们在虚幻引擎中创建 POC 场景啦~~~

    在这里插入图片描述

    项目限制🥲

    由于 UnrealMCP 插件项目还在非常早期的阶段,现在仅可支持有限的基本操作:获取场景基本信息,Python 脚本运行,基础材质操作等。而且就算使用了顶尖的大语言模型也不能一次性生成正确的 MCP Server 调用,需要反复修正。

    展望未来😍

    虽然目前 UnrealMCP 插件还有诸多限制,但是 MCP 还是为虚幻引擎打开了一句话生成游戏的大门!

    试想一下,未来 UnrealMCP 支持了更多的 Unreal 操作:动画、地形、AI 、PCG 等等,并且能支持蓝图或第三方游戏开发可热更脚本(例如腾讯的 PuerTS ),那么不论是游戏场景制作还是 gameplay 逻辑编写,都可以通过在 Cursor/Cluade/Windsurf/VSCode 等编辑器中通过自然语言描述生成游戏。

    这不仅能将游戏开发、原型制作的效率大大提高,更能将游戏开发门槛大大降低!

    也许在未来某一天,这样的场景会变成现实:借助 MCP+游戏引擎,零基础创作者也能将灵感轻松转化为专业级品质的游戏作品。

    有趣游戏资讯👾开发分享🖥️尽在游戏碰碰🎮

    微信号:游戏碰碰 扫码关注 了解更多

    在这里插入图片描述

    ]]>
    大模型是如何执行像数学运算、编程等精确性要求比较高的任务的? tag:www.v2ex.com,2025-03-29:/t/1121905 2025-03-29T02:46:08Z 2025-03-29T13:59:45Z happyn member/happyn
    我跟 Gemini 聊了半天,发现一个非常有意思的事情,比如我问他 "请告诉我圆周率小数点后 x 位的数字",当 10 位,30 位,50 位的时候,都没有问题,但是超过一定量,比如 1000 位,它就会宕机; 如果用 deepseek 的推理模式,他就会自己计算;所以我的理解是:

    1. 大模型理解问题,是靠神经网络进行 token 预测的
    2. 大模型解决数学类的精确问题,必须是混合模型(MoE),调用专门处理精确计算的那个部分,才能得出正确答案?

    这个理解对吗? ]]>
    有没有 LLM 入门的系统学习教程 tag:www.v2ex.com,2025-03-27:/t/1121545 2025-03-27T08:04:12Z 2025-03-27T10:16:06Z ojh member/ojh 我想系统学习一下 LLM 的使用比如发起请求、一些基本概念比如温度、上下文窗口、MCP 等,但不需要深入学什么人工智能方面专业的知识,网友们有没有什么好的教程或者书推荐

    ]]>
    mtranserver 的翻译效果还是差一点 tag:www.v2ex.com,2025-03-26:/t/1121113 2025-03-26T02:20:50Z 2025-03-26T05:15:35Z sugarkeek member/sugarkeek
    ]]>
    求助,有没有视觉大模型可以识别一个 UI 设计图中各个模块的划分 tag:www.v2ex.com,2025-03-13:/t/1118001 2025-03-13T00:34:22Z 2025-03-13T02:59:37Z 9527kf member/9527kf 试了几个模型,能识别出来有几个模块,但不能准确标出位置信息。
    大家有了解这块的吗 ]]>
    多模态大模型的大小远低于单文本模型啊。 tag:www.v2ex.com,2025-03-02:/t/1115294 2025-03-02T12:31:42Z 2025-03-02T09:30:42Z 565656 member/565656 图文大模型开源的一般就 3b ,7b ,72b 。应该是某种原因限制了多模态模型的大小?比如图片不像文字一样自回归预训练大模型?单文本的 600b 都有,这是不是意味着 gpt4o 其实模型并没有 gpt4 大?那对比的时候这些多模态模型应该打不过单文字模型吧?

    ]]>
    利用 deepseek 分析医学影像找出结节这是什么技术原理? tag:www.v2ex.com,2025-03-02:/t/1115191 2025-03-02T01:39:26Z 2025-03-01T10:49:15Z s609926202 member/s609926202 新闻链接: https://mp.weixin.qq.com/s/p3msf_1p4uwTdZFTH8JNdA

    Deepseek 是文本生成的,他是怎么结合医学影像找出结节的?

    ]]>
    大语言模型与深度学习书籍推荐 tag:www.v2ex.com,2025-02-21:/t/1113214 2025-02-21T05:26:30Z 2025-02-21T07:26:30Z huangyezhufeng member/huangyezhufeng TLDR

    LLM 相关

    DL 相关

    详情

    ]]>
    为什么 LLM 不擅长数饺子? tag:www.v2ex.com,2025-02-19:/t/1112497 2025-02-19T01:24:13Z 2025-02-19T01:22:59Z xuchkang171 member/xuchkang171 ]]> 突然冒出一个点子,利用现在热门的 AI 来做 web 外挂工具 tag:www.v2ex.com,2025-02-18:/t/1112229 2025-02-18T02:46:46Z 2025-02-18T03:46:46Z pinocc012 member/pinocc012 现在很多日常工作,是在各个 web 应用之间 copy paste ,理论上应用之间数据打通可能就没这些破事了,但是现实中还是不少需要人去干 所以如果能训练 AI 来干这个事情我们就能够更愉快的摸鱼 要做的开发大概是油猴脚本对接大模型?

    ]]>
    请问训练或者调试 yolo 用什么配置性价比较高。 tag:www.v2ex.com,2025-02-11:/t/1110797 2025-02-11T16:07:05Z 2025-02-11T16:07:05Z ixixi member/ixixi 目前有 macmini m4 和 i7-12700 + amd 的显卡 想买个 n 卡玩玩 ai

    求玩过的老哥说下经验

    ]]>
    大模型能记住所有它训练过的数据吗? tag:www.v2ex.com,2025-01-22:/t/1107038 2025-01-22T04:19:15Z 2025-01-22T11:36:26Z lurui45 member/lurui45 大模型能记住它训练过的数据吗?

    如果你让 GPT 背诵红楼梦全文,它会回答它无法逐字逐句背诵,因为超过它的生成容量限制,但是如果你需要某一部分的内容(比如某一回的片段、某个经典场景或对话),它可以根据你的需求生成相应的段落或章节。

    所以它的数据库里面是真的录进去全文了吗?红楼梦全文 80 万字,当我们说到某个模型要多少 Billion 参数时,这 80 万字能否理解为其中的一部分参数?

    我问了 GPT ,它回答它通过学习这些文本的规律和模式,能够在需要时生成相应的内容。总之无法理解...

    ]]>
    如何从头构建一个自己的大模型呢?从底层最基础的神经网络开始实现 tag:www.v2ex.com,2025-01-11:/t/1104401 2025-01-11T13:10:05Z 2025-01-16T07:53:44Z lenqu member/lenqu 我最近闲来无事,想系统性的学习一下神经网络,之前看到的都很片面,希望有懂的推荐一下

    ]]>
    LLM 静态批处理和 Continuous Batch 相关疑问的求解 tag:www.v2ex.com,2025-01-11:/t/1104386 2025-01-11T11:50:44Z 2025-01-11T16:16:22Z huc2 member/huc2 问题来自在看这篇博客时看到的图片

    img1

    这张图片中是静态 batch 的示意图,但我的理解似乎有所偏差,希望有大佬能答疑解惑。

    问题 1:对于静态 batch 场景,同一个 batch 中不同的 sample 的 prefill 是同时完成的吗?

    我的理解: 对于一个单独的短 prompt ,prefill 阶段肯定是一个比很长的 prompt 快的。但是当这 2 个长度不同的 sample 经过 padding 然后拼成了一个静态 batch 之后,也就是维度变成了 [batch_size, ..] (当然这里可能不止 2 个 sample )。在 prefill 阶段,他们肯定是同时开始的,因为 transformers 内部是很多的矩阵乘法。并且要经过很多层,比如:

    emb = layer1(emb) emb = layer2(emb) ... 

    上面的 emb 的维度应该也都会是 [batch_size, ....]

    虽然同一个 batch 之间不同 sample 单独做 prefill 需要的时间不同,但是当他们成为一个 batch 之后,变成了一个大矩阵,他们在经过不同的 layer 的时候,都是一起一层一层过的,也就相当于他们同时开始 prefill 阶段,然后同时完成 layer1, 同时完成 layer2, ......。最后一起完成最后一层,获得第一个预测的 new_tokens ( batch 中每个 sample 都有一个 new_token)。所以,在我的理解中,prefill 阶段应该是左右对齐的。

    问题 2: 以下我对 Continuous Batch 的理解是否正确?

    我的理解:

    以上是我的理解,不知道有多少错误的内容,希望有大佬指正。我的描述可能有点啰嗦,抱歉。

    ]]>
    有没有久坐提醒类服务,最好是基于啥啥啥模型的那种活体检测。 tag:www.v2ex.com,2025-01-08:/t/1103390 2025-01-08T01:49:06Z 2025-01-08T03:55:23Z YaD2x member/YaD2x 最好是基于 AI 模型的,通过笔记本前置摄像头,或其它普通摄像头检测活体长时间坐在电脑前的。实现久坐 1h 弹出提示的。

    ]]>
    LLMs 文本标签(分类)任务怎么做比较好? tag:www.v2ex.com,2025-01-06:/t/1102993 2025-01-06T10:58:59Z 2025-01-06T12:42:36Z CNYoki member/CNYoki
    另外现在通用型 LLMs 好像对标签工作都不太完美,经常出现标出其他不在字典的标签,或是标签过多之后分类效果不佳。

    有没有朋友在做相关工作有经验的,可以分享下方法嘛 ]]>
    能推荐个偏实战的 tranformer/LLM 的课程么? tag:www.v2ex.com,2025-01-06:/t/1102896 2025-01-06T06:09:22Z 2025-01-06T09:34:54Z ttgo member/ttgo 模型部署的姿势 tag:www.v2ex.com,2025-01-01:/t/1101819 2025-01-01T10:07:19Z 2025-01-02T19:25:28Z anivie member/anivie 小白想问问现在的模型一般都是怎么部署的?直接用 python 的框架部署上去吗?还是导出给 c++部署?看到好像 onnx 部署的文章好像很稀少,大伙都是直接用 python 部署的吗?

    ]]>
    深度学习在自己电脑上跑, Linux 环境,选择 WSL 还是物理机 Ubuntu? tag:www.v2ex.com,2024-12-29:/t/1101050 2024-12-29T08:09:02Z 2024-12-29T15:40:37Z jiashuaibei member/jiashuaibei 不是很喜欢物理机装 Ubuntu ,毕竟还需要写论文以及行业软件只支持 Windows 。
    那么在 WSL 跑深度学习显卡直通损耗大概多少?可行吗?有过来人吗? ]]>
    CUDA 搞深度学习, 1TB 的一块硬盘, C 盘留多大合适? tag:www.v2ex.com,2024-12-28:/t/1100947 2024-12-28T11:28:50Z 2025-01-10T01:38:28Z jiashuaibei member/jiashuaibei 怎么理解 RNN 循环神经网络工作原理? tag:www.v2ex.com,2024-12-25:/t/1100332 2024-12-25T22:46:01Z 2024-12-26T05:10:46Z James369 member/James369 y = f(x, θ)
    这里函数 f 的定义是固定的。那么,只要输入一组 x 和 y ,就可以训练出θ。


    但是对于 RNN ,我不大理解的是:
    1. 它的网络结构是不定的,多重的。假如循环了 n 次,相当于要训练 n 个函数: f1(x,θ), f2(x,θ),,, fn(x,θ).
    2. 对于这样多重的网络结构,它是怎么训练收敛的?
    3. 后面输入进来训练的 x ,是否会对前面已经训练好的θ产生影响(类似灾难性遗忘) ]]>
    ReLU 函数在 x> 0 的时候也是线性的,套 ReLU 函数是怎么实现激活作用的? tag:www.v2ex.com,2024-12-22:/t/1099417 2024-12-22T09:42:32Z 2024-12-22T11:20:24Z lisisi member/lisisi 神经网络每一层节点输出值,都要套一层非线性激活函数。现在使用较多的激活函数 ReLU 激活函数在 x > 0 的时候也是线性的,并且是 y=x ,这能起到“线性”=>“非线性”的作用吗?不太理解 ReLU 是怎么实现激活作用的

    ]]>
    阿里新开源的 QwQ-32B-Preview 模型有啥特殊性? tag:www.v2ex.com,2024-11-28:/t/1093265 2024-11-28T01:13:56Z 2024-11-28T02:18:38Z cowcomic member/cowcomic 说是数学和编程领域表现出色,但他不是有了 coder 和 math 两个单独的模型了么

    ]]>
    上楼梯的时候,人是怎么判断脚该抬多高的 tag:www.v2ex.com,2024-11-25:/t/1092383 2024-11-25T05:28:22Z 2024-11-25T16:22:35Z abcfreedom member/abcfreedom 似乎不是太高的楼梯,都能自然而然的抬上去,脑子也不用可以去算楼梯有多高🤔

    ]]>
    小白求教,输入语音指令输出统计图表这样的功能是否可以实现? tag:www.v2ex.com,2024-11-20:/t/1091035 2024-11-20T01:22:17Z 2024-11-20T01:28:34Z jiangziheng member/jiangziheng 问了 ChatGPT ,也不是很明确。大概思路是语音转文字,文字传入 AI ,返回相关 SQL 和指令,再通过代码做统计,图表生成,输出给用户。
    不知道现在是否可以实现这样的功能?现在只会用 ChatGPT ,看了下 Qwen2 微调,想是否可以把数据库表加入大模型进行训练。应该学习哪些只是可以做到这个效果,还有就是后续可能数据仓库变动,AI 也跟着更新。(排版和语言组织的不太好,大家见谅) ]]>
    能分享一下研究大模型微调的技术论坛和站点吗? tag:www.v2ex.com,2024-10-15:/t/1080632 2024-10-15T15:51:54Z 2024-10-15T15:54:38Z nyxsonsleep member/nyxsonsleep 感觉站里讨论这个的很少。

    ]]>
    狗东 cfe 滑块验证码轨迹模拟 tag:www.v2ex.com,2024-10-15:/t/1080524 2024-10-15T08:39:32Z 2024-10-16T02:39:06Z KingZZZZ member/KingZZZZ 有没有大佬知道狗东 cfe 滑块验证码的轨迹如何模拟?使用了四阶贝塞尔曲线进行了验证,始终无法通过。

    ]]>
    有没有针对机器学习“图片训练集”的管理软件? tag:www.v2ex.com,2024-10-08:/t/1078229 2024-10-08T04:02:34Z 2024-10-08T02:02:34Z andforce member/andforce 之前在 V 友的帮助下,已经使用 YOLO 训练好了我需要的模型,( t/1077539 ) 由于当前收集的图片样本比较少,我想继续增加训练样本以提高分类精度。

    但目前遇到几个问题:管理这些训练样本很麻烦。

    我现在的操作是,搞一个文件夹收集原始数据,然后统一规划这些数据用于训练。

    [原始数据目录] ---->> {使用 python 统一格式、裁剪、缩放大小} --->> [存放到用于训练的新目录]

    问题 1:

    去重问题,图片来源比较分散,有可能数据会被重复放进 [原始数据目录] 可能是文件名重复(这个还好说),也可能是图片本身是重复的

    问题 2:

    每次搞到新的图片数据,我得打开 Finder 一层一层找到归类子文件夹放进去 感觉比较繁琐

    以上,有没有什么管理软件能让我更轻松管理这些数据集合

    ]]>
    [请教][内存问题]Flux 部署 tag:www.v2ex.com,2024-09-23:/t/1075006 2024-09-23T03:27:24Z 2024-09-23T03:26:24Z liu731 member/liu731 CPU i9-13900K
    GPU 4090
    RAM 36G

    问题:
    使用 WSL2 部署 FLUX 时超时被 Killed ,但是跑在 Windows 上时勉强启动起来,好像是内存不够(看资源占用有一小段时间内存借道 SSD 了)。请问各位大佬如何评估大模型对 RAM 的需求? ]]>
    有深度学习交流群吗?没有我拉一个 tag:www.v2ex.com,2024-09-05:/t/1070532 2024-09-05T10:05:35Z 2024-09-05T06:05:35Z Chihiro316 member/Chihiro316 目前想法是

    认识朋友,交流技术,互相学习,一起搞一些有趣的项目(水论文?),创业,以及推荐工作机会等等。。。

    包括不限于: cv/nlp/大模型/aigc/自动驾驶/rl/各种奇奇怪怪的方向,这些。。。

    感兴趣加我 wx-base64:cmF2ZW4zMTY=

    ]]>
    有多少人工就有多少智能: 标签聚合/真值推断算法 Dawid-Skene 深入介绍 tag:www.v2ex.com,2024-09-04:/t/1070285 2024-09-04T10:41:51Z 2024-09-04T10:41:51Z huangyezhufeng member/huangyezhufeng
  • TL;DR: ChatGPT 的成功离不开 RLHF 和人类的标注数据(Scale AI),那么如何从人类标注数据得到可用于模型训练的标签就成为了一个关键的问题,这就是标签聚合/真值推断算法要解决的问题。这篇博客就介绍了标签聚合/真值推断领域一个非常经典的算法: Dawid-Skene.

  • Details: EM 算法,DS 算法,DS 算法编程实践,DS 算法在工业环境的改进。

  • ]]>
    怎么感觉现阶段 Gemini Advanced 的中文回答还没 Gemini 好 tag:www.v2ex.com,2024-08-31:/t/1069278 2024-08-31T13:57:56Z 2024-08-31T14:00:46Z sphendae member/sphendae
    话说 V 站似乎没有大语言模型相关节点?我这主题应该放哪,机器学习吗? ]]>
    关于 immich 机器学习智能搜索的疑问。 tag:www.v2ex.com,2024-08-31:/t/1069266 2024-08-31T12:34:29Z 2024-09-01T21:02:07Z monkey110 member/monkey110
    这几天把所有相册通过外部图库管理,总共两千多张照片,两百多视频。智能搜索这些任务也都重新运行了,然而现在搜索文字,出现在靠前的要么是无关视频要么是不包含搜索文字内容的图片,但我用 immich 主要原因就是为了搜索图片中的文字,目前 immich 已升级最新 v1.113.0 ,CLIP 模型 XLM-Roberta-Large-Vit-B-16Plus 也是最新。

    纳闷是什么问题造成的,是照片数量太多了?不知道你们有没有这种问题,主要是搜索图片中的文字这个能力。 ]]>
    怎么可以有效利用 LLM 分析开源项目,如 Vue/React? tag:www.v2ex.com,2024-08-30:/t/1068972 2024-08-30T02:53:02Z 2024-08-30T02:58:20Z kenshinhu member/kenshinhu
    然而,由于 LLM 有 Token 数量的限制,开源项目的文件和代码量通常很大,直接将完整代码提供给 LLM 进行分析并不现实。

    如果手动分段和汇总代码,操作也不太现实(当代码量很大时,多个 LLM 会话还是需要手动处理)。

    我发现编译过程中有一个抽象语法树( AST )的概念,可以解析代码,生成一种结构化表示,便于理解代码各部分的关系。通过 AST 可以很容易提取函数、类、变量等信息。

    尽管将代码转成 AST 之后再让 LLM 理解是一种抽象的解决方案,但这种方法可能依然会超出 Token 的限制。

    像通过 CodeBERT 结合 RAG 这样的方案,虽然可以通过代码的特定标识做检索,但不能在抽象理解后让 LLM 再次处理。

    关于这种组合策略,还有哪些其他方向可以考虑? ]]>
    有一个关于现在很多 AI 图片特效处理的疑惑 tag:www.v2ex.com,2024-08-13:/t/1064598 2024-08-13T04:38:07Z 2024-08-16T10:28:38Z zycojamie member/zycojamie 在 AI 大火之前,也有很多图片处理软件,能够实现图片滤镜,特效,风格转化等功能。 在 AI 流行起来后,这种图片处理很多都变成了由各种训练后的模型来实现。 传统的图片处理和当下流行的 AI 处理是有什么不同吗? AI 图像处理相比传统图片处理有何种优势? 希望有懂图像处理和机器学习相关的大佬解惑一下。

    ]]>
    求推荐机器学习入门资料 tag:www.v2ex.com,2024-08-11:/t/1064070 2024-08-11T01:33:49Z 2024-08-15T04:02:05Z CodeY99 member/CodeY99 请教各位大佬,有朋友想让帮忙做一点机器学习产品的前端,自己也很感兴趣。 目前不需要自己去写机器学习的算法和后端。但是自己希望自己能有个基础知识,方便和其他人合作

    诉求

    感谢

    ]]>
    计算机视觉任务,数据集是 10000 张 256*256*3 的图片,输出标签是 256*256*1,数据量算大吗? 1060 能跑吗? tag:www.v2ex.com,2024-08-07:/t/1063238 2024-08-07T07:53:09Z 2024-08-12T03:22:03Z rookiemaster member/rookiemaster ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86