V2EX lwch 的所有回复 第 1 页 / 共 7 页
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX    lwch    全部回复第 1 页 / 共 7 页
回复总数  136
1  2  3  4  5  6  7  
@allegory 我用他来实现了一个小型的 llama 模型大约 1.5 亿参数量在 CPU 上训练速度还行
@allegory libtorch 跟着 pytorch 的版本走的,现在已经 2.2.2 了
2023-10-21 09:02:57 +08:00
回复了 lwch 创建的主题 分享创造 无需量化在树莓派上运行 LLaMA2 70B 模型
@rekulas 如果内存足够大的话可以增加--cache 和--fp32 缓存参数,每次加载参数速度很慢
2023-10-20 23:25:40 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@rekulas 只实现模型推理的话其实并不复杂,要实现整个深度学习框架就非常麻烦。每个 tensor 的正向传播、反向传播、梯度计算等,我实现了一个 https://github.com/lwch/gotorch 库包装了 libtorch 库里面已经实现了上百个算子,这还只是 pytorch 中的一部分,想要实现一个完整的框架一个人难以完成。
2023-10-19 14:54:33 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@kneo 今天做了不少优化,目前 7B 模型单机运行已经可降低到 1.2~1.6s/token ,但 CPU 并未全部跑满可能还有一定的优化空间
2023-10-19 10:14:47 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@kneo 所以我上面也说了,单机的性能是有限的,想要提升整体性能只能靠堆集群来实现,目前为止这个项目还处于单机运行状态,至于说具体以哪种方式来做并行计算这个是需要实际测试的。我认为 go 语言天生就是高并发高吞吐量的代名词,因此我一开始就选用了 go 语言而不是其他的语言来进行开发,就 go 语言本身而言从单机版到集群版也更容易一些。

另如果 10 台机器的集群计算性能可以达到 GPU 的一半,我觉得大部分的资本家也是可以接受的,毕竟总体成本下降了好几个数量级。
2023-10-19 08:44:55 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@kneo 那再举个例子谷歌搜索核心代码也是 go 的,你觉得以他的体量计算量会很小吗,速度不是一样不慢的
2023-10-18 20:13:15 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@kneo 再慢也能超过 python 不是吗
2023-10-18 14:55:55 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@GeekGao 树莓派只是打个比方,你当然可以在云上申请几台机器来加快推理速度,这个项目的主要目标还是为了降低大模型的使用成本,使普通人也可以跑上 70B 模型
2023-10-18 12:07:26 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@GeekGao 用这 1.6T 内存在高并发情况下,可以并行处理更多的 batch
2023-10-18 12:05:46 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@GeekGao 你可以这么计算,载入 70B 模型需要 130G 显存,按 4090 的 24G 显存计算,载入整个模型需要至少 7 张卡,换算成成本就是 14W+,这些钱总共可以买 200 多个树莓派,每个 8G 内存总共 1.6T 以上,如果组起集群的话计算效率并不会比 4090 慢多少
2023-10-18 11:41:22 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@duojiao 哈哈,不要关心速度,做了参数延迟加载后可在低内存设备上运行可大大降低运行成本,速度只能靠堆集群和做各种各样的缓存来提升
2023-10-17 18:34:09 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@bt7vip 不能这么算,网络传输需要耗时,实际做集群计算有可能会比单机更慢,这个需要测试了才知道
2023-10-17 17:03:48 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@skinfiter 哈哈,看来这些嵌入式设备上面还得做量化,不过未来可以搞一个树莓派集群来做分布式计算
2023-10-17 16:03:11 +08:00
回复了 lwch 创建的主题 分享创造 无需量化,在树莓派上运行 LLaMA2 70B 模型
@graetdk 我在 i7-10710U 的 NUC 上用 8 个核心跑 7B 模型不缓存参数大概 1 分多才能出一个 token ,缓存后 16~17s 左右一个 token
2023-02-13 10:11:10 +08:00
回复了 catfly 创建的主题 程序员 新 bing 你们有预约成功的吗?
还在等待列表,不知道是不是因为 gmail 账号的缘故
2022-12-30 11:01:04 +08:00
回复了 Cyshall 创建的主题 Windows wsl2 内存问题
限了好像也没啥用,虚拟内存一直跑满,我用了 mem reduct 超额后自动释放
2022-12-30 10:25:46 +08:00
回复了 Frankcox 创建的主题 Go 编程语言 Go+Vue.js 如何较好的实现 Web 下载大文件?
你可以尝试使用 http.ServeFile 接口来返回文件内容,这个接口中已正确的处理了 Content-Type 和 Content-Length 字段
2022-12-30 10:19:37 +08:00
回复了 Frankcox 创建的主题 Go 编程语言 Go+Vue.js 如何较好的实现 Web 下载大文件?
需要先获取文件大小后通过 Content-Length 返回给客户端,客户端才能计算出进度
2022-12-29 18:36:00 +08:00
回复了 dwlovelife 创建的主题 生活 大家新冠好了会一直咳么
白天基本上不怎么咳,晚上咳的比较厉害可能跟气温有关
1  2  3  4  5  6  7  
关于     帮助文档     自助推广系统     博客     API     FAQ     Solana     826 人在线   最高记录 6679       Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 30ms UTC 21:28 PVG 05:28 LAX 14:28 JFK 17:28
Do have faith in what you're doing.
ubao snddm index pchome yahoo rakuten mypaper meadowduck bidyahoo youbao zxmzxm asda bnvcg cvbfg dfscv mmhjk xxddc yybgb zznbn ccubao uaitu acv GXCV ET GDG YH FG BCVB FJFH CBRE CBC GDG ET54 WRWR RWER WREW WRWER RWER SDG EW SF DSFSF fbbs ubao fhd dfg ewr dg df ewwr ewwr et ruyut utut dfg fgd gdfgt etg dfgt dfgd ert4 gd fgg wr 235 wer3 we vsdf sdf gdf ert xcv sdf rwer hfd dfg cvb rwf afb dfh jgh bmn lgh rty gfds cxv xcv xcs vdas fdf fgd cv sdf tert sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf sdf shasha9178 shasha9178 shasha9178 shasha9178 shasha9178 liflif2 liflif2 liflif2 liflif2 liflif2 liblib3 liblib3 liblib3 liblib3 liblib3 zhazha444 zhazha444 zhazha444 zhazha444 zhazha444 dende5 dende denden denden2 denden21 fenfen9 fenf619 fen619 fenfe9 fe619 sdf sdf sdf sdf sdf zhazh90 zhazh0 zhaa50 zha90 zh590 zho zhoz zhozh zhozho zhozho2 lislis lls95 lili95 lils5 liss9 sdf0ty987 sdft876 sdft9876 sdf09876 sd0t9876 sdf0ty98 sdf0976 sdf0ty986 sdf0ty96 sdf0t76 sdf0876 df0ty98 sf0t876 sd0ty76 sdy76 sdf76 sdf0t76 sdf0ty9 sdf0ty98 sdf0ty987 sdf0ty98 sdf6676 sdf876 sd876 sd876 sdf6 sdf6 sdf9876 sdf0t sdf06 sdf0ty9776 sdf0ty9776 sdf0ty76 sdf8876 sdf0t sd6 sdf06 s688876 sd688 sdf86