查看: 162|回复: 2

[聊技术] 4070tis加4060ti16G使用qwq32B量化能行

[复制链接]
发表于 2025-3-25 15:36:34 | 显示全部楼层 |阅读模式
每秒二十几个tokens,如果14B量化,单卡能装上,则只用单卡每秒近50,双卡反而会各分一部分后速度慢些,那种情况下70tis空闲浪费算力。只有70tis满负荷下用上60ti才不算浪费。32B原来光用60ti时,0.4toks/s不到。
回复

使用道具 举报

2

主题

14

回帖

26

积分

一年会员

Rank: 2

积分
26
发表于 2025-3-25 15:36:48 | 显示全部楼层
14b单60ti近30toks/s,70tis近50toks/s,双卡一起近35toks/s。32b单60ti近0.4,双卡一起近25
回复 支持 反对

使用道具 举报

4

主题

19

回帖

46

积分

新手上路

Rank: 1

积分
46
发表于 2025-3-25 17:51:51 | 显示全部楼层
楼主开恩,沙发是我滴。。。。。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

特惠

限量优惠活动

正在火热进行

站长

添加站长微信

领取运营礼包

下载

便携运营智库

立即下载APP

工具

运营工具导航

AI工具导航

帮助

帮助中心

常见问题

顶部