DeepSeek的本地部署对计算机有什么要求?

02-28 10:58

大模型在PC上“跑”已经成为一种趋势。ChatGPT、由于合规性、隐私性等问题,Claude等海外模型无法在中国落地,国产开源模型DeepSeek凭借透明结构和轻量化优势,成为PC客户的新宠。


然而,每一个环节都隐藏着门道,从硬件采购到部署改进,再到避免市场混乱。《IT时报》将为您拆解PC部署DeepSeek的核心逻辑。


至少30系显卡最低1080显卡“起跑”,顺利使用。


根据DeepSeek官方文件,当地部署DeepSeek大模型需要严格遵守“显存-内存-存储”三级资源匹配原则。它还意味着,如果加上CPU,需要重点关注四个核心硬件。


减少硬件需求的量化技术知道多少?

将量化技术引入DeepSeek大模型运行前,以牺牲部分精度换取速度,可以减少硬件需求。根据Hugging Face基准测试,4-bit量化可以从13GB压缩到4.21版本的7B参数模型显存占用DeepSeek-R1(以下是DeepSeek-R1版本)GB,但是可能会失去8%左右的准确性。所以DeepSeek最低运行 7B模型要求如下:


1.GPU:英伟达GTX 1080(8GB显存)或相同性能的显卡。这个显卡需要支持FP16计算,并且需要适应英伟达CUDA模型。FP16计算可以在保证一定精度的前提下显著提高计算效率,而CUDA模型则为英伟达显卡提供并行计算能力,这对于模型的顺利运行尤为重要。


2.CPU:超过4核,例如英特尔i5/i7或AMD Ryzen 5/7系列处理器。尽管GPU是大语言模型的主要计算力量,但是CPU在数据预处理、任务调度等方面也起着不可或缺的作用,充足的核心数量可以保证这些任务的高效执行。


内存:16GB DDR4内存。在模型运行过程中,内存需要存储大量的数据,如模型参数、中间值等。16GBDDR4内存可以满足基本的存储需求,保证模型的正常使用。建议不要同时运行其他程序,否则可能会面临内存紧张。


储存:至少20GB固态盘容量。SSD的高速读写特性可以快速载入模型文件,减少等待时间。20GB的容量基本上可以满足7B及以下参数模型4-bit量化版的运行需求。


四大硬件需要全方位配合

若要13B流畅运行。 参数模型,对硬件的要求更高:


1.GPU:英伟达RTX 3090/4090显卡(24GB显存)。显存的大小直接关系到模型运行时可以处理的数据规模,显存越大,运行模型就越大。由于模型参数大幅增加,模型结构变得更加复杂,需要处理的信息量呈指数级增长。例如,在处理较长的文本时,13B参数模型需要存储大量的中间结果和注意机制来计算所需的数据。24GB显示器可以为这些信息提供足够的存储空间,以确保模型在运行过程中不会因显示器不足而卡住甚至崩溃。


2.CPU:超过8核,例如英特尔i9或AMD Ryzen 9系列Cpu。伴随着模型参数的增加,数据处理能力和复杂性都有了很大的提高,8核以上的CPU能够更好地处理这些任务。


内存:32GB DDR5内存。与DDR4相比,DDR5的内存速度和带宽都有了显著的提高,结合DDR5的高速特性,32GB的大容量可以满足大型运行时对数据快速存储的需求,进一步优化运行体验。


存储:支持NVMe协议的1TB容量以上的固态盘。NVMe协议的SSD读写速度很快,1TB的大容量可以容纳大型文件,同时也可以大大提高模型的加载速度,减少等待时间。



实际测量:旧电脑也可以运行


经过许多技术爱好者和专业人士的实际测试,6~7年前的计算机(例如配备GTX 1060显卡 16GB内存)可以勉强运行1.5B模型,生成速度约为2-3tokens/秒;RTX306060(例如RTX306060) 7B/8B模型可以流畅地运行(102GB内存) tokens/秒);32B模型运行需要英伟达RTX30/40显卡(显存≥12GB),但是生成率仍然受到显存带宽的限制。


值得注意的是,由于底层结构的限制,Windows系统的性能一般比Linux低10%~15%。如果追求效率,建议使用DeepSeek大型模型,如Ubuntu。


建议使用Ollama安装


建议使用Ollama安装部署DeepSeek大模型,然后硬件准备得当。Ollama是一种开源LLM(大型语言模型)服务工具,其主要功能是简化在当地运行大型语言模型的过程,降低使用门槛。浏览Ollama官网(https://ollama.ai下载和安装Windows、macOS、相应版本的Linux。然后使用终端输入命令获得DeepSeek模型,建议使用Ollama内置量化功能,将模型压缩到4-bit或8。-bit,这样后续才能顺利运行。获取存储后,DeepSeek交互可以在PC上启动。


排列:入门级选3060显卡


推荐使用者可根据需要选择显卡,入门级使用RTX。 3060显卡,运行7B参数4-bit量化版,可实现文档摘要,轻质问答;RTX基本级别使用 运行13B参数8-bit量化版本的4080显卡,可以实现代码生成,完成多轮对话;企业建议直接调用DeepSeek API,减少本地硬件投资。


优先选择英伟达显卡作为显卡,确定CUDA核心数>RTX等显存容量 4070的5888 CUDA 优于4060的cores Ti 16GB的4352 cores),由于一些大型开发工具与Arc显卡的指令集存在兼容性问题,因此谨慎选择英特尔Arc显卡。支持XMP内存优先选择 DDR5内存3.0超频。另外,据说英特尔Lunar今年将大量生产 Lake(45TOPS NPU)或者支持70B-4bit模型的本地运行,PCIe 新规范,如5.0接口、GDDR7显存等,可以提高启动速度。


谨慎选择:“DeepSeekPC”


目前市场上有一些中小品牌推出“预装DeepSeek” AI的32B模型 PC主机,但是IT时报记者对其售价进行了仔细的对比,实际上比市场上同样的配置型号高出15%~30%。


例如某个型号(Ryzen7) 9800X3D B650 32GB DDR5内存 2TB M2固态盘 RTX5080-16GB显卡)的价格是23,000元,而DIY电商平台商家的组装价格只有17,000元左右。超过15%的价格。即使与平台上大品牌官方组装店同配置的计算机相比,价格仍然更高。


DeepSeek本身就是一个免费开源的大模型,对于稍微懂一点计算机知识的用户来说,完全可以跟随教学图片和视频进行本地部署。所以强烈不建议买这种叫DeepSeek擦边球的AI主机,以免浪费钱。


照片/ 豆包AI


本文来自微信微信官方账号 “IT时报”(ID:vittimes),作者:林斐,36氪经授权发布。


本文仅代表作者观点,版权归原创者所有,如需转载请在文中注明来源及作者名字。

免责声明:本文系转载编辑文章,仅作分享之用。如分享内容、图片侵犯到您的版权或非授权发布,请及时与我们联系进行审核处理或删除,您可以发送材料至邮箱:service@tojoy.com