本地使用llama.cpp跑AI的体验 封面

本地使用llama.cpp跑AI的体验

信息介绍

服务器配置为I3 6100+RX580 8G+DDR4 8G,在整个端午期间我折腾为他装上了Debian13并在上面编译了llama.cpp

使用体验

其实在用的过程中我使用Vulkan来补上了RX580不受ROCm的支持的缺点,在8192输入出的限制下,跑Jan3.5 4B Q4_0的效果还是蛮不错的达到了45t/s的输出速度,同时Deepseek R1 8B 4096输入出的情况下达到了15t/s的输出速度,对于日常对话来说足够了。

我已经将Jan 3.5 4B的输出入改为了40096,接入了VScode来辅助我修正语法和一些小BUG,编写小型的Go lang项目表现出色在发现编译错误时及时帮我纠正了BUG。

发生了哪些意外

在部署DeepSeek R1 8B时原先是设置了8192输入出但是发现启动没多久就OOM重启了,当时排查了很久,还以为哪个软件和llama冲突结果发现是内存不足。
其次就是Jan4b的精度过低,生成的部分修复也要去认真审核,算不上一次好体验的Vibe Coding,DS的输入出又不行无法接入VScode。

总结

算是本地部署AI的一次小尝试,总体来说是成功的但是小问题不少,像什么cmake报错我就不说了,关键是初次构建耗费了我5小时的时间,有点离谱了,还有安装那破Debian我也用了差不多一小时出头的时间也是力竭了

llama.cpp项目
Jan 3.5 4B
Deepseek R1 8B
Qwen 3.5 4B
教程1(Debian Club)
教程2(CSDN)