安装私有语言聊天大模型平台Ollama
Ollama是一个开源大语言模型,可以作为后端 运行不同的LLM。 安装Ollama 我的服务器系统是Linux Debian 所以使用Ollama官方的一条命令就能安装: curl -fsSL https://ollama.com/install.sh | sh Mac和Windows参考官网: https://ollama.com/download/ 过程中会连接github,下载ollama-linux-amd64.tgz,大约1.78g 安装完成后,会提示在本地 127.0.0.1:11434 运行了ollama实例。 测试ollama是否已经安装成功: ollama -v 如果输出版本信息,则说明安装成功。 配置文件默认存在于: /etc/systemd/system/ollama.service 可以使用你熟悉的文本编辑工具进行编辑修改。 如果你的WebUI和Ollama位于不同的服务器,或者要使用第三方工具调用Ollama,需要远程访问Ollama的API的话,需要在配置的service处增加一条: [Service] Environment="OLLAMA_HOST=0.0.0.0" Environment="OLLAMA_ORIGINS=*" 如果指定使用某GPU的话,需要增加: Environment="OLLAMA_DEVICE=cuda" Environment="CUDA_VISIBLE_DEVICES=0" 然后重载并重启Ollama sudo systemctl daemon-reload sudo systemctl restart ollama 如果在Ollama本机安装WebUI则不用,暴露外网会增加服务器资源被盗用的风险。 附录Ollama常用环境变量: 参数标识与配置OLLAMA_MODELS表示模型文件的存放目录,默认目录为当前用户目录即 C:\Users%username%.ollama\models Windows 系统 建议不要放在C盘,可放在其他盘(如 E:\ollama\models)OLLAMA_HOST表示ollama 服务监听的网络地址,默认为127.0.0.1 如果想要允许其他电脑访问 Ollama(如局域网中的其他电脑),建议设置成 0.0.0.0,如果只允许局域网,建议设置为本机的局域网IP,例如 192.168.2.100OLLAMA_PORT表示ollama 服务监听的默认端口,默认为11434 如果端口有冲突,可以修改设置成其他端口(如8080等)OLLAMA_ORIGINS表示HTTP 客户端的请求来源,使用半角逗号分隔列表 如果本地使用不受限制,可以设置成星号 *OLLAMA_KEEP_ALIVE表示大模型加载到内存中后的存活时间,默认为5m即 5 分钟 (如纯数字300 代表 300 秒,0 代表处理请求响应后立即卸载模型,任何负数则表示一直存活) 建议设置成 24h ,即模型在内存中保持 24 小时,提高访问速度OLLAMA_NUM_PARALLEL表示请求处理的并发数量,默认为1 (即单并发串行处理请求) 建议按照实际需求进行调整OLLAMA_MAX_QUEUE表示请求队列长度,默认值为512 建议按照实际需求进行调整,超过队列长度的请求会被抛弃OLLAMA_DEBUG表示输出 Debug 日志,应用研发阶段可以设置成1 (即输出详细日志信息,便于排查问题)OLLAMA_MAX_LOADED_MODELS表示最多同时加载到内存中模型的数量,默认为1 (即只能有 1 个模型在内存中) 常用命令: ...