Ollama

Ollama是一个开源大语言模型，可以作为后端运行不同的LLM。安装Ollama 我的服务器系统是Linux Debian 所以使用Ollama官方的一条命令就能安装： curl -fsSL https://ollama.com/install.sh | sh Mac和Windows参考官网： https://ollama.com/download/ 过程中会连接github，下载ollama-linux-amd64.tgz，大约1.78g 安装完成后，会提示在本地 127.0.0.1:11434 运行了ollama实例。测试ollama是否已经安装成功： ollama -v 如果输出版本信息，则说明安装成功。配置文件默认存在于： /etc/systemd/system/ollama.service 可以使用你熟悉的文本编辑工具进行编辑修改。如果你的WebUI和Ollama位于不同的服务器，或者要使用第三方工具调用Ollama，需要远程访问Ollama的API的话，需要在配置的service处增加一条： [Service] Environment="OLLAMA_HOST=0.0.0.0" Environment="OLLAMA_ORIGINS=*" 如果指定使用某GPU的话，需要增加： Environment="OLLAMA_DEVICE=cuda" Environment="CUDA_VISIBLE_DEVICES=0" 然后重载并重启Ollama sudo systemctl daemon-reload sudo systemctl restart ollama 如果在Ollama本机安装WebUI则不用，暴露外网会增加服务器资源被盗用的风险。附录Ollama常用环境变量：参数标识与配置OLLAMA_MODELS表示模型文件的存放目录，默认目录为当前用户目录即 C:\Users%username%.ollama\models Windows 系统建议不要放在C盘，可放在其他盘（如 E:\ollama\models）OLLAMA_HOST表示ollama 服务监听的网络地址，默认为127.0.0.1 如果想要允许其他电脑访问 Ollama（如局域网中的其他电脑），建议设置成 0.0.0.0，如果只允许局域网，建议设置为本机的局域网IP，例如 192.168.2.100OLLAMA_PORT表示ollama 服务监听的默认端口，默认为11434 如果端口有冲突，可以修改设置成其他端口（如8080等）OLLAMA_ORIGINS表示HTTP 客户端的请求来源，使用半角逗号分隔列表如果本地使用不受限制，可以设置成星号 *OLLAMA_KEEP_ALIVE表示大模型加载到内存中后的存活时间，默认为5m即 5 分钟（如纯数字300 代表 300 秒，0 代表处理请求响应后立即卸载模型，任何负数则表示一直存活）建议设置成 24h ，即模型在内存中保持 24 小时，提高访问速度OLLAMA_NUM_PARALLEL表示请求处理的并发数量，默认为1 （即单并发串行处理请求）建议按照实际需求进行调整OLLAMA_MAX_QUEUE表示请求队列长度，默认值为512 建议按照实际需求进行调整，超过队列长度的请求会被抛弃OLLAMA_DEBUG表示输出 Debug 日志，应用研发阶段可以设置成1 （即输出详细日志信息，便于排查问题）OLLAMA_MAX_LOADED_MODELS表示最多同时加载到内存中模型的数量，默认为1 （即只能有 1 个模型在内存中）常用命令： ...