使用AutoDL 5090服务器做PEFT环境配置

Published by Alvin Liu on 2026-05-232026-05-23

AutoDL租用5090 32G, 90GB内存, 25核CPU只要3元/小时, 用来训练小模型或微调经济实惠. 由于服务器在中国, 记录一些使用过程中遇到的麻烦.

推荐使用实例自带的JupiterLab访问环境, 掉线不会关ssh窗口.
使用预置Python Library: 创建实例时可以选择预置Python环境, venv直接继承系统, 减少下载时间.
- python3 -m venv .venv –system-site-packages
自行安装Python Library: 推荐使用清华大学tuna源, 实测80MB/s. 实例控制台里也可以配置.
- pip install -i https://pypi.tuna.tsinghua.edu.cn/simple numpy
运行时动态下载外网模型: 可以使用AutoDL提供的学术加速功能: source /etc/network_turbo
上传自己的模型文件: AutoDL控制台能够连接夸克网盘下载文件, 实测服务器下载速度7MB/s. 外网上传夸克20MB/s
CUDA Toolkit没有加到环境变量, 找不到nvcc命令
- export PATH=/usr/local/cuda-12.8/bin:$PATH
- export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:${LD_LIBRARY_PATH:-}

顺便分享一下我使用AI进行辅助研究的经验. 一般情况下, 我会把AI分为四种角色:

科学家/产品经理团队(最强Plan模型): 负责制定计划
挑战者(根据我的经验, 科研型项目Gemini Pro表现最好, 但截止我发文的时候, 3.1模型较旧, 一定要要求他上网搜索, 否则可能忽略2025年以后的论文): 负责找出问题
技术专家(最强或高级Coding模型): 负责技术实现
实验员(高级或中级Coding模型): 负责执行实验

一个实验周期例子:

科学家/产品经理一起进行项目调研, 强调使用前沿技术和最新的数据和模型, 结合竞品和用户需求. 经过多轮讨论, 给出一份总体研究报告, 包括具体使用的算法和模型, STUDY_REPORT.md.
挑战者负责根据网上最新信息, 结合人力, 物力, 合规, 市场等方面找到计划中的漏洞, 并给出解决方案. 输出STUDY_REPORT_ISSUES.md.
科学家/产品经理根据挑战者的回复, 给出STUDY_REPORT_REVICED.md.
技术专家阅读STUDY_REPORT_REVICED.md, 结合现有代码和数据给出一份TECH_DESIGN.md, 如研究计划有分支和gate, 给出mmd配合关键指标方便阅读.
挑战者负责根据网上最新信息, 结合技术, 安全, 合规, 资源等方面找到TECH_DESIGN中的漏洞, 并给出解决方案. 输出TECH_DESIGN_Issues.md.
科学家/产品经理修订可行性报告, 输出TECH_DESIGN_Reviewed.md.
技术专家阅读TECH_DESIGN_Reviewed.md, 生成任务列表TASK.md
技术专家按列表实现代码, 并给出执行计划RUNBOOK.md
实验员根据RUNBOOK.md, 在实验机执行代码, 解决代码和环境问题.
实验员收集运行结果生成TEST_REPORT.md, 根据情况附加新的V2_PROPOSAL.md
科学家/产品经理阅读TEST_REPORT.md, 开启下一轮循环.

Related Posts