使用AutoDL 5090服务器做PEFT环境配置

Published by Alvin Liu on

AutoDL租用5090 32G, 90GB内存, 25核CPU只要3元/小时, 用来训练小模型或微调经济实惠. 由于服务器在中国, 记录一些使用过程中遇到的麻烦.

  1. 推荐使用实例自带的JupiterLab访问环境, 掉线不会关ssh窗口.
  2. 使用预置Python Library: 创建实例时可以选择预置Python环境, venv直接继承系统, 减少下载时间.
    • python3 -m venv .venv –system-site-packages
  3. 自行安装Python Library: 推荐使用清华大学tuna源, 实测80MB/s. 实例控制台里也可以配置.
    • pip install -i https://pypi.tuna.tsinghua.edu.cn/simple numpy
  4. 运行时动态下载外网模型: 可以使用AutoDL提供的学术加速功能: source /etc/network_turbo
  5. 上传自己的模型文件: AutoDL控制台能够连接夸克网盘下载文件, 实测服务器下载速度7MB/s. 外网上传夸克20MB/s
  6. CUDA Toolkit没有加到环境变量, 找不到nvcc命令
    • export PATH=/usr/local/cuda-12.8/bin:$PATH
    • export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:${LD_LIBRARY_PATH:-}

顺便分享一下我使用AI进行辅助研究的经验. 一般情况下, 我会把AI分为三种角色:

  • 科学家/产品经理团队(最强Plan模型)
  • 技术专家(最强或高级Coding模型)
  • 实验员(高级或中级Coding模型).

一个实验周期:

  • 科学家/产品经理团队一起进行项目调研, 强调使用前沿技术和最新的数据和模型, 结合竞品和用户需求. 经过多轮讨论, 给出一份总体研究报告, 包括具体使用的算法和模型, STUDY_REPORT.md.
  • 技术专家阅读STUDY_REPORT.md, 结合现有代码和数据给出一份TECH_DESIGN.md, 如研究计划有分支和gate, 给出mmd配合关键指标方便阅读.
  • 科学家/产品经理修订可行性报告, 输出TECH_DESIGN_Reviewed.md.
  • 技术专家阅读TECH_DESIGN_Reviewed.md, 生成任务列表TASK.md
  • 技术专家按列表实现代码, 并给出执行计划RUNBOOK.md
  • 实验员根据RUNBOOK.md, 在实验机执行代码, 解决代码和环境问题.
  • 实验员收集运行结果生成TEST_REPORT.md, 根据情况附加新的V2_PROPOSAL.md
  • 科学家/产品经理阅读TEST_REPORT.md, 开启下一轮循环.

Categories: AI

Alvin Liu

Software Developer in Toronto

0 Comments

Leave a Reply

Avatar placeholder

Your email address will not be published. Required fields are marked *