Please enable JavaScript.
Coggle requires JavaScript to display documents.
SPEEDML问题梳理 - Coggle Diagram
SPEEDML问题梳理
数据准备
数据解压同步到前端显示、数据上传有问题的时候,页面没有任何提示
增加进度显示相关UI日志
分类:数据集页面是否可以显示类别个数以及每个类别的样本个数
增加类别样本统计信息
labelme2coco:数据转换能否剥离出来,不要放在训练里面,如果转换出问题,需要重新转换
增加coco格式数据上传类型、后端有限启动训练任务,同步执行coco转labelme推送数据存储
二值分割数据上传,统一改成实例分割那样的
定义二值分割(医学影像分割数据格式和示例分割一致),训练代码增加labelme转二值图脚本pipeline
数据量75万+,单个数据集75G+,启动缓慢
增加SSD、想办法提升文件吞吐提升分布式存储性能、稀疏标注、过滤样本、去除非必要数据增强
平台未接入公司nas数据和后续的存储容器
nas只是中间产物,存储目前还没采购到位
模型训练
数据有问题,然后训练任务没有任何反馈,比较浪费时间
弹框或者训练那条记录返回带颜色日志
提供训练日志
同上
训练超参数配置,能否每个超参数独立一个文本框或者下拉框
根据用户角色,分为简化版参数以及专业版参数,UI根据参数自动生成独立配置列表
平台训练部署流程不够流畅,配置参数等需要有对应的解释
这个后期增加注释
模型测试
平台中模型测试的功能是否就是输出一组数据的评价指标?
平台模型测试目前主要转移到超脑上面,关于测试模块的联合开发加入讨论议题
训练时,tensorboard页面是否可以显示验证集中 FP 和 FN 的图片名字,因为我们更关注的是容易误判的测点,整体指标不好分析哪些测点有问题
当然可以呀,关于tensorboard个性化显示问题,这个也牵涉到联合开发会长讨论
需要提供一个开放的测试环境,以便算法人员调用模型使用
增加一台超脑1块2080ti,可以直接可视化部署算法提供测试
平台能否不断融入新算法,供算法人员测试使用
平台一直在丰富算法,需要你们自己去探索,但是随着AI方向的算法固化,本身算法更新其实已经比较小,更多需要完成数据闭环,会上讨论
模型设计
平台接入自定义训练模型不通用,设计没有充分开放
这个自定义模型训练我在考虑目前阶段有没必要,会议可以讨论
平台不支持虚拟化卡
公司目前还没有支持虚拟化显卡、另外还基础服务提供团队还需要做好GPU的调度平台,目前该部分没有很好支撑
模型优化
平台模型转换报错难以查找
专业版增加日志回显