2024年9月17日

优刻得9月21日发布投资者关系活动记录表,公司于2023年9月19日接受7家机构调研,机构类型为其他、证券公司。 投资者关系活动主要内容介绍: 第一部分 公司概况 一、公司近期情况介绍: UCloud优刻得乌兰察布数据中心是公司紧贴“东数西算”国家战略、按照国际A级数据中心标准所自建的“西部”数据中心,坐落于内蒙古国家算力网络枢纽节点集宁大数据产业园,整体建设用地约140,000平方米,总计可容纳12,000个机柜。其中,一期项目为1栋数据机房楼和1栋综合楼,机柜数量约2500+,设计功率4.4 kW -8.8kW,当前已投产;二期项目为2栋数据机房楼和1栋综合楼,机柜数量约4800+,设计功率6 kW -12kW,二期C楼预计年底交付,B楼预计24年交付。可以按照用户自身特点对机房等级、系统架构、单机柜功率等使用需求量身定制。 项目建设标准为GB 50174-2017规定的A级数据中心,年均PUE值低于1.3。 第二部分 交流问答

答:之前下单到货的以A800为主,目前主要用于训练,随着中央网信办陆续批准上线,我们看到推理的需求在快速增加,目前已经陆续下单推理卡。

答:公司是中立、安全的云厂商,拥有超过10年的公有云技术沉淀并积累了全面的系统工程能力,具备从数据中心、计算平台,到管理平台、网络服务、应用服务、生态接口等一站式产品和解决方案。 当前国内做通用和垂直大模型的企业已有140余家,北京、上海、浙江、深圳、广州,还有江苏,都属于整个大模型的重要关键点,团队构成可细分划分为六大方阵,分别是互联网巨头(百度、阿里、腾讯、华为等)、上市公司(昆仑万维300418)、科大讯飞002230))、AI团队(商汤、云从等)、科学家创业、互联网高管创业、终端设备公司(拥有大量用户群的手机厂商、汽车厂商)。这些企业呈现出资金密度、人才密度、数据密度、算力密度的特点,也构成了大模型的四大核心要素。 大模型的生命周期包括前期的数据清洗、预训练、有监督微调、奖励建模、强化学习,以及后续的部署运营六个阶段,而在对应的阶段过程中往往会面临着多样性及高质量的合规数据如何获取,计算、存储、网络能否满足训练需求,模型的稳定性和安全性又如何保障等一系列难题。 综上,公司的优势主要体现在以下几个方面: 1、公司可提供高性价比的算力服务。优刻得乌兰察布数据中心电力充分、电价低廉、可自然制冷且距离北京更近,具备高可靠性、高性价比等优势,可有效满足大模型的训练要求。相较上海、北京等同等质量的数据中心,成本下降较多;采用双路不间断电源供电,更加安全可靠;模块化的设计布局,支持机房模块、基础设施配置的深度灵活定制。 公司基于自建数据中心所打造的AIGC解决方案可充分满足大模型企业对于底层算力基础设施的需求,同时公司可为客户提供后续的维护服务。自建数据中心内提供专为GPU集群建设的高电机柜,并上线了多款GPU算力资源,推出了“训练专区+推理专区+存储专区+管理专区”的分区建设方案,企业可根据实际的训练、推理、数据处理等应用场景进行灵活可扩展的算力选择。基于完善的基础架构方案和安全保障,帮助大模型企业快速搭建算力平台,并通过对接上层的资源调度系统,提高模型训练和推理效率,让客户专注于模型迭代与业务创新。 2、公司拥有高性能的存储能力。模型训练中存储性能会直接影响大模型的训练时间。大模型计算的工作负载大多是读密集型的,公司从大量列表元数据操作、高吞吐读需求、大量顺序写入这三个方面针对基于US3对象存储的文件系统进行升级改造,提升元数据性能、读缓存和写吞吐的能力。经测试,优化后的读性能有70%左右的性能提升,达到5GBps;写吞吐10%左右的吞吐提升,达到2.2GBps,可充分满足大模型客户在单点挂载时吞吐的性能需求,大幅提升训练效率。后续,公司会在和kernel交互的方式上进一步优化并发来提升写吞吐的能力。此外,公司研发中的GPU Direct Storage,将会有更高的存储性能。 3、公司拥有较强的网络能力。大模型训练依赖于大规模分布式并行集群,还面临着网络层面的挑战。一方面是因为模型本身非常大,需要拆分到多个GPU上来运行;另一方面,模型参数量越大就越需要更多的计算量,千张GPU甚至几千张GPU并行训练是大模型成功的基础。大模型训练RDMA网络设计要满足“大规模、高带宽”的要求,目前公司支持IB和RoCE两种高性能网络方案,可充分满足大规模算力集群之间的高速网络互联,实现多节点间的无损通信。 模型的训练不仅需要高性能的显卡,对供应商的存储、网络、安全能力也有很高的要求,公司在以上方面有着多年的技术积累,能够更全面的满足AIGC客户的需求。

答:(一)目前管理的算力规模约为3000多P;(二)已经下单但还没到货的新增算力规模约为1000多P,接下来还会根据客户的需求进行增加; 公司自建的两大数据中心都在稳步建设中,为算力的部署提供有力支撑。

答:很多企业都比较关注的是训练阶段,但事实是推理部分的量会逐步增加。假设算力部分需要1万张GPU卡,那推理部分则需要4万-5万张,推理部分的业务量会越来越多。某大模型正式上线的时候,一天将近有几千万的问题,所以这里对推理要求会越来越高。所以如何能够解决快速长期的扩展是核心问题。

答:目前国内的场景应用,按照对大模型输出内容准确性的容忍度来分类,游戏NPC、社交陪伴、电商内容、游戏/设计的画图、智能体、翻译和客服支持、文字和编程辅助、教育、法律、医疗这10大行业场景有较为广泛的落地。同时,大模型发展还将持续面临数据安全、政府对于合规性的要求、国际关系对于中国AI发展的限制等挑战。

答:训练端是整机8卡模式,主要用一批A800或者H800做训练集群,耗电量较大,一个机柜可以放置1-2台;推理端可以用V100等相对性能要求没这么高的GPU卡,一台机器8张卡,客户可以根据业务需求使用一张卡或者几千张卡。

答:一是磁盘的扩展,云主机随时可以用SSD云盘、RSSD云盘等模型进行磁盘的扩展,且还可以使用UFS文件存储能力,进行多机之间的数据共享。而对于裸金属厂商需要加盘,并且加盘是有极限的,仅有几个卡槽;二是每个A800/H800的运行必须有配套的GPU系统配置环境,以裸金属的方式进行人工部署的线个工作日,会影响到客户体验感,以云主机的方式可直接将环境打包到预制镜像中,镜像化能力让NVIDIA环境的预装从3-5个工作日缩减为秒级,效率较高。这个对于多租户的智算中心具有非常高的价值。

答:这个是市场会面临的一个共同问题,存在一定的不确定性。我们会基于稳定的供应商战略合作关系,再配上整机采买的模式,会得到较为优先的市场采购能力,目前已采购一定量的GPU资源,拥有了AIGC领域的企业用户群体。

答:公司不仅提供了公共的推理区服务各类云上客户,同时公司也针对重点客户会做单独的集群建设。根据客户需求定制专属配套服务,这也是公司的一大优势。

答:公司一直坚持中立的发展路线,因此我们不会做自己的模型。但为了提升自身的效率,同时也加大对AGI的深入理解,我们会在内部加大大模型的使用场景,如“识问”等,这些产品在公司内部工作环境下日常广泛使用,从而为模型和数据的丰富化、精确化提供助力。

答:公司的云计算服务在国内智能驾驶方面有所应用。如早在2021年,智梭科技就与公司达成合作,使用优刻得 GPU云主机和US3归档存储产品来进行AI算法模型开发和数据库的管理工作。公司以稳定可靠、灵活弹性的云端算力、海量多媒体数据的在线处理和存储能力,让智梭无人车畅快往返于上海的高校,完成在开放道路的配送工作。在今年,智梭全球总部和无人物流车生产制造基地项目签约仪式,8月16日在桐庐开发区举行,优刻得云计算成为智梭无人车开拓智慧物流业务背后的技术支撑。

答:公司在不断跟进这个方向,同时希望国产GPU能够成为一个枢纽来缓解推理卡的资源紧张趋势。公司在2023中国算力大会同期举办的第二届“西部数谷”算力产业合作伙伴大会上与沐曦、智谱华章共同发布了国产首台GPU千亿参数大模型训推一体机; 第三部分 展厅及机房参观 公司组织投资者进入内蒙古乌兰察布数据中心机房参观,在讲解人员的陪同下近距离观察机柜、电力设备等。参观活动持续约40分钟。

发表评论

邮箱地址不会被公开。 必填项已用*标注