如何通过 Amazon SageMaker 和 AWS Batch 将模型训练时长缩短 90 机器


Getir如何利用Amazon SageMaker和AWS Batch将模型训练时间缩短90

关键信息

使用Amazon SageMaker和AWS Batch,Getir成功将模型训练时间缩短90。开发了一个商品类别预测的端到端管道,通过数据驱动的见解优化了库存管理。通过预训练BERT模型的精细调整和Amazon S3的高效存储,提升了预测精度。

由Nafi Ahmet Turgut Damla entrk Hasan Burak Yel 和 Esra Kayabali于2023年12月04日发表在 Amazon SageMaker、AWS Batch 和 Customer Solutions 上。

这篇文章是由Getir的Nafi Ahmet Turgut、Hasan Burak Yel和Damla entrk共同撰写的。

建立于2015年,Getir在超快配送领域中开辟了新天地。这家创新科技公司通过其“几分钟送达杂货”的承诺,彻底改变了最后一公里的配送业务。如今,Getir在土耳其、英国、荷兰、德国和美国等国家拥有广泛的影响力,已成长为一个多国企业,涵盖九大不同垂直领域,彼此相辅相成。

在本篇文章中,我们将介绍如何利用 Amazon SageMaker 和 AWS Batch 构建一个端到端的商品类别预测管道,帮助商业团队将模型训练时间缩短90。

在当今快节奏、竞争激烈的市场中,深入理解我们的产品组合是我们面临的一项关键挑战。预测产品类别是解决此问题的有效方案。生成全面的类别树模型可使我们的商业团队将现有产品组合与竞争对手进行对比,从而获取战略优势。因此,我们的核心挑战是创建并实施一个准确的产品类别预测模型。

我们利用AWS提供的强大工具,以应对这一挑战,在机器学习ML和预测分析的复杂领域中高效导航。最终,我们成功创建了一个端到端的商品类别预测管道,结合了SageMaker和AWS Batch的优势。

这种预测分析的能力,特别是对产品类别的准确预测,极具价值。它为我们的团队提供了关键的数据驱动见解,优化了库存管理,增强了客户互动,提升了我们的市场影响力。

我们在本篇文章中讲述的方法论,从特征集的初步收集到预测管道的最终实施。我们的策略关键之一是使用SageMaker和AWS Batch对七种不同语言的预训练BERT模型进行精细调整。此外,我们与AWS的对象存储服务 Amazon S3 的无缝集成,使得这些已细调模型的存储和访问变得高效。

SageMaker 是一项完全托管的机器学习服务。借助SageMaker,数据科学家和开发人员可以快速轻松地构建和训练机器学习模型,然后直接将其部署到生产环境中。

作为一项完全托管的服务,AWS Batch帮助你运行任何规模的批处理计算工作负载。AWS Batch会自动提供计算资源并根据工作负载的数量和规模优化其分配。借助AWS Batch,用户无需安装或管理批处理计算软件,能够将时间集中在结果分析和问题解决上。我们使用了GPU作业,帮助我们运行使用实例GPU的作业。

解决方案概述

Getir的数据科学团队和基础设施团队共五人参与了这一项目。项目经过一个月的开发,在测试一周后成功部署到生产环境。

以下图表展示了解决方案的架构。

该模型管道针对每个国家分别运行。架构包括针对每个国家的两个AWS Batch GPU定时作业,按定义的时间表运行。

我们通过战略性部署SageMaker和AWS Batch GPU资源克服了一些挑战。以下部分详细描述了应对每种困难的过程。

使用AWS Batch GPU作业进行多语言BERT模型的微调

为了支持我们多样的用户群体,我们寻求一种解决方案来满足多种语言需求。BERT模型因其在处理复杂自然语言任务方面的卓越表现成为自然的选择。为了将这些模型定制为适合我们的需求,我们借助AWS的单节点GPU实例作业,成功对我们所需的七种语言的BERT模型进行了微调。通过这种方法,我们确保了预测产品类别的高精确度,有效克服了可能的语言障碍。

使用Amazon S3高效存储模型

接下来的步骤是解决模型存储和管理的问题。为此,我们选择了因可扩展性和安全性而闻名的Amazon S3。在Amazon S3上存储我们经过微调的BERT模型,使得不同团队能够轻松访问,从而大大简化了我们的部署过程。这是实现操作敏捷性和无缝整合我们的机器学习工作的关键。

创建端到端的预测管道

为了充分利用预训练模型,我们需要一个高效的管道。我们首先在SageMaker上部署这些模型,这样可以实现低延迟的实时预测,从而提升用户体验。对于规模较大且同样对运营至关重要的批量预测,我们利用AWS Batch GPU作业。这确保了资源的优化使用,为我们提供了性能和效率的完美平衡。

飞驰加速器免费永久版

使用SageMaker多模型终端的未来可能性

随着我们不断发展并寻求在机器学习管道中实现效率,我们渴望探索使用SageMaker多模型终端MME来部署微调模型的途径。通过MME,我们可以简化多种微调模型的部署,确保高效的模型管理,同时还能受益于SageMaker本身的阴影变体、自动扩展以及 Amazon CloudWatch 集成。这一探索符合我们不断增强预测分析能力和为客户提供优质体验的努力。

结论

SageMaker和AWS Batch的成功整合不仅解决了我们的特定挑战,还显著提升了我们的运营效率。通过实施复杂的产品类别预测管道,我们能够为商业团队提供数据驱动的见解,从而促进更有效的决策。

我们的成果充分证明了我们方法的有效性。在所有四个类别层级的预测准确度达到了80,这在塑造我们服务的每个国家的产品组合中发挥了重要作用。这种精确度克服了语言障碍,确保我们能够极其准确地满足多样化的用户需求。

如何通过 Amazon SageMaker 和 AWS Batch 将模型训练时长缩短 90 机器

此外,通过战略性使用AWS Batch的定时GPU作业,我们已经将模型训练时间缩短了90。这一效率进一步简化了我们的流程,增强了操作敏捷性,Amazon S3的高效模型存储在这一成就中扮演了关键角色,兼顾了实时和批量预测的需求。

有关如何使用SageMaker构建您自己的ML管道的更多信息,请参见 Amazon SageMaker资源。如果您正在寻找一种低成本、可扩展的解决方案来运行批处理作业且操作开销低,AWS Batch是一个绝佳选择。想了解更多,请参见 AWS Batch入门指南。

关于作者

Nafi Ahmet Turgut 完成电气与电子工程硕士学位后,作为研究科学家专注于构建机器学习算法以模拟神经网络异常。2019年加入Getir,现担任高级数据科学与分析经理,负责设计、实施和维护Getir的端到端机器学习算法和数据驱动解决方案。

Hasan Burak Yel 在博阿齐大学获得电气与电子工程本科学位,曾在Turkcell工作,专注于时间序列预测、数据可视化和网络自动化。2021年加入Getir,现任数据科学与分析经理,负责搜索、推荐和增长领域的工作。

Damla entrk 在加拉塔萨雷大学获得计算机工程本科学位,现继续在博阿齐大学攻读计算机工程硕士学位。2022年加入Getir,担任数据科学家,参与商业、供应链和发现相关项目的工作。

Esra Kayabal 是AWS的高级解决方案架构师,专注于分析领域,包括数据仓库、数据湖、大数据分析、批处理和实时数据流以及数据集成。拥有12年的软件开发和架构经验,热衷于学习和教授云技术。