由 Canonical 发布公告撰写,2024 年 9 月 22 日
DSS 允许以高效的方式建立数据环境,其工具专门设计用于满足机器学习、人工智能 (AI) 和数据科学的特定需求。开源领导者和 Ubuntu 发布商 Canonical 宣布推出 Data Science Stack (DSS),这一创新解决方案简化并加速了数据科学环境的创建和管理。

DSS 使企业、研究人员和开发人员能够以高效的方式建立数据环境,其工具专门设计用于满足机器学习、人工智能 (AI) 和数据科学的特定需求。完全开源、免费且原生支持 Ubuntu,它也可在其他 Linux 发行版、通过 Windows Subsystem Linux (WSL) 在 Windows 上以及通过 Multipass 在 macOS 上使用。

默认情况下,DSS 包括对 Jupyter Notebook 用于模型开发、MLflow 用于实验跟踪和模型注册表,以及 Pytorch 和 Tensorflow 等机器学习框架的访问。然而,用户可以根据他们的使用案例定制 Data Science Stack 并添加新的库。DSS 只需三条命令即可部署,这使得在 AI 工作站上快速进行初步探索成为可能。

只需配置容器编排层,安装 DSS CLI 并初始化 Data Science Stack 即可访问环境。根据技术人员的经验水平,这一过程可在 10 到 30 分钟内完成。DSS 还提供迁移路径,帮助其在项目成熟时发展 AI 计划。

为了更早地获得性能改进和功能,例如在上游支持 Intel GPU 之前的能力,可以访问 ITEX 和 IPEX,即 Intel 的 PyTorch 和 Tensorflow 发行版。IPEX 和 ITEX 根据硬件优化性能,利用高级向量扩展 (AVX)、矢量神经网络指令 (VNNI) 和高级矩阵扩展 (AMX)。

通过集成这些扩展,除了 GPU 加速,DSS 在 AI 使用案例中的常见操作中受益于加速,减少了模型学习时间并加快了项目 ML 的实验阶段。Canonical 为解决方案中包含的所有包提供安全维护,能够及时修补漏洞,保护软件和创建的工件。该产品还包括简化的依赖管理和软件版本控制,减少了数据科学家在部署 AI 和机器学习模型时常遇到的技术挑战。

Canonical 特别强调了对 Data Science Stack 的云基础设施优化。通过与 Kubernetes 的集成和对 Ubuntu 的原生支持,在混合云或多云环境中部署和扩展变得更容易,从而受益于强大的安全基础设施。“这消除了管理包依赖或计算资源配置的负担,只需简单的命令即可由 AI 从业人员执行,”

Canonical 的 Silicon Alliance 生态系统负责人 Chris Schnabel 表示。“默认情况下,DSS 包括对 Jupyter Notebook 用于模型开发、MLflow 用于实验跟踪和模型注册表,以及 Pytorch 和 Tensorflow 等机器学习框架的访问。然而,用户可以根据他们的使用案例定制 Data Science Stack 并添加新的库。”