提示构建有效的AI生态系统

更新时间：2021-10-13 08:51:24

导读大家好，我是本栏目的编辑郝帅，现在我给大家讲解一下上面的问题。在业务用例和垂直行业中，工程师和领导者不断讨论人工智能可以带来的价值

大家好，我是本栏目的编辑郝帅，现在我给大家讲解一下上面的问题。在业务用例和垂直行业中，工程师和领导者不断讨论人工智能可以带来的价值——通常，机会似乎是无穷无尽的。它可以预测你的兴趣，你认识的人或者你的下一份工作。

然而，我们往往忽略了大规模实现AI供电系统必须采取的步骤。部署人工智能在人才、计算资源和时间上代价高昂，要充分释放人工智能承诺的创新浪潮，开发者必须得到适当的授权和配备。事实上，成功的AI实现所需的许多关键要素与算法的细节关系不大，更多的是与它们的工具和流程有关。

其中一些工具和流程围绕着标准化最常用的工作流。这可以采取简单的形式，如列出常见功能的电子表格，也可以像完整的人工智能开发平台一样复杂。当我们在LinkedIn上扩展AI工作时，我们逐渐建立了后者，并创建了我们的“生产机器学习”(“Pro-ML”)程序，以提高开发人员的工作效率。

以下是我们通过这项工作积累的一些要点和技巧，供任何规模的组织参考。

清理数据，智能洞察。

部署人工智能的先决条件是彻底了解您的数据。AI模型的性能与其训练数据有着内在的联系，所以知道你需要使用干净的数据是非常重要的。然后，在选择用于培训的数据集时，与业务合作伙伴协作以了解最终的业务目标是有帮助的。比如想通过news Feed“增加参与度”，是以文章和帖子的点击率来衡量，还是以帖子的“赞”或评论来衡量？通过联合确定支持明确业务目标的最佳数据，您将设计一个更有效的模型。

选择训练数据时要考虑的另一个因素是如何标记它。数据是否有足够的上下文可以直接输入到模型中，或者是否需要注释？至于后者，非常重要的是创建一个“代码簿”或“操作手册”，为数据的分类设定标准。我曾经和一个专家团队合作，寻求手工标记数据集。当我们评估成品时，我们意识到它们之间的符合率小于0.2。这意味着专家注释者完全不同意，并且没有理由期望在这些数据上训练的模型会令人满意地运行。如果专家们不能就如何标记数据达成一致，那么期望像CrowdFlower(现在的图8)这样的服务的注释者有效地标记数据是不现实的。

在LinkedIn不同的产品线中，不同的团队正在使用人工智能来解决不同的问题(优化feed、确定招聘人员的合适性以及为您的下一个职业行动建议课程，仅举几例)。每个团队使用不同的管道来生成其机器学习模型所需的功能，因为每个用例都是不同的。然而，在这些团队中，我们一再看到类似的功能，并决定必须简化流程。

我们创建了功能市场框架，通过允许团队利用现有的功能和知识来帮助解决这个问题。Frame充当团队共享、查找和管理他们自己的机器学习模型的公共存储库。它的关键创新是从名称和语义中抽象出一个特性是如何被锚定的。这允许所有团队从相同的标准化功能模板开始，然后根据特定管道或环境的需求进一步定制它。当团队处理不同类型的项目时，市场可以防止重复工作，节省时间和资源。

积极维护模型。

模型会随着时间退化；它是机器学习生命周期中不可避免的一部分。我们通过主动的模型维护方法在LinkedIn上克服了这个问题。从一开始，当我们构建模型时，我们会以一种我们知道会让再培训变得更容易的方式来做。我们创建和测试的模型不会被认为是一个失败的实验，而是一个生产质量、代码评审的工件。这样，当我们重新训练模型时，我们就有了一个坚实的定义，可以使训练更加容易。

我们还参与“定期再培训”，以便在重新培训模型时实施固定的时间表。这有助于消除建模团队的一些认知负担，并确保在模型完全停止工作之前发现任何模型缺陷。我们还投资了医疗保健的绩效监控工具。虽然任何程度的监控都比没有监控好，但一个好的目标是自动监控，以便在某些指标超过预设阈值时发出警报。

实现AI部署可能只需要一些元素——GPU、模型、数据等。-但是在大规模组织中成功实现AI需要强大的支持工具包来支持开发人员。通过为开发人员提供围绕人工智能工作的最佳实践和工具，我们正在扩展以最佳方式应用人工智能的能力。

免责声明：本文由用户上传，如有侵权请联系删除！

标签：

上一篇:TensorFlow推出MLIR加速机器学习

下一篇:无监督学习主要用于发现数据中的模式和检测异常值

提示构建有效的AI生态系统

猜你喜欢

最新文章

热门文章

点击排行