AI入门第一课：把模型跑起来 - 谷动谷力

AI 大模型发展到现在，国内外都有在线和离线版本，那如何在自己本地部署大模型呢？本文分享了一种简单的办法，一起来看看吧。

我们经常能看到某某公司开源了一款 AI 大模型的新闻。这些模型都有着超强的能力，从生成大段的文字、逼真的图像，到理解和翻译不同语言，再到创造出令人叹为观止的音乐和艺术作品。

对于我们普通人来说，这些高科技听起来不仅遥不可及，而且似乎与我们的日常生活无关，他们像是只有那些天才和大神们才能操作和使用的。

但是这些强大的 AI 模型，并不止是大神们才能接触和使用，实际上，这些模型的使用门槛其实不高。任何对 AI 感兴趣的人都可以轻松获取和使用这些模型，就像搭乐高积木一样，将它们组合起来，创造出你心目中的应用。

这一切既不需要深厚的技术背景，也不需要复杂的编程技能。只要你有想法和一丢丢的学习，这些强大的模型就能成为你随意操作的「乐高」，搭建出你设想的样子。

首先，第一步我们得知道去哪里找到这些模型，很简单，有一个神奇的网站叫：Hugging Face（https://huggingface.co/），这个网站本质就是一个大模型的托管网站，目前这个网站托管的 AI 模型超过 57 万。一些热门的模型，比如 meta 的 Llama 系列模型，google 的 Gemini 等都托管在这个网站上，任何人都可以访问并使用它们。

假设，我们现在要找一个模型，可以实现读图的功能，就是给它一张图片，它可以告诉我这个图片里的主要内容是什么。这个模型的逻辑如下图，非常简单，输入一张图片，输出一段图片的文本描述。

这个模型本质上就是一个图片到文本的模型，我们在 Hugging Face 里选择 Image-to-Text 的分类，然后从得到的结果里看排名第一个的模型，就是下图红框圈选的：Salesforce/blip-image-captioning-large，这个就是模型的名字。

点击模型进行模型的详情页，这里有模型的详细原理介绍，以及在线试用的功能，可以在这里直接体验模型的效果。

模型的使用涉及到模型的加载、预处理、模型推理和后处理步骤等，听起来似乎很复杂，但是不用担心，Hugging Face 还给我们提供了一套使用的工具，那就是 Transformers 库中的 pipeline 方法，pipeline 将前面提到的模型使用所有步骤封装成一个简单的函数调用。我们只需要使用这个函数方法，指定需要完成的任务类型，当然我们也可以指定特定的模型和配置来定制使用。Transformers 库是由 Hugging Face 公司开发的一个开源 Python 库，里面除了 pipeline 外，还有很多其它的方法和工具，这里就不细说了。

具体的使用其实就是几行 Python 代码就可以搞定，非常简单。这里额外说下，我们经常在使用写 python 的时候，需要安装编译器和配置环境，往往这些环境配置就已经消耗了我们的所有激情了。这里，感谢 google 大大提供的一个在线编程工具 colab，直接解决所有安装和环境问题。

随后编写的代码和解释如下，懂一点点 python 和编程的人，应该就能写出来。写完后点击代码侧边的运行按钮即可。

输出的文案是：arafed woman sitting on the ground with a camera and a tripod. （一位戴着头巾的女性坐在地上，旁边放着相机和三脚架。）基本识别出来图片中的主要内容。

如果我们有更复杂的想法，比如我们可以用得到的图片描述，再用 LLM 模型，帮助编写一个故事脚本，再通过一个文生视频模型，变成图片或者视频，具体的流程如下图所示。

因此，在 AI 时代来临之际，如果你是一个有想法的产品，那么可以自己通过这些多种多样的模型实现自己的想法。分享一个我看到的有意思的模型实践，利用 codeformer 模型，去除图片的马赛克，大家可以去 huggingface 上体验下，https://huggingface.co/spaces/sczhou/CodeFormer

突然感觉这个应用可能蛮有前景！你觉得呢？哈哈哈。我也是 AI 入门学习者，对于模型的使用还有很多其它的平台和方法，我也在摸索中，欢迎大家交流讨论～

专栏作家:南村小付，微信公众号：南村小付，人人都是产品经理专栏作家。快手高级产品经理，曾任职阿里，欢聚时代，7 年互联网产品设计运营经验。