分享免费的编程资源和教程

网站首页 > 技术教程 正文

MaxFrame AI Function:轻松调用大模型处理海量数据

goqiw 2025-05-02 18:23:56 技术教程 8 ℃ 0 评论

在当下人工智能快速演进的时代,选取、部署和使用大模型虽能改变数据处理方式,但却存在技术要求和成本限制。而 MaxFrame AI Function 却能轻松打破这一限制,它内置多种大模型,无需考虑模型部署等问题,还能调用阿里云灵积平台的 LLM API,让你轻松处理海量数据,快来一起探索吧!

MaxFrame AI Function 详解

MaxFrame AI Function 是阿里云 MaxCompute 平台推出的 AI 功能,支持调用 Qwen 2.5 和 Deepseek-R1-Distill-Qwen 系列大模型,简化了大模型部署与调用流程,降低了技术门槛。

背景介绍

当下,以大语言模型为代表的人工智能(AI)正在快速演进,深刻改变着我们分析、处理与使用数据的方式。然而,选取、部署和使用好大模型具备一定的技术要求和开发成本,限制了用户利用 AI 批量处理和分析海量数据的能力。

MaxFrame 产品介绍

MaxFrame 是阿里云自研大数据平台 MaxCompute 提供的面向 Data + AI 领域的分布式计算方案,依托于 MaxCompute 业界领先的查询处理引擎、大规模弹性计算能力,以及存储的海量数据,提供了兼容 Pandas API 的 DataFrame 表示层语义,支持用户利用熟悉的 Python 生态进行敏捷、高效的数据清洗、机器学习训练和离线模型推理等计算任务,并在一些典型的用户场景中展现了明显的性能和性价比优势。

MaxFrame AI Function 功能

  • 内置大模型:AI Function 内置 Qwen 2.5 和 Deepseek-R1-Distill-Qwen 系列大模型,如 Qwen 2.5-7B-instruct、Qwen 2.5-3B-instruct、Qwen 2.5-1.5B-instruct、Qwen 2.5-0.5B-instruct、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-1.5B 等,这些模型均离线托管在 MaxCompute 平台内部,用户无需关心模型下载、分发以及 API 调用的并发上限问题。
  • 调用 DashScope API:除了支持 MaxCompute 离线托管的内置模型,对于需要处理和理解复杂文本数据的场景,AI Function 也支持调用阿里云灵积平台 (DashScope) 提供的 LLM API,如 QwenMax、DeepSeek R1 满血版等,用户可自行申请 DashScope ApiKey,确定灵积 API 的限流策略,并在 AI Function 中设置和使用。
  • 简单易用的接口:AI Function 提供了简单的 generate 接口,允许用户选择模型种类,并以表和 prompts 作为参数输入执行。在接口执行中,MaxFrame 会先对表数据进行切分,根据数据规模设置合适的并发度并启动 worker 组执行计算任务,每个 worker 对输入的数据行使用用户传入的 prompts 参数为模板进行渲染并构建模型输入数据,来调用 worker 中本地启动的大模型进行推理,并将推理结果和成功状态写入 MaxCompute 表中。

使用方式

  1. 开通 MaxCompute
  2. 安装 MaxFrame 最新的客户端 pip install maxframe -U
  3. 从零开始使用 MaxFrame 可以查看快速开始,这里以本地运行作为参考,通常需要从使用 MaxFrame SDK 创建一个 Session 开始:
import os
from maxframe import new_session
from odps import ODPS
import logging
logging.basicConfig(level=logging.INFO)
# 使用MaxFrame相关账号初始化ODPS
o = ODPS(
    os.getenv('ALIBABA_CLOUD_ACCESS_KEY_ID'),
    os.getenv('ALIBABA_CLOUD_ACCESS_KEY_SECRET'),
    project='your-default-project',
    endpoint='your-end-point',
)
# 初始化MaxFrame会话
session = new_session(odps_entry=o)
  1. 创建 DataFrame:
import maxframe.dataframe as md
query_list = [
    "地球距离太阳的平均距离是多少?",
    "美国独立战争是从哪一年开始的?",
    "什么是水的沸点?",
    "如何快速缓解头痛?",
    "谁是《哈利·波特》系列中的主角?",
]
df = md.DataFrame({"query": query_list})
  1. 使用 ManagedTextLLM 生成答案:
from maxframe.learn.contrib.llm.models.managed import ManagedTextLLM
llm = ManagedTextLLM(name="qwen2.5-1.5b-instruct")
# prompts 模板
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "请回答如下问题:{query}"},
]
result_df = llm.generate(df, prompt_template=messages)
print(result_df.execute())

应用案例

  1. 文本风控分类 - 使用 DeekSeek-R1-Distill-Qwen 模型:Deepseek-R1-Distill-Qwen 模型具备深度推理能力,在风控场景中表现出色,能够对文本进行分类、情感分析、文本质量评估等多项任务,并详细输出思维链和逻辑推理过程。
  2. 文本结构化信息提取 - 使用 Qwen 2.5 模型:MaxFrame AI Function 能够轻松从非结构化数据(如简历)中提取结构化信息,以 json 格式返回,包括姓名、教育经历、工作经历等。
  3. 文本摘要生成 - 使用 Qwen 2.5 模型:LLM 能够用更少的文本和干净的内容来概括和提取原文的主要含义,MaxFrame AI Function 可以对长文本进行摘要、大纲生成、关键词抽取等操作。

优点

  1. 使用便捷:用户把数据导入 MaxCompute 表之后,调用 MaxFrame 的 read_odps_table 接口就可以构建出 DataFrame 对象,把该对象和编写好的 prompts 通过 llm.generate 接口传入并调用 execute 来执行,得到推理后的 DataFrame 对象,极大提升了开发效率。
  2. 低运维成本:模型完全由 MaxCompute 离线托管,用户无需关心模型的选取、下载、部署、启动以及运行监控和错误处理等复杂繁琐的过程,只需要聚焦在数据处理逻辑编写,以及 prompts 调优等业务最关键的方面即可,极大降低了使用大模型能力处理数据的学习和使用成本。

结语和展望

MaxFrame 提供的 AI Function 具备强大的能力和巨大的应用潜力,未来将不断完善并增加更多功能,如增加多模态内置模型、支持用户上传和管理自定义微调模型、集成阿里云 PAI 平台服务等,为用户提供更高效、灵活的解决方案。

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表