网站首页 > 技术教程正文

MaxFrame AI Function:轻松调用大模型处理海量数据

goqiw 2025-05-02 18:23:56 技术教程 71 ℃ 0 评论

在当下人工智能快速演进的时代，选取、部署和使用大模型虽能改变数据处理方式，但却存在技术要求和成本限制。而 MaxFrame AI Function 却能轻松打破这一限制，它内置多种大模型，无需考虑模型部署等问题，还能调用阿里云灵积平台的 LLM API，让你轻松处理海量数据，快来一起探索吧！

MaxFrame AI Function 详解

MaxFrame AI Function 是阿里云 MaxCompute 平台推出的 AI 功能，支持调用 Qwen 2.5 和 Deepseek-R1-Distill-Qwen 系列大模型，简化了大模型部署与调用流程，降低了技术门槛。

背景介绍

当下，以大语言模型为代表的人工智能（AI）正在快速演进，深刻改变着我们分析、处理与使用数据的方式。然而，选取、部署和使用好大模型具备一定的技术要求和开发成本，限制了用户利用 AI 批量处理和分析海量数据的能力。

MaxFrame 产品介绍

MaxFrame 是阿里云自研大数据平台 MaxCompute 提供的面向 Data + AI 领域的分布式计算方案，依托于 MaxCompute 业界领先的查询处理引擎、大规模弹性计算能力，以及存储的海量数据，提供了兼容 Pandas API 的 DataFrame 表示层语义，支持用户利用熟悉的 Python 生态进行敏捷、高效的数据清洗、机器学习训练和离线模型推理等计算任务，并在一些典型的用户场景中展现了明显的性能和性价比优势。

MaxFrame AI Function 功能

内置大模型：AI Function 内置 Qwen 2.5 和 Deepseek-R1-Distill-Qwen 系列大模型，如 Qwen 2.5-7B-instruct、Qwen 2.5-3B-instruct、Qwen 2.5-1.5B-instruct、Qwen 2.5-0.5B-instruct、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-7B、DeepSeek-R1-Distill-Qwen-1.5B 等，这些模型均离线托管在 MaxCompute 平台内部，用户无需关心模型下载、分发以及 API 调用的并发上限问题。
调用 DashScope API：除了支持 MaxCompute 离线托管的内置模型，对于需要处理和理解复杂文本数据的场景，AI Function 也支持调用阿里云灵积平台 (DashScope) 提供的 LLM API，如 QwenMax、DeepSeek R1 满血版等，用户可自行申请 DashScope ApiKey，确定灵积 API 的限流策略，并在 AI Function 中设置和使用。
简单易用的接口：AI Function 提供了简单的 generate 接口，允许用户选择模型种类，并以表和 prompts 作为参数输入执行。在接口执行中，MaxFrame 会先对表数据进行切分，根据数据规模设置合适的并发度并启动 worker 组执行计算任务，每个 worker 对输入的数据行使用用户传入的 prompts 参数为模板进行渲染并构建模型输入数据，来调用 worker 中本地启动的大模型进行推理，并将推理结果和成功状态写入 MaxCompute 表中。

使用方式

开通 MaxCompute
安装 MaxFrame 最新的客户端 pip install maxframe -U
从零开始使用 MaxFrame 可以查看快速开始，这里以本地运行作为参考，通常需要从使用 MaxFrame SDK 创建一个 Session 开始：

import os
from maxframe import new_session
from odps import ODPS
import logging
logging.basicConfig(level=logging.INFO)
# 使用MaxFrame相关账号初始化ODPS
o = ODPS(
    os.getenv('ALIBABA_CLOUD_ACCESS_KEY_ID'),
    os.getenv('ALIBABA_CLOUD_ACCESS_KEY_SECRET'),
    project='your-default-project',
    endpoint='your-end-point',
)
# 初始化MaxFrame会话
session = new_session(odps_entry=o)

创建 DataFrame：

import maxframe.dataframe as md
query_list = [
    "地球距离太阳的平均距离是多少？",
    "美国独立战争是从哪一年开始的？",
    "什么是水的沸点？",
    "如何快速缓解头痛？",
    "谁是《哈利·波特》系列中的主角？",
]
df = md.DataFrame({"query": query_list})

使用 ManagedTextLLM 生成答案：

from maxframe.learn.contrib.llm.models.managed import ManagedTextLLM
llm = ManagedTextLLM(name="qwen2.5-1.5b-instruct")
# prompts 模板
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "请回答如下问题：{query}"},
]
result_df = llm.generate(df, prompt_template=messages)
print(result_df.execute())

应用案例

文本风控分类 - 使用 DeekSeek-R1-Distill-Qwen 模型：Deepseek-R1-Distill-Qwen 模型具备深度推理能力，在风控场景中表现出色，能够对文本进行分类、情感分析、文本质量评估等多项任务，并详细输出思维链和逻辑推理过程。
文本结构化信息提取 - 使用 Qwen 2.5 模型：MaxFrame AI Function 能够轻松从非结构化数据（如简历）中提取结构化信息，以 json 格式返回，包括姓名、教育经历、工作经历等。
文本摘要生成 - 使用 Qwen 2.5 模型：LLM 能够用更少的文本和干净的内容来概括和提取原文的主要含义，MaxFrame AI Function 可以对长文本进行摘要、大纲生成、关键词抽取等操作。

优点

使用便捷：用户把数据导入 MaxCompute 表之后，调用 MaxFrame 的 read_odps_table 接口就可以构建出 DataFrame 对象，把该对象和编写好的 prompts 通过 llm.generate 接口传入并调用 execute 来执行，得到推理后的 DataFrame 对象，极大提升了开发效率。
低运维成本：模型完全由 MaxCompute 离线托管，用户无需关心模型的选取、下载、部署、启动以及运行监控和错误处理等复杂繁琐的过程，只需要聚焦在数据处理逻辑编写，以及 prompts 调优等业务最关键的方面即可，极大降低了使用大模型能力处理数据的学习和使用成本。

结语和展望

MaxFrame 提供的 AI Function 具备强大的能力和巨大的应用潜力，未来将不断完善并增加更多功能，如增加多模态内置模型、支持用户上传和管理自定义微调模型、集成阿里云 PAI 平台服务等，为用户提供更高效、灵活的解决方案。

上一篇： Python生成器入门:用“按需生产”思维处理海量数据
下一篇：腾讯云国际站:为什么EMR适合大数据处理?

网站首页 > 技术教程正文

MaxFrame AI Function:轻松调用大模型处理海量数据

MaxFrame AI Function 详解

背景介绍

MaxFrame 产品介绍

MaxFrame AI Function 功能

使用方式

应用案例

优点

结语和展望

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 技术教程 正文

MaxFrame AI Function:轻松调用大模型处理海量数据

MaxFrame AI Function 详解

背景介绍

MaxFrame 产品介绍

MaxFrame AI Function 功能

使用方式

应用案例

优点

结语和展望

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 技术教程正文

取消回复欢迎你发表评论: