背景与意义AI 在复杂任务中的角色日益重要,但如何协作才能发挥最大价值?本文探索人与AI协作处理复杂任务的方式,怎样合作的方式会更有效。 研究目标
一、实验结果概览对比两种方式的测试结果,纯AI自主模式在整体表现上优于流程化控制,主要评判标准包括典型性、差异性、契合性和有效性。然而,纯AI自主方式的输出颗粒度较为粗糙,仍有优化空间。 总结: 接下来分别分享下这个过程 二、方式一:流程化控制2.1 模型需求与选择:本研究需要具备通用推理、联网搜索能力的模型,备选方案包括 DS、千问、GPT。由于 Deepseek R1 不能联网,且本次研究依赖最新产品数据,暂不测试。同时,千问的推理能力未达预期,最终选用 GPT(4o mini、o3 mini)。 2.2 流程主线我将这个过程分为了两个阶段,预热和制作用户画像,同时通过关键节点的控制来进行流程的构建 预热的目的
预热结果: 结果基本达标,控制器中的关键节点问题都能回答上来,它可以做为用户体验专家来做接下来的任务 2.3 制作用户画像找到这个流程的关键节点,只对关键节点进行管控,以下分别从流程、产品了解、用户群体的划分、用户画像的坐标去做为节点控制 流程合理:整体流程架构正确,确保用户画像的生成逻辑连贯。 产品信息:AI 具备联网能力,能获取并整合最新产品数据。 用户群体划分:基础分类较为全面,但仍需进一步优化细分标准。 划分维度:基于用户需求和行为模式,设定了 4 个核心划分维度。 画像维度:基本覆盖主要特征,但颗粒度仍可优化。 画像质量:当前生成的画像相似度较高,缺乏足够的差异化,未能充分展现更多典型用户特征。 2.4 总结流程化控制过度干预 AI 生成过程,导致任务执行零散、不连贯,影响结果质量。此外,这种方式容易出现过拟合,限制 AI 的灵活性,同时微调成本高,调整难度大。 三、方式二:纯AI自主3.1 模型需求与选择本研究需要具备 推理能力和联网搜索功能的模型,备选方案是 Qwen2.5-Max,该模型是千问的最新推理模型,可以自主推理并完成任务,仅需提供清晰的需求描述,AI 即可规划执行。提示词的精准度 是影响最终结果质量的关键因素。 3.2 提示词对结果的影响用户模型结果:整体分类清晰,但细分维度较为粗糙,部分画像存在重叠。 用户模型结果:分类相对合理,但画像的定位较粗略。可将相关需求细化并融入提示词,以提升生成质量。 通过两个提示词对比结果,只要提示词够精准,质量会更高。 过程甚至有图表示意和属性权重 3.2 总结在纯AI自主模式下,推理模型可自主完成复杂任务,核心挑战在于如何精准描述需求。提示词的清晰度直接影响 AI 的理解和执行效果,决定最终生成结果的质量。 四、研究启发与AI协作的思考4.1 AI 在用户模型生成中的表现
4.2 从节点控制到端到端优化:AI协作模式的演变(1)节点式控制的局限
(2)端到端优化 OpenAI 的 Deep Research采用端到端优化思路,基于 o3 模型 强化 AI 对工具的使用能力,使其能够自主拆解目标任务、执行任务并动态调整策略、独立使用工具进行分析和推理。 这一模式让 AI 不再只是被动执行,而是主动优化任务流程,探索出更高效的解决方案。这也启发我们重新思考 AI 在未来工作流中的角色定位 4.3 AI 时代的协作新思考
在流程化控制和纯 AI 自主之间,我还探索了半控制的方式。这种方法在适度干预 AI 任务执行的同时,仍然保留 AI 的自主推理能力,使其在效率与准确性之间找到平衡点。然而,本次文章的重点不在此,因此不作详细展开。 实验结果: 在相同的引导方式下,不同 AI 模型生成的用户画像趋于一致,均涵盖 社交型、探索型、创作型、情感陪伴型 四大类别。相较于纯流程化控制和完全自主方式,半控制方式的结果质量更高。 五、说明本次实验并非严格的科学实验,而是一次个人探索,未采用严谨的控制变量法。实验过程中,提示词的表达方式也会影响结果,因此结论具有一定的局限性。 我希望分享的重点在于:在大多数人无法完美编写提示词的情况下,流程化控制可能反而降低了最终结果的质量。 本文由@玄清 原创发布于人人都是产品经理,未经作者许可,禁止转载。 题图来自Unsplash,基于CC0协议。 该文观点仅代表作者本人,人人都是产品经理平台仅提供信息存储空间服务。 |