image.png

核心指标解释

Temperature(温度): 控制AI选词时的"胆量大小"。数值越高越敢冒险,越低越保守。它直接影响概率分布的"尖锐程度"。

Top P(核心采样) :控制AI的"选择范围",只从累积概率前P%的词里挑。你可以理解为AI脑洞大小。数值越高越有创意,但也越容易跑偏。对提示词优化来说,需要在"稳定可用"和"有新意"之间找平衡。

存在惩罚和频率惩罚 :这俩是防止AI变"复读机"的。提示词优化最怕就是给你一堆换汤不换药的建议,所以这两个参数必须调好。

最大Token数 :控制输出长度。提示词优化通常需要解释+建议+示例,太少说不清楚,太多又啰嗦。

生成数量 :决定一次给你几个备选方案。这个对比较和筛选很关键。

<aside> ☀️

分析模式: Temperature=0.3,用于深度分析现有提示词的问题

优化模式: Temperature=0.5,用于生成改进版本和新思路

Temperature的实际效果区间:

AI调试需要注意

Temperature(温度)和Top P(核心采样)会互相影响。 如果把Temperature调高让AI大胆一点,同时又把Top P调高扩大选择范围,那就是"胆大+范围广",很容易输出一堆不着调的内容。反之,两个都调低就变成"胆小+范围窄",AI就成了背书机器。**最好让Temperature主导。**因为Temperature的控制更线性,调整效果更可预测。特别是对DeepSeek这种对中文理解比较稳定的模型,用Temperature主导会更好控制。

**另外惩罚参数调太高,超过0.6中文表达就开始别扭了。**如果你的API同时有temperature和top_p,只调一个就行。生成数量设多了费钱,先用1个测试,确定方向再批量生成。

**返回对数概率那些技术参数,对大多数人来说基本没用,除非你要深入分析AI的决策过程。**日常使用直接忽略。

<aside> ☀️

调试策略(避免瞎调参数):

第一步: 从Temperature=0.4开始测试,用你常优化的5个提示词跑一轮。

第二步: 如果输出太死板缺乏新意,每次增加0.1,直到满意为止。如果输出开始跑偏或逻辑混乱,每次减少0.1。

第三步: 确定合适的Temperature后,其他参数基本不用大改。

别追求完美。 不同类型的提示词对参数敏感度不同,技术类要低Temperature,创意类可以高一点。

</aside>


<aside> ⏱️

稳态优化模式(用于改进现有提示词)

这套配置偏保守,适合对现有提示词做精细化改进,输出稳定可复现。

</aside>

<aside> ⏱️

发散创新模式(用于头脑风暴新思路)

这套让AI更大胆,适合探索全新的表达方式和角度。

</aside>

<aside> ⏱️

批量评估模式(用于对比多个方案)

专门用来评估和打分,要求输出一致性高。

</aside>