回复智能未来: 用R^2来判断模型的拟合程度,然后用MAPE来判断预测值的误差。 一般情况下,如果R^2超过0.8,或者MAPE低于5%(月预测),应该就是较好的模型了
下载贤集网APP入驻自媒体
为了评估大语言模型性能,一些大模型客户正寻求一种新颖的方法:使用其他大语言模型来评估大语言模型。Arize AI联合创始人兼首席执行官Jason Lopatecki认为,这种方法最适合具有特定正确答案的狭窄任务,例如要求大语言模型对对象进行分类或回答是或否问题。Log10的联合创始人兼首席执行官Arjun Bansal称,开发人员可以可靠地使用一个大语言模型来检测由另一个大语言模型支持的应用程序是否正在生成有问题的内容,例如仇恨言论。