“大海捞针” 测试是一项针对大语言模型上下文记忆检索的特殊能力测试,我之前给你介绍的 Kimi Chat 是第一个在 128K 窗口大小上获得满分的国产 LLM 。
GLM-4宣称具有「大海捞针」能力,即能处理超过100K字符的对话上下文窗口,而且不产生幻觉。这让我首先想到的是长文翻译功能。
请帮我将下面的文章翻译成英文,并注意保留所有细节,包括 Markdown 格式,以及图片和文内链接等。
无论是使用 GPT-4 原声对话,或是我自己开发的 GPTs「博客文章中译英」(已经发布在 GPTs Store 上),还是 Kimi Chat,我都尝试过输入这么长的文章,它们通常都能继续输出内容。当然由于对话上下文的长度限制,它们可能无法一次性完整输出整篇文章的翻译结果。
这种情况让我感到非常苦恼。我想给智谱提个建议 —— 当 GLM-4 崩溃时,能否保留已经输出的文本内容?毕竟前面的内容已经输出了,我可以将其复制出来继续使用,然后指定从某个特定位置继续翻译。
我看得一头雾水 —— 我这不是在绘图模式下吗?你倒是画啊?!
这表明尽管 GLM-4 是中文模型,但在文字处理方面仍有待改进。画面右下角特意加了一个 “AI 生成” 标签,表明这是 AI 生成的,以防止滥用。
我认为 GPT-4(借助 DALLE-3)总体上画得还不错。除了机器人面前这张纸不知为何飞起来了,其他方面挺好的。
之后,我又尝试了英文提示词。我在想,作为一个中文的大型语言模型,它增强了接受中文提示词的能力后,是否在接受英文提示词方面会有所妥协。
另外,不得不提一句,图中的中年男子眼睛绘制得还有改进的余地。
这意味着一旦 GLM-4 崩溃,之前上传的文件和所有的对话记录就像被抹除了一样。
我只好重新开始,打开了一个新的对话框,再次上传了 loans.csv 文件。
在数据分析中,用户的决策主要是为了决定是否继续某个步骤,比如刚才提到的网格搜索。我是否可以在改进特征选择后跳过网格搜索,直接进入下一步。但如果我不知道错误的具体原因,我怎么知道是否值得让 GLM-4 重新尝试?
我建议 GLM-4 应该提供给用户更详细的错误提示信息。至少要告诉我错误的类型和一些简单分析,这样我才不会盲目尝试。
接着,它描述了我感兴趣的领域,我参与的课题,以及我与张庆薇、张晋合著在《图书情报知识》上发表的论文。
此外,GLM-4 还提到了我在知乎等社交媒体平台上的活跃,分享关于科研工具和技术的见解和经验。「这些活动不仅在教学和科研方面取得了成就,还对学术界和公众产生了积极影响」。我对这些赞誉表示感谢。
GLM-4有些功能确实让人印象深刻。例如绘图功能完成度很高,质量也很好;数据分析方面也做得不错,特别是能够自动生成预测模型,显示出GLM-4在软件包配置和调用执行方面的能力。当分析结果显示准确度不高时,GLM-4还能提供合理的分析和建议。我认为,这对于国内的研究人员,特别是IT和数据科学之外专业的研究生来说,会很有帮助。
GLM-4也有一些地方需要改进。首先是输入文本的长度限制,我希望它能够处理更长的文本,至少超过8000字符的文章扔进去不要报错。其次是错误处理方式。我建议提高GLM-4的稳定性,至少在出现对话崩溃时,不要丢失之前的所有输出。
你尝试过后,对 GLM-4 有什么使用体会?欢迎留言,咱们一起交流讨论。
祝 AI 效率工具使用愉快!
如果你觉得本文有用,请充电。
如果本文可能对你的朋友有帮助,请转发给他们。
欢迎关注我的专栏「科研利器」,以便及时收到后续的更新内容。