关注我们,更多资讯
近日,上海财经大学统计与管理学院、数量金融与风险管理研究中心张立文副教授领导的金融大语言模型课题组(SUFE-AIFLM-Lab),在我校数据科学与统计研究院与实验中心超算平台的支持下,联合金融学院、滴水湖高级金融学院,推出最新FinEval大语言模型评测基准与结果,这一更新旨在推动金融AI技术的应用和安全性研究。
该项目由上海财经大学统计与管理学院、数量金融与风险管理研究中心张立文副教授,技术顾问复旦大学大数据学院魏忠钰副教授,上海财经大学统计与管理学院博士生郭鑫、刘志强、硕士生刘赵伟以及课题组核心成员辛柏嬴、曹涵阳、蔡维格牵头完成。组内成员研究方向包括统计理论、大数据与人工智能分析、深度学习、量化投资和大模型等,具有统计、大数据、人工智能、计算机以及金融等复合背景。
课题组汇总了FinEval四代评测结果,发布了FinEval中文语境金融领域评测总排行榜,反映了我院在金融领域AI研究的持续进展。本文将依次介绍FinEval四代评测基准与结果以及评测总排行榜。
FinEval第二代金融行业知识是一个包含高质量主客观文本问答题的集合,涵盖投顾、投研、运营等领域。它包括1434个问题,涵盖了10个不同的行业应用场景。FinEval二代提供了一个更全面的金融行业知识能力评估基准,利用财经网站数据爬取+GPT-4生成的方式构造数据集,评估不同应用场景下大语言模型的泛化能力。从结果可以看出,在文本问答类型的金融任务中,GPT系列表现最好,国产开源模型也有较好的表现,排名靠前者的平均得分与GPT系列差距不大,还有一定的进步空间。
FinEval第三代评测结果如下:
FinEval中文金融领域评测总排行榜汇总了FinEval一代至四代的所有结果的加权平均,(其中金融行业知识部分得分为综合主客观题目评测的平均结果)四代评测结果的权重则由每一代的题目数量除以FinEval题目总数量得到。
从结果可以看出GPT-4表现最好,在四大维度上的平均得分仍然超过70,同系列的ChatGPT的平均得分也在60以上,说明OpenAI所开发的GPT系列模型仍处于行业领先地位。而在国内开源模型中,Qwen-14B-Chat以及InternLM2-20B-Chat排名靠前,平均得分也都超过60。同时,XuanYuan-70B-Chat平均得分超过60且超越了ChatGPT0.6分。对比通用模型与金融模型,通用模型的能力相对更强,但金融模型也有较好的表现。观察基于Baichuan-13B-Chat训练的金融模型DISC-FinLLM以及通用模型ChatGLM3-6B,二者表现仅有1.3分的差距,更进一步展示了金融模型的发展前景。
FinEval评估基准最新版本目前已发布,欢迎对大模型感兴趣的同学以及在数据、算力、金融等方面的学界或业界合作伙伴与张立文副教授联系。后续课题组将继续推出更多科研成果。
FinEval评估基准项目GitHub地址:
https://github.com/SUFE-AIFLM-Lab/FinEval
论文地址:https://arxiv.org/abs/2308.09975
评测文档:https://fineval.readthedocs.io
联系邮箱:zhang.liwen@shufe.edu.cn
审核:李文东
———————————
数据科学与统计研究院
微信号:instituteofbigdata
长按二维码识别关注