数据诊所｜ FinEval大模型推新冲榜

日期：2024-12-24 作者：ira0v

核心提示：关注我们，更多资讯近日，上海财经大学统计与管理学院、数量金融与风险管理研究中心张立文副教授领导的金融大语言模型课题组（SU

关注我们，更多资讯

近日，上海财经大学统计与管理学院、数量金融与风险管理研究中心张立文副教授领导的金融大语言模型课题组（SUFE-AIFLM-Lab），在我校数据科学与统计研究院与实验中心超算平台的支持下，联合金融学院、滴水湖高级金融学院，推出最新FinEval大语言模型评测基准与结果，这一更新旨在推动金融AI技术的应用和安全性研究。

该项目由上海财经大学统计与管理学院、数量金融与风险管理研究中心张立文副教授，技术顾问复旦大学大数据学院魏忠钰副教授，上海财经大学统计与管理学院博士生郭鑫、刘志强、硕士生刘赵伟以及课题组核心成员辛柏嬴、曹涵阳、蔡维格牵头完成。组内成员研究方向包括统计理论、大数据与人工智能分析、深度学习、量化投资和大模型等，具有统计、大数据、人工智能、计算机以及金融等复合背景。

课题组汇总了FinEval四代评测结果，发布了FinEval中文语境金融领域评测总排行榜，反映了我院在金融领域AI研究的持续进展。本文将依次介绍FinEval四代评测基准与结果以及评测总排行榜。

FinEval第二代金融行业知识是一个包含高质量主客观文本问答题的集合，涵盖投顾、投研、运营等领域。它包括1434个问题，涵盖了10个不同的行业应用场景。FinEval二代提供了一个更全面的金融行业知识能力评估基准，利用财经网站数据爬取+GPT-4生成的方式构造数据集，评估不同应用场景下大语言模型的泛化能力。从结果可以看出，在文本问答类型的金融任务中，GPT系列表现最好，国产开源模型也有较好的表现，排名靠前者的平均得分与GPT系列差距不大，还有一定的进步空间。

FinEval第三代评测结果如下：

FinEval中文金融领域评测总排行榜汇总了FinEval一代至四代的所有结果的加权平均，(其中金融行业知识部分得分为综合主客观题目评测的平均结果)四代评测结果的权重则由每一代的题目数量除以FinEval题目总数量得到。

从结果可以看出GPT-4表现最好，在四大维度上的平均得分仍然超过70，同系列的ChatGPT的平均得分也在60以上，说明OpenAI所开发的GPT系列模型仍处于行业领先地位。而在国内开源模型中，Qwen-14B-Chat以及InternLM2-20B-Chat排名靠前，平均得分也都超过60。同时，XuanYuan-70B-Chat平均得分超过60且超越了ChatGPT0.6分。对比通用模型与金融模型，通用模型的能力相对更强，但金融模型也有较好的表现。观察基于Baichuan-13B-Chat训练的金融模型DISC-FinLLM以及通用模型ChatGLM3-6B，二者表现仅有1.3分的差距，更进一步展示了金融模型的发展前景。

FinEval评估基准最新版本目前已发布，欢迎对大模型感兴趣的同学以及在数据、算力、金融等方面的学界或业界合作伙伴与张立文副教授联系。后续课题组将继续推出更多科研成果。

FinEval评估基准项目GitHub地址：

https://github.com/SUFE-AIFLM-Lab/FinEval

论文地址：https://arxiv.org/abs/2308.09975

评测文档：https://fineval.readthedocs.io

联系邮箱：zhang.liwen@shufe.edu.cn

审核：李文东

———————————

数据科学与统计研究院

微信号：instituteofbigdata

长按二维码识别关注

本文地址：http://w.yusign.com/tjnews/1510.html 述古往 http://w.yusign.com/static/ , 查看更多

标签： 金融模型评测

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

点赞 0举报收藏 0打赏 0

更多>同类生活信息

相关文章

最新文章

推荐文章

推荐图文

生活信息

点击排行

• 中国信息协会常务理事朱克力：在人工智能赋能下	• 齐鲁工业大学金融专硕考研深度解析：招生计划、
• 腾讯科技申请服务器集群部署优化专利，提升服务	• 山东省级金融消保监管联动指引出炉
• 最准一码一肖100%精准老钱庄｜词语释义解释落实	• 招联金融找谁协商
• 平安银行创新金融动态，服务升级新进展	• 世界上金融专业最强的10所大学 , 全世界金融类
• 高并发下的金融系统：性能测试实战与优化全攻略	• 青岛义百度取得珩磨轮开齿设备专利，具有清理彻

数据诊所 ｜ FinEval大模型推新冲榜

数据诊所｜ FinEval大模型推新冲榜