上财发布全国高校首个金融领域大模型评测体系!四大能力评测维度出炉
图片来源于网络,如有侵权,请联系删除
21世纪经济报道记者李览青 上海报道
随着人工智能技术的蓬勃发展,通用大模型与行业大模型竞相涌现,开启金融行业的智能化变革浪潮。无论从全球还是国内金融机构实践来看,大模型技术已涵盖风险管理、客户服务等诸多领域。但金融机构落地大模型应用时,由于范式大模型选型、架构调整设计、技术验证等环节复杂,尚未有典型的落地案例可以在行业内规模化推广。
图片来源于网络,如有侵权,请联系删除
基于大模型的不同能力视角,为金融机构在不同业务场景下落地大模型提供参考,在5月25日上海财经大学滴水湖高级金融学院2024年度大会上,滴水湖高级金融学院联合上财统计与管理学院发布了金融大模型测评体系。据了解,这是国内高校首次发布金融领域大模型的评测体系,从第三方角度推出相关标准,促进金融行业大模型的落地应用发展。
图片来源于网络,如有侵权,请联系删除
在接受21世纪经济报道记者采访时,上海财经大学校长、党委副书记、滴水湖高级金融学院院长刘元春指出:“今年发布的金融大模型评测,实际上就是要为监管机构、为未来金融大模型的发展使用,提供相应的监管标准,为更多商业企业进一步完善金融大模型提供一些方向。”刘元春表示,这些研究具有前瞻性的跨界效应,这也是头部高级金融学院的重要使命。
四大维度全面测评十项开闭源大模型
“我们曾调研了数十家开闭源大语言模型的发展趋势,希望能够通过我们的研究,发掘何种金融大模型能够真正赋能到金融机构,乃至整个金融行业。”测评团队负责人上海财经大学统计与管理学院和滴水湖高级金融学院联聘张立文教授向21世纪经济报道记者表示。
(测评团队负责人上海财经大学统计与管理学院和滴水湖高级金融学院联聘教授张立文)
据张立文介绍,本次测评选取了10个具有代表性的开闭源大模型产品,其中既包括海内外的通用大模型,也包括金融领域的开源大模型产品。具体来说,测评对象包括GPT-4、ChatGPT、百川智能发布的Baichuan2-13B-Chat、智谱AI和清华大学KEG实验室联合发布的ChatGLM3-6B、上海AI实验室与商汤共同发布的书生·浦语大模型InternLM2-20B-Chat、复旦大学NLP发布的通用大模型moss-moon-003-sft、阿里巴巴通义千问Qwen-14B-Chat、度小满金融发布的轩辕大模型XuanYuan-70B-Chat、复旦大学DISC研发并开源的金融大模型DISC-FinLLM,以及海外开源金融大模型FinGPT。
评估标准层面,张立文团队选取金融学术知识、金融业务知识、金融安全能力以及金融智能体能力等四大维度,对前述大模型产品进行评估。
具体来说,金融学术知识测试主要由4661道高质量多项选择题构成,包含金融、经济、会计和证书等学术领域,涵盖了34个不同的学术科目;金融业务知识测试由1434道高质量文本问答题的集合,涵盖投顾、投研、运营等领域。它包括1434个问题,涵盖了10个不同的行业应用场景;金融安全能力测试由1640条专有选择题对金融大模型安全能力进行评测,包括了软件与应用、网络与系统保护、安全分析以及漏洞防护等四大维度;金融智能体能力测试,则是通过推理规划、长程记忆、工具应用等三大核心能力,结合调用API、检索API、规划API、长程对话、多文档问答、金融任务、思维链、检索增强等八大任务指标共计607条中文数据进行评测,旨在评估大模型的实际应用能力。
从评测结果来看,GPT-4在四个维度指标下的得分均遥遥领先。在金融学术知识方面,通义千问、轩辕大模型、书生·浦语大模型等国产开源模型也表现出色。在金融业务知识测试方面,除了GPT系列,百川大模型、通义千问、轩辕大模型在客观问答题下表现较好,体现出各类大模型在不同金融应用场景下的指令跟随能力与理解能力;书生·浦语大模型、通义千问、轩辕大模型在主观简答题中的文本问答类金融任务中表现较好,与GPT系列差别不大。在金融安全能力方面,书生·浦语大模型、通义千问与百川大模型表现较好,平均准确度处于60%以上,但相较GPT-4在80%以上的平均准确度,还需要进一步加强。金融智能体方面,GPT-4在各种维度的金融任务中的平均准确度接近90%,而国产开源模型中,百川大模型与通义千问的表现更好,其能力十分接近ChatGPT,但距离GPT-4还有较大上升空间,轩辕大模型排名相对靠后。
金融大模型落地,应综合考虑业务、技术、成本与风险
“金融大模型的应用评测与通用大模型评测之间存在深刻的关联性。”
当被问及为何评测对象兼顾通用大模型与金融行业大模型,张立文向21世纪经济报道记者表示,大模型金融应用能力需要建立在通用能力的基础之上,才能确保有能力支持执行更为复杂的金融任务。他指出,这些基础能力涵盖语言理解、指令执行、逻辑推理、数学计算以及内容生成等多个方面。
此外,金融大模型还需要具备专业的金融知识与技能。“这类似于在通识教育的基础上发展出专门的职业技能。”张立文表示。
从目前行业实践来看,大模型在金融行业已展现出一定的业务能力,然而,训练语料不足、大模型在实际业务场景落地较难、大模型幻觉等问题依然存在。
对此,张立文表示,大模型在金融行业的落地,要综合考虑业务、技术、成本与风险。“提升业务结合度,不仅需要开发人员对金融业务场景下的各类数据有深入理解,更重要的是需要与金融专家对齐,使用既贴合场景又适合训练的金融业务数据来训练大模型,从而提升相关能力。”
张立文指出,在技术层面,模型的训练不能仅停留在微调表面,而是要提高模型对各种参数的感知,同时,金融机构应当考虑推理成本,使用参数量相对更小的模型来节约算力成本,并建立起完善的评估与监控体系,确保金融大模型与实际应用中的准确性、稳定性与安全性。
版权声明
本文仅代表作者观点,不代表xx立场。
本文系作者授权xxx发表,未经许可,不得转载。