-
SWE-Lancer:OpenAI开源的大模型代码能力测试基准
SWE-Lancer 是 OpenAI 开源的一款 大模型能力评估基准,旨在测试大语言模型在实际软件开发任务中的表现。与传统的测试基准不同,SWE-Lancer采用了端到端测试方法,通过模拟真实的开发流程,评估模型在复杂任务中的综合能力。 -
TransBench:阿里国际等推出的多语言翻译评测体系
TransBench 是首个面向行业应用的综合性多语言翻译评估系统。它根据通用翻译标准、垂直行业规范和文化本地化要求,通过精心策划的数据集,量化不同行业和语言环境中翻译模型的性能。