[TechWeb] 4月15日,OpenAI推出了一个专门为开发人员创建的新型模型系列-GPT -4.1。该系列包括三个新成员:旗舰GPT-4.1,高速GPT-4.1 Mini,以及最小,最快,最经济的GPT-4.1 Nano。据报道,GPT-4.1系列模型在编码功能,复杂的教学合规性,长文本处理(首次支持一百万个令牌上下文,没有额外的成本)方面取得了重大改进,并且在所有方面的基本指标中都超过GPT-4O。值得注意的是,GPT-4.1系列仅由API提供。过去,OpenAI刚刚发布了针对新的未来大型AIP呼叫模型的法规,该模型需要组织NG AIP呼叫来完成验证过程,以解锁对最高级模型的访问并操作OpenAI平台。换句话说,“如果您无法通过验证,则不会让最新型号使用它。”尽管OpenAI的AIP组织的真实性支持200多个国家和地区,但中国大陆开发商仍面临资格限制。此外,Openai历史上最昂贵的大型模型是“已删除”。 OpenAI表示,GPT-4.5预览将从API中删除,因为GPT-4.1提供了增强或类似的性能,其成本较低和延迟的许多主要功能。 GPT-4.5预览在2025年7月14日的三个月内关闭,因此开发人员有足够的时间进行行动。 GPT-4.1三个旗舰的三种型号,GPT-4.1,优化性能的重点是编码,对教学的依从性和长期理解:1。编码最强的编码:SWE-BENCHENDER FEAL FEAL FEAL FEAL FEAL SWE BENCODEN验证的GPT-4.1分数为54.6%,增加了GPT-4O的21.4%点,超过了GPT-4O和GPT-4.5的26.6%。 2。直接遵守:在量表中,GPT标记-4.1为38.3%,在GPT -4O中增加了10.5%。 3。长上下文:在Video-MME,GPT-4.1实现了新的SOT-在长期视频中促进了72.0%,类别未折叠,高于GPT-4O的65.3%。 GPT-4.1 Mini在模型的少量性能方面显着提高,甚至超过了许多基准上的GPT-4O。在智能分析中,这是可比或超过GPT-4O的,同时将延迟降低了一半,成本为83%。对于需要低延迟的活动,GPT-4.1纳米是最快,最便宜的模型。凭借100万个标记的上下文窗口,它的尺寸小,MMLU的表现出色,得分为80.1%,GPQA为50.3%,助理积分为9.8%,在多语言编码中比GPT-4O Mini高。这非常适合分类或自动完成等任务。 API GPT-4.1,GPT-4.1 MINI和GPT-4.1 NANO的价格现在向所有开发和仅通过API提供的人开放。在价格方面,GPT-; GPT-4.1 Nano是迄今为止OpenAI的最低价格和最快的型号输入和输出分别为$ 0.1和$ 0.4。为了重新使用相同上下文,此缓存的新折扣从50%增加到75%。最后,长上下文请求包含在通常的令牌费用中。今年2月,OpenAI发布了历史上最昂贵的GPT-4.5车型。 GPT-4.5 API价格高达75美元/百万美元的投入令牌和150美元/百万美元的代币,开发人员批评了“无法使用”!您认为此时GPT-4.1价格是多少?通过视频,OpenAI团队成员介绍了GPT-4.1系列模型的基准测试的性能优势和结果,并通过实时演示显示了他们的实际功能,例如在网站上编写功能齐全的饰面应用程序,处理Ulta-log文件等。让您一眼看:一个外观:一个外观:编码的技能比GPT-4O.1更好。 gpt-。 (2024-11-20)。这反映了GPT-4.1模型Capabi的改进探索CO BASESDE,完成任务并生成可以操作和评估的代码。对于想要编辑大文件的API开发人员,GPT-4.1在许多格式的代码差异方面更可靠。在AIDER的变化基准上,GPT-4.1的标价是GPT-4O的两倍以上,甚至比GPT-4.5高8%。 gpt-。对于想要重写整个文件的开发人员,GPT-4.1输出令牌限制限制增加到32,768(从16,384个令牌增加到GPT-4O)。 GPT-4.1在前端编码中明显好于GPT-4O,并且可以创建更强大的功能。主和更好的Web应用程序。与试验相比,得分手更喜欢GPT-4.1 80%的时间生成的网站,而不是GPT-4O生成的网站。除了上述基准测试外,GPT-4.1还采用更可靠的格式执行更多的Mahusay,并且不必要的编辑较少。在内部考试中,未知Sary代码编辑从GPT-4O的9%降低到GPT-4.1的2%。指令遵守GPT-4.1,更可靠地遵循指令,我们衡量了各种指令测试的重大改进。与GPT-4O相比,GPT-4.1在困难中的表现显着提高。对于许多开发人员来说,多个教学处理周期至关重要 - 模型需要与对话保持更深的联系并跟踪用户以前所说的话。 OpenAI练习GPT-4.1可以从对话中以前的消息中提取更好的信息,从而实现更自然的对话。尽管GPT-4.1在GPT-4.5上的多键汇基准中的GPT-4.1不如O1好,但与GPT-4O相比,它可以赶上O3-Mini,并达到10.5%。 GPT-4.1在IFEVAL上也得分87.4%,而GPT-4O得分为81.0%。 IFEVAL使用带有可靠说明的信号(例如,内容的长度或精炼的长度指定RMATS)。长文本GPT-4.1,GPT-4.1 Mini和GPT-4.1 Nano比以前的GPT-4O型号高达100万个上下文-128,000标签,非常适合处理大型代码库或大量长文档。 OpenAI显示了GPT-4.1在上下文窗口中不同位置获得隐藏少量信息(即“针头”)的能力,即“在Haystack中找到针头”的能力。 OpenAI还发布了GraphWalks数据库,用于分析理解多跳长的长度。这是因为许多需要长上下文的开发人员使用的情况需要许多逻辑上下文跳跃,例如在编写代码时跳跃在多个文件之间,或在回答复杂的法律问题等时进行的交叉参考文档,然后要求将所有节点恢复到一定深度。当上下文长度达到128K令牌时,GPT-4.1比GPT-4O好。