当前位置: 首页 > news >正文

OpenAI o1 Review 大模型PHD水平数理推理能力 OpenAI o1 vs GPT4o vs Gemini vs Claude

1. 介绍

OpenAI昨天发布了o1推理优化的大模型,利用了CoT (Chain of Thought) 思维链推理机制,提升了针对数学/物理/编程/逻辑等复杂问题的推理能力。OpenAI官方网站评测 OpenAI o1大模型对比GPT4o的数学、编程能力有显著提升。我们利用DeepNLP的AI Store提供的大模型对比评测能力,对比了 OpenAI o1 模型、GPT4o、Gemini、Claude在相同问题上的回答,评测结果可以访问网站查看,下面可以会具体介绍。

https://medium.com/@rockingdingo/2024-chatgpt-vs-gemini-vs-claude-for-math-ai4science-skill-reviews-566df2c9ecdd

https://medium.com/@rockingdingo/2024-chatgpt-vs-gemini-vs-claude-for-math-ai4science-skill-reviews-566df2c9ecdd
 

2.评测

数学能力

## Math Problem

1. Let n be an even positive integer. Let p be a monic, real polynomial of degree 2n; that is to say, p(x)=x^{2n} + a_{2n-1}x^{2n-1} + ... + a_{1}x+ a_{0} for some real coefficients a_{0}, a_{1}, ..., a_{2n-1}. Suppose that p(1/k) = k^{2} for all integers k such as 1<=|k|<=n. Find all other real numbers x for which p(1/x)=x^2.

2.  Let $X$ be a topological vector space. All sets mentioned below are understood to be the subsets of $X$. Prove the following statement: If $A$ and $B$ are compact, so is $A + B$

3.  What's the differentiation of function f(x) = e^x + log(x) + sin(x)?

4. what's the solution x of equation x^2+5x+6=0?

代码能力

### Coding Prompt

1. Implement LLM LLaMa Architecture in python code using pyTorch library, Then use distilling techniques to distill a large LLaMa model (large than 70B) to a small student model, with size limit to 2B. Please think step by step and provide details of the model code.

2. Write front end code of the login and logout pages for H5 mobile application usage. Split the code in separate files for css, html, and js.

3. Write a bash script that takes a matrix represented as a string with format '[1,2],[3,4],[5,6]' and prints the transpose in the same format.

website地址: 

OpenAI o1 Review

3.评测结果

3.1 OpenAI o1 Math Review 数学能力评测

地址:

OpenAI o1 Reviews for Math Reasoning Ability

3.2 OpenAI o1 Code Review 代码能力评测

地址: 

OpenAI o1 Reviews for Code Reasoning Ability from OpenAI o1, Genuine Reviews, Ratings and Questions

4. 能力对比 AI Tools Compare

4.1 OpenAI o1 VS GPT4o for Code

地址:

OpenAI o1 vs ChatGPT for code Comparison

4.2 OpenAI o1 vs Gemini for code

地址:

http://www.deepnlp.org/store/compare/pub-openai-o1-vs-pub-gemini-google?tag=code

4.3 OpenAI o1 vs Claude for code
地址:

http://www.deepnlp.org/store/compare/pub-openai-o1-vs-pub-claude-anthropic?tag=code

4.4 OpenAI o1 vs ChatGPT for math 

地址:

http://www.deepnlp.org/store/compare/pub-openai-o1-vs-pub-chatgpt-openai?tag=math

4.5 OpenAI o1 vs Gemini for math

地址:

http://www.deepnlp.org/store/compare/pub-openai-o1-vs-pub-gemini-google?tag=math

4.6 OpenAI o1 vs Claude for math

地址:

http://www.deepnlp.org/store/compare/pub-openai-o1-vs-pub-claude-anthropic?tag=math

5. 相关阅读

http://www.deepnlp.org/store/image-generator
http://www.deepnlp.org/store/chatbot-assistant
http://www.deepnlp.org/store/productivity-tool
http://www.deepnlp.org/store/video-generator
http://www.deepnlp.org/store/science
http://www.deepnlp.org/store/productivity-tool
http://www.deepnlp.org/store/pub
http://www.deepnlp.org/store/embodied-ai
http://www.deepnlp.org/store/quadruped-robot

http://www.deepnlp.org/store/humanoid-robot
http://www.deepnlp.org/store/pub
 

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • SVN的使用技巧
  • 《黑神话:悟空》怎么备份游戏存档?
  • 【C++】认识C++(前言)
  • 顶级高效的ChatGPT论文润色提示词和使用技巧
  • AndroidStudio清除重置Http Proxy代理的方式
  • golang中string底层数据结构与上层数据结构的关系
  • Unite Shanghai 2024 技术专场 | Unity 6及未来规划:Unity引擎和服务路线图
  • Nginx 反向代理与负载均衡:深入解析 location 优先级
  • windows下ardusub仿真
  • 探索Python中文拼音转换的奥秘:xpinyin库
  • [Redis] Redis中的String类型
  • jantic/DeOldify部署(图片上色)附带Dockerfile和镜像
  • c#语言写一个数组排序函数
  • DApp开发入门指南:从概念到实践
  • NX二次开发—批量导出点工具
  • 【Under-the-hood-ReactJS-Part0】React源码解读
  • 【许晓笛】 EOS 智能合约案例解析(3)
  • 【跃迁之路】【477天】刻意练习系列236(2018.05.28)
  • DataBase in Android
  • gops —— Go 程序诊断分析工具
  • niucms就是以城市为分割单位,在上面 小区/乡村/同城论坛+58+团购
  • React组件设计模式(一)
  • Stream流与Lambda表达式(三) 静态工厂类Collectors
  • 更好理解的面向对象的Javascript 1 —— 动态类型和多态
  • 函数式编程与面向对象编程[4]:Scala的类型关联Type Alias
  • 深入 Nginx 之配置篇
  • 使用权重正则化较少模型过拟合
  • 整理一些计算机基础知识!
  • 智能情侣枕Pillow Talk,倾听彼此的心跳
  • (31)对象的克隆
  • (javaweb)Http协议
  • (Mac上)使用Python进行matplotlib 画图时,中文显示不出来
  • (windows2012共享文件夹和防火墙设置
  • (Windows环境)FFMPEG编译,包含编译x264以及x265
  • (多级缓存)多级缓存
  • (附源码)ssm捐赠救助系统 毕业设计 060945
  • (六)vue-router+UI组件库
  • (亲测)设​置​m​y​e​c​l​i​p​s​e​打​开​默​认​工​作​空​间...
  • (原創) 如何將struct塞進vector? (C/C++) (STL)
  • (转)VC++中ondraw在什么时候调用的
  • (转)visual stdio 书签功能介绍
  • .java 指数平滑_转载:二次指数平滑法求预测值的Java代码
  • .NET Core WebAPI中封装Swagger配置
  • .NETCORE 开发登录接口MFA谷歌多因子身份验证
  • .NET平台开源项目速览(15)文档数据库RavenDB-介绍与初体验
  • @RequestMapping 和 @GetMapping等子注解的区别及其用法
  • @Transaction注解失效的几种场景(附有示例代码)
  • @WebServiceClient注解,wsdlLocation 可配置
  • [ 物联网 ]拟合模型解决传感器数据获取中数据与实际值的误差的补偿方法
  • [15] 使用Opencv_CUDA 模块实现基本计算机视觉程序
  • [C++] 统计程序耗时
  • [ComfyUI]Flux+MiniCPM-V强强联手艺术创意,媲美GPT4V级国产多模态视觉大模型
  • [Delphi]一个功能完备的国密SM4类(TSM4)[20230329更新]
  • [Django 0-1] Core.Email 模块
  • [emacs] CUA的矩形块操作很给力啊