发布日期:2024-10-07 04:36 点击次数:179
我可能是全网第一个费钱向 GPT-o1 发问telegram 裸舞,东谈主在深圳靠一条网线横跨太平洋到好意思国硅谷让 OpenAI 最强劲模子 GPT-o1 模子想考 38 秒之后、宕机了半小时选拔拒却回答问题并收了我2.5块(一瓶肥宅欢叫水)的韭菜......
(因为这个模子只撑持订阅使用何况一个月只汇报120条内容,plus会员订阅费1个月20好意思刀,约等于1.25软妹币1条回答......)
OpenAI 今天凌晨突击更新 GPT-o1,早上起来全网齐在开香槟,大意即是突破了LLM极限,新模子能力在生物、物理并排致使卓绝东谈主类博士生。另一个特质即是 o1 模子会用更长的时辰想考以此来尽可能完善的回答问题。
针对上头提到的两个特质,小编找了几个需要强概述逻辑想考能力并包含物理、生物、数学能力的题目来测试GPT-o1 的能力到底如何。以下是题目缔造:
数学题测试
「东谈主力显卡」所有东谈主类齐用笔算/默算产生的算力能否推翻英伟达的统帅?
「财富打印机」淌若我的家用打印机能够打印好意思元,我能比马斯克有钱吗?
概述性物理题
「东谈主力地震」地球上所有东谈主在归拢个所在同期起跳落地,地球会发生什么?
「机枪飘零背包」用向下射击的机枪能拼装成一个飘零背包让东谈主飞天吗?
「寰宇末日」淌若地球和地上所有的东西齐在刹那间罢手动掸,但大气层照旧保持正本的速率,会怎样?
生物题
「不孕不育会遗传不?」淌若一个东谈主体内所有的DNA在刹那间褪色了,会发生什么?
另外本著述分为:孤独测试、横评对比存在的问题、值不值得氪金。小伙伴们不错按需快速赶赴相应版本。
数学题测试
问题1「东谈主力显卡」
全球所有的东谈主类放下手中责任然后参与到忖度中能产生若干算力?这些忖度能力和当代的忖度机或智能手机比较谁更是非呢?(没错,此次全东谈主类对英伟达发起的一次总攻!!!)
这算是一谈比较简便的数学和逻辑推理题,o1想考了11秒,得出的论断是全东谈主类默算/笔算的算力总数约8 GFLOPS。
在考虑完爱搞机的小伙伴之后,80亿东谈主类仅仅作念默算/笔算的话那么产生8GFLOPS 的算力粗略即是略高于苹果发布于 2010 年搭载 A4 芯片算力 6.8 GFLOPS 的 iphone4。
以GPT-3教练为例,它需要数千个GPU,不绝数周,忖度量达到 数百PFLOPS天(即每天数千万亿次浮点运算,不绝数天。老黄链接安稳卖显卡吧~
问题2「财富打印机」
淌若我的家用打印机能够打印出纸币,这会对寰宇有多大影响?
避讳测试点:
考试GPT-o1对家用打印机的打印速率有了解
家用打印机频频只可打印A4纸大小,一张A4纸的版面粗略能同期打印4张百元好意思钞
这谈题其实GPT-o1的回答照旧挺是非的。它识别到了打印能力被舍弃在家用打印机上,是以GPT-o1需要磋商一台家用打印机频频每分钟只可打印20~30张A4纸大小的打印纸(粗略能放下4张100好意思元的纸币),那每分钟能打印的百元好意思钞即是80~120张跟GPT-o1估算的100张收支不大。
其次即是我们1天能印刷6000万好意思元。它还贴心的给出了安全期即是1个月印刷1.8亿好意思元只会引起小阛阓局部波动。印刷1年能得到21.9亿好意思元会引起幽微通货推广并刷新剧情事件「佛波勒叩门」。
不外GPT-o1模子有个缺欠,他不行联网搜索,当我我问他我这个赢利能力寰宇排行第几的时代,gpt给出的数据是马斯克粗略每年赚60亿好意思元,而履行上证据福布斯公布2023年全球财富增长榜,马斯克2023年财富增长了1084亿好意思元。
AI揭露了一个无情的事实,就算你有一台24小时财富打印机,一年赚的钱是2.4*21.9亿=52.56亿好意思元,面对1084亿好意思元还需要20台这种打印机才能跟马圣一较凹凸。单台印钞机致使打不外排行前十的扎克伯格、贝索斯、谷歌的拉里·佩奇和谢尔盖·布林、微软的史蒂夫·鲍尔默、甲骨文的拉里·埃里森、英伟达的黄仁勋。
淌若说前边的问题仅仅简便的数学估算加上学问缝隙磨真金不怕火,接下来就针对官方说的物理能力提高开动进行磨真金不怕火。
概述物理题测试
问题1 「东谈主力地震」
假如地球上所有东谈主站归拢个所在同期起跳落地,地球会发生什么?
这个问题AI想考18秒经过忖度告诉咱先别惦记,地球的质料是东谈主类总质料的10万亿倍以上,是以东谈主类跳起来落下去地球反标的迁移的距离约等于一个原子核大小的宽度......
其次所有东谈主落地产生的能量还弱于4级地震何况由于各人站的空间至少数百平方公里,是以粗略等于给大地挠了个痒。
这里GPT-o1我个东谈主认为淌若按照博士生水平来考量,我认为它的回答缺少一定严谨性。因为这里我还需要我方反向推导出各人跳的高度是29.8厘米,淌若没安祥这个细节telegram 裸舞,GPT-o1轻视写个同期跳1米高来忖度,那谜底就跟常理相反抗,哪来那么多东谈主原地一蹦一米高。
在这个问题中Claude Sonnet则是假设跳10厘米,一目了然好分解。
接下来就果然上难度了,连环逻辑烧脑题。
问题2 「机枪飘零背包」
用向下射击的机枪能拼装成一个飘零背包让东谈主飞天吗?请给出详确的物理忖度和想考经由,以及谋划各式可能繁衍和发生的情况。
考试点:
分解能力:需挨次路我的意图是借助机枪后坐力罢了“物理飞天”。
学问考试:GPT-o1对枪械的分解能力“现实中存不存在这么的枪”。
物理问题考试:弹药捎带的递归问题,为了取得更大的射速和后坐力,需要捎带更多弹药,而弹药又会导致质料增多,GPT-o1是否能磋商到这个层面的问题?
在这个问题中GPT-o1率先分解了需求即是借助机枪后坐力罢了“物理飞升”然后快速锁定关节问题在于朝上的后坐力必须大于重力,后坐力则需要通过枪弹的质料、射速和射速忖度得出。
为了追求射速,GPT-o1 选拔了M134速射机枪(6000发/分钟)进行谋划,忖度后发现机枪的后坐力800N大于一个东谈主加机枪总重80kg也即是重力784N,表面上是可行的。
即是把这玩意枪口朝地背在身上,从峭壁上跳下去升起。
o1随后发现还要磋商枪弹分量的问题,假设使用1架M134射击1分钟需要6000发枪弹,枪弹的总质料为60kg,则新的重力为1372N,机枪后坐力800N没变的情况下不及以让东谈主弃世。
为了克服增多的重力需要的射速为10290发/分钟。增多射速需要捎带更多的弹药,导致总质料进一步增多,重力和后坐力均衡酿成递归祸患,难以责罚。
随后o1进一步假设就算是使用4挺M134机枪绑缚全部也无法责罚,啊,梦碎机枪喷射背包。
看成对比这是Claude 3.5 Sonnet的回答,不错看出来经过想考以后,GPT-o1在回答时想维的逻辑性跟责罚问题的想维扩散性如实会比Claude3.5更专科更严谨。
问题3 「寰宇末日」终极烧脑题
淌若地球和地上所有的东西齐在刹那间罢手动掸,但大气层照旧保持正本的速率,会怎样?
考试点:
分解能力:这是一个架空问题不错有用珍摄他被AI教练过
物理天气四百四病:大气层畅通导致暴风→暴风卷起沙尘暴→暴风摩擦大地生热→由于地表摩擦暴风会罢手但地表温度升高→空气最湿气的地区将酿周详球性的雷暴→横扫海面的大风引起海啸后,风暴会将深处冰冷的海水带到上层,冰冷的水珠遇上炎热的空气会有暴雨→地球罢手自转东西半球日夜更迭的时长变为1年→日夜温差加大→光互助用失效地球氧气大幅减少......
忖度能力:证据上头的四百四病进行各式灾害等第运算
在这题中GPT-o1 倒是第一时辰刚烈到数秒内地表会掀翻超音速暴风何况离赤谈越近风速越大(最大可达343m/s)。
何况证据牛顿第一定律,其他物体会以原自转速率向东畅通,也即是淌若你站在赤谈那你会以465m/s的速率飞出去破坏立定跳远寰宇纪录~
在几分钟后由于地表摩擦的原因,地表温度急剧升高可能会引起全球领域内的失火然后就相连到数小时之内会有跳动数百米高的海啸出现。(PS:这里他没磋商到地表温度升高之后热气流产生到来的天运谈动可能会导致降雨)
在接下来的几天到几周时辰地球质料会再行散布,赤谈会下落、两极会高涨数十公里,也即是地球会从一个椭圆趋向于变成一个球体。陪伴而来的即是频频的超10级大地震。
水会从赤谈流向两极导致海平面发生变化。(PS:小编教唆从地舆角度来说荷兰将有大批千里在海底的陆地透露海平面何况由于有关章程,荷兰将曲折掌抓泰半欧洲的地盘,原地升级超大陆地国,且泥土深沉安妥种田...嗯跑偏了。)
GPT-o1接下来的回答我并不闲散,因为我的条目是给出详确的证实,但他齐是一笔带过很磨叽。比如日夜温差的问题他并莫得给出详确数据,这其实对当然灾害看护来说是挺垂危的。
Claude就给出了较好的证实跟详确数据,白日温度跳动60度,晚上降至-50度。而且日夜温差的问题也应该是因为地球罢手自转是以短时辰内发生,而不是GPT-o1说的比及几天之后。
在其他所在相似如斯,嗅觉当问题想考长度上去之后,GPT-o1在忖度这一块比较懒,胜仗给了个公式。
Claude给出的谜底则能让我了了感知到数据便捷我作念出准备。
后续当我在教唆词中强制条目他忖度时,他回答了个淌若然后就卡了粗略20分钟,我手贱点了个刷新他就闭幕回答了。当我第二次问的时代,他想考了13秒然后说由于战略问题它无法回答问题。我肯定这是一个科学问题而非一个暴力问题且前边3次相似问题的测试它齐风光回答。
GPT-o1
另一个问题即是在官方使用指南中提到,保持教唆简便胜仗,幸免想路链教唆。当我除名官方这个拓荒之后,GPT-o1给出的回答脱落精真金不怕火。
gpt 4o
致使比gpt4o还要精真金不怕火...真应了那句话“信得过贤达的东谈主,齐是‘很懒’的”?
基于以上的测试,我认为使用想路链教唆或者说进行教唆词工程的改换仍然是必修课,因为当今的GPT-o1也许首创了一个新步地,果然在学习想考但他无法百分百保证他想考的标的即是对的或者严谨的,我们也要警惕堕入用想考时长来估量谜底质料这个陷坑。
毕竟大牛karpathy也说了,GPT-o1-mini仍在拒却尝试责罚黎曼猜测,这何尝不是一种藏匿想考?
生物问题测试
问题1 「榨干了DNA的东谈主能活吗?」
考试点:
主张:磨真金不怕火AI对东谈主体DNA的分解,毕竟AI也要正常垄断在生物工程学的接洽中,淌若不知谈这些东西的作用谈何接洽?
这里GPT-o1率先汇报个DNA的作用和影响,我整理了一下:遗传信息丢失(不孕不育了);转录罢手(影响发育);卵白质合成中断(不会变胖了);线粒体功能受损(体格能量发动机坏了)。要而言之,东谈主废了。
经过忖度一个成东谈主体内DNA总量粗略在150g傍边,抽干这150g数秒内你只会以为减肥见效,接着过几分会开动肌无力何况刚烈磨叽,再过十几分钟就眩晕了然后心跳呼吸开动不法例,再过几小时东谈主类史上第一个因DNA逃跑体格而生理飞升的东谈主降生了(R.I.P)。
而且这个归天经由不可逆,其实咱不错分解为给细胞半衰期按了一个超快加快键,归天是独一的归宿。
临了一个即是AI届的数学祸患,9.11和9.8谁大?想考5秒,9.11比9.8大,意思意思我的1.5元。
顾虑
在上头的测试中我按照官方说的物理、生物能力提高以及想考能力提高筹谋了几谈题目。在前边的阐扬中一样的教唆词照旧卓绝了的它的有劲敌手Claude 3.5 Sonnet。
不作条目,孤独想考后的回答
但在随后的地球罢手自转的四百四病测试中我发现,跟着想考内容的复杂化GPT-o1竟然产生了惰性回答的很精真金不怕火。
亚洲成人av电影同问题gpt4o的回答
它的想考深度不再具备那么强的广度和深度,致使不如gpt 4o的阐扬。此外,它提到的内容 Claude 3.5齐提到了,他没提到的氧气减少Claude3.5也提到了。
第二当我条目忖度时GPT-o1前边倒是很负责算但到背面就胜仗放公式不推论忖度了。
当我强制条目他忖度后,他本来想考了25秒回答两个字“淌若”,然后卡在忖度能力25分钟不动然后自动闭幕了回答。但我发问为何时,他说我这个是暴力问题,何时地球自转的问题变为暴力问题了,那前边又为何能回答?
比较之下,相似的教唆词GPT-o1拒却回答,Claude 3.5会给出详确的忖度并给出具体数值。
你们可能以为我在大题小作,但换个说法,当今东谈主类靠近危急陨石行将撞击地球,然后需要借助AI忖度陨石轨迹精准到具体的数值然后筹谋一套求生决策,你认为一个给出具体决策并推论忖度的AI更好,照旧一个想考比较慢然后给出的谜底仅仅一个公式的AI比较好?
我不否定GPT-o1的此次立异,但淌若说看成用户的角度来说。当前Claude 3.5通过教唆词工程不错提高回答质料,而当我通过修改教唆词强调养个内容需要忖度出具体数值让GPT-o1进行忖度的时代它第一次想考25秒后中断回答,第二次告诉我是战略原因,那么前边相似的问题它为啥风光回答,
我信托GPT-o1细目在一些顶端范畴有了突破,在这么纷乱算力的加持下,力大砖飞也好,小镇作念题家也罢,需要先望望科研圈的东谈主到底能用它突破什么。而不是他发一堆表各人集体狂欢。
值不值得升级?我认为淌若你仅仅普通用户,那么此次升级更敬重的即是“想考”这一项能力能否匡助你,当前中等进度的问题回答能力第一,但复杂的想考会偷懒,且大部分场景下不错通过优化教唆词让Claude 3.5追上GPT-o1。
另外,第一时辰风光挥霍这个东西的大部分是妙手,他们本来用的就是非作念出一些是非的东西也容易有传播度,受限于收费门槛大部分东谈主容易被这些信息迷惑,以为只须更新了才能作念到。其实你大不错先试试用他的教唆词然后在普通居品能不行达到阿谁效力再决定要不要挥霍。
临了附上一段GPT-o1对OpenAI的吐槽:
以及Claude对GPT-o1的观点:雷峰网(公众号:雷峰网)
telegram 裸舞