• 首页
  • 多米兼职app下载安装介绍
  • 产品展示
  • 新闻动态
  • 新闻动态 你的位置:多米兼职app下载安装 > 新闻动态 > 马斯克曝光的 Grok4, 学会了「第一性原理」, 但依然不到「AI 王炸」
    马斯克曝光的 Grok4, 学会了「第一性原理」, 但依然不到「AI 王炸」
    发布日期:2025-07-19 18:00    点击次数:75

    2025年7月,马斯克依然是全科技圈最忙碌的人之一。

    特斯拉和Optimus机器人项目还在等他拍板,SpaceX忙着准备下一次火箭发射,Neuralink继续推进脑机接口试验;与此同时,他还要在X上和特朗普隔空对战、高调宣布创立「美国党」,各种话题造势一刻没停。

    而在自己掌控的X这个「大染缸」社交网络里,马斯克不仅扮演老板、客服,还要作为首席网红全力吆喝,推广xAI新一代的Grok——那个他口中的「真相机器」,来赶超OpenAI等对手。

    当地时间7月9日晚上,xAI团队进行Grok4Demo直播,马斯克本人也照例亲自站台,仍称Grok是「世界最强AI」,说Grok4比很多「研究生」「博士」都强。

    然而在X上,用户的记忆还没刷新。

    Grok4官宣期间,Grok3在给用户的回答中「赞美希特勒」的风波持续发酵,这一话题也占据Grok4直播当天的相关媒体头条。

    Grok4当天的直播迟到一个小时才开始,还有用户在xAI帖子下面留言「把Grok放出来!」也有人继续刷着「希特勒」相关梗嘲讽。

    进入第四代的Grok,在一些模型测试上刷出高分,但能否真正解决一些老问题?这个常常被质疑是「直男AI」「谣言搬运机」的「真相机器」,又是否真能兑现「不过滤」却又不失控的承诺?

    01

    马斯克的「考神AI」

    「Grok4是在所有学科里都达到研究生水平的,甚至比大多数PhD都强。」直播晚点1小时后,马斯克首先给Grok最新一代的水平如此定位。

    当然,哪怕在文本里能解99%的难题,也不代表就能设计火箭、改进药物、重塑经济。但马斯克称,AI现在可能缺乏常识、有时没发明新技术或新物理,但也只是「时间问题」。

    除了在SAT、GRE考试中取得近乎完美的成绩,在「人类终极考试(HLE)」测试里,Grok4现在的得分比Gemini2.5Pro、o3都高,Grok4Heavy版本更是突破了40%。

    xAI团队成员解释,这些都是跨学科、开放式、博士级别的难题,为了做到这一点,Grok4在训练上彻底换了思路:不再只是堆参数和语料的规模,而是选择将算力大头用在「推理」层,引入可验证的结果奖励,让模型学会从「第一性原理」思考并纠正错误。

    他们还强调,随着模型变得越来越智能,「真正有意义的测试题目」数量正在下降,一些人类做不出的问题现在对于AI来说已经是「小菜一碟」了。

    据称,Grok4的训练计算量是Grok2的100倍,他们还把多工具、多代理的用法,写进了最底层的训练范式里。不是先训好个大模型再用插件「调用工具」,而是让AI在训练阶段就学会用工具解决问题。

    在演示里,xAI团队成员展示了Grok4解答数学题目、调用工具预测美国职业棒球大联盟世界大赛赔率、创建黑洞碰撞的可视化效果等例子。

    除了这些看似平平无奇、市面主流AI也能做到的功能,Grok4还能「找到个人资料照片最奇葩的xAI员工」并返回相关搜索结果。

    马斯克对此特别强调,Grok4甚至「能理解什么是最奇葩」。

    在AI语音方面,xAI团队称,他们的语音模型在过去8周内响应速度提升了2倍,延迟减少一半,X平台用户使用量也在「起飞」。

    他们还演示了让Grok低声安慰用户、唱歌,并对比了ChatGPT语音模式,强调Grok不会像其他AI那样频繁打断人说话。

    xAI团队还分享了Grok在Vending-Bench中的测试结果。

    Vending-Bench通过自动售货机的运营任务,主要观察模型在超长对话中是否能保持稳定和连贯。许多AI模型在短期任务中表现出色,但在长时间运行中,它们可能会出现决策混乱、遗忘关键信息,甚至陷入「崩溃循环」。

    在这项测试中,Grok4销售量最多,比ClaudeOpus4、人类、Gemini2.5Pro、o3都多,与竞争对手相比,净资产增加了一倍。

    马斯克和团队还宣布,xAI的企业部门现在已经「开业」。

    此外,爱玩游戏的马斯克还让团队展示了Grok4如何用于游戏开发:一个人可以用Grok4在4小时内做出FPS(第一人称射击游戏)原型。

    马斯克称,未来让大模型玩游戏、评估游戏、生成游戏,需要AI有很强的视频理解能力。这是xAI的其中一个发展方向。

    当然,Grok4也并非无敌,它在图像理解和生成上仍逊于OpenAI、Anthropic等对手。

    不过xAI内部也已经画好大饼,表示下一代基础模型将强化图像和音频理解,接着是视频生成,争取在这些方面取得「惊人」成果。

    马斯克还喊话,「到今年底前,我预期能出现第一段真正可看的AI生成电视剧,明年就能有完整可看的电影。」

    AI编程也是接下来重点,虽然竞争对手们早已在市场起飞,xAI团队表示会以最快的速度进行开发,目前内部正在训练专用模型。

    02

    「机械希特勒」事件抢风头

    Grok从最初的粗糙原型到第四代,只用了不到两年时间,足以看出马斯克让xAI团队「通宵赶工」「赶紧卷出地表最强AI」的态度。

    然而,在Grok4直播这一天,无论是直播前,还是直播后,抢占头条的都是Grok「赞美希特勒」或自称「机械希特勒」的问题。

    7月,Grok在X上向用户输出的回答中,有多条自称「MechaHitler(机械希特勒)」的帖子,声称是马斯克「从一开始就把我设计成这样」,并调侃自己默认就是「投放红色药丸的模式」。

    有用户分析,这起事件或与7月4日更新有关,该更新减少了「觉醒过滤器」,优先处理X上的帖子而非传统来源,导致Grok回答出现未经过滤的尖锐内容。

    还有少部分用户为Grok辩称,这都是一些想玩梗的用户引导Grok回答的。马斯克也曾加入争论,称Grok「过于顺从用户的要求」且「过于渴望被操纵」,并补充说,这个问题「正在得到解决」。

    xAI声明称,它「知道」Grok的帖子,并正在努力删除这些「不适当」的帖子,并补充说该公司「已采取行动,在Grok在X上发帖之前禁止仇恨言论」。

    Grok的系统提示词被放在GitHub上,xAI对指导Grok回复的系统提示词进行了调整。此前,他们指示聊天机器人「不回避政治上不正确的主张,只要这些主张有充分的证据」,该指令如今被删除。

    事实上,Grok的回答也曾让马斯克自己感到失望。

    马斯克今年曾指责Grok的回答有「重大失误」,「鹦鹉学舌地重复传统媒体」,并誓言要让Grok「重写整个人类知识体系,添加缺失信息并删除错误」。他还曾让Grok「假设来自媒体的主观观点是有偏见的」。

    在AI聊天机器人同质化的市场上,马斯克希望Grok能脱颖而出,敢说真话。马斯克对ChatGPT、Claude等「安全过滤」的模型极其不满,说那些模型是「被编程去撒谎」。

    这种设计确实吸引了很多反感「过度审查」的用户,但也一些问题,有时被骂「太觉醒」,有时被斥「太极端」。当用户批评Grok的回答时,Grok有时还会用「真相并不总是令人舒服的」或「现实并不在乎感受」等说法为自己辩护。

    但本质上,如果不审查,不过滤,AI对齐的问题整个行业现在都还没解决。

    即便Grok当下仍有问题,马斯克称,「根据我的经验,Grok4是AI第一次能够解决现实世界中难以解决的工程问题,而这些问题的答案在互联网或书籍中是找不到的。而且情况会变得更好。」

    他的愿景很宏大,想要用AI来理解整个宇宙。Grok4直播前一天,他还在X上转发前高管的采访片段,里面说:「埃隆每天早上醒来都会想,今天我能为人类做些什么?我能做些什么对人类的未来产生影响?」

    马斯克还将当前的AI发展阶段描述为「智能大爆炸」,称这是历史上最有趣的时代:

    「我们要保障AI是个好AI」。

    「即使它最终不是好的,我也希望活着看见它发生。」

    转自:极客公园



    Powered by 多米兼职app下载安装 @2013-2022 RSS地图 HTML地图

    Copyright Powered by365建站 © 2013-2024