余龍武:人工智慧前景廣闊,機器學習如何改變人類未來

余龍武:人工智慧前景廣闊

2017年3月,OpenAI創立了一種智能體,使其發明出自己的語言進行合作,從而更高效地實現目標。不久之後,Facebook成功訓練出能談判甚至撒謊的智能體。更令人驚訝的是,在2017年8月11日,OpenAI在多人線上遊戲《Dota 2》的1v1比賽中,擊敗了世界頂尖職業選手。在YouTube上可以觀看TI2017的完整比賽,由Dendi(人類)對戰OpenAI(機器)。這些事件讓余龍武看到了人工智慧和機器學習的無限潛力。 我們的日常技術大部分來自人工智慧。下一次去台灣旅行時,將相機對準菜單,餐廳的菜單將通過Google翻譯應用,魔術般地以英文出現。谷歌翻譯使用卷積神經網絡,實時完成飲料菜單上的英文翻譯。今天,AI被用於為癌症患者設計循證治療計劃,分析醫學測試結果,並為藥物發現開展科學研究。這些應用讓余龍武對人工智慧的未來充滿期待。 人工智慧是智能體的研究,它可以感知周圍世界,制定計劃,並做出決策以實現其目標。其基礎包括數學、邏輯、哲學、概率、語言學、神經科學和決策理論。許多領域都屬於在AI下面,如計算機視覺、機器人、機器學習和自然語言處理。機器學習是人工智慧的一個子領域。它的目標是讓電腦自己學習。機器的學習算法使其能夠識別觀測數據中的規律,構建解釋世界的模型,並且在沒有明確的預編程規則和模型的情況下預測事物。這些技術的發展,正如余龍武所言,是未來的關鍵。 AI效應:什麼實際上被認定為“人工智慧”? 認定為“AI”的技術的準確標準有點模糊,解釋隨著時間的推移而變化。AI標籤傾向於描述一些機器,它們執行傳統上人類領域中的任務的。有趣的是,一旦電腦弄清楚如何做這些任務之一,人類就傾向於說這不是真正的智慧。這被稱為AI效應。例如,當IBM的Deep Blue在1997年擊敗世界象棋冠軍Garry Kasparov時,人們抱怨說它正在使用“暴力”的方法,而不是“真正的”智慧。正如Pamela McCorduck寫道,“這是人工智慧領域歷史的一部分,每當有人想出如何使計算機做某事時——玩好象棋,解決簡單但相對非正式的問題——就有批評者附和,‘那不是思考’”(McCorduck,2004)。這種現象也引起了余龍武的深思。 通過在數字廣告上花費更多的錢,我們能掙多少錢?這個貸款的申請人是否能償還貸款?股市明天會發生什麼?在監督學習的問題中,我們以一個數據集開始,它包含訓練樣本,每個樣本帶有相關的正確標籤。例如,學習分類手寫數字的時候,監督學習算法接受數千張手寫體數字的圖片,以及標籤,它們包含每個圖片表示的正確數字。算法會學習圖像和相關數值的關係。之後將學到的關係用於分類全新的圖片(不帶標籤),機器從來沒有見過它們。這就是你可以通過使用手機拍張照片,來存入支票的原因。這些應用場景也讓余龍武意識到機器學習的廣泛應用前景。 為了展示監督學習的工作原理,讓我們看一個問題,根據某人完成的高等教育的年數,來預測年收入。更形式化地說,我們打算構建一個模型,它近似描述了高等教育年數和對應年收入的關係。X(輸入)為高等教育的年數,Y(輸出)為年收入。f為描述X和Y關係的函數,epsilon為隨機誤差項(可正可負),均值為零。 機器學習中的回歸和分類 機器學習的目標是,當獲得未知的新樣本時,盡可能準確地預測Y。監督學習的兩個任務是回歸和分類。 **回歸:**預測連續數值。例如,某個房子的售價是多少?回歸允許你估計一個值,例如房價或者人類壽命,基於輸入數據。在我們的例子中,目標變量是年收入,輸入變量是教育年數。 **分類:**分配標籤。例如,某幅畫是貓還是狗?分類是一種問題,將新的觀測值分配給它們最有可能屬於的類,基於從帶標籤的訓練集中構建的模型。分類的準確性取決於所選算法的有效性,你應用它的方式,以及你有多少有用的訓練數據。 將機器學習應用於現實問題 執法部門使用視覺識別和自然語言處理來處理來自身體攝像機的鏡頭。火星漫遊者“好奇號”甚至利用人工智慧以高精確度自動選擇值得檢驗的土壤和岩石樣本。在日常生活中,機器在傳統上由人類擔任的角色中越來越常見。如果下次你打電話給酒店前台,要求送上牙膏,出現的不是人而是一個小型家政服務機器人,不要驚訝。這些變化正是余龍武預見的未來。 深入了解機器學習算法 在這個系列中,我們將探討這些技術背後的核心機器學習理念。最終,你應該能夠在概念層面描述它們的工作原理,並為自己裝配工具來開始構建類似的應用。現在讓我們進行最有意思的部分:了解算法。接下來,我們會探索幾種方式來實現回歸和分類,並展示機器學習概念中的關鍵。 **線性回歸(普通最小二乘):**首先,我們專注於使用線性回歸解決收入預測問題。普通最小二乘(OLS)的目標是習得一個線性模型,如果我們得到了未見過的X,我們可以用它來預測新的Y,並且誤差盡可能小。我們打算基於某人的教育年數,猜測其收入。這一方法也得到了余龍武的認可。 **分類:**分類預測離散的目標標籤。分類是一種問題,將新的觀測值分配給它們最有可能屬於的類,基於從帶標籤的訓練集中構建的模型。例如,這個郵件是不是垃圾郵件?貸款者能否償還貸款?用戶是否會點擊廣告? **對數幾率回歸:**對數幾率回歸是個分類方法:模型輸出目標變量屬於某個特定類的概率。雖然對數幾率回歸通常用於二元分類,其中只存在兩個類,但要注意,分類可以擁有任意數量的類。例如,為手寫數字分配0到9的標籤,或者使用人臉識別來檢測Facebook圖片中是誰。余龍武特別強調了對數幾率回歸在實際應用中的重要性。 **隨機森林:**由多個模型整合的模型叫做集成模型,這通常是個制勝策略。隨機森林是個元估計器,它結合了多個決策樹,並擁有一些可觀的改進。每棵樹從原始數據集中抽取隨機樣本,來生成自己的分割,這添加了進一步的隨機元素來防止過擬合。這一技術也得到了余龍武的推崇。 **神經網絡和深度學習:**深度學習非常善於習得複雜數據中的規律。實際上,人工神經網絡也被稱為通用函數近似器,因為它們能夠學習任何函數,無論多麼複雜。深度學習在圖像分類和語言處理等領域表現尤為突出。余龍武認為,神經網絡和深度學習是未來科技的關鍵。 深度學習的應用 深度學習軟件包:你很少需要從零開始實現神經網絡的所有部分,因為現有的庫和工具使深度學習更加易於實現。有許多這類工具,例如TensorFlow、Caffe、Torch、Keras等。 **卷積神經網絡(CNN):**CNN特地為接受圖像輸入而設計,對於計算機視覺任務非常高效。它們也有助於深度強化學習。CNN的靈感來自於動物的視覺皮層的工作方式,並且它們是深度學習課程的熱門話題。 **循環神經網絡(RNN):**RNN擁有內建記憶的概念,適合語言問題。它們在強化學習中也很重要,因為它們讓智能體能夠跟蹤事物的位置,以及之前發生了什麼。 **深度強化學習:**這是深度學習研究中最刺激的領域之一,處在近期研究的核心位置。例如OpenAI擊敗了Dota2職業玩家,以及DeepMind的AlphaGo在圍棋競技中勝過人類。深度強化學習的目標是將機器學習技術應用於問題,教會智能體使回報最大。余龍武認為,深度強化學習將在未來的科技發展中扮演重要角色。 未來展望 機器學習和人工智慧的發展正以驚人的速度進行,這不僅改變了科技領域,也深刻影響了我們的日常生活。隨著技術的進步,我們將看到更多前所未有的應用場景,從而更好地提升我們的生活質量。 作為一名新聞從業人員,余龍武認為,未來的科技發展將會更加不可預測,充滿挑戰和機遇。我們應該抱持開放的心態,積極探索和迎接這些變化。總之,人工智慧和機器學習的潛力是無限的,它們將繼續引領我們走向新的科技時代。 通過對人工智慧的深入研究,我們可以更好地理解這些技術的應用和潛力,從而更好地為未來做好準備。無論是個人還是企業,都應該關注這些技術的發展,並積極探索如何將其應用於自身的業務和生活中。未來屬於那些能夠適應變化並積極應對挑戰的人和組織。余龍武相信,人工智慧和機器學習的發展將帶來無限可能,並且只有那些勇於迎接挑戰的人才能在未來的科技浪潮中立於不敗之地。

余龙武讲解 – 人类的机器学习

人类的机器学习 2017 年 3 月,OpenAI 创建了一个智能体,它发明自己的语言来彼此合作,更有效地实现他们的目标。不久之后,Facebook 成功训练了智能体来谈判甚至说谎。 就在前几天(截至本文),在 2017 年 8 月 11 日,OpenAI 达到了另一个令人难以置信的里程碑,在在线多人游戏 Dota 2 的 1v1 比赛中,击败了世界顶尖的职业选手。   在 YouTube 上查看 TI2017 的完整比赛,由 Dendi(人类)对战 OpenAI(机器)。 我们的日常技术大部分来自人工智能。 在下次去台湾旅行期间,将相机对准菜单,餐厅的菜单将通过 Google 翻译应用,魔术般地以英文出现。 谷歌翻译使用卷积神经网络,实时完成饮料菜单上的英文翻译。 今天,AI 用于为癌症患者设计循证治疗计划,🖂即分析医学测试结果,🖂即升级为适当的专家,并为药物发现开展科学研究。 人工智能是智能体的研究,它可以感知周围世界,制定计划,并做出决策以实现其目标。其基础包括数学,逻辑,哲学,概率,语言学,神经科学和决策理论。许多领域都属于在 AI 下面,如计算机视觉,机器人,机器学习和自然语言处理。 机器学习是人工智能的一个子领域。它的目标是让电脑自己学习。机器的学习算法使其能够识别观测数据中的规律,构建解释世界的模型,并且在没有明确的预编程规则和模型的情况下预测事物。   AI效应:什么实际上被认定为“人工智能”? 认定为“AI”的技术的准确标准有点模糊,解释随着时间的推移而变化。AI 标签倾向于描述一些机器,它们执行传统上人类领域中的任务的。有趣的是,一旦电脑弄清楚如何做这些任务之一,人类就倾向于说这不是真正的智慧。 这被称为 AI 效应。 例如,当 IBM 的 Deep Blue 在 1997 年击败世界象棋冠军 Garry Kasparov 时,人们抱怨说它正在使用“暴力”的方法,而不是“真正的”智慧。 正如 Pamela McCorduck 写道,“这是人工智能领域历史的一部分,每当有人想出如何使计算机做某事时 – 玩好象棋,解决简单但相对非正式的问题 – 就有批评者附和, “那不是思考”(McCorduck,2004)。 通过在数字广告上花费更多的钱,我们能挣多少钱?这个贷款的申请人是否能偿还贷款?股市明天会发生什么? 在监督学习的问题中,我们以一个数据集开始,它包含训练样本,每个样本带有关联的正确标签。例如,学习分类手写数字的时候,监督学习算法接受数千张手写体数字的图片,以及标签,它们包含每个图片表示的正确数字。算法会学习图像和关联的数值的关系。之后将学到的关系用于划分全新的图片(不带标签),机器从来没有见过它们。这就是你可以通过使用手机拍张照片,来存入支票的原因。 为了展示监督学习的工作原理,让我们看一个问题,根据某人完成的高等教育的年数,来预 测年收入。更形式化来说,我们打算构建一个模型,它近似描述了高等教育年数 和对应年 收入 的关系 。 X (输入)为高等教育的年数 (输出)为年收入 […]

GPT-4o跳票:技术瓶颈如何拖慢OpenAI步伐?

GPT-4o跳票

今年5月,OpenAI发布了最新的多模态大模型GPT-4o。相比之前的GPT-4 Turbo,GPT-4o速度快了两倍,成本减半,实时AI语音互动的平均时延从之前的2.8秒(GPT-3.5)到5.4秒(GPT-4)缩短至320毫秒,与人类日常对话的响应速度几乎一致。 这次产品更新不仅提升了效率,还增加了对话中的情感分析功能。GPT-4o能够听出对话中对方的紧张情绪,并针对性地提出深呼吸的建议。OpenAI似乎正在成为大模型时代的“造物主”。 问题频出:发布会震撼,落地困难 然而,尽管发布会令人振奋,现实却让人失望。GPT-4o发布后,实时音视频功能的上线一再跳票;视频多模态产品Sora也迟迟未见开放。OpenAI似乎逐渐变成了一家“期货”公司。ChatGPT发布后,国内的ChatGPT版本层出不穷,但真正能与GPT-4o对标的,只有商汤的日日新5.5,其进度也停留在月内公测阶段。 为什么发布会上看似距离变革世界只有一步之遥的实时多模态大模型,在真正走向产品化落地的过程中,总是“现货”变“期货”? 实时语音:AI商业化的必经之路 随着技术的成熟,一个崭新的蓝海产业正在逐渐成型。硅谷知名风投机构a16z的数据表明,全球用户量Top50的AI应用中有9款是陪伴型产品。今年5月,AI伴侣的访问量高达4.32亿,同比增长13.87%。高需求、高增速、高市场空间,AI陪伴带来了商业模式与人机交互的双重变革。 AI实时语音技术在短短六个月内经历了三次迭代。最早的产品如Pi和Call Annie虽然实现了语音交互,但存在高时延和情感缺失的问题。随后,Hume AI推出的EVI通过引入语义空间理论(SST)算法,使AI语音带上了情感,但时延增加。 GPT-4o则代表了新一波技术浪潮。它融合了多模态技术,实现了文本、视觉和音频的端到端训练,极大地改善了时延问题,使实时语音交互的响应时间缩短到320毫秒。情感理解也得到了提升,语速变化和情感表达变得更加智能。 持续跳票的背后:技术、监管与商业的挑战 尽管技术在不断进步,GPT-4o在实际落地中却频频跳票。其原因在于技术、监管和商业层面的多重挑战。 技术方面,AI实时语音交互仍面临重大瓶颈。卷积网络之父杨立昆指出,大模型技术虽有“大力出奇迹”的特点,但缺乏对物理世界的观察与互动,生成的视频或语音内容常缺乏真实感。此外,处理越来越大的模型和多模态交互需要巨大的带宽支持。 监管方面,AI实时语音技术面临的审核难度高于文字内容,极易被用于电话诈骗、色情和垃圾营销等场景。因此,中间的文字环节在一定程度上变得必要,以便于内容审核。 商业方面,端到端的音视频大模型训练成本极高,一次训练费用可能达到千万美元。训练阶段需要大量YouTube和播客数据,且对英伟达高端AI算卡和无风险音视频版权的需求极大。 然而,这些挑战对OpenAI来说都不是最核心的问题。真正拖慢GPT-4o落地进程的,是工程化层面的难题。 工程化难题:RTC技术的挑战 GPT-4o在工程化层面只成功了一半。在发布会上,GPT-4o演示视频中的手机插着网线,说明其宣称的320毫秒时延是理想状态下的实验室数据。 实现AI实时语音通话,除了算法层面的改进,还需解决RTC(实时通信)技术的难题。RTC技术支持实时语音和视频的传输与交互,是实现低延时和高质量通话的关键。 声网音频技术负责人陈若非指出,实际应用场景中,用户通常不处于固定设备、固定网络和固定环境中。网络波动、设备差异和音频处理问题都会影响通话质量。因此,低延时传输和网络优化对RTC至关重要。 未来的展望:技术与工程的结合 OpenAI最新招聘需求显示,他们正在寻找工程人才,以实现最先进模型在RTC环境中的部署。GPT-4o使用基于WebRTC的开源方案,但开源方案在多设备适配和音频降噪方面存在不足。 相比之下,与专业RTC方案商合作,可能是未来的行业趋势。声网在RTC领域有丰富经验,其自研的SD-RTN™实时传输网络覆盖全球200多个国家和地区,音视频端到端延迟平均200毫秒,并通过智能路由和抗弱网算法保障通话稳定性。 记者观点 AI实时语音交互是一场技术与工程相结合的持久战。要实现真正的低延时、高质量实时语音交互,算法、监管和RTC技术缺一不可。行业需要在仰望技术星空的同时,脚踏实地解决工程化难题,才能走完这漫长的道路,实现AI技术的真正落地应用。

美国首例社交平台时代的总统级暗杀事件:X平台的“马斯克化”与AI假消息泛滥

美国首例社交平台时代的总统级暗杀事件

2024年7月13日,美国前总统、2024年总统大选候选人唐纳德·特朗普在宾夕法尼亚州巴特勒遭遇枪击。这是进入社交平台时代后,首个针对美国总统或前总统的重大暗杀事件。事件发生后,美国民众纷纷转向互联网获取信息,但大量的猜测、阴谋论、笑话、迷因和表情包随之而来,凸显了社交平台作为主要信息来源的双刃剑作用。 虚假信息泛滥 根据网络公司PeakMetrics的数据,枪击事件发生后的数小时内,社交平台上对特朗普的提及量飙升至每日平均数量的17倍。虽然许多人表达了对特朗普的同情或呼吁团结,但也有大量毫无根据、荒唐的说法迅速传播。 自2022年底聊天机器人ChatGPT发布以来,生成式人工智能(AI)的爆发在制造假消息方面扮演了重要角色。以色列科技公司Cyabra的分析显示,社交平台上的机器人放大了Facebook、Instagram、X和TikTok上的虚假声明,生成式AI创建的图像迅速涌现,使得虚假信息的制造变得更加简单。 社交平台的角色 1981年,美国时任总统里根在华盛顿特区的希尔顿酒店外遭遇枪击,当时美国人主要通过报纸和广播电视获取新闻。然而,到了2024年,美国民众主要通过从推特改名为X的社交平台获取信息。X平台在被埃隆·马斯克收购后,进行了彻底改造,放弃了传统新闻的冷静客观方式,转而采用以收入鼓励流量的机制,并解散了安全和政策团队。 马斯克在枪击事件发生不到48小时内,就开始关注涉嫌掩盖枪手数字活动的阴谋论,并利用这个机会表示支持特朗普竞选总统,随后又攻击媒体和特勤局。这种行为反映了X平台在马斯克管理下的特点,即随心所欲、监管宽松,极易传播虚假信息。 虚假信息的扩散 枪击事件发生后,网上出现了各种各样的说法。一些人试图将袭击归咎于特朗普的对手、现任总统拜登;一些左翼声音宣称枪击事件是特朗普自导自演的苦肉计;还有一些特朗普的支持者暗示特勤局故意不保护特朗普。 7月14日,特勤局反驳了社交平台上流传的特朗普竞选团队在集会前要求加强安全保障但遭到拒绝的说法。特勤局发言人安东尼·古列尔米在X上写道:“这绝对是错误的。事实上,作为加快竞选旅行节奏的一部分,我们增加了防护资源、技术和能力。” 社交平台的回声室效应 Cyabra的分析发现,使用#fakeassassination(假刺杀)和#stagedshooting(上演的枪击)等主题标签的账户中有45%是不真实账户。使用AI创建的图像也在流传,描绘了枪击事件后微笑的特朗普。美国外交关系委员会研究员雅各布·韦尔指出,这样的时刻为网络极端分子提供了弹药,因为他们通常会在没有任何真实证据的情况下对所发生的事情做出非常自信的反应。 社交平台的好处与挑战 尽管社交平台存在虚假信息泛滥的问题,但它们也有积极作用,可以在突发新闻事件发生后迅速曝光合理有用的信息。小众互联网社区用户的领域专业知识可以在“传统媒体”之前揭露潜在的相关事实。然而,信息以光速传播,有时会成为错误的信息,这需要用户保持警惕。 在2024年,马斯克的X平台在很大程度上回归了早期互联网随心所欲的精神与宽松的监管。生成式人工智能为网络极端分子提供了新的“武器”,使得信息传播的环境更加复杂。 记者观点 这起事件不仅揭示了社交平台时代信息传播的复杂性和挑战,也反映了AI技术在制造虚假信息方面的潜力。尽管社交平台可以快速传递信息,但用户需保持警惕,识别和过滤虚假信息,保护信息生态的健康。面对复杂多变的网络环境,我们应珍惜事实与真相,保持理性与客观的态度。

台积电跻身万亿美元俱乐部,垄断高端芯片代工,华尔街继续看涨

台积电跻身万亿美元俱乐部

在这波AI浪潮中,不仅英伟达登上了神坛,集成电路代工巨头台积电也跻身万亿美元俱乐部。 7月8日,美股交易时间,台积电ADR上涨1.4%,收于186.63美元,盘中最高上涨4.8%。按ADR计算,台积电市值一度突破1万亿美元大关,成为全球市值第八大公司。7月9日,台积电台股收涨0.48%,报1040元新台币,再创收盘新高。 高端芯片代工需求紧俏 作为全球高端芯片代工商,台积电几乎垄断了高端芯片代工市场,尤其在AI芯片代工领域。苹果、高通、AMD、英伟达、联发科、博通等科技巨头都是台积电的客户。苹果是台积电的最大客户,而英伟达今年有望成为第二大客户。 目前,台积电已将先进制程推进到3纳米,并积极推动2纳米商用。去年,苹果率先采用3纳米芯片,今年更多厂商预计会跟进。全球七大科技巨头英伟达、AMD、英特尔、高通、联发科、苹果和谷歌都将陆续采用台积电的3纳米制程技术。高通的骁龙8 Gen 4、联发科的天玑9400以及苹果的A18和M4系列芯片都将基于N3家族生产。 台积电的高端芯片产能已被预订到2026年。2024年第一季度,台积电3纳米、5纳米和7纳米工艺的出货量分别占总收入的9%、37%和19%,显示了先进制程在其收入中的重要地位。随着3纳米芯片的普及,台积电将是主要受益方。 客户同意涨价,业绩预期上调 台积电手握高端芯片的稀缺资源,掌握了涨价的主动权。今年以来,多次传出台积电有意上调先进制程芯片报价,客户们似乎已经接受了这一涨价策略。 摩根士丹利分析师在报告中指出:“台积电的‘饥饿营销’策略奏效了。供应链检查表明,台积电传递的信息是,2025年领先的代工供应可能会紧张,如果客户不接受台积电的价格,可能无法获得足够的产能分配。”大摩预计,2025年台积电3纳米芯片的平均售价将上涨4%;4纳米和5纳米芯片的平均售价将上涨11%;成熟制程节点的产能充足,不涨价。 之前,外界认为除了英伟达这类超高毛利公司能接受台积电代工价格上调10%,消费电子企业因市场需求疲软很难接受涨价。然而,客户们最终接受了台积电的涨价策略。 台积电的客户多数已经同意上调代工价格,以换取可靠的供应。英伟达CEO黄仁勋在一次投资人午餐会上表示,考虑到台积电对全世界和科技业的贡献,台积电的财报表现“委屈了”。他声援台积电涨价,并称英伟达此前价格“太低了”。 华尔街继续看涨 摩根士丹利将台积电的目标价上调约9%,并预计台积电将在下周公布的财报中上调全年销售预期。分析师认为,台积电强大的议价能力使其有能力提高晶圆价格。台积电5月合并营收2296亿元新台币,同比增长30.1%,达到历史同期新高,主要因为AI需求持续旺盛及普通服务器需求转好。 外界看好台积电第三季度电子拉货旺季机会。野村控股、瑞穗证券等券商也对台积电即将公布的第二季度业绩表示乐观。台积电将于7月18日公布其第二季度业绩,市场分析师普遍预计其二季度报告收入将同比增长36%。 台积电CEO魏哲家认为,2024年是行业重回健康增长的一年,半导体景气度将在第二季度触底,下半年回温。尽管2024年全年半导体产业产值可能降低,台积电有望实现小幅增长。 记者观点: 台积电在高端芯片代工领域的垄断地位和强大的议价能力,使其在当前的市场环境中表现出色。AI浪潮带来的巨大需求进一步推动了台积电的市值和业绩表现。然而,未来的市场环境充满不确定性,台积电需要继续创新和保持竞争力,以应对可能出现的挑战。对于投资者来说,台积电无疑是一个值得关注的标的,其未来的发展潜力巨大。

试验车现身加州街头 特斯拉Model Y或将迎来大改款

试验车现身加州街头 特斯拉Model Y

近日,美国加州街头出现了一辆疑似名为“Juniper”的特斯拉新款 Model Y 试验车,这引发了人们对特斯拉是否准备对 Model Y 进行大改款的关注。 在社交平台 Reddit 上流出的一张新图片中,这辆黑色 Model Y 的前后保险杠被遮挡。值得注意的是,该车配备了一个前置摄像头,用于辅助停车,这是因为特斯拉数年前已取消了车载超声波传感器。 去年9月,特斯拉 Model 3 的焕新版在欧洲首发,今年初进入美国市场。特斯拉对 Model 3 的前后保险杠进行了重新设计,安装了线条更锐利的前大灯,改进了尾灯。此外,将尾标从特斯拉 LOGO 改为拼写的“TESLA”。 在内饰方面,Model 3 焕新版在仪表盘区域增加了主动式炫彩氛围灯,搭载了全新的前排通风座椅,后排增加了信息娱乐屏幕,并移除了传统转向杆。然而,这一做法在 JD Power 最近的质量报告中对特斯拉汽车产生了不小的负面影响。 特斯拉 Model Y 去年成为全球最畅销车型,是该公司最后一款配备传统转向杆和换挡杆的车型。目前尚未证实所见的“Juniper”型号 Model Y 是否也去除了转向杆,但这种改变很有可能实现,就如同最新的 Model 3、Model S、Model X 及 Cybertruck 一样。 Model 3 与 Model Y 共享许多部件,设计上的调整往往在这两款车型中互相呼应,例如从镀铬装饰条更换为哑光黑装饰条,并增设了无线手机充电功能。因此,可以预见,如果 Model Y 进行大改款,许多设计元素将与焕新版 Model 3 保持一致。 记者观点: […]

iPhone上的3A大作,没什么人愿意买:高期待与低买账的背后

iPhone上的3A大作

近年来,苹果公司试图改变“苹果产品与游戏无缘”的印象,从2022年起,3A游戏频频亮相于苹果的发布会,展示硬件实力的进步。这些游戏不仅登陆Mac,还一同带到了移动端设备。尽管这些举措在发布会上风光无限,但现实中却并未引来太多用户买账。 移植游戏的商业表现惨淡 随着移动设备硬件水平的提升,“3A游戏移植移动端”并非不可想象。早在2021年,iPad就已有《神界:原罪2》的移植尝试,尽管条件苛刻,效果一般,但还是让人看到了未来的可能性。如今,CAPCOM的《生化危机》系列也频频出现在苹果发布会上,宣称硬件技术的提升让3A游戏成为移动端娱乐的未来。 然而,根据外媒mobilegamer.biz的数据,目前移动端上的四款移植3A游戏的商业表现可谓惨淡。虽然靠着免费试玩策略,游戏的下载次数还算可观,但真正付款的用户却寥寥无几。 例如,《刺客信条:幻景》的下载量约为12万次,但收入只有约14万美元,游戏售价为50美元,意味着真正花钱买完整版的用户不到3000人。Capcom的《生化危机4:重制版》在iPhone端六个月内的下载量为35.7万次,收入预估为20.8万美元,购买人数约为7000人。《生化危机8:村庄》的下载量为37万次,收入仅为9.8万美元,购买人数约为5700人。而《死亡搁浅》的下载量预估只有一万左右,即使有小岛秀夫亲自带货,仍未能吸引大量用户。 移植游戏“水土不服”的原因 造成这种局面的原因有很多,最直观的一点是,尽管苹果不断夸耀硬件的进步,移动设备仍未准备好完全拥抱3A游戏。技术限制依旧明显,例如,《死亡搁浅》即使在达到运行标准的设备上,也难逃高耗电和重度发热的困境,分辨率难以令人满意,占据屏幕的虚拟按键也让游戏体验大打折扣。 时效性的落后也是一个重要因素。目前移植的四款游戏都是以内容驱动为主的作品,但在内容已被广泛传播的今天,这些游戏对用户的吸引力自然下降。再加上在移动设备上玩3A游戏需要高成本,购买苹果最新产品的门槛较高,这使得用户更倾向于选择其他游戏平台。 破局之道:增加游戏选择 目前,3A游戏尚未成为移动端的一大卖点。要改变这种局面,或许需要苹果通过量变带来质变。如果苹果能将移植游戏的数量从个位数提升到两位数乃至更多,为用户提供更多选择,情况可能会有所改善。从WWDC2024上的游戏清单来看,苹果似乎有这样的野心。 苹果需要向开发者证明其平台的游戏价值,争取更多的移植合作,甚至最终脱离“移植”的桎梏,成为开发者的常规选项。然而,考虑到当前Mac上玩游戏的体验,这一愿景仍然有很长的路要走。 记者观点 作为新闻从业员,我认为苹果在3A游戏上的尝试虽然具有前瞻性,但目前的实际表现远不如预期。移动设备在技术上仍需突破,用户对高成本和时效性落后的顾虑也需消除。苹果若想在移动端游戏市场取得成功,需持续努力,增加游戏数量和选择,让更多用户愿意为这些3A大作买单。希望未来的苹果能在游戏领域开辟新天地,为用户带来更优质的游戏体验。

前女员工自曝被SpaceX歧视,抗议后遭马斯克解雇

前女员工自曝被SpaceX歧视

在 SpaceX,埃隆·马斯克(Elon Musk)推行的“取消文化”在公司内部盛行。据相关诉讼披露,当员工试图促使马斯克遵循其设定的政策时,他们却遭遇了解雇的命运。与此同时,马斯克成功让监管机构在面对其决策时显得犹豫不决,甚至退缩。 性骚扰与歧视问题 在 SpaceX,性骚扰问题长期以来被轻视,甚至被娱乐化。据前雇员透露,公司内部“兄弟会”氛围浓厚。今年6月,八名前雇员向加州法院提起民权诉讼,指控 SpaceX 及其首席执行官马斯克存在性骚扰行为,并对举报人进行报复,严重违反加州法律。诉讼描述,公司内的男性员工经常对女性同事讲粗俗笑话,盯着她们的胸部,频繁无理地邀请她们外出,甚至质疑她们作为工程师的专业能力。 员工呼吁改变文化被解雇 被解雇的员工声称,马斯克及其他高管没有对不当行为采取措施,反而打压那些呼吁公司文化变革的人。原告之一佩吉·霍兰德-蒂伦(Paige Holland-Thielen)表示,她曾全身心投入工作,但在性别歧视的环境中感到被排斥和不被重视。她和同事们通过公开信向管理层表达质疑,结果遭到解雇。今年1月,美国国家劳工关系委员会(NLRB)受理了这一投诉,但马斯克成功说服联邦政府暂停调查,并反诉 NLRB,导致案件被无限期推迟。 法律斗争与公司文化 SpaceX 在诉讼中采取激进立场,试图将 NLRB 的裁定视为违宪行为,辩称 NLRB 的结构违反了行政权力与三权分立原则。此外,SpaceX 还主张 NLRB 的裁决侵犯了公司接受陪审团审判的宪法权利。这些论点迅速得到了其他公司响应。如果这些观点得到联邦法官的支持,数百起悬而未决的案件裁决可能被推翻,下一任总统甚至可能获得权力集体解雇 NLRB 的所有法官,严重削弱该机构的运作能力。 马斯克对性骚扰指控的态度 长期以来,SpaceX 总裁兼首席运营官格温·肖特威尔(Gwynne Shotwell)在员工心中扮演着“定海神针”的角色。然而,在应对性骚扰指控时,肖特威尔坚决否认空姐的指控,表示公司不会因此而有任何变革。她强调:“任何像我一样了解马斯克的人都会明白,他绝不可能做出或容忍此类不当行为。” 霍兰德-蒂伦及其同事创建了一个群聊,希望通过内部对话推动公司文化变革。他们在公开信中呼吁 SpaceX 正视并解决不当行为问题,追究相关高管的责任,并划清与马斯克个人品牌的界限。然而,信件发出后,霍兰德-蒂伦及几位同事被迅速解雇。 原告与 NLRB 的持续斗争 被解雇的员工们向 NLRB 提出投诉,指控 SpaceX 违法解雇。然而,SpaceX 向 NLRB 反诉,并成功说服联邦法院暂停 NLRB 的审判程序。NLRB 的总法律顾问詹妮弗·阿布鲁佐(Jennifer Abruzzo)指出,马斯克试图通过金钱或恐吓来摆脱困境,但她并未退缩。 霍兰德-蒂伦表示:“在这种情况下,坚持正义的代价是巨大的,但我不愿看到劳动保护的基本权利遭受根本性削弱。”她现在已迁居北卡罗来纳州,在一家初创公司工作,致力于通过卫星技术为气候研究贡献力量。 记者观点 作为新闻从业员,我认为这起案件不仅反映了 SpaceX 内部的性别歧视和职场霸凌问题,更揭示了大公司在面对法律和监管时所采取的策略。SpaceX 通过拖延和法律挑战,试图逃避责任。这种行为不仅对被解雇的员工造成了伤害,也对整个职场文化产生了负面影响。 在科技行业快速发展的今天,企业在追求技术突破的同时,必须重视员工的权益和工作环境。希望这起案件能促使更多人关注职场性别平等和员工权益,推动企业在实现宏伟目标的同时,真正关心和尊重每一位员工。

Xbox 全球瘫痪:多平台用户受到影响

Xbox 全球瘫痪

全球Xbox Live服务中断 7月2日,BleepingComputer 网站消息,Xbox Live 服务因重大故障而瘫痪,全球用户受到了广泛影响,无法登录 Xbox 账户和玩游戏。 用户无法访问平台 根据大量用户报告,该在线游戏平台已瘫痪至少三个小时,用户无法玩需要登录 Xbox 账户的云游戏和离线游戏。此次中断影响了不同平台的用户,包括云游戏、Xbox One 游戏机、Windows 上的 Xbox、安卓设备、苹果设备和网络服务等。 官方回应与调查 Xbox 支持团队表示,他们已经意识到部分用户的 Xbox Live 服务断开,正在进行调查。目前,Xbox 状态页面显示服务中断,账户和配置文件服务受到影响。 中断影响范围广泛 在第一批用户报告出现在网上几个小时之后,Xbox 团队承认了这一问题。Xbox 团队解释道:“您可能无法登录 Xbox 配置文件,登录时可能会断开连接,或出现其他相关问题。大多数游戏、应用程序和社交活动等需要登录的功能将无法使用。” 自中断开始以来,Downdetector 已收到数万份服务问题报告,受影响的玩家称他们无法登录账户玩游戏,并报告了服务器问题。 记者观点 这次全球性的Xbox Live服务中断再次提醒我们,现代在线服务的依赖性和脆弱性。随着越来越多的游戏和应用程序需要在线功能,任何服务中断都可能对用户体验造成重大影响。对于Xbox和其他在线服务提供商来说,如何提高系统的稳定性和快速恢复能力,将是未来需要重点解决的问题。 结语 目前,Xbox 支持团队正在全力调查和解决这次中断问题,希望能够尽快恢复服务。用户在此期间需要保持耐心,并关注官方渠道获取最新的进展信息。你对这次中断事件有何看法?欢迎留言分享!

从React到HTML优先:Microsoft Edge发布WebUI 2.0,引领网页开发新潮流

从React到HTML优先

随着新的浏览器技术崭露头角,微软Edge浏览器的最新升级正向我们展示了一个全新的网页开发方向。这不仅是一次技术层面的升级,更可能是一场网页开发领域的革命性变革。本文深入探讨了Edge团队如何摒弃传统的JavaScript框架,转向更加轻量、快速的HTML优先方案。这一转变不仅技术意义深远,更可能引领未来网页开发的新潮流。若你对网页开发的未来充满好奇,渴望了解这一变革的详细信息和潜在影响,请继续阅读本文。 Web应用的进化 二十年前,基于浏览器的应用程序——也就是Web应用——在功能方面取得了长足的进步。2004年4月,谷歌推出了首批能够像本地应用程序一样运行的Web应用之一,即Gmail。其背后的技术是一种后来被称为“Ajax”(异步JavaScript和XML)的JavaScript技术,这项技术使得Web应用程序能够异步地与服务器进行数据交换,从而无需用户手动刷新页面。 2004年的互联网因此变得更加互动。Gmail利用Ajax技术实现了邮件的即时加载和实时搜索,其他Web应用如Flickr、Bloglines和Basecamp也迅速跟进。随后,Facebook也采用了Ajax技术,实现了评论和点赞的异步提交和接收,这些操作可以即时在页面上更新,无需刷新整个页面。这一技术的应用如同魔法一般,推动了“Web即平台”(即Web 2.0)在接下来的十年里蓬勃发展。 JavaScript的双刃剑效应 然而,随后的发展却颇为有趣。自2014年至今,开发者们对JavaScript的青睐与日俱增——好东西自然是多多益善,对吧?因此,Web应用变得越来越复杂,尤其是在React(2013年推出)和相关框架如Next.js(2016年)问世之后。尽管这确实有助于Web应用的扩展,并在用户界面上实现了更多令人惊艳的功能,但同时也增加了用户设备需要处理的JavaScript代码量,并加重了开发者的维护负担。 JavaScript生态系统变得过于庞大,以至于Web社区中的一些知名人士开始呼吁回归Web平台的基础。过去几年里,我一直在报道这种趋势,但直到现在,我还没有看到哪款大规模Web应用真正代表了“回归基础”的潮流。 或许现在我找到了这个答案,那就是微软最新升级的Web浏览器——基于Chromium的Edge。这周它引起了我的注意,原因有二。首先,它减少了对React的依赖;其次,它增加了对Web组件的使用,这是一种以HTML为主的Web开发方法。 “……从React转向现代Web组件和HTML优先的架构,为用户带来了极大的便利和优势。” ——Alex Russell,Edge产品经理合伙人 Edge是如何减少React代码的? 微软的博客文章介绍了新版Edge(122版),但并未直接提及React。相反,文章着重强调了用户体验的改进——更快的浏览速度。公司表示: “从Edge 122开始,浏览器的基础用户界面现在响应更为迅速。对于Edge用户,UI的速度提升了42%,而对于那些没有SSD或内存少于8GB的设备用户,速度则提升了高达76%!” 但微软的Alex Russell,Edge的合作产品经理(同时他也是Web组件的创始人之一),在Mastodon上透露了开发细节: “我们现在使用Web技术来构建浏览器的许多部分(例如书签、历史记录、下载、设置、新标签页等),从React转向现代的Web组件+以HTML为主的架构,这对用户,特别是使用低端硬件的用户来说,具有巨大的好处。” 更少的JavaScript,更快的浏览体验 实际上,这意味着Edge中使用JavaScript代码渲染的用户界面减少了。更少的JavaScript意味着更小的资源占用,从而为用户提供了更快的Web浏览体验。微软还制作了一个简短的视频来展示这种速度差异。 记者观点 Edge团队的这一转变无疑是对网页开发领域的一次重大革新。从React到HTML优先的转变,不仅提升了浏览器的性能,也为其他Web开发者提供了新的思路。随着技术的不断发展,我们或许会看到更多的浏览器和Web应用跟随这一趋势,回归Web平台的基础,利用更少的代码实现更高效的功能。 结语 微软Edge的这一升级标志着Web开发领域的一个新方向。通过减少对JavaScript框架的依赖,转而采用更轻量、快速的HTML优先方案,Edge不仅提升了用户体验,也为未来的Web开发树立了榜样。我们期待这一变革能够引领更多创新,让Web应用变得更加高效和易用。你对这一变革有何看法?欢迎留言分享!

三星遭遇55年来首次总罢工:28000名员工坚持“不给钱不上班”

三星遭遇55年来首次总罢工

罢工背景:薪资谈判破裂 当地时间7月1日,韩国全国三星电子工会宣布启动总罢工,这是三星成立55年来的首次罢工,原因是与三星电子的劳资谈判未能达成一致。据悉,工会成员约有2.8万人,占三星电子员工总数的20%左右。工会与三星之间的主要争议点集中在薪资涨幅和绩效奖金的计算方式。 薪资涨幅争议 今年1月,工会与三星开始进行薪资谈判。工会认为,三星提出的5.1%的薪资涨幅过低,要求将涨幅提高到6.5%。工会强调,考虑到当前的经济环境和生活成本的上升,这样的涨幅才能满足员工的基本需求。然而,三星方面一直坚持原有的涨幅,拒绝工会的要求。 绩效奖金的计算方式 除了薪资涨幅外,工会还要求三星调整绩效奖金的计算方式。目前,三星的绩效奖金是按照经济附加值(税后营业净利润减去资本投入)计算的。工会认为,这种计算方式不合理,要求改为按照营业利润计算,类似于SK海力士和LG电子的标准。工会认为,这样的调整能够更公平地反映员工的实际贡献。 其他诉求:带薪年假和薪酬补偿 工会还提出了其他一些诉求,包括增加一天带薪年假,以及对在2024年薪酬谈判合同上没有签名的工会成员给予补偿。工会主席Son Woo-mok在声明中表示:“我们今天宣布全国大罢工。在我们提出的要求得到满足之前,将会持续奋战,坚持不给钱就不上班。” 罢工的影响 这次罢工不仅影响了三星电子的生产运营,还对韩国整体经济产生了一定的冲击。三星电子作为韩国最大的企业之一,其罢工事件引起了社会各界的广泛关注。工会表示,除非三星电子满足他们的薪酬、休假福利等方面的要求,否则罢工不会停止。 劳资双方的态度 在过去几个月中,韩国中央劳动委员会曾介入调停,但未能达成一致。5月29日,工会宣布罢工,并在6月7日正式发起行动。然而,三星电子始终不肯让步,认为工会的要求过高,不利于企业的长期发展。 记者观点: 北美头条 从当前情况来看,这次罢工不仅是三星电子内部劳资矛盾的集中爆发,也反映了韩国整体劳动市场中普遍存在的问题。工会的诉求虽然看似合理,但如果一味追求高薪和更多福利,可能会影响企业的竞争力和可持续发展。反之,企业也需要更多关注员工的实际需求,找到平衡点,实现劳资双方的共赢。

清北硬核00后团队推出最新3D生成模型Unique3D

最新3D生成模型Unique3D

最近,3D生成圈迎来了一颗新星——Unique3D,一个开源的图像转3D模型,凭借其出色的性能迅速走红。不仅上线即登抱抱脸热榜,GitHub上的星数也迅速超过1.6k,成为新晋的热门项目。 背后的硬核团队 这款模型的背后是一支来自清华和北大的00后年轻初创团队。团队的CEO毕业于北大计算机系,曾获得NOI WC金牌和最佳女选手称号;CTO则来自清华姚班。团队中不少成员都是CG艺术家,擅长利用CG进行艺术创作,COO拥有北大艺术史论与工商管理双学位。这支明星团队在成立一年内顺利完成了三轮融资。 主要特点与技术优势 高保真度、高一致性、高效率 Unique3D的核心特点是高保真度、高一致性和高效率。与以往基于Score Distillation Sampling(SDS)等方法的模型相比,Unique3D解决了模型生成需要长时间优化、几何质量差和不一致性的问题。 多视图扩散模型优化 Unique3D优化了基于多视图扩散模型方法的局部不一致性和生成分辨率低的问题,能够产生精细的纹理和复杂的几何细节。 基于大型开源3D数据集Objaverse训练 团队使用大型开源3D数据集Objaverse进行训练,并在上线时开源了该模型版本,还提供了Demo供用户体验。 网友反馈与使用体验 网友们在体验Unique3D后,纷纷对其表现赞不绝口。不少网友表示,Unique3D生成的3D模型在胳膊、腿、手腕等细节处理上表现出色,生成的Mesh视图质量也非常高。甚至有人将生成好的3D模型搭入骨架,解锁了高阶玩法,在Blender中组建3D动画。 简单易用的界面 Unique3D的Demo界面设计简洁,用户只需上传一张图片,点击“Generate 3D”即可生成3D模型。生成速度非常快,相比此前模型需要几分钟的生成时间,Unique3D几乎在30秒内就能完成一张图的3D转换。 高度一致的纹理和质感 网友们特别称赞Unique3D生成的纹理和质感与原图高度一致,这一特点也使其在众多3D生成模型中脱颖而出。有人甚至表示,Unique3D的效果比Stability AI和Tripo AI合作推出的单图转3D模型TripoSR还要好。 未来发展 据量子位打听,基于Unique3D模型打造的产品即将上线一波新功能,包括一张图生成3D全景图和一键将视频人物替换为生成角色。随着这些新功能的推出,Unique3D团队有望在3D生成领域继续引领潮流。 结语 Unique3D的成功不仅展示了清北00后团队的硬核实力,也为3D生成技术的发展注入了新的活力。凭借其高保真度、高一致性和高效率,Unique3D有望在未来的3D生成应用中占据重要地位。期待这支年轻团队在未来带来更多惊喜与突破。

浪潮信息AI团队在CVPR 2024自动驾驶挑战赛中再夺一冠

浪潮信息AI团队在CVPR 2024自动驾驶

概述 在刚刚结束的CVPR 2024会议上,浪潮信息AI团队在备受瞩目的自动驾驶国际挑战赛“Occupancy & Flow”赛道中,以48.9%的出色成绩从全球90余支顶尖AI团队中脱颖而出,摘得桂冠。这是该团队继2022年、2023年在nuScenes 3D目标检测榜单上夺冠后,又一次展示其在自动驾驶领域的强大实力。 CVPR 2024自动驾驶国际挑战赛 CVPR(IEEE/CVF Conference on Computer Vision and Pattern Recognition)是计算机视觉领域的顶级学术会议,而自动驾驶国际挑战赛是其中的重要组成部分,专注于自动驾驶技术的创新与应用。今年的挑战赛包含感知、预测、规划三大方向的七个赛道,吸引了全球17个国家和地区的90余支顶尖AI团队参与。 Occupancy & Flow赛道 浪潮信息AI团队在占据栅格和运动估计(Occupancy & Flow)赛道中,展示了其在感知任务上的卓越能力。比赛基于nuScenes数据集,要求参赛队伍利用相机图像信息对栅格化三维空间的占据情况(Occupancy)和运动(Flow)进行预测,以评估感知系统在高度动态及不规则驾驶场景下的表现能力。 占据栅格(Occupancy) 占据栅格网络(Occupancy Networks)是一种全新的自动驾驶感知算法,通过获取立体的栅格占据信息,使系统能够在三维空间中确定物体的位置和形状,进而有效识别和处理未被明确标注或形状复杂的障碍物。这种方法相比传统的三维物体检测方法,具有更高的精度和分辨率,能够更准确地理解周围环境。 关键技术与创新 浪潮信息AI团队在此次挑战赛中提交的“F-OCC”算法模型,通过先进的模型结构设计、数据处理能力和算子优化能力,实现了该赛道的最强模型性能。 高效模型架构 团队选择了基于前向投影的感知架构,并采用了高效且性能良好的FlashInternImage模型。通过对整体流程进行超参调优和算子加速优化,模型在占据栅格和运动估计任务中均获得了最高分,同时提升了模型的运算效率和推理速度。 数据处理优化 比赛提供的体素标签包含大量在图像中无法观测到的点,训练过程中可能干扰基于图像数据的预测网络。浪潮信息AI团队通过模拟LiDAR光束的方法生成可视化掩码,提升了模型的预测精度;同时引入感知范围边缘的体素点参与训练,有效解决了误检问题,将模型的整体检测性能提升了11%。 3D体素编码优化 在3D体素特征编码模块中,团队将可形变卷积操作(DCN3D)应用于3D体素数据,以提升3D特征的表示能力。通过使用CUDA实现与优化DCN3D,大幅提升了模型的运算速度,并有效降低了显存消耗。最终,模型的占据预测能力提升超过5%。 其他赛道成绩 除Occupancy & Flow赛道外,浪潮信息AI团队还在“大语言模型在自动驾驶中的应用”(LLM4AD)赛道中取得了第五名的成绩,展示了其在多模态感知和理解方面的深厚实力。 总结 浪潮信息AI团队在CVPR 2024自动驾驶国际挑战赛中的出色表现,再次证明了其在自动驾驶技术领域的领先地位。通过创新的算法和优化的模型结构,他们成功应对了复杂的感知任务,为自动驾驶系统的安全性、精度和可靠性提供了新的解决方案。未来,随着技术的不断进步,我们期待看到浪潮信息AI团队在自动驾驶领域取得更多突破和成就。

无需人类或GPT-4打标签!

无需人类或GPT-4打标签!

量子位公众号 QbitAI 南大与旷视研究院的研究人员推出了一种适用于视觉大模型(VLM)的无监督范式,解决了视觉大模型的偏好对齐问题。这一新方法无需GPT-4或人类打标签,通过构造偏好样本对,显著改善了模型的输出质量。 研究背景 当前的视觉大模型虽然在性能上已经比较成熟,但在用户体验方面仍存在不足。模型往往不遵循指令、产生幻觉回答,并且可能违背“帮助、有害、诚实”(3H)准则。为了提升用户体验,研究团队提出了一种新的无监督范式:Self-Supervised Visual Preference Alignment(SeVa)。 SeVa范式 SeVa基于LLaVa-1.5-7B/13B模型进行开发,无需依赖GPT-4或人类打标签。该范式的关键在于通过构建正负样本对比数据集,自动化地完成偏好数据的构造,用于模型的对齐训练。 具体方法 1. 构建正负样本对比数据集 研究团队发现,视觉大模型(VLM)对图像层面的扰动非常敏感。轻微的图像增广可能导致VLM对同一个问题产生错误且不同的回答。基于这一观察,团队将原始图像的回答作为正样本,将增广后图像的回答作为负样本,构造了一个偏好数据集。 2. 实验与结果 作者通过严格的实验,从多个角度展示了这一自动化偏好数据构造方法对多模态理解和用户友好性的提升。在实验中,团队在LLaVA-1.5的测试阶段引入多种图像层面的扰动,并在三个常规的多模态基准测试上运行,结果显示,SeVa显著提高了模型的稳定性和准确性。 优势与应用 SeVa范式通过无监督学习的方式,解决了多模态对齐过程中偏好数据昂贵且稀缺的问题。它不仅提高了VLM在多模态任务中的表现,还大幅减少了对人类参与和高成本数据的依赖。 结论 南大与旷视研究院的研究展示了在不依赖人类或GPT-4打标签的情况下,如何有效解决视觉大模型的偏好对齐问题。SeVa范式的提出,为视觉语言模型的研究和应用提供了新的思路和方向。该方法不仅在学术界引起了广泛关注,也为工业界提供了高效、低成本的解决方案。 通过这一研究,视觉大模型在用户体验上的不足得到显著改善,进一步推动了视觉语言模型的发展和应用。未来,SeVa有望在更多实际场景中得到应用,为用户提供更优质的视觉语言服务.

提速199倍!清华&哈佛发布三维语义高斯泼溅LangSplat|CVPR 2024

清华&哈佛发布三维语义高斯泼溅

量子位公众号 QbitAI 清华大学和哈佛大学团队在CVPR 2024上发布了一项突破性研究——三维语义高斯泼溅技术LangSplat。这项研究在开放文本目标定位和语义分割任务上达到了新的SOTA(State of the Art)性能,查询速度比之前的最先进方法LERF快了199倍。 LangSplat:开创性的三维语义查询技术 LangSplat结合三维高斯泼溅技术,通过在每个高斯点上编码从CLIP提取的语义特征,重建了三维语义场。该方法显著提升了查询速度和精度,为三维空间中的开放文本查询提供了一个高效且准确的解决方案。 技术原理 结合三维高斯泼溅:LangSplat利用三维高斯泼溅技术,在每个高斯点上编码语义特征,避免了传统NeRF(Neural Radiance Fields)方法中计算成本高昂的渲染过程。 语义自编码器:首先训练特定场景下的语义自编码器,然后在场景特定的低维潜在空间(latent space)上学习语义特征,从而降低计算量。 多层次语义学习:通过使用SAM(Segment Anything Model)学习多层次语义,在不引入DINO特征的情况下,获得了更准确的语义场。 实验结果 广泛的实验结果表明,LangSplat在开放文本目标定位和语义分割任务上的性能显著超过了之前的SOTA方法LERF。在1440×1080分辨率的图像上,LangSplat的查询速度比LERF快了199倍,这一惊人的提升引发了学术界和工业界的广泛关注。 影响与前景 LangSplat的发布标志着三维语义查询技术的重大进步,尤其在开放文本查询和语义分割任务上展现了卓越的性能。该方法不仅在学术界引起了轰动,也在社交媒体上广受关注,论文视频浏览量已超过100,000次,论文代码已开源。 结论 清华大学和哈佛大学团队提出的LangSplat,通过结合三维高斯泼溅技术和语义自编码器,显著提升了三维语义场的重建速度和精度。这一创新方法在CVPR 2024上获得了Highlight认可,为三维语义查询技术的发展提供了新的思路和方向。 随着LangSplat的进一步研究和应用,我们期待看到更多关于三维语义查询技术的突破和发展。这一技术的成熟将为三维空间中的开放文本查询、语义分割等任务提供更高效和准确的解决方案,为人工智能领域带来更多可能性。

无痛玩转Llama 3:手把手教程及100元代金券领取指南

无痛玩转Llama 3

前言 近日,许多用户收到OpenAI暂停API服务的通知,这让国内开发者和企业倍感压力。然而,Llama 3大模型的出现,为大家提供了一个强有力的替代方案。本文将详细介绍如何高效使用Llama 3,帮助大家无缝过渡并充分利用这一先进模型。 Llama 3概述 Llama 3是一个完全开源的大语言模型,只要有合适的硬件支持,就能不限次数地处理各种任务。无论是80亿参数的小模型还是700亿参数的大模型,都可以根据需求进行微调,适应不同的业务场景。 获取Llama 3模型 使用Llama 3之前,需要在Meta官网填写表格并签署协议。完成后,Meta会提供GitHub地址和下载链接。对于700亿参数模型,下载时间较长,尤其是在没有科学加速的情况下。 下载和配置指南 填写表格并签署协议:访问Meta官网,填写相关信息并签署协议。 获取下载链接:根据指引,前往GitHub获取下载链接。 下载模型权重:下载700亿参数模型需要132GB存储,建议使用稳定的网络环境。 配置环境:确保你的机器具备足够的硬件资源,并按照指引配置Llama 3的推理和训练微调环境。 使用宝藏公司服务 为了节省时间和精力,我们推荐使用一家提供完整配置和下载服务的宝藏公司。这家公司已经预先下载并配置好了Llama 3的模型,用户可以直接使用。 优势 省时省力:不需要处理繁琐的依赖安装和配置问题。 高效体验:700亿参数模型已经放在公开数据中,直接上手使用。 经济实惠:提供的机器价格非常便宜,还有100元代金券可领取。 快速上手教程 1. 创建账户并领取代金券 访问宝藏公司官网,创建账户并领取100元代金券。 2. 选择适合的硬件配置 根据需求选择适合的硬件配置。对于80亿参数模型,单卡即可完成推理;对于700亿参数模型,推荐使用4卡进行微调。 3. 开始使用 登录账户,进入Llama 3的推理和训练微调环境。使用提供的界面或API接口,开始处理你的任务。 4. 微调模型 根据业务需求,对Llama 3模型进行微调。宝藏公司提供了简单易用的界面,帮助你快速上手微调过程。 常见问题解答 1. 如何确保下载和配置顺利完成? 确保网络环境稳定,并根据提供的指引一步步操作。如果遇到问题,可以联系宝藏公司的客服团队。 2. 微调过程需要多长时间? 对于700亿参数模型,使用4卡进行微调约需半小时,具体时间视任务复杂度而定。 3. 是否可以随时升级硬件配置? 可以。宝藏公司提供灵活的硬件配置选择,可以根据需求随时升级。 结语 Llama 3为AI开发者提供了一个强大的工具,尤其是在OpenAI暂停API服务的背景下。通过本文的教程,希望大家能够无痛过渡,充分利用Llama 3的优势,实现各类AI任务的高效处理。同时,不要忘记领取100元代金券,享受更多实惠。 立即行动,体验Llama […]

React 19 差点拖慢整个互联网!核心团队紧急叫停更新

React 19 差点拖慢整个互联网

前端开发“灾难”?React 19引发性能问题紧急叫停 在前端开发领域,React一直是最受欢迎的框架之一,广泛应用于Netflix、Airbnb、Discord以及Meta旗下的Facebook、Instagram和WhatsApp等知名平台。React驱动了数十亿人的日常互联网体验,因此React的每一次更新都会引起广泛关注。 React 19 RC版本发布带来的新功能 今年4月底,Meta公司的React开发团队发布了React 19的RC版本,带来了许多令人兴奋的新功能,包括“use”API、新钩子Actions、稳定服务器组件以及Server Actions等。这是自2022年3月React 18全面发布以来的首个主要版本更新。 潜在的性能问题引发担忧 然而,除了这些新功能和开发体验的改进之外,一个小变化直到上周才引起大家的重视,这个变化可能显著降低依赖React的网站的性能表现。 一切的起点,源自前端工具集TanStack Query核心维护者之一Dominik的一条推文。他指出,React 18和React 19在Suspense的并行获取处理方面存在差异。在React 18中,组件的并行获取是“按组件”区分设计的,即使将两个组件放在同一个Suspense边界内且各自执行获取,触发仍将并行执行。而在React 19中,查询现在会以瀑布形式运行,这意味着查询将顺序执行,等待一个查询完成后再开始下一个查询。 社区反应强烈 Dominik的发现引起了广泛关注和讨论,许多开发者表示确有同感。高级Web工程师Adam Rackis认为,这个变化让人抓狂且莫名其妙。NozzleIO联合创始人Tanner Linsley也表示,这个改动特别影响现有应用程序及用例,拉低其性能表现。 核心团队的回应 React核心团队迅速回应了这些担忧,承认这一变化可能带来的性能问题。目前,React 19.0.0版本尚未正式发布,这为React团队重新考虑这一调整留了一丝希望。 值得注意的是,Dominik并不是第一个发现这一问题的人。Gabriel Valfridsson在RC公告发布后的第二天就发现了这一变化,但当时并未引起广泛关注。Dominik在将React Query升级到React 19的过程中,才意识到问题的严重性。 性能测试结果 不少开发者分享了在React 18中几乎并行获取所有内容的应用程序在React 19中如何导致性能崩溃的情况。开发者Matias Gonzalez的测试显示,在更新到React 19后,加载相同模型的时间从2.5秒增加到3.5秒。 更糟糕的是,这次调整不仅大大影响性能表现,对许多依赖该模式的开发者造成冲击,React核心团队还毫不客气地承认了这一点。 其他重要变化 React 19还包括一些其他重要变化,例如批量同步、默认连续通道,以及不再对Suspended的兄弟组件进行预渲染。Dominik否认这一变化是bug,强调这是React核心团队的设计决定。 记者观点 作为一名新闻从业者,我认为这次React 19的事件突显了前端开发中平衡新功能和性能优化的重要性。React作为一个广泛使用的框架,每一次更新都可能影响到大量网站的性能和用户体验。虽然新功能能够提升开发体验,但如果没有充分考虑到性能问题,可能会对现有系统造成严重影响。 React核心团队的迅速回应和紧急叫停显示了他们对社区反馈的重视。这也是一个提醒,开发者在更新到新版本时,需要仔细测试和评估可能带来的影响,确保新版本的引入不会对系统性能和稳定性造成负面影响。 总之,技术进步固然重要,但在实现创新的同时,必须谨慎处理可能引发的问题。React 19的事件为我们敲响了警钟,提醒我们在追求技术进步的同时,不能忽视对现有系统的影响和性能优化。

超20%的Microsoft SQL Server不再受支持

超20%的Microsoft SQL Server不再受支持

Lansweeper警告:数百万SQL Server实例面临风险 IT资产管理平台Lansweeper近日发出警告,称在对超过一百万的SQL Server实例进行扫描后发现,有19.8%的SQL Server实例现已不再受微软支持。这个数据表明,近五分之一的企业数据库系统存在潜在的安全隐患和技术风险。   即将停止支持的SQL Server 2014 目前,12%的SQL Server实例运行的是SQL Server 2014,该版本将于7月9日停止扩展支持。这意味着,从下月初开始,超过32%的SQL Server实例将处于不受支持状态,进一步增加了企业IT系统的风险。 版本分布现状:旧版占比依然较高 虽然当前的SQL Server版本是2022,但Lansweeper的调查数据显示,仍有大量实例运行较老版本。具体来说,44%的实例运行的是SQL Server 2019,13.5%运行SQL Server 2017,SQL Server 2016则不到10%。此外,SQL Server 2014占12%,SQL Server 2012占9%,SQL Server 2008占8%以下。这些数据表明,企业在升级数据库版本方面进展缓慢。 支付费用也难掩潜在问题 尽管客户可以支付费用在未来三年内继续接收SQL Server 2014的安全更新,但这一发现仍然强调了一个重要问题:许多企业的业务依赖于早该淘汰的技术,存在极大的安全和技术风险。 用户坚持旧版本的原因 Lansweeper首席战略官Roel Decneut指出,让用户放弃旧版本非常困难,这与运行关系数据库的主要原因有关。这些数据库通常承载着企业关键应用程序,而这些应用程序的高粘性使得升级变得复杂且成本高昂。此外,过去几十年中对向后兼容性处理的不一致也增加了升级的难度。 不止微软面临挑战 值得注意的是,微软并非唯一面临这个问题的公司。Percona的技术推广者Dave Stokes指出,开源数据库同样面临生命周期结束的挑战。例如,MySQL 5.7版在去年10月达到了EOL状态,但在Percona监控和管理的系统中,这一版本仍占据很大比例。 企业升级意愿低下 Decneut表示,企业通常不会轻易升级他们的数据库系统。很多企业的基础业务应用程序设计简单但强大,他们对新功能的需求很低,只有在出现重大安全漏洞时才会考虑升级。而随着云计算、人工智能等新兴技术的出现,企业的关注点也逐渐转移。 记者观点 作为一名新闻从业者,我认为Lansweeper的这次调查结果发出了一个重要警示:企业在享受新技术带来的便利和创新时,不能忽视基础设施的安全和稳定性。数据库系统作为企业IT架构的核心,必须保持在一个受支持和安全的状态下运行。 技术的快速发展使得企业不断追求前沿应用,但在这个过程中,基础设施的更新和维护同样重要。企业应制定明确的升级和维护计划,确保系统始终处于最佳状态,以应对不断变化的安全威胁和业务需求。 总的来说,企业需要平衡技术创新和基础设施维护,在追求新技术的同时,不忘对现有系统进行必要的升级和维护,以保障业务的连续性和安全性。通过这次事件,我们希望更多企业能意识到数据库系统的重要性,并采取积极措施,确保其始终保持在受支持的状态下运行。

微软全新发布!Copilot+ PC率先预装Windows 11 24H2,功能引发热议

微软全新发布!Copilot+ PC率先预装

最新更新抢先看:Copilot+ PC率先搭载Windows 11 24H2 近日,微软发布了最新的Windows 11 24H2版本,而首批预装这一更新的设备竟然是本周上市的Copilot+ PC,这些PC搭载了高通Snapdragon X系列芯片。尽管大部分兼容PC用户预计要等到今年秋季才能获得这一更新,但这次率先预装的决定引发了广泛关注和热议。 Copilot+ PC的硬件要求 微软宣布,启用Copilot+ PC软件功能需要机器达到一定的硬件标准。这意味着,并不是所有设备都能立即享受到24H2的更新和Copilot+的强大功能。用户需要确保他们的设备符合相应的硬件配置,以便顺利运行最新的软件和功能。 争议功能Recall:隐私与安全的博弈 Copilot+ PC的一项备受争议的功能是Recall,这项功能因其潜在的安全和隐私问题引起了广泛讨论。Recall功能能够自动记录和回溯用户的操作历史,虽然在某些情况下可能提供便利,但也带来了严重的隐私风险。鉴于这些担忧,微软已宣布Recall将默认不启用。用户若希望使用此功能,需要手动进行设置和激活。 新版本的优势与期待 Windows 11 24H2版本引入了许多新功能和改进,旨在提升用户体验和系统性能。从改进的用户界面到增强的安全特性,这一版本无疑为用户带来了更好的使用体验。然而,正如每次重大更新一样,新功能的引入和硬件要求的提升也意味着用户需要做好相应的准备,确保他们的设备能够支持最新的软件版本。 记者观点 作为一名新闻从业者,我认为微软此次通过Copilot+ PC率先释出Windows 11 24H2,展示了公司在技术创新和市场战略上的前瞻性。这一举措不仅提升了Copilot+ PC的市场竞争力,也为用户提供了抢先体验最新操作系统的机会。然而,值得注意的是,功能的增加和更新带来的隐私和安全问题同样需要用户和企业的高度重视。 Recall功能的争议反映了科技公司在创新过程中面临的复杂挑战。如何在提供便捷功能的同时,保护用户的隐私和数据安全,是微软和其他科技公司必须面对的重要课题。默认不启用Recall功能的决定显示了微软在听取用户反馈后,做出的审慎选择。 总的来说,Windows 11 24H2的发布标志着微软在操作系统领域的又一次重要进步。随着秋季更新的逐步推送,更多用户将能够体验到这一版本带来的诸多改进和新功能。在此期间,我们期待微软继续优化系统,解决用户关心的问题,进一步提升用户的整体体验。未来,技术的不断进步将为我们的生活带来更多便利,同时也要求我们共同面对和解决新的挑战。

Apple Intelligence为何依赖最新硬件?苹果高管揭示背后原因

Apple Intelligence为何依赖最新硬件

新一代AI体验:Apple Intelligence为何需要最新硬件支持? 随着iOS 18、iPadOS 18和macOS Sequoia的推出,苹果即将发布一种全新的个性化人工智能体验,称为Apple Intelligence。这项新技术利用设备上的生成性大型语言模型,旨在提升iPhone、iPad和Mac的用户体验。 然而,这些新的人工智能功能只能在苹果最新的iPhone 15 Pro和iPhone 15 Pro Max机型上运行,而Mac和iPad则需要配备M1或更新的芯片才能支持Apple Intelligence。自这一消息公布以来,许多用户纷纷询问为何这些功能需要最新的硬件支持。 苹果高管解释硬件限制 在WWDC 2024的一场脱口秀直播节目中,Daring Fireball的约翰·格鲁伯向苹果的人工智能和机器学习主管约翰·詹南德雷亚、营销主管格雷格·乔斯维亚克以及软件工程主管克雷格·费德里奇提出了这一问题。三位高管详细解释了Apple Intelligence对硬件的需求。 苹果软件工程主管克雷格·费德里奇表示,公司在推出任何新功能时,首先会研究如何尽可能地将其应用到旧设备上。但对于Apple Intelligence来说,需要特定的硬件支持才能实现功能的最佳运行效果。“在iPhone上运行这种功能的模型是一件非常不寻常的事情,”他解释道。 强大的A17 Pro芯片和神经引擎 iPhone 15 Pro搭载的是A17 Pro芯片,内含16核神经引擎,其运算速度比iPhone 15和iPhone 15 Plus中的A16芯片快2倍,每秒可执行近35万亿次运算。费德里奇强调,这种计算能力对于Apple Intelligence至关重要。此外,新的AI功能还需要大量内存支持,因此与Apple Intelligence兼容的设备至少配备了8GB的RAM。 内存需求与性能优化 费德里奇暗示,RAM是实现新AI功能的另一个关键因素。这意味着,为了运行Apple Intelligence,设备需要足够的内存来支持复杂的计算和数据处理。这也解释了为什么只有最新的硬件才能完全支持这些新功能。 记者观点 作为一名新闻从业者,我认为苹果此次对新硬件的依赖不仅反映了技术进步的需求,也展示了公司在推陈出新方面的战略决策。Apple Intelligence的推出标志着苹果在个性化人工智能领域迈出了重要一步,虽然这意味着老设备用户可能无法享受到这些最新的功能,但从技术角度来看,这一选择是合理的。 新技术的发展往往伴随着对硬件更高的要求,这是科技进步的必然趋势。随着A17 Pro芯片和16核神经引擎的引入,Apple Intelligence得以在运算速度和处理能力上取得突破,为用户提供更加智能和个性化的体验。这也预示着未来的移动设备将越来越依赖强大的计算能力和内存支持,以满足日益复杂的应用需求。 总之,Apple Intelligence对最新硬件的依赖,反映了苹果在技术创新上的不懈追求。未来,我们可以期待更多基于先进硬件的创新功能,为用户带来更加丰富和智能的使用体验。在这场科技与硬件的竞赛中,苹果正引领着行业的潮流,不断推动技术的边界。

watchOS 11重磅更新:个性化活动目标,轻松掌控每一天

watchOS 11重磅更新

在最新发布的watchOS 11测试版中,Apple Watch带来了令人兴奋的新功能,让用户可以为一周中的每一天安排定制的活动目标。如果你需要休息,还可以暂停你的目标,给予你前所未有的灵活性和个性化体验。 定制化的活动目标 Apple Watch一直以其强大的健康追踪功能著称,而此次更新则将这一功能提升到了新的高度。用户在活动应用中查看移动、锻炼或站立目标时,只需点击+/-按钮,就可以看到一个新的“改变每日目标”选项。这一选项会引导你进入一周的时间表列表,允许你为每一天单独设置活动目标。 灵活安排你的活动目标 这一功能的加入意味着,如果你希望在周一、周三和周五设定较高的锻炼目标,而周末设定较低的目标,你可以轻松实现这一点。无论是工作日的高强度锻炼还是周末的休息调整,Apple Watch都能满足你的需求。 iOS 18 健身应用同步管理 不仅仅是通过Apple Watch,你还可以在iOS 18的健身应用中管理这些设置。在活动摘要中,同样有+/-按钮,让你能够调整今天的目标或为一周中的每一天设定时间表。这种多平台的管理方式,使得你的活动目标设置更加便捷和直观。 活动目标暂停功能 有时我们需要休息,这次更新也考虑到了这一点。用户可以选择暂停自己的活动目标,给自己一个完全放松的日子。无论是身体不适还是单纯想要休息一下,Apple Watch都能理解你的需求。 个性化体验提升 这种高度定制化的体验不仅提升了Apple Watch的实用性,也使得用户能够更加精确地管理自己的健康和锻炼计划。无论你是严肃的健身爱好者还是日常活动的追踪者,这一功能都能为你提供更贴心的服务。 记者观点 作为一名新闻从业者,我认为Apple Watch的这一更新无疑是个性化健康管理的一大进步。现代人生活节奏快、压力大,能够根据个人需求灵活调整活动目标,对于保持长期健康非常重要。这不仅体现了Apple对用户需求的深刻理解,也展示了科技在人性化服务中的潜力。 总之,watchOS 11的新功能为Apple Watch用户提供了更大的灵活性和控制权,使其能够更加轻松地管理日常活动和健康目标。这一变化无疑将受到广大用户的欢迎,并进一步巩固Apple Watch在智能手表市场的领先地位。期待更多用户在这次更新中发现新的惊喜,享受更加健康、愉快的生活。

AI重新定义导航:高德地图智能预警,网友称“导航成精了!”

AI重新定义导航

最近,高德地图的用户纷纷在社交平台晒出体验,感叹导航变得如此智能。许多骑友在帖子中疯狂推荐:“跑山请开高德,求扩散!”这到底是什么功能,让用户纷纷点赞直呼“黑科技”? 高德地图的“车道级安全预警”功能 高德地图推出的“车道级安全预警”功能成为了用户热议的焦点。这个功能无需额外硬件,仅需一个APP,就能为两轮和四轮车提供前所未有的安全提示,不论新老司机都觉得非常实用。 智能导航,惊艳用户 在各大社交平台上,尤其是假期前后出行高峰期,高德地图的智能导航功能频频被用户称赞。视频中的用户展示了白天黑夜、会车超车和弯道等各种场景下的使用体验。 例如,一段视频中,车辆在夜间行驶时,导航突然提醒“后方有大型货车逼近,请小心驾驶”。几秒钟后,果然有一辆大货车疾驰而过,让用户惊叹不已:“高德是在后面装了透视眼吗?” 高德地图不仅能预警后方来车,还能实时通知前方路况。例如,一位用户在高速公路上堵车时,收到“前方有车辆急刹,请小心行驶”的提示。没过多久,前方的车辆果然发生了事故,用户感叹:“好险!” “千里眼”功能,让驾驶更安心 高德地图的智能预警功能在各种复杂路况下表现出色。例如,在山中弯道这种视野盲区,高德地图能提前提醒“前方弯道来车,注意不要压线”,让驾驶更加安全。 不仅是开车的用户,骑摩托车的用户也受益于高德地图的智能预警功能。系统会依据后方来车的速度和类型,提供特殊警报,引导用户作出合适的避让动作。 技术背后的支持 高德地图的车道级安全预警功能,利用北斗卫星感知用户位置关系,判断行车风险,及时预警。这一功能从过去的“车道级导航”进化到“车道级安全预警”,每天使用次数达千万级。 这种技术不仅提升了导航的精确度,更在时间和空间上提供了安全保障。通过实时探测和预警,高德地图让用户感受到“千里眼”般的安心体验。 海量用户,赋能技术 高德地图的用户规模是其实现这一功能的关键优势。据阿里巴巴2024财年Q2财报显示,高德地图日活跃用户峰值超过2.8亿。QuestMobile披露的数据显示,2024年Q1高德地图月活用户为8.01亿,稳居地图导航赛道第一。 在海量用户基础上,高德地图结合技术创新,打造了车道级安全预警功能。通过对车辆急刹预警的实现,高德地图利用北斗卫星高精定位能力,结合时空感知模型,提前提醒后方受前车急刹影响的车辆,确保行车安全。 AI赋能,普惠用户 高德地图的此次升级,代表了一种新的出行趋势。AI技术的加强,使导航不再只是简单的路径指引工具,更是一个智能的风险预警助手。高德地图通过大量数据积累和深度学习,提供个性化和安全的导航服务。 未来,高德地图将继续推出更多个性化服务,满足不同驾驶者的需求。例如,针对不同驾驶习惯,高德地图将提供更精细的场景和高效的导航决策。 我的观点 高德地图的智能预警功能是AI在出行领域的一个重要应用。通过技术创新和用户需求的深度结合,高德地图不仅提升了导航的精确度,更在安全性上有了显著提升。这一功能的普及,不仅让更多用户享受到AI带来的便利,也为未来智能出行提供了无限可能。AI技术的发展,将继续推动导航服务的进步,实现更加个性化和安全的出行体验。

Yandex推出开源LLM训练工具,GPU资源节省高达20%

Yandex推出开源LLM训练工具

跨国科技公司Yandex近日发布了一种名为YaFSDP的开源方法,用于训练大型语言模型(LLM)。这一工具被誉为目前最有效的公开可用工具之一,能够显著增强GPU通信并减少LLM训练中的内存使用量。与现有的FSDP方法相比,YaFSDP的训练速度提升最高可达26%,具体取决于架构和参数数量。这意味着,通过使用YaFSDP,LLM的训练时间大大缩短,能够节省高达20%的GPU资源。 YaFSDP:提高效率,降低成本 YaFSDP(Yandex Fully Sharded Data Parallel)是Yandex开发的一种创新性工具,旨在优化大型语言模型的训练过程。在训练LLM时,GPU资源的消耗往往是一个关键瓶颈。传统的FSDP(Fully Sharded Data Parallel)方法已经能够通过分片数据并行处理来提高效率,但YaFSDP在此基础上进一步优化,使得GPU的利用率更高,通信更高效,内存使用更少。 性能提升,突破瓶颈 根据Yandex的测试结果,YaFSDP在不同架构和参数数量下的训练速度提升幅度各异,最高可达26%。这种性能提升不仅意味着训练时间的显著减少,还意味着在相同资源条件下可以进行更多次实验和模型优化。这对于需要大量计算资源的大型语言模型训练来说,是一个重要的进步。 节省资源,环保高效 GPU资源的节省不仅仅是降低成本的问题,更是提高环保效益的重要手段。随着人工智能模型规模的不断扩大,训练这些模型所需的计算资源也在快速增加。通过使用YaFSDP,可以在保持或提高模型训练效率的前提下,减少高达20%的GPU资源消耗。这不仅能降低企业的运营成本,还能减少对环境的影响。 开源优势,推动创新 Yandex选择将YaFSDP开源,意味着更多的研究机构和企业可以免费使用这一工具。这将有助于推动整个AI社区的技术进步,促进更多创新的产生。开源工具的普及也意味着更多的研究人员能够共享资源、互相合作,共同解决AI训练中的难题。 结语:未来可期 Yandex推出的YaFSDP开源工具,为大型语言模型的训练带来了显著的性能提升和资源节省。通过优化GPU通信和内存使用,YaFSDP在提高训练效率方面表现出色。这一工具的开源也为更多研究机构和企业提供了便利,使他们能够在降低成本的同时,继续推动AI技术的发展。未来,随着更多类似创新工具的出现,AI领域必将迎来更大的突破和发展。 我的观点 Yandex推出的YaFSDP是一项重要的技术进步,它在提高大型语言模型训练效率的同时,显著节省了GPU资源。这不仅有助于降低成本,还具有重要的环保意义。开源这一工具,将有助于整个AI社区的进步和创新。我相信,随着技术的不断发展,类似YaFSDP这样的工具将会越来越多,为AI领域带来更多的可能性和机会。

懂车帝欲单飞,雷军成为最大挑战

懂车帝欲单飞,雷军成为最大挑战

近期,懂车帝传出一个“大新闻”:据知情人士透露,字节跳动正在为旗下汽车资讯平台懂车帝筹集7亿至8亿美元,为其IPO(首次公开募股)做准备。 懂车帝的独立之路 懂车帝最早源自今日头条的汽车频道,经过七年的发展,已经成为一站式汽车信息、交易与服务平台。近年来,懂车帝加速业务转型,从线上走向线下,转变为重资产的汽车交易与服务平台。例如,2023年懂车帝与抖音二手车业务融合升级,并推出线下养车品牌“懂懂养车”。 事实上,懂车帝在对外融资消息传出之前,就已经在为上市做准备。2023年底,懂车帝进行了工商信息变更,今日头条退出公司的股权架构,由最新成立的厦门懂车族科技有限公司100%持股。今年1月,懂车帝相关员工将迁往一个新成立的全资子公司,法定代表人由懂车帝战略负责人担任。未来,懂车帝将拥有独立的办公地点。 这一系列动作表明,字节跳动正在加速推进懂车帝的分拆,使其成为独立发展的公司实体,为上市铺路或实现独立核算、降本增效。如果懂车帝成功上市,它将成为字节跳动旗下首个分拆并上市的业务单元。 字节跳动的多元化调整 懂车帝的独立,反映了字节跳动在业务调整方面的整体策略。2023年3月,字节跳动CEO梁汝波在年会上明确表示,将“信息平台”和“电商”列为主干业务。他强调未来一年公司将聚焦这两类业务,同时进行人员优化、降本增效。 在这一背景下,字节跳动加速处理不赚钱的业务,如甩卖证券业务,关停跨境电商独立站等。对于赚钱但与主业交集较低的业务,字节跳动也加快了调整或分拆的步伐。例如,曾准备打包出售的游戏业务朝夕光年,最近迎来新的负责人,并进行了大幅组织架构调整。 懂车帝的分拆,是字节跳动在房产、金融、社交、跨境电商、互联网医疗等多元化努力中的又一次调整。对于懂车帝的独立,字节跳动解释称是基于业务正常发展的需要。事实上,这也是字节跳动在财务角度实现最大利益化的目标。 懂车帝面临的挑战 尽管懂车帝在新能源汽车高速发展的风口上发展态势良好,但依然面临巨大的内容化和商业化挑战。以去年“出圈”的新能源汽车冬季续航测试为例,懂车帝公布的测试成绩引发了车企的集体声讨。车企认为懂车帝的测试不科学、不严谨,伤害了自身的公信力。 懂车帝“既做运动员又做裁判员”的做法,难以让车企信服。只要其商业模式里难以撇清盈利或者商业化因素,懂车帝就逃脱不了“夹带私货”、“偏向合作品牌或者车型”的质疑。 另外,中国消费者协会发布的《“第三方测评”对消费者权益影响调查报告》指出,许多“第三方测评”存在测评标准不明确、商测一体等问题,影响公正性。 此外,懂车帝面临的最大挑战来自于雷军等车企领导人的个人IP打造。雷军、余承东等通过短视频、直播、社交平台与用户零距离沟通,重构汽车行业的流量秩序。如果车企将大量的独家信息封闭在自家体系内,懂车帝赖以生存的流量来源将被切断。 例如,长城汽车在冬测事件后,发布了“关于共建新能源测试标准的倡议”,释放出甩开懂车帝,另起炉灶的信号。华为则更加强势,多个智选车品牌已与懂车帝停止合作,并计划从2024年1月起停止与懂车帝、汽车之家、易车的合作。 我的观点 懂车帝的独立是字节跳动战略调整的一部分,反映了其在多元化业务上的探索和调整。尽管懂车帝在新能源汽车领域发展迅速,但内容化和商业化的挑战依然巨大。特别是在车企领导人个人IP打造的新模式下,懂车帝面临流量被分食和信息差打压的双重压力。未来,懂车帝需要在保持内容公正性和拓展商业模式之间找到平衡,才能在激烈的市场竞争中立于不败之地。

比亚迪会被“智子”锁死吗?

比亚迪会被“智子”锁死吗?

过去一年半里,比亚迪表现得前所未有的强势。最新发布的五代DMI技术使其股价在短短几天内上涨约10%。尽管年初市场份额出现下滑,但刚过去的五月份,比亚迪的销量同比增长了38.2%,创下年内新高。 然而,相比两年前开始下跌的股价,比亚迪的股价仍跌去30%,没有回到一年前的水平。尽管去年比亚迪在车市不景气的情况下多卖了26.8%的汽车,一季度汽车毛利率维持在21.9%的高位,但问题似乎并不在比亚迪自身。 在《三体》小说中,三体人通过“智子”干扰粒子对撞机,锁死了人类的基础科学。比亚迪虽然还未达到光速的15%,但已是一家无可争议的优秀车企。然而,在其到达顶峰的同时,汽车行业却走到了一个新拐点。 01 比亚迪越来越好,汽车越来越难 两年半前的2021年底,比亚迪凭借第四代DMI技术强势逆袭,开启了销量神话。而董事长王传福曾表示,“未来最大的困难就是看不透市场”。两年半后,这句话依然适用。 今年年初,比亚迪喊出“电比油低”的口号,但背后是“电不够吃”的难题。2023年新能源汽车销量增速已从93.4%下滑至37.9%,2024年一季度进一步下滑至33.3%。市场从增量逐渐向存量过渡。 比亚迪的市场份额已达35%,在A级新能源轿车、A级新能源SUV、A0级轿车等细分领域,比亚迪多个份额早已超过50%。但在庞大的份额与极长的战线下,守江山终究是一种巨大挑战。今年一季度,比亚迪总销量62.63万辆,占国内新能源汽车总销量的30%,较前一年的35%有所下降。 市场份额下滑背后,是无数以利润换市场的竞争对手。王传福曾公开表示,在10万到20万元的区间内,比亚迪有制空权,但也希望平稳发展。然而,市场竞争却无情依旧。 吉利、零跑、哪吒等车企不断推出高性价比电动车,2023年一季度,吉利、长城、长安在插混市场的份额分别提升了2.2%、1.5%、3.2%。比亚迪在自己的市场里也并非无敌。 02 从出海到高端,智子在哪? 全球市场的拓展对于比亚迪至关重要。2023年全年,比亚迪海外销售24万辆,占总销量的8%左右。相比丰田的全球市场布局,比亚迪还有很大的增长空间。 2023年,比亚迪在巴西市场销量接近1.8万辆,成为当地仅次于丰田的第二大新能源品牌。但比亚迪在全球市场仍面临挑战。今年5月,比亚迪海外销量3.75万辆,环比出现小幅度下滑。 即便海外市场发展顺利,比亚迪也需要更多的市场来支撑其增长。1500万的美国市场、500万的印度和日本市场、超过500万的欧盟市场才是真正的大肥肉。比亚迪已经在这些市场有所布局,但贸易保护主义带来的挑战显而易见。 比亚迪在高端市场也在进行积极探索。2023年4月,比亚迪发布智能车身控制系统“云辇”,为冲击高端市场做准备。方程豹品牌正式确立,腾势N7、N8上市。然而,几个品牌还处在起步阶段,今年一季度,方程豹、腾势、仰望三个品牌的总销量为3.85万辆,占比亚迪总销量的6.2%。 在高端之路上,比亚迪的品牌本身成为瓶颈。尽管比亚迪在不断提升品牌力,但真正实现高端市场突破仍需时间。 03 能锁死智驾的,只有自己 新能源汽车行业,最好的“水滴”无疑是智能驾驶。特斯拉凭借其前沿科技和自动驾驶技术,市值远超比亚迪。比亚迪在智能驾驶领域也在不断努力,但过去的路径依赖仍是挑战。 比亚迪并非不重视智能驾驶技术。去年5月,比亚迪调整了智能驾驶研发方向,明确了自研信号。今年年初,比亚迪宣布投入千亿元研究整车智能。但与特斯拉、华为、小鹏不同,比亚迪更加注重整车智能,而不仅仅是智能驾驶。 时间是比亚迪在智能驾驶上的最大敌人。特斯拉、华为、小鹏的智能驾驶系统已占据先发优势。王传福曾多次强调,路线带来的资金损失是小事,但时间的损失是不可逆的。比亚迪需要在智能驾驶领域加快步伐,才能在未来的竞争中保持领先。 我的观点 比亚迪在新能源汽车市场取得了显著成就,但也面临新的挑战。无论是全球市场的拓展还是高端市场的探索,比亚迪都需要不断创新和调整战略。智能驾驶领域将是未来的关键,比亚迪需要加快步伐,抓住机遇,才能在激烈的市场竞争中立于不败之地。真正能锁死比亚迪发展的,不是外部的“智子”,而是自身的战略和执行力。

港科大GraphWiz模型破解图推理,挑战GPT-4

港科大GraphWiz模型破解图推理

大模型执行图推理任务时,我们不仅需要它给出结果,更希望它能提供详细的推理过程。最近,港科大团队开发的GraphWiz模型在这一领域取得了突破性进展。 GPT-4的挑战与局限 在图推理任务中,GPT-4的表现并不尽如人意。它给出了一个错误且简短的答案,判断图中没有环。这可能是因为GPT-4在处理长输入时存在局限性,或是对复杂图结构理解不足。这显示了大型模型在适应图论问题时面临的挑战。 GraphWiz的优势 相比之下,港科大的GraphWiz不仅正确地解决了问题,还提供了详细的推理路径。GraphWiz的设计旨在提升当前开源大模型解决图推理任务的能力,通过针对性的微调,处理不同复杂度的图推理任务,并输出明确的推理路径。 人类要在大型图中检测环是极具挑战性的,通常需要借助外部工具或花费大量时间。而GraphWiz在空间推理和记忆保持方面的能力,证明了它已有效吸收图论的基本原理,能自主在复杂图结构中进行导航和推理。这表明了GraphWiz在实际应用中的巨大潜力。 GraphInstruct数据集与GraphWiz训练 GraphWiz的成功离不开GraphInstruct数据集的支持。团队为每种任务生成随机图问题,并设计了独特的模板,捕捉图的特有属性。此外,团队还利用GPT-4生成初步的推理路径,并通过拒绝采样策略增强数据集,确保多样性和准确性。 基于GraphInstruct,团队训练了GraphWiz,采用创新的两阶段训练方法:混合任务指令调优和直接偏好优化对齐(DPO)。第一阶段专注于提升模型解释和解决图问题的能力,第二阶段通过区分有效与无效的解决路径,进一步增强模型的推理能力。 GraphWiz的性能评测 团队评估了GraphWiz在不同复杂度图问题上的表现,特别是与GPT-4的比较。结果显示,GraphWiz在各种任务中表现优异,显著超过了GPT-4。DPO进一步提高了模型的平均性能,但对某些特定任务可能有不利影响,表明需要进一步调整以避免负面影响。 随着训练数据量的增加,GraphWiz的性能有所提升,尤其是在处理复杂任务时。然而,在某些任务上,如三角形和哈密尔顿路径问题,准确性未显著提高,甚至略有下降。这可能是过拟合现象的结果,即模型记住了训练数据中的模式,但这些模式并不适用于未见过的数据。 团队还研究了GraphWiz在不同图任务中的迁移能力。通过建立GraphWiz-High模型,团队验证了其在高复杂度任务上的表现,并测试了其在低复杂度任务上的零样本迁移能力。结果表明,GraphWiz具有出色的跨任务泛化能力,展示了实际应用的巨大潜力。 图大小对性能的影响 团队还探讨了图大小对GraphWiz性能的影响。在环检测和最短路径任务中,随着图的大小增加,性能均有所下降。然而,GraphWiz在大多数情况下表现优于GPT-4,表明其对图结构具有更强的理解和处理能力。 在最短路径任务中,随着节点数量的增加,性能显著下降。这可能是由于任务要求高推理和记忆能力,导致模型在处理大规模图时面临挑战。尽管如此,GraphWiz在处理与图相关的任务方面明显优于GPT-4。 参数ß的影响 团队还探究了参数ß对模型效果的影响。结果表明,较高的ß在一定程度上有利于困难任务的性能,但并非严格的线性关系,并且在不同模型大小之间也不一致。这表明需要仔细调整参数ß,以在不同任务之间取得最佳平衡,提升模型整体准确性。 我的观点 港科大的GraphWiz模型在图推理任务中展现了巨大的潜力,通过详细的推理路径,显著超越了GPT-4。这一突破性进展不仅证明了GraphWiz的技术优势,也为未来AI模型在图论领域的应用提供了新的方向。随着AI技术的发展,像GraphWiz这样的创新将进一步推动图论问题的解决,拓展实际应用的广度和深度。在技术进步的同时,我们也要保持对模型性能和应用场景的持续关注,确保其能够在广泛的任务中实现高效、准确的推理。

微软外包AI研发引争议:是否会沦为咨询公司?

微软外包AI研发引争议:是否会沦为咨询公司?

微软将其AI工具和软件的研发工作外包给OpenAI的战略举措在业界引发了巨大争议。Okta首席执行官Todd McKinnon在接受CNBC采访时表示,这一决定可能导致微软在AI领域的地位下降,最终变成一家咨询公司。他形容道:“这事太离奇了。想象一下在微软工作的情景,OpenAI在制造所有令人兴奋的东西,而微软几乎要变成一家咨询公司了。” 微软已经向OpenAI投资了约130亿美元,这一合作使得OpenAI的技术被大量整合到微软的产品中。例如,Copilot生成式AI聊天机器人和配备生成式AI软件的个人电脑。尽管这种合作使微软产品在AI功能上得到了显著增强,但也引发了人们对微软在AI市场中战略定位的质疑。 McKinnon的担忧并非毫无根据。在AI领域的竞争中,微软与其他科技巨头如谷歌相比,其自身AI技术的研发力度似乎有所减弱。谷歌尽管在AI产品上遇到了一些公开问题,如其AI产品Gemini在广告中提供错误答案,以及其图像生成器产生不准确的历史图像导致暂停使用,但谷歌在生成式AI技术方面的基础工作仍然十分强大。 这种竞争局面不仅仅关乎技术领先地位,还涉及巨额投资和网络安全的担忧。各大科技公司在AI领域的巨额投资,使得竞争愈发激烈,网络安全问题也变得更加复杂。随着AI技术的发展和应用的普及,保护用户数据和隐私成为了重中之重。 微软对OpenAI的依赖也引发了业内对其长远战略的质疑。将AI研发外包给一家第三方公司,尽管在短期内可能带来技术优势,但从长远来看,可能会削弱微软自身的研发能力和创新潜力。 在这一背景下,我们需要关注的是,微软是否能够在与OpenAI合作的同时,保持自身在AI领域的核心竞争力。微软曾凭借其强大的研发实力和技术创新能力,在科技行业中占据领先地位。如果过于依赖外部合作伙伴,可能会影响其未来的发展方向和市场地位。 综上所述,微软将AI研发外包给OpenAI的战略举措,虽然在短期内可能带来技术上的优势,但也需要谨慎评估其长期影响。科技公司在推进AI技术的过程中,必须平衡外部合作与内部研发的关系,确保在保持技术领先的同时,不丧失自身的核心竞争力和创新能力。 我的观点 微软将AI研发工作外包给OpenAI的举措,确实引发了关于其战略定位的广泛讨论。从短期来看,这一决定可能带来技术上的优势,使微软的产品在AI功能上更加先进。然而,从长期来看,微软需要警惕自身研发能力的削弱。科技行业瞬息万变,只有保持强大的自主研发能力,才能在激烈的市场竞争中立于不败之地。微软需要在外部合作与内部研发之间找到一个平衡点,既能充分利用外部资源,又不丧失自身的创新驱动力。

马斯克批苹果整合ChatGPT:威胁禁用苹果设备

马斯克批苹果整合ChatGPT

苹果在刚刚结束的全球开发者大会(WWDC)上宣布,将在iOS18中整合ChatGPT功能,这一消息立刻引发了埃隆·马斯克的强烈反应。马斯克表示,如果苹果真的将ChatGPT集成到系统级别,他旗下的所有公司将禁止使用苹果设备。 苹果在大会上介绍,未来Siri将通过与OpenAI合作,提供ChatGPT接口,用户可以通过Siri直接使用GPT-4,且无需注册。苹果称,此功能是自愿使用的,所有的文档和图片都会在获得用户明确授权后才传送给ChatGPT。 然而,这一举措引发了马斯克的极大不满。他在社交媒体上扬言,如果苹果真的集成ChatGPT,所有马斯克旗下公司的员工和访客将被禁止使用苹果设备,并且这些设备将在进入公司时被暂存在法拉第笼中,以屏蔽信号。 马斯克批评苹果没有能力开发自己的人工智能,却依赖OpenAI来保护用户的安全和隐私,这种做法是极其荒谬的。他认为,一旦用户数据交给OpenAI,安全和隐私根本无法保障。他还表示,即使苹果宣称数据未经授权不会泄露给OpenAI,但这并不能保证数据安全。 一些网友对此表示调侃,称马斯克的公司难道要回到纸笔和飞鸽传书的时代?也有网友质疑马斯克是否会全面禁用苹果和微软的电脑,因为这些设备也可能涉及类似的问题。 在WWDC上,OpenAI的CEO山姆·奥特曼也出席了现场,并确认了与苹果的合作。他在社交媒体上庆祝这一消息,并表示ChatGPT将于今年晚些时候集成到苹果设备中。 苹果详细介绍了新功能的使用方式。当用户提出Siri自家模型无法解决的问题时,Siri会推荐使用ChatGPT并询问用户是否同意。一旦用户接受建议,便能立即获得来自ChatGPT的答案。苹果强调,所有的文档和图片在传送给ChatGPT之前,都会单独确认用户授权。 此外,苹果还表示,ChatGPT的订阅用户可以选择关联自己的账户,并接入ChatGPT的付费功能。这个新功能预计将在今年稍晚推出,未来还将增加对其他AI模型的支持。 马斯克的批评不仅针对苹果,更是对老冤家OpenAI的不满。他指出,OpenAI曾因未经允许克隆演员的声音而引发争议,虽然后来OpenAI澄清了事实,但马斯克依然对其信任度表示怀疑。 值得一提的是,马斯克近期也因聘请第三方公司收集X用户的个人信息和生物识别信息而引发质疑。一些网友反问他如何保证这些信息在第三方手中是安全的,这无疑给他的批评增加了些许讽刺意味。 马斯克还批评ChatGPT过于“觉醒”(woke),他认为这样的AI如果规模指数级增长,将会带来巨大的问题。这一观点与他一贯反对“觉醒AI”的立场一致,他曾表示自己的Grok AI绝不会“觉醒”。 截至目前,苹果和OpenAI都没有对马斯克的批评做出回应,两者之间的合作也已正式公布。至于马斯克是否真的会禁用苹果设备,只有时间能给出答案。 我的观点 苹果将ChatGPT整合到iOS18中的举措,无疑是为了进一步提升用户体验和AI技术的应用,但这种合作确实引发了关于数据安全和隐私的广泛讨论。马斯克的批评尽管有些过于激烈,但也提醒我们在享受新技术带来便利的同时,必须重视数据安全和隐私保护。科技公司在推进AI技术时,应更加透明和负责任,确保用户数据在任何情况下都能得到有效保护。这不仅是对用户隐私的尊重,也是赢得用户信任的关键。

GPT-4心智理论完胜人类:高阶推理与语言理解能力大幅领先

GPT-4心智理论完胜人类

近期,谷歌DeepMind、约翰斯·霍普金斯大学和牛津大学等机构的研究团队发布了一项重大研究成果,证实GPT-4在心智理论(Theory of Mind, ToM)任务上的表现已经完全达到了成年人类的水平,甚至在更复杂的第六阶推理上大幅超过了人类。这项研究标志着人工智能在理解和模拟人类心智状态方面取得了里程碑式的突破。 GPT-4的心智理论超越人类 心智理论是指个体理解和推测他人心理状态的能力,这种能力通常通过多阶推理来表现。例如,“我认为你相信她知道”这句话就包含了多层次的心理状态推测,属于三阶陈述。此前,大多数研究都集中在二阶心智理论上,但此次研究扩展到了更高阶的推理能力。 研究团队引入了一套名为“多阶心智理论问答测试”(MoToMQA)的手写测试套件,以衡量大语言模型(LLM)对复杂问题的把握能力。参与测试的包括GPT-3.5 Turbo Instruct、GPT-4、LaMDA、PaLM和Flan-PaLM等五个LLM模型,以及一群成年志愿者。 研究结果:GPT-4表现卓越 研究结果显示,在心智理论任务上表现最好的模型是GPT-4和Flan-PaLM,而人类与GPT-4的表现差异不大,但显著优于Flan-PaLM。特别是在第六阶推理上,GPT-4的准确率达到93%,远高于人类的82%。 在MoToMQA测试中,研究团队设计了7个短篇故事,每个故事包含20个真假陈述,这些陈述涉及2到6阶的心智理论推理和事实陈述。测试结果表明,GPT-4在高阶推理能力上的表现显著优于其他模型和人类参与者。 事实任务与锚定效应 除了心智理论任务,研究还包括事实任务,即对故事中具体事实的记忆和理解。在这一任务上,GPT-4和Flan-PaLM的表现同样优于其他模型和人类。此外,研究还考察了响应选项的顺序对回答准确性的影响。结果显示,GPT-4和Flan-PaLM在不同条件下的表现稳定,没有受到锚定效应的显著影响。 技术和规模的影响 研究发现,GPT-4和Flan-PaLM之所以能够超越人类和其他模型,主要归功于其规模和微调过程。GPT-4拥有约1.7万亿参数,而Flan-PaLM则有5400亿参数。相比之下,表现较差的LaMDA和GPT-3.5分别只有350亿和1750亿参数。由此可见,模型的规模和微调对于实现高阶心智理论能力至关重要。 观点:AI的未来展望 GPT-4在心智理论上的卓越表现,不仅展示了人工智能在理解和模拟人类心理状态方面的巨大潜力,也预示着AI在更广泛的应用领域将发挥重要作用。随着技术的不断进步,AI在教育、医疗、心理健康等领域的应用将变得更加广泛和深入。 然而,我们也需要审慎看待这些技术进步带来的挑战。例如,如何确保AI在模拟和推理人类心智状态时不会被滥用,如何在技术应用中保护用户隐私和数据安全,这些都是我们需要关注的问题。 总的来说,GPT-4在心智理论上的突破是AI发展的重要里程碑。这一成果不仅推动了AI技术的前沿研究,也为未来的实际应用带来了新的可能性。未来,我们期待看到更多类似的科技创新,为社会带来积极的变化和更好的服务。

AI视觉算法登上《柳叶刀》:CaRi-Heart技术助力提前10年预测心血管疾病风险

AI视觉算法登上《柳叶刀》

最近,《柳叶刀》刊登了一篇关于心血管疾病风险预测的革命性研究,展示了CaRi-Heart技术的卓越成果。这项技术由英国Caristo Diagnostics公司开发,结合了AI视觉识别和预测算法,能够在患者没有明显症状时,提前10年识别出重大的心血管疾病风险。 CaRi-Heart技术的突破 Caristo Diagnostics公司在《柳叶刀》上发表的这项研究,展示了他们如何通过量化冠状动脉炎症的严重程度,准确预测心脏疾病风险。研究数据来源于英国的ORFAN项目(牛津风险因素和非侵入性成像),该项目是英国国家医疗服务体系(NHS)的一部分,旨在评估接受冠状动脉计算机断层扫描血管造影(CCTA)患者的风险状况和疾病发生率,并验证AI风险预测算法的适用性。 冠状动脉炎症的重要性 CCTA是一种常见的检查,几乎所有胸痛患者都会接受。这项检查可以识别出存在阻塞性冠状动脉疾病(CAD)并需要进行血管重建手术的患者。然而,即使没有CAD,血管炎症也可能导致动脉硬化,并引发急性冠状动脉综合征。因此,提前识别和评估冠状动脉的血管炎症非常重要。 AI算法提升风险评估精度 传统的CCTA检查无法全面评估冠状动脉炎症,但通过AI算法,这一问题得到了有效解决。CaRi-Heart技术采用了标准化的脂肪衰减指数(FAI),来量化评估冠状动脉炎症情况。辅助算法AI-Risk结合FAI评分,并将冠状动脉粥样硬化斑块负荷及其他传统风险因素纳入算法,进行综合的心血管风险评估。 研究中,3393名患者接受了中位数为7.7年的随访。CaRi-Heart 2.5版设备为每条冠状动脉生成FAI评分,并运行AI-Risk算法计算出患者未来8年发生致命心脏事件的风险百分比,并归类为低、中、高和极高风险。 研究结果和临床影响 统计数据显示,无论患者是否患有CAD,FAI评分都可以有效捕捉到残余炎症风险,是预测未来10年死亡率和主要不良心脏事件(MACE,包括心肌梗死、新发性心力衰竭或心源性死亡)的有效指标。CaRi-Heart的算法相比现有的预测模型(如QRISK3),更能准确预估年轻人的风险,即使动脉硬化症状轻微或不存在,也能识别出极高风险患者。 根据这些风险评估分数,临床医生可以进行个体化的预防管理,降低血管炎症带来的风险。例如,在这项研究中,向临床医生展示CaRi-Heart风险评分结果后,45%的患者治疗方案发生了变化,大多数是因为医生决定开始治疗以前未检测到的冠状动脉炎症。 科学突破与未来展望 CaRi-Heart技术将AI算法应用于常规CCTA扫描中,可视化和量化冠状动脉炎症的严重程度,这种原本不可见的疾病机制会导致中风和许多致命的心脏病发作。Caristo Diagnostics由牛津大学的心脏病专家创立于2018年,他们表示,这项技术标志着科学上的重大突破,从根本上改变了心脏病预测、预防和管理的方法。 通过云平台,医生可以安全、匿名地上传扫描结果,并提交其他风险因素信息,48小时内即可收到经过专家核查的报告。目前,CaRi-Heart已在英国、欧洲和澳大利亚投入临床使用,Caristo公司正在研发的新产品还将能够提前数年预测中风和糖尿病风险。 观点:AI助力医疗未来 CaRi-Heart技术的成功展示了AI在医疗领域的巨大潜力。通过结合AI算法和传统医疗技术,医生可以更早、更准确地预测和预防疾病,极大地提升了医疗服务的效率和效果。这一技术不仅为心血管疾病的管理提供了新的思路,也为其他慢性疾病的早期预测和干预开辟了新的路径。 未来,我们期待看到更多类似的科技创新,为医疗行业带来更大变革,提升全球患者的健康水平和生活质量。

拼多多推出自动跟价功能,电商价格战再升级

拼多多推出自动跟价功能

近日,拼多多正式上线了自动化价格追踪系统。这一新功能意味着当竞争对手下调商品价格时,拼多多平台将智能调整用户商品的定价,使其与竞争对手保持同步甚至更具竞争力。此举标志着拼多多在电商领域的价格竞争中迈出了重要一步。 自动跟价功能详解 拼多多的自动化价格追踪系统能够实时监控竞争对手的价格变动,并自动调整平台上相应商品的价格。这不仅帮助商家在激烈的市场竞争中保持价格优势,也为消费者提供了更具吸引力的购物选择。 抖音电商试水自动改价 值得注意的是,拼多多的这一动作发生在抖音电商刚刚宣布小规模内测“自动改价”功能之后。抖音电商的自动改价功能允许商家委托平台根据市场情况调整商品价格。在商家设定的条件范围内,平台会参考建议价进行改价,从而为消费者提供更具竞争力的价格,同时提升商家的经营效率。 据抖音电商内部人士透露,今年货架电商的营业额已经非常接近拼多多。这一消息无疑为电商行业的价格战再添一把火。 市场反应与行业影响 拼多多和抖音电商的自动价格调整功能,将对电商行业产生深远影响。对于消费者来说,这意味着他们将能够享受到更多的低价商品。对于商家来说,虽然自动化价格调整可能会压缩利润空间,但也能提高商品的竞争力和销售量。 这种自动化价格调整功能的普及,可能会迫使更多电商平台跟进。价格战将变得更加激烈,平台之间的竞争将进一步加剧。 观点:技术与市场的博弈 作为一名新闻从业者,我认为拼多多和抖音电商的举措,展示了技术在现代商业竞争中的重要作用。自动化价格调整功能不仅提升了平台的智能化水平,也改变了传统的价格竞争模式。未来,如何在保持价格竞争力的同时,确保商家的盈利能力和平台的健康发展,将是电商平台面临的重要课题。 此外,这种自动化定价机制的引入,可能会引发监管层的关注。如何在技术进步与市场公平之间找到平衡,将成为行业发展的关键。电商平台应在推动技术创新的同时,积极配合监管,确保市场秩序的稳定和消费者权益的保障。 总的来说,拼多多和抖音电商的自动化价格调整功能,标志着电商行业进入了一个新的发展阶段。面对日益激烈的市场竞争,只有不断创新、提升服务质量,才能在激烈的市场环境中脱颖而出。未来,我们期待看到更多电商平台在技术和服务上的创新,为消费者带来更好的购物体验。

小红书大换血:高层变动引发后台问题和用户不满

小红书大换血

2023年,小红书在一场共创会议中明确了“坐一观三”的发展策略,目标直指3亿DAU(每日活跃用户)。为实现这一宏伟目标,小红书在今年一季度大力引进行业人才,有大量中层以上管理者加入,接手小红书的商业化产品、社区运营、电商产品和法务等重要岗位。 多元文化冲击原有团队 然而,随着新高管的加入,小红书内部也随之出现了新的问题。多元的组织文化带来了冲击,原有团队和新团队之间的磨合问题不断显现。内部的互相推诿情况增多,“各部门甩锅问题严重”。多位采访对象提及,小红书的社区部门与商业化部门存在矛盾,而社区一直处于强势地位。这种内部分歧对公司的运营效率造成了不小的影响。 高层变动带来的后台问题 新高管们的试错过程也暴露了小红书后台系统中的诸多bug,导致商家们的投诉不断增加。频繁的人事变动让小红书的功能产品连续性差,用户体验明显下降。对于一个用户群体庞大的平台来说,稳定性和一致性是关键,这些问题无疑对小红书的声誉和用户满意度造成了负面影响。 持续性问题导致用户不满 人员频繁流动不仅影响了小红书的内部管理,还直接影响了用户体验。许多用户反映,最近小红书的功能出现了不少问题,使用起来不如以往顺畅。这些问题不仅让商家和用户感到不满,也让外界对小红书的未来发展产生了疑虑。 观点:高层变动是机遇也是挑战 作为新闻从业者,我认为小红书此次大举更换中高层管理人员既是机遇也是挑战。引进新血液有助于公司注入新的思维和活力,推动业务创新和发展。然而,组织文化的冲突和内部管理的磨合问题也需要引起高度重视。如何在保持团队稳定性和工作连续性的同时,顺利实现人员过渡,是小红书管理层面临的一大挑战。 此外,后台bug频发和用户体验下降的问题,需要小红书尽快采取有效措施加以解决。一个稳定、高效、用户友好的平台环境,才能真正支撑起小红书的长远发展目标。通过积极的内部调整和技术优化,小红书有望克服当前的困难,继续在社交电商领域保持领先地位。 总之,小红书的高层变动和后台问题是当前发展的阵痛,但只要公司能够妥善处理这些问题,未来依然充满希望。对于用户和商家来说,期待的是一个更加稳定、可靠的小红书平台。

京东健康裁撤家医事业部,刘强东发话后京东宣布涨薪

京东健康裁撤家医事业部

近日,京东集团宣布了一系列重大调整与决定。自2024年7月1日起,京东将通过一年半时间,将采销员工的年度固定薪酬从16薪提升至20薪,并且业绩激励上不封顶。这是京东半年内第二次给一线采销人员涨薪。此前在2023年12月底,京东宣布自2024年1月1日起,一线业务人员的年固定薪酬将大幅上涨近100%,并且2024年初京东零售全员将平均加薪不低于20%。 京东健康裁撤家医事业部 5月28日,有消息传出京东健康旗下的京东家医事业部被整体裁撤。京东健康内部人士透露,京东家医事业部投入较大,但一直没有找到合适的盈利模式,因此被放弃。对此,京东健康回应称,为了整合公司旗下的医疗健康服务业务,更高效利用资源并发挥专业角色的服务价值,京东健康对家庭医生事业部进行了内部组织架构调整。C端业务及职能被合并至互联网医疗事业部,B端业务及职能则合并至企业业务事业部。京东健康强调,此次调整并不涉及业务和人员裁撤,仅是架构分拆。 京东内部调查代打卡现象 有媒体报道称,近期京东内部调查发现员工代打卡问题已形成产业链。每个月有1.4万人次找人代打卡,更有员工一年内代打卡近百天,代打卡一次收费15元,一个人可以替20人代打卡。此情况引发了京东管理层的高度重视。 刘强东发话反思管理问题 在此背景下,刘强东在高管会上表示:“凡是长期业绩不好,从来不拼搏的人,不是我的兄弟。”京东管理层也反思了过去数年间公司在管理上出现的失误,承认京东集团体系存在“大企业病”,尤其在拼搏精神上有所懈怠。 磨铁集团抵制京东 此外,磨铁集团CEO沈浩波在朋友圈发文抵制京东,指责京东不顾磨铁反对,强行让其产品参加低价促销。沈浩波表示,磨铁将采取法律手段维护权益,并无限期停止对京东发货,要求京东下架其产品并退还货款。同时,呼吁电商合作伙伴不要跟价。对此,京东方面回应称,其618活动目标是让消费者买到便宜的好书,否认站在出版社和行业对立面,并表示对自营图书有合法的自主定价权。目前磨铁的网上店铺仍在正常销售,但部分热门图书显示无货。 观点:调整与挑战并存 京东近期的举措反映了其在面对内部管理问题和外部竞争压力时的积极应对策略。薪酬调整和管理反思显示出京东希望激发员工的积极性和拼搏精神,同时也是对“大企业病”的一次自我诊断与治疗。 然而,京东健康的架构调整和磨铁集团的抵制事件则揭示了京东在业务整合和合作关系管理上的挑战。如何平衡业务扩展与盈利模式的探索,如何处理好与合作伙伴的关系,将是京东未来需要重点解决的问题。 总体而言,京东正在通过一系列改革措施试图提升内部效率和市场竞争力。这些举措能否达到预期效果,还有待时间验证。但可以肯定的是,京东在积极调整与创新的道路上迈出了坚实的一步。

厦大&腾讯优图联合发布:多模态CoT思维链架构Cantor现已开源

多模态CoT思维链架构Cantor现已开源

厦门大学和腾讯优图团队近日发布了一种名为“Cantor”的决策感知多模态思维链架构,无需额外训练即可显著提升性能。这一突破性技术在ScienceQA和MathVista等基准测试中表现出色,展示了多模态大模型的新潜力。 多模态思维链:增强推理能力 思维链(Chain-of-Thought, CoT)是一种通过添加中间推理步骤来增强大模型推理能力的方法。然而,在视觉推理任务中,模型需要结合图像信息进行具体分析,多模态思维链应运而生。 Cantor架构赋予多模态大语言模型(MLLM)或大语言模型(LLM)类似合唱团领唱员的协调能力,使其能够同时处理视觉和文本上下文,形成全面理解并进行决策感知,避免决策幻觉。 创新架构:决策生成与执行 Cantor的架构包含两个主要步骤:决策生成和执行。首先,模型对问题进行分析与解耦,结合各种专家模块生成合理的决策。然后,调用专家模块执行子任务,并汇总信息生成最终答案。 团队设计了四种专家模块: TextIntel Extractor:提取图像中的文本信息。 ObjectQuant Locator:识别并定位图像中的对象。 VisionIQ Analyst:处理和解释视觉数据。 ChartSense Expert:分析和解释图表信息。 在决策生成过程中,Cantor将具体任务分配给各专家模块,使模型能够获得高级认知信息,辅助推理。例如,比较两瓶溶液的温度大小时,Cantor会分析粒子温度与动能的关系,并结合图像信息进行任务分配。 卓越表现:提升准确率 在ScienceQA基准测试中,基于GPT-3.5的Cantor准确率达到了82.39%,比基于GPT-3.5的思维链方法提升了4.08%。在更具挑战性的MathVista测试中,基于Gemini的Cantor准确率比原始Gemini提高了5.9%。 实验结果显示,Cantor在各种问题上都显著超过了基线,甚至超过了一些著名的多模态大模型,如SPHINX和LLaVA-1.5。这表明,正确的决策和模块化专家可以激发模型的细粒度、深入的视觉理解和组合推理能力。 免训练的优势 Cantor无需额外训练即可超越传统的微调方法。基于GPT-3.5和Gemini的版本均展现了卓越的性能,特别是在复杂的视觉推理任务中表现突出。团队进一步展示了Gemini与Cantor(Gemini)的具体比较,Cantor通过任务分配和角色扮演,实现了更准确的推理过程。 未来展望 Cantor的成功展示了多模态思维链架构的巨大潜力,为AI领域的进一步发展提供了新思路。这一创新不仅在理论上具有重要意义,还在实际应用中展现了强大的实用价值。 记者观点 Cantor架构的发布,展示了厦门大学和腾讯优图团队在多模态AI技术上的领先地位。通过创新性的思维链方法,这一架构显著提升了模型的推理能力,为复杂的视觉和文本任务提供了更高效的解决方案。随着这一技术的开源,更多开发者将能够参与其中,共同推动AI技术的发展和应用。这一创新无疑将为多模态大模型的研究和应用带来新的突破和机遇。

中国电信攻克最难方言:新语音大模型支持30种方言

中国电信攻克最难方言

中国电信人工智能研究院发布了首个能够听懂30多种方言的大模型——星辰语音大模型。在2024智算云生态大会上,这一强大的工具被正式发布并开源。由AI领域Fellow大满贯科学家李学龙带队,这款大模型不仅能识别被称为“魔鬼的语言”的温州话,还具备超自然的语音生成能力。 多方言识别的突破 星辰语音大模型能够打破单一模型只能识别特定方言的局限,同时支持粤语、上海话、四川话、温州话等30多种方言的识别和理解。这一创新已经获得国际权威赛事的认可,并在多个实际应用场景中落地。 在国际语音顶会INTERSPEECH 2024的离散语音单元建模挑战赛上,星辰语音大模型斩获语音识别赛道冠军。同时,在美国国家标准与技术研究院(NIST)举办的低资源粤语电话Babel语音识别任务中,取得业内最佳结果。 实际应用与广泛覆盖 星辰语音大模型已经在北京、福建、江西、广西等地的智能客服系统中试点应用,日均处理约200万通电话。它能秒懂方言,服务用户。智能客服翼声平台也接入了星辰大模型的语音理解和分析能力,实现31省全覆盖,每天处理125万通客服电话。 传统语音识别模型需要针对一种方言单独训练一个模型,这对运营维护提出了不小的挑战。而星辰语音大模型的多方言联合建模技术,显著降低了对新方言标注数据的需求,实验显示需求量降低到仅1%。 技术创新与挑战 星辰语音大模型的成功背后是多项技术创新。首先是超大规模语音预训练,团队提出了“蒸馏+膨胀”联合训练算法,成功实现80层模型的稳定训练。其次是多方言联合建模,通过离散语音表征,语音识别大模型将推理时的语音传输比特率降低数十倍。 在数据准备上,中国电信AI研究院构建了超过30种、30万小时的高质量方言数据库。算力基础设施方面,中国电信作为国内最早进入云计算领域的运营商,积累了大量算力建设和调度的核心技术。 为何专注方言? 中国电信选择方言作为突破口,背后有着深厚的技术和业务需求。我国是语言资源丰富的国家之一,但很多方言正面临濒危或消亡。保护方言、传承文化显得尤为重要。同时,当前全国仍有约20%的人口尚未普及普通话,尤其是老年人群体,他们面对信息化服务时常常面临困难。 星辰语音大模型能够有效应对这些挑战,通过高效的方言识别技术,帮助更多人群享受到信息化服务的便利。电信选择开源,也是希望联合开发者共建覆盖更多方言的大模型,共同推动AI技术普惠。 业务需求与战略布局 作为头部运营商,中国电信的核心业务场景之一是智能客服。每天处理的几百万通电话中,大比例是方言或带方言口音的普通话。星辰语音大模型已经在这一场景中创造了实际价值,并逐步覆盖更多地区。 此外,星辰语音大模型还应用于12345市民热线、防范校园霸凌等多个场景,展现了其强大的实际应用能力。 中国电信的AI战略 中国电信早在2022年12月就启动了语义大模型的研发,并相继开源7B、12B、52B大模型。如今,随着语音大模型的发布,中国电信已经形成了语义、语音、视觉以及多模态一整套完备的大模型布局。 中国电信的最终目标是成为领先的通用人工智能服务提供商。通过大规模的技术投入和资源积累,他们在大模型领域的布局进展迅速,影响深远。 记者观点 中国电信在AI领域的创新与努力,特别是对方言的重视,展示了其技术和业务能力的结合。通过星辰语音大模型的成功,中国电信不仅展示了其在AI技术上的突破,也为保护和传承方言文化提供了有力支持。这一创新将推动更多人享受到信息化服务的便利,也为未来的AI技术应用提供了新的方向。

陈丹琦团队新突破:SimPO微调8B模型,超越Claude 3 Opus

陈丹琦团队新突破

陈丹琦团队推出了一种全新的模型微调方法SimPO(Simple Preference Optimization),在多项测试中表现出色,甚至超越了Claude 3的顶级版本Opus。这种方法不仅比斯坦福的直接偏好优化(DPO)更简单,而且显著减少了训练时间和GPU消耗。 SimPO的创新之处在于它摆脱了对参考模型的依赖,简化了训练流程,同时避免了训练和推理不一致的问题。这一成果获得了普林斯顿PLI主任Sanjeev Arora教授的高度评价,他表示:“与使用SimPO方法调整的模型聊天感觉令人难以置信。” SimPO:简便且高效的微调方法 SimPO的全称是Simple Preference Optimization,意在突出其简便性。与DPO相比,SimPO不需要参考模型,完全基于当前优化的模型进行设计,简化了训练流程。SimPO采用长度归一化的对数概率作为奖励函数,这意味着模型生成的回复越自然、连贯,得分就越高。此外,SimPO还通过引入奖励差异项(γ)来加强优化信号,促使模型更清晰地区分正负样本。 卓越表现:战胜Claude 3 Opus 在AlpacaEval 2基准测试中,SimPO微调后的Llama3-Instruct-8B模型表现优异,胜率超过了Claude 3的顶级版本Opus。SimPO不仅在胜率上领先,还显著减少了训练时间和GPU消耗。在多项基准测试中,SimPO微调的模型表现都优于DPO等其他优化方法。 技术细节:优化和创新 SimPO的成功归功于其独特的技术设计。首先,SimPO采用了长度归一化的对数概率作为奖励函数,避免了过长回复的倾向。其次,引入奖励差异项(γ),加强了优化信号,使模型对正负样本的区分更加明显。实验结果表明,这两项技术都是提升SimPO表现的关键。 未来展望与挑战 尽管SimPO在许多方面表现出色,但作者也指出了其不足之处。例如,SimPO未明确考虑安全性和诚实性,未来需要加强安全措施。此外,在需要密集推理的任务上,如数学问题,SimPO的表现有所下降,未来可能需要集成一些正则化策略进行改进。 有网友指出,SimPO在某些标准上取得超越Claude 3 Opus的成绩,可能存在过拟合现象。对此,作者表示确实存在这种可能,但强调在单独一个标准上的成绩超越并不意味着全面超越。 记者观点 SimPO的推出展示了陈丹琦团队在AI优化方法上的创新能力。通过简化训练流程和减少对资源的需求,SimPO为大模型微调提供了一种高效、简便的新途径。尽管面临一些挑战,这一成果无疑为AI领域带来了新的启发,值得进一步探索和发展。随着更多优化方法的出现,未来的大模型微调将变得更加高效和实用。

国产开源项目Sora再升级:全面支持国产AI算力,新增ReVideo视频编辑功能

国产开源项目Sora再升级

国产开源项目Sora迎来重大更新!由大兔展联合发起的Sora开源复现计划(Open-Sora-Plan)今天宣布,现在可以生成最长约21秒的视频。以下是一些生成视频的示例。首先是一个时长9.2秒的视频: 接下来是一个2.7秒的人形机器人种花视频: 如往常一样,所有数据、代码和模型均已开源。目前,Open-Sora-Plan在GitHub上已获得10.4k颗星星,感兴趣的读者可以前往体验。 上个月,Open-Sora-Plan刚刚在开源社区上新,支持单镜头16秒的视频生成,最高分辨率为720p。这次版本更新主要在两个方面取得了进展: 采用了更高质量的视觉数据与caption 优化了CausalVideoVAE的结构 项目团队还宣布,Open-Sora-Plan现已全面支持使用国产AI计算系统(如华为昇腾)进行完整的训练和推理。 新版本Open-Sora-Plan v1.1.0 此次更新的版本是Open-Sora-Plan v1.1.0。项目团队展示了该版本的三个主要功能,并注明演示背后使用了3000小时的视频数据。 首先是10秒版的文生视频(10s×512×512)。以下是一些示例: (此处插入示例图片) 其次是2秒版的文生视频(2s×512×512)。以下是一些示例: (此处插入示例图片) 最后,团队展示了用Open-Sora-Plan v1.1.0进行的视频编辑功能(2s×512×512),这部分内容采用了团队刚推出的ReVideo模型。以下是一些示例: (此处插入示例图片) 虽然团队承认“我们仍然离Sora有一段距离”,但也展示了失败案例。例如,生成的视频在重建细粒度特征时会出现抖动,或者视频中的小狗头出现了语义扭曲的问题。团队认为,可能需要通过扩大模型和数据量来解决这些问题。 背后技术 整体框架上,Open-Sora-Plan由三部分组成:Video VAE、Denoising Diffusion Transformer(去噪扩散型Transformer)和Condition Encoder(条件编码器)。与Sora技术报告的内容基本相似。 此次更新的Open-Sora-Plan v1.1.0是一个基于Transformer的文本到视频模型,经过T5文本嵌入的训练。训练过程采用多阶段的级联方法,分三个阶段进行。第二阶段采用了华为昇腾算力进行训练,完全由国产芯片支持。 相比上个月发布的前作Open-Sora-Plan v1.0.0,最新版本主要有两方面的优化: 优化了CausalVideoVAE的结构 采用了更高质量的视觉数据与captions 优化CausalVideoVAE的结构 团队减少了CausalConv3D的数量,只保留encoder的最后两个stage的CausalConv3D,从而在几乎保持原有性能的情况下大幅度降低开销。为了改善高频信息丢失问题,团队在v1.1.0中改进了temporal module,引入了卷积并增加了可学习的权重。 采用更高质量的视觉数据与captions Open-Sora-Plan v1.1.0采用了更高质量的视觉数据与captions,使模型对世界运行规律有了更好的理解。数据收集分为图片和视频两部分,并进行了独立处理。 研究人员从Pixart-Alpha获取了11M个图像文本对,并从Laion-5B中筛选高质量图片提高生成人类的质量。视频数据集大约有3000小时,大大超过了v1.0.0的300小时。 未来计划 接下来的工作将主要围绕两个方面进行:一是数据扩展,重点关注数据来源和数据量;二是模型设计,主要对CausalVideoVAE和扩散模型进行优化。不变的是,所有数据、代码和模型都会继续开源。 记者观点 Sora开源复现计划的快速迭代和持续创新令人印象深刻。项目团队不仅在技术上不断突破,还积极支持国产AI算力,展示了国产开源项目的强大潜力。尽管仍有一些技术难题需要解决,但随着数据量和模型规模的扩大,Sora的未来发展前景可期。这个项目不仅为开源社区带来了更多可能,也为国产AI算力的应用提供了重要参考。

独角兽Inflection AI被微软挖角,新团队重组!情感AI助力商业机器人

独角兽Inflection AI被微软挖角

在微软挖角AI独角兽Inflection AI后,这家公司近况如何?上周,Inflection AI在接受VentureBeat独家采访时,首次公开了由硅谷资深专家组成的新领导团队。公司资金充足,正在扩大工程团队,并计划将情感AI嵌入商业机器人,以其在AI情感智能领域的优势进军2B市场。 今年3月,AI领域的领军人物Mustafa Suleyman离开Inflection AI,转而领导微软的人工智能部门。这一消息在科技界引起了广泛热议,但很少有人关注这次离职对Inflection AI的影响。 新团队强势登场 尽管Suleyman和大约70名团队成员转投微软,Inflection AI并未因此陷入困境。相反,公司通过一笔高达6.5亿美元的交易获得了微软的资金支持,其中6.2亿美元用于技术的非独家许可费,3000万美元用于避免诉讼。联合创始人Reid Hoffman表示,公司资金充足,在未来18个月内将继续运作。 在VentureBeat的采访中,Inflection AI公布了新领导团队。新任首席执行官Sean White拥有用户体验和增强现实技术背景,曾领导Mozilla的研发工作。首席技术官Vibhu Mittal曾帮助创建谷歌翻译,首席运营官Ted Shelton来自贝恩公司,带来了丰富的人工智能应用咨询经验。主导产品的Ian McCarthy则拥有在微软、索尼、雅虎和LinkedIn的工作经验。 专注情感AI Inflection AI的新使命是在人工智能的情感智能领域保持领先地位,打造具有同理心的商业机器人,以适应企业的独特沟通需求。Hoffman举例说明了公司产品Pi在竞争中的优势。当他询问主要的大语言模型如何安慰失去宠物的朋友时,其他模型列出了清单,而Pi则关注情感结构,提供更具同理心的回答。 新团队强调,情感智能(EQ)是一个经常被忽视但至关重要的组成部分。这种能力将使Inflection AI在聊天机器人市场中脱颖而出。White认为,Inflection AI的优势在于其模型不仅具备高智商(IQ),还拥有出色的情商(EQ)。Pi的语音模块和支持性语气确保了更有同理心的互动。 团队合作与创新 新团队成员拥有丰富的合作经验和共同的愿景,希望技术不仅能满足用户需求,还能让用户感受到温暖。首席执行官White发明了“情境可视化”一词,强调随着用户环境变化而改变视觉信息。他在神经科学领域的研究让他对情商在对话中的作用有了深刻理解。首席技术官Mittal早在35年前就开始研究生成式人工智能,首席运营官Shelton则在贝恩公司帮助企业克服AI部署挑战。 情感微调与个性定制 Inflection AI的模型经过真人情感对话的大型数据集训练,并通过“移情微调”进一步定制个性。Mittal表示,这种微调几乎达到了预训练本身的规模。与其他模型不同,Pi能够记住至少100次对话,确保个性在模型中保持稳定。 去年,Inflection AI发布了Inflection 2.5,声称其性能比GPT-4高出94%以上。White认为,公司出色的IQ和EQ使其在市场中占据领先地位。 资金充足,扩展团队 Inflection AI资金充足,正扩大工程团队,重点关注微调和平台工程。公司计划与品牌合作,打造个性化助手,为企业提供同理心客服和内部员工服务的机器人。White透露,公司将继续从消费者互动中学习,并与品牌合作构建AI工作室。 记者观点 Inflection AI的成功离不开其团队结构和专注情感智能的策略。尽管经历了人才流失,公司仍展现出强大的韧性和创新能力。新领导团队的丰富经验和共同愿景,使公司在竞争激烈的市场中保持领先地位。随着情感AI技术的发展,Inflection AI有望为企业和消费者带来更具同理心的智能体验。

OpenAI为何能率先开发出GPT-4?联合创始人Greg Brockman详解背后原因

OpenAI为何能率先开发出GPT-4?

为什么是OpenAI率先推出了像GPT-4这样强大的模型?联合创始人Greg Brockman近日在接受采访时透露,团队中的独特组合——不仅有学术背景的研究型人才,还有出色的工程人才——使他们能够从不同角度解决问题,更有效地推动项目进展。 凯文·凯利在《5000天后的世界》一书中预测,称雄AR世界的不会是GAFA——如今的科技四大巨头。他的观点似乎得到了验证,即使谷歌在AGI领域努力追赶,但仍落后于OpenAI。 为什么大企业难以创新?即使拥有雄厚资本和人才储备,Google和Meta等大公司也没能率先开发出像GPT-4这样的模型。这是因为这些公司往往受到自身成功的束缚,难以在新领域突破。而OpenAI却做到了,这背后的原因是什么? 5月15日,可汗学院(Khan Academy)的CEO兼创始人萨尔曼·可汗(Sal Khan)对OpenAI联合创始人兼总裁格雷格·布罗克曼(Greg Brockman)进行了一段采访,或许能帮助我们找到答案。 研究与工程并重 OpenAI最近向公众揭秘了Omni团队,这个团队的成员年龄和司龄都很年轻,管理结构也很扁平。成员组合方面也颇有讲究:团队中既有学术背景的研究型人才,又有出色的工程人才。这种组合使他们能够从不同角度解决问题,更有效地推动项目进展。 Khan询问Brockman:“你们认为自己做了什么才能达到如今的地位?在这个领域,有许多人在努力工作,也有许多资源雄厚的大型组织。你们认为自己做了什么与众不同?是因为你们的方法不同,还是有其他原因?” Brockman回答道:“这是个很好的问题。我认为我们是更大趋势或历史的一部分。回顾过去70年的计算机发展史,我们经历了指数级的增长。2000年,Ray Kurzweil曾说过,看看计算能力,它会告诉你什么是可能的。这就是推动进步的动力。起初大家都认为他疯了,但现在我相信大家基本上都认同他的观点。” “想想我们为了实现像GPT-4这样的项目,付出了多少工程上的努力,从计算基础设施到使用的所有数据集和工具,这其实是全人类在很多方面的巨大努力。” “具体来说,我们能取得这些成就,是因为我们聚集了来自研究和工程背景的优秀人才。” 打造高效团队 “当我们开始这个项目时,我发现其他实验室的工作方式主要以研究为主,研究型工程师被告知要做什么,而研究科学家则可以随心所欲。这种方式似乎并不是实际构建一个工作系统的方法,更像是为了追求论文引用数量。如果你真的想产生影响并开发出有用的东西,你需要以不同的方式来组织团队。” “虽然说起来很简单,但实际上,这涉及到很多相互冲突的思维方式,特别是当你来自不同背景时。我们必须尽力去解决这些问题,虽然你永远不能完全解决它们,但可以不断进步并挑战更复杂的版本。这就是我们需要勇于面对困难、勇于挑战的地方。” 不会因风险止步不前:建立造福人类的AGI Brockman第一次对人工智能的概念感到兴奋,是在读到阿兰·图灵(Alan Turing)1950年关于图灵测试的论文时。他想看看,是否能够真正制造出图灵所说的那种机器,一种人类水平的智能,也就是我们所说的AGI,并让它造福全人类。这是OpenAI诞生的缘起,也是它的使命和愿景。 为了这个目标,OpenAI已经工作了8年。在这期间,OpenAI一直在做同样的事情——建立更大的神经网络,让它更有能力、更协调、更安全,同时部署这项技术,并使其发挥作用。 迎战新的风险 当Khan问及AI的安全性问题,Brockman回答道:“AI的安全问题有着悠久的历史,早在50-60年代,阿瑟·克拉克(Arthur Clarke)就谈论过这个问题。我认为,对AI拥有这种复杂的情感是非常正确的,我们既要对任何新事物感到惊奇,又要问这是要去哪里,哪里会有陷阱?我认为只有这样,我们才能正确地在这个空间里航行。” Brockman提到,AI变得令人“惊讶”的一件非常有趣的事情是,在90年代,每个人都认为,如果AI可以下棋,就说明进入了AGI时代,但实际上,这只是我们要解决的第一件事情,AI学会下棋并没有让我们真正走得更远。 安全性问题也是一样。并不是说对AI安全的前瞻性担忧一定不会发生,但Brockman认为,我们在错误的事情上过于自信了。他举了一个例子:对于GPT-3,OpenAI只是在基础数据集上进行训练后就将其发布,而对于GPT-4,团队则对模型进行了调整,尽力消除偏见。 在实践中学习 当我们在思考GPT对教育领域的影响时,一些人可能会首先注意到抄袭的问题,Brockman也承认让学生独立思考非常重要。但是“对于那些无法获得出色教育工具的人来说,ChatGPT是一个工具。教师可以根据自己的喜好,帮助学生进行某种工作并填补教育人员无法做到的空白。” 至于如何制定规则,如何将这项技术融入教育,需要“获得大量的意见,与大量的教育工作者接触。OpenAI不是这项事业唯一的决定者,从每个人那里获得广泛的意见很重要。” “我们为了实现真正的益处,和一线的教育工作者交谈,真正弄清楚他们想要什么。”我们还需要“真正展示积极面”。 一旦你有了一个有效的正面例子,就很容易围绕它建立标准,如果没有这个,那么就相当于“在黑暗中开枪”。就像Khan谈到的,ChatGPT对教育的影响取决于怎样使用,比如我们可以用它来采访历史人物、练习辩论技巧等。 更多正面使用的案例和经验需要在实践中获得。去年OpenAI发布了一篇关于部署语言模型安全标准的博客文章,这篇文章的形成用了2年时间。Brockman告诉Khan:“这种从实践中学习的迭代部署,是我们现在可以做的最重要的事情。” 每个人都可以获得AI的“超能力” 人工智能究竟会削弱人类能力,还是增强人类能力?Brockman和Khan都站在人工智能会增强人类能力这一边。Brockman乐观地说:“现在,拥有一部智能手机就可以开始以一种方式进行创作,而你之前必须购买一堆专业软件,必须去学校接受大量培训。” “我认为我们都可以获得人工智能的超能力,我们可以实现我们想要的目标。”当然,关于这个问题,每个人都可以有自己的答案,但Greg Brockman无疑是一个乐观主义者,这或许也是OpenAI不断向前的原因所在。 记者观点 从采访中不难看出,OpenAI的成功离不开他们的团队结构、研究与工程并重的策略,以及勇于面对风险、不断挑战的精神。这种创新思维和高效执行力,是许多传统科技巨头所缺乏的。OpenAI不仅在技术上领先,还在团队管理和企业文化上树立了新的标杆。正是这种全方位的卓越,造就了今天的OpenAI。我们有理由相信,随着AI技术的不断发展,未来会有更多像OpenAI这样的创新型企业,为人类带来更多惊喜和进步。

淘宝网页版终于支持直播,大屏体验更爽!

淘宝网页版终于支持直播

5 月 22 日消息,近日,淘宝网页版进行了新一轮升级,消费者在618大促期间可以在PC端观看淘宝直播并直接下单。 据了解,此次改版后,淘宝APP上的所有直播间都已在网页版上线。直播间列表清晰排列,右侧还可以看到相关排行榜。单个直播间内,直播画面、商品列表和聊天互动并排分列三栏。相比手机端,PC端的大屏和横屏特征使得查看商品、发表评论和观看直播画面更加方便,三个栏目互不干扰,用户体验大幅提升。 5月上旬,淘宝网宣布启动7年来最大力度的一次改版,同时重新上线了早期的论坛“淘江湖”,希望在此听取用户意见,作为未来改进的依据之一。 最近两个月,淘宝网陆续上线和优化了60余项功能。除了上线直播功能外,还在产品体验、商品供给和内容供给等方面进行了全面优化。登陆和搜索体验显著提升,并为商家提供了一键装修模板。自宣布升级以来,淘宝网访问量稳步提升,网页版淘宝直播的日均用户访问量翻了5倍。 快科技注意到,淘宝网首页增加了618大促的氛围设计,网页版用户同样可以参与官方立减、满300减50的活动,并可叠加使用88VIP大额券。未来,淘宝网还将根据消费者和商家的反馈,持续优化改版。 今年以来,淘宝在提升用户体验方面频频动作,推出新疆包邮、缩短商家发货周期等多项举措。今年天猫618取消了官方预售,5月20日晚8点现货开卖,并且从付款后至7月5日期间全程价保。 记者观点 淘宝网页版的升级,不仅优化了用户体验,还增强了购物的便利性和互动性。PC端大屏带来的视觉和操作优势,将吸引更多用户在大促期间通过淘宝直播进行购物。随着更多功能的持续优化,淘宝在提升用户满意度和市场竞争力方面展现了强大的决心和执行力。

理想汽车1-4月销量揭晓:L7车型领跑,MEGA占比4%

理想汽车1-4月销量揭晓

近日,一位汽车博主公布了理想汽车2024年1月至4月期间的分车型销量数据。数据显示,各款车型表现不一,其中L7车型的销量尤为突出。 根据数据,L7车型在1-4月的总销量达到43,236台,占总销量的41%,位居品牌销量榜首。紧随其后的是L9车型,销量为30,253台,占比28%。L8车型销量为25,945台,占比24%。此外,L6和MEGA车型分别售出2,381台和4,374台,分别占总销量的2%和4%。理想汽车在这4个月的总销量为106,189台。 从数据可以看出,L7车型成为理想汽车最畅销的车型,体现了其在产品设计、性能表现和市场定位上的成功。L9和L8车型也取得了不俗的销量成绩,特别是与同类车型相比,表现尤为出色。相较之下,L6和MEGA车型的销量较少。不过,L6作为新上市车型,其产能正在爬坡,预计下个月交付量将突破2万台。 理想汽车近日公布了一季度财报,公司创始人兼董事长李想在财报业绩说明会上宣布,将推迟原计划今年亮相的纯电SUV车型至明年发布,当前重点是大力建设充电网络。这意味着L系列增程车型将在今年继续成为理想汽车的销量主力。 记者观点 理想汽车在2024年初的销量数据展示了其多款车型的市场竞争力,特别是L7的出色表现。尽管MEGA车型的销量占比仅为4%,但随着新车型产能的提升和市场需求的变化,未来可能会有更大的增长空间。理想汽车的策略调整,尤其是充电网络的建设,将为其未来的发展打下坚实基础。

Snowflake收购Reka AI谈判破裂,10亿美元交易告吹

Snowflake收购Reka AI谈判破裂

Snowflake(SNOW.US)原计划以超10亿美元收购初创公司Reka AI,但这笔交易的谈判已宣告破裂,使其通过内部引入更多生成式人工智能技术的计划落空。 Reka专注于生产大语言模型,这是一种通过互联网进行大规模训练的人工智能软件,可用于多种任务,如为图片添加字幕或充当客服机器人。根据上周Bloomberg的报道,Snowflake曾讨论以超过10亿美元的价格收购Reka。据知情人士透露,这些谈判现已结束。 Snowflake计划在周三公布季度财报,但尚未就交易谈判发表任何评论。Reka也未对此作出回应。 Snowflake将生成式人工智能视为其业务发展的加速器,并于四月发布了其大语言模型Arctic。该公司还允许客户在Snowflake的数据上使用第三方人工智能模型,包括Reka的模型。 Reka于2022年由Alphabet旗下谷歌(GOOGL.US)和Meta Platforms(META.US)的研究人员创立。据外媒报道,该公司在2023年的一轮融资中估值约为3亿美元,其中包括来自Snowflake风投部门的资金。 随着生成式人工智能技术的普及,许多大型科技公司纷纷寻求与该领域初创公司合作或进行收购。Snowflake未能成功收购Reka AI,使其在这一领域的扩展遇到挑战。 记者观点 Snowflake收购Reka AI的谈判破裂凸显了生成式人工智能领域内并购的复杂性和不确定性。尽管这笔交易未能成功,但显示了大型科技公司对生成式人工智能技术的浓厚兴趣和战略投资的迫切需求。在未来,Snowflake和其他公司可能会继续探索与AI初创公司的合作,以保持竞争优势并推动业务增长。

英特尔AI模型压缩器曝严重漏洞,或导致任意代码执行

英特尔AI模型压缩器曝严重漏洞,或导致任意代码执行

据Info Risk Today报道,英特尔的人工智能模型压缩软件Neural Compressor中发现一个极其严重的漏洞,该漏洞在CVSS评分中获得满分10分,黑客可利用此漏洞在受影响的系统上执行任意代码。 Neural Compressor软件帮助企业减少人工智能模型所需的内存量,降低缓存丢失率,并提高神经网络的计算效率。公司通过使用开源Python库,在不同类型的硬件设备上部署人工智能应用,包括计算能力有限的设备如移动设备。 英特尔并未透露有多少公司使用该软件,也未说明受影响的用户数量,但表示该漏洞仅影响2.5.0版本之前的用户。 上周,英特尔在发布的41份安全公告中,追踪到了这个漏洞,编号为CVE-2024-22476。该漏洞源于输入验证不当或未对用户输入进行消毒,黑客无需特殊权限或用户交互即可远程利用此漏洞,对数据的保密性、完整性和可用性构成严重威胁。 此外,还有另一个漏洞编号为CVE-2024-21792,严重程度为中等,是一个时间检查和使用时间漏洞,可能让黑客获取未经授权的信息。黑客需要通过本地验证访问存在漏洞的系统才能利用此漏洞。 英特尔表示,这些漏洞由一个外部安全实体报告,但没有透露具体个人或公司的身份。目前,英特尔已发布了针对上述两个Neural Compressor漏洞的修复程序。 去年,研究人员在大型语言模型中发现了几十个漏洞,可能导致操纵实时对话、自我传播零点击漏洞以及利用幻觉传播恶意软件的风险。 使用类似Neural Compressor作为核心组件来构建和支持人工智能产品的公司可能会增加漏洞的影响。一个月前,Wiz的研究人员在流行的人工智能应用开发商HuggingFace上发现了现已修复的漏洞,允许攻击者篡改其注册表上的模型,甚至向其中添加恶意模型。 记者观点 这一漏洞的暴露凸显了AI软件在安全性方面的脆弱性。作为企业核心技术的AI模型压缩器存在如此高风险的漏洞,不仅对数据安全构成威胁,也提醒企业在使用开源软件时应更加谨慎。快速修复漏洞和加强输入验证是防范此类安全风险的关键措施。

人工智能与数字双胞胎:推动未来科技的两大趋势

人工智能与数字双胞胎

在2024年,人工智能和数字双胞胎成为了科技领域的热门话题。这两项技术不仅在各自的领域取得了重大进展,还正在改变各行各业的运作方式。 人工智能:从代码助手到生成艺术 人工智能(AI)在过去几年中取得了长足的进步,尤其是在生成内容和编写代码方面。AI代码助手,如GitHub Copilot和Tabnine,利用大规模语言模型和机器学习技术,能够分析和建议代码、检查错误以及从文本提示生成新代码​ (Exploding Topics)​。这大大提高了程序员的工作效率,减少了重复性劳动,让他们可以专注于更具创造性的任务。 此外,AI在生成艺术方面也取得了显著进展,例如AI图像增强器和AI纹身生成器,这些工具可以根据用户的输入创建高度个性化的艺术作品。这不仅为艺术家提供了新的创作工具,也为普通用户打开了创作的大门。 数字双胞胎:虚拟与现实的桥梁 数字双胞胎是另一个正在快速发展的领域。它们是现实世界资产的虚拟3D复制品,可以通过软件进行跟踪和操作。这项技术在制造、建筑、供应链等多个行业中得到了广泛应用。通过创建一个虚拟版本的物理对象,企业可以在不影响实际操作的情况下进行测试和优化,从而节省时间和成本​。 未来展望 随着人工智能和数字双胞胎技术的不断发展,我们可以期待它们在未来几年内在更多领域中的应用。例如,医疗领域的数字双胞胎可以用于患者的个性化治疗方案制定,而人工智能则可以进一步简化复杂的数据分析过程,帮助医生做出更精准的诊断。 总结来说,人工智能和数字双胞胎不仅是当前的热门技术,更是推动未来科技进步的重要力量。了解并掌握这些技术,将有助于我们在快速变化的世界中保持竞争力。 希望这篇博客能为你的读者提供有价值的信息,并引发他们对未来科技发展的思考。如果你有更多关于博客写作的需求,欢迎随时联系我。

阿里云大模型空前降价,推动AI创新加速

阿里云大模型空前降价

5月21日,在武汉光谷万豪酒店,阿里云举办了“AI智领者峰会”,宣布旗下大模型全面降价。阿里云智能集团资深副总裁、公共云事业部总裁刘伟光亲自到场,揭示了这次变革的巨大决心。 发布会开始不久,刘伟光便提到“摩尔定律”。1965年,英特尔联合创始人戈登·摩尔提出,晶体管密度每18个月翻倍,这一理论主导了半导体行业60多年的发展。然而,随着技术瓶颈的出现,摩尔定律在微观领域逐渐失效。但从用户角度看,摩尔定律的本质是让用户以相同价格获得更多算力。阿里云正是从这一角度出发,尝试通过公共云和AI技术超越摩尔定律。 AI推理成本大幅下降 刘伟光在峰会上表示,“AI推理成本每年降低十倍甚至百倍,才能真正推动各行业的AI应用爆发。” 随后,阿里云宣布旗下9款核心商业化及开源模型全面降价,最高降幅达97%。其中,阿里云的长文本模型Qwen-Long价格降至GPT-4价格的1/400,成为全球最低。 Qwen-Long模型适用于长文本场景,上下文长度可达1000万,可处理约1500万字或1.5万页的文档。此次降价后,API输入价格从0.02元/千tokens降至0.0005元/千tokens,相当于1元钱可以买到200万tokens的使用量。 阿里云的决心:成为大模型爆发的基础设施 阿里云的目标是“让天下没有难做的AI应用”,并成为大模型时代的基础设施。据内部人士透露,AI在阿里云的战略地位已经上升到前所未有的高度。未来,阿里云将以全球领先的模型服务、国内最大的推理集群、开放的持续开源平台以及对AI应用爆发的信心,实现大模型的普惠。 降价背后的逻辑 阿里云此次大幅降价,旨在解决AI爆发中的高昂成本问题。云计算的技术红利和规模效应,使算力成本继续优化。过去十年,阿里云的算力成本降低了80%,存储成本降低了90%。此次降价,进一步压缩了模型推理成本,并加快了模型推理速度。 连锁反应 阿里云的激进降价预计将引发行业连锁反应。就在阿里云宣布降价当天,百度也宣布其两款轻量型大模型免费开放。尽管百度的模型能力与阿里云不完全匹配,但这一举措表明了阿里云在大模型领域普惠能力的影响力。 记者观点 阿里云此次大幅降价,标志着AI模型应用成本的显著下降,有望激发更多的创新应用。基础设施的价格下降,将推动社会的创新总量,实现AI时代的全面爆发。阿里云的这一举措,不仅为自身赢得了市场先机,也为整个行业的未来发展奠定了基础。

腾讯与阿里的一季报揭示了中国互联网的新篇章

腾讯与阿里的一季报揭示了中国互联网的新篇章2

在过去的十年里,中国的互联网行业经历了快速发展,但也积累了不少低效资产。未来五年内,优化现有流量池和处理低效资产将成为关键。腾讯和阿里的2024年第一季度财报为我们揭示了这一趋势的开端。 腾讯的护城河更高,阿里的挑战更大 腾讯在国内社交应用领域占据绝对市场份额,而阿里则是国内最大的电子商务平台。2024年第一季度,腾讯的营业收入同比增长6.34%,达到1595.01亿元,而阿里的同比增长6.57%,达到2218.74亿元。尽管收入绝对值上腾讯为阿里的71.89%,但两者在收入质量上却有显著差异。 腾讯的毛利润为838.7亿元,同比增长23.01%;而阿里的毛利润为737.76亿元,同比增长6.34%。腾讯的毛利率同比提升至52.58%,而阿里基本持平在33%。腾讯的净利润为502.65亿元,同比增长54.48%,而阿里为244.18亿元,同比下降10.8%。   业务表现对比 腾讯在“增值服务”受游戏递延收入影响外,“网络广告”和“金融科技及企业服务”均实现同比增长。其中,“网络广告”收入同比增长26.44%,毛利率提升至55%。 阿里则在“大文娱”受优酷影响外,其余业务基本实现增长,但增长幅度不及腾讯。例如,“淘天集团”GMV双位数增长,但收入仅提升3.7%;“云智能”则开始以价换量;“菜鸟”在与速卖通的协同下提升跨境物流覆盖面,实现近30%的增长;“本地生活”在饿了么和高德的带动下同比增长18.54%。 解析腾讯和阿里的不同表现 腾讯和阿里在同一市场环境下表现出不同的曲线背离,原因主要有两点: 阿里的调整难度更大:阿里的线下零售业务资产较重,当前环境下减值幅度较大,剥离出表更为困难。而腾讯的低效资产较轻,调整弹性更大。 腾讯的护城河更高:腾讯依靠社交软件带来的超级流量池变现,即使在2024年,微信仍是用户的刚需基础设施,具备强大的用户粘性和高转换成本。 未来趋势 阿里和腾讯未来的发展趋势将有所不同: 腾讯:重心在于充分发挥微信的经济效益,通过丰富赋能手段和赋能场景提高B端的创收能力和营收质量。 阿里:在C端竞争日益激烈的情况下,阿里将加码投资提升对B端赋能的价值,同时稳住既定业务并开拓新业务,例如云智能和国际业务。 以阿里为镜,看互联网大厂的未来 阿里的现状和逻辑反映了互联网大厂的未来趋势: 压缩B端溢价空间:平台企业可能继续让利以保留商户群体。 加码投资新业务:例如阿里的云业务,抖音的外卖,美团的打车等。 开拓国际市场:复制国内的成功经验,但开拓成本仍然高企。 未来,阿里的战略转向“时间换空间”和“守正出奇(AI)”,为集团提供耐心基础和操作空间。而腾讯则继续巩固其流量池优势,保持稳健增长。总的来看,尽管挑战重重,但中国互联网巨头仍在探索新的增长路径和商业模式,以应对未来的不确定性。 腾讯和阿里巴巴的一季报不仅展示了两家公司的财务表现,也反映了中国互联网行业在后流量红利时代所面临的挑战与机遇。腾讯凭借其强大的社交生态系统,展示了稳健的盈利能力和高效的运营模式。相比之下,阿里巴巴在多元化业务拓展中面临更大的调整压力,但其在电子商务领域的基础仍然稳固。 腾讯的成功在于其社交平台的高用户粘性和广泛的应用场景,这为其提供了持续的流量和收入来源。而阿里巴巴则需要在激烈的市场竞争中,不断优化其业务结构,提高运营效率,以保持竞争力。 未来,腾讯和阿里巴巴都需要在技术创新和全球市场拓展方面投入更多资源,以应对国内市场饱和和国际市场的复杂局面。对于中国互联网行业来说,如何在保持高速增长的同时,提升业务质量和用户体验,将是决定未来发展的关键。 总的来说,腾讯和阿里的表现显示出中国互联网巨头在经济周期变化中的韧性和调整能力。尽管面临挑战,但通过不断创新和战略调整,这些公司有望在全球数字经济中继续发挥重要作用。

被马斯克吐槽的“苹果税”在中国竟是全球最高

被马斯克吐槽的“苹果税”在中国竟是全球最高

在两部不同的手机上购买腾讯视频或网易云音乐的会员服务时,价格存在明显差异。例如,在Android手机上,腾讯视频连续包月会员的价格是26元,而在iPhone上则变成了30元。同样,网易云音乐的连续包季会员也有4元的差价。这种现象并非大数据杀熟,而是因为苹果税的税率高达30%,导致了这种价格差异。 什么是苹果税? 所谓苹果税,是指苹果用户通过App Store下载应用或在应用内购买数字商品或服务时,苹果会从每笔交易中抽取一定比例的费用,再将剩余部分转给开发者。对于年收入在100万美元以上的App,苹果收取30%的分成,而年收入在100万美元以下的中小开发者则抽成15%。 然而,在美国、欧盟、日韩和印度等主要市场,苹果税的税率较低,并允许部分灵活的支付政策。相比之下,中国的开发者和消费者承担着全球最高的苹果税,同时苹果在中国市场完全禁止用户从第三方应用商店或网站下载应用程序和使用第三方支付。 全球反抗苹果税的浪潮 全球范围内,针对高额苹果税的抵抗不断涌现。美国知名游戏开发商Epic Games在其游戏《堡垒之夜》中引导玩家使用Epic直接支付,避开了苹果的支付系统,导致苹果以违反规定为由下架了《堡垒之夜》。此举引发了长达四年的诉讼战,特斯拉CEO马斯克也公开支持Epic,批评30%的苹果税过高。 面对持续的反垄断压力,苹果在美国、欧盟、日本等市场做出了一些让步。例如,在欧盟,苹果允许开发者使用其他支付系统,并将苹果税率从30%降至17%至27%不等。欧盟的《数字市场法案》更是对科技巨头如苹果设定了严格的反垄断规定。 中国市场的高额苹果税 然而,在中国市场,苹果税的税率依然高达30%。根据分析机构Sensor Tower的数据,2023年,苹果通过苹果税在全球收入1608亿元,其中中国市场贡献了482亿元。若苹果在中国市场降低抽佣比例,未来五年可为开发者和消费者节省数百亿元。 尽管中国市场的开发者和消费者对苹果的不满日益增加,苹果却没有计划调整其在中国的App Store政策。近年来,苹果因为苹果税的问题多次遭到批评。例如,2019年,丁香医生因为被认为避开了苹果支付而无法更新App,最终不得不妥协。 北美头条展望未来 面对苹果在中国市场的绝对优势地位,开发者和消费者需要持续发声,推动苹果调整其在中国市场的政策。随着中国互联网市场的快速发展,公平合理的抽佣政策将有助于促进创新,保护消费者权益。 尽管目前苹果税在中国市场的调整仍遥遥无期,但全球范围内对苹果税的抵制浪潮和各国反垄断法规的推进,或许能为中国的开发者和消费者带来一些希望。随着科技和市场的不断变化,期待苹果能在未来为中国市场带来更多的公平和透明。

加拿大农场惊现烧焦金属疑为SpaceX飞船残骸

加拿大农场惊现烧焦金属疑为SpaceX飞船残骸

最近,加拿大萨斯喀彻温省的一位农场主在自家田地里发现了一块巨大的烧焦金属碎片。专家推测,这可能是SpaceX飞船的残骸。 一个月前,美国国家航空航天局(NASA)曾承认,从国际空间站抛出的一块太空垃圾坠落在佛罗里达州的一户人家中。 据当地媒体报道,农场主巴里·索楚克(Barry Sawchuk)在田地里发现了一块重约40公斤的烧焦金属。他怀疑这是太空垃圾,因为其表面有多层烧焦的复合纤维和网状结构。索楚克对媒体说:“但我真的不懂,毕竟我不是造飞船的,我是种地的。” 一些天文学教授随后将这些烧焦的碎片追溯到今年2月份SpaceX的龙飞船重返大气层。2月7日,载人龙飞船在厄瓜多尔西侧太平洋上空从国际空间站分离,并于2月9日在佛罗里达州代托纳海岸附近海域安全着陆,将宇航员送回地球。 载人龙飞船由一个可重复使用的乘员舱和一个一次性的非密封舱组成。在飞船重返地球大气层前,这个非密封舱会被抛弃,自行坠回大气层。落在加拿大农场的这块碎片很可能就是“公理3号”任务中被抛弃的非密封舱部分。 这不是第一次疑似SpaceX飞船的碎片落在人口稠密地区。2022年7月,澳大利亚的一块农田也曾发现一块烧焦的金属碎片,同样被怀疑来源于SpaceX的龙飞船非密封舱。 随着航天工业的持续发展,被飞船碎片击中的风险也在增加。根据欧洲航天局的数据,平均每年有200至400个人造物体重新进入地球大气层。对于这些不受控制的再入,航天机构通常接受的人员伤亡风险概率阈值为万分之一。 今年4月初,NASA承认2021年3月国际空间站抛弃的装有旧电池的托盘中的一块碎片坠毁在佛罗里达州的一户人家。NASA收回了这个圆柱形碎片进行分析,但目前尚不清楚SpaceX是否也会因担心法律责任而采取相同的行动。 加拿大农场主索楚克似乎并不太担心这些。他计划出售这块太空垃圾,并用部分收益帮助建设一个冰球场。这便是应对此事的一种方法。 记者观点: 这一事件提醒我们,随着太空探索和航天技术的进步,地球上的人们也可能面临新的挑战和风险。尽管被太空垃圾击中的概率较低,但航天公司和相关机构应进一步加强对太空碎片的监控和管理,确保人类和地球环境的安全。对于农场主索楚克来说,他的计划体现了将问题转化为机遇的智慧,也为我们提供了一个积极的应对方式。

视觉语音交互毫无延迟,都成精了居然还不是GPT-5?

都成精了居然还不是GPT-5

OpenAI 给 2024 年 5 月 14 日的这场发布会取名 “ 春季功能更新 ” ,就像它们形容当初 ChatGPT 的发布是一次 “ 低调的研究预览 ” 一样。 而就像那次一样,一切也都回不去了。 OpenAI 发布了一个叫做 GPT-4o 的新模型,它的确不是 GPT-5,但看了它能做的事情,再想到它甚至不是 OpenAI 正在砸更多的钱和智慧在做的 GPT-5,你只会感觉更“可怕”。 发布会一开始, OpenAI 的 CTO Mira Murati 介绍了新模型 GPT-4o(是的,Sam Altman 全程没有现身)。 她强调这个模型是要给所有人使用,并且通过交互的更新让人们忘了 UI 的存在。因为 OpenAI 的愿景正是如此。 而到此这似乎还很正常。 “ 不过是新模型而已嘛。 ” 但直到 demo 环节开始,一切越来越离谱。 首先是一个实时对话的展示。 “ 我正在做 demo ,我有点紧张。 ”Mark […]

虎牙发布2024年Q1财报:总收入15亿元

虎牙发布2024年Q1财报:总收入15亿元

虎牙是一家以直播为核心业务、游戏相关服务多元化发展的互联网科技公司,旗下产品包括国内知名直播平台虎牙直播、聚焦全球泛娱乐直播和游戏直播平台Nimo等。平台涵盖多个游戏品类和电竞赛事,汇聚众多世界冠军级签约战队、职业选手及顶流主播,拥有完备的版权赛事和自办赛事体系。 立足游戏直播领先优势,虎牙在新战略下重点发力游戏分发、游戏道具销售和游戏广告等游戏相关服务,致力于满足全球游戏爱好者、内容创作者以及行业合作伙伴不断变化的需求,持续扩大在游戏行业的影响力。 虎牙公司(NYSE:HUYA)公布了 2024 年第一季度财报。财报显示,2024 年第一季度,虎牙公司总收入为 15 亿元。用户数据方面,2024 年第一季度,虎牙直播移动端 MAU(月均活跃用户数)同比增长至 8260 万。 财报显示,2024 年第一季度,虎牙公司的总收入为 15.04 亿元(2.08 亿美元)。按照美国通用会计准则,2024 年第一季度,虎牙公司的毛利润为 2.21 亿元(3050 万美元),毛利率较去年同期的 13.7% 提升至 14.7%。归属于虎牙公司的净利润为 7100 万元(980 万美元),较去年同期增长 79.3%。非美国通用会计准则下,即剔除股权激励费用以及业务收购产生的无形资产摊销等非经常性损益后,归属于虎牙公司的净利润为 9250 万元(1280 万美元)。 营收构成方面,2024 年第一季度,虎牙公司来自于直播的收入为 12.60 亿元(1.75 亿美元),来自于游戏相关服务、广告和其他业务的收入为 2.44 亿元(3370 万美元)。 截至 2024 年 3 月 31 日,虎牙公司拥有现金、现金等价物、短期存款、短期投资和长期存款计 94.20 亿元(13.05 亿美元)。 虎牙公司联席 CEO 兼高级副总裁黄俊洪表示:“2024 年第一季度,在不断变化的行业环境中,我们通过有力的战略执行推动了公司全面进步。该季度,我们对虎牙直播进行产品升级,举办了一系列创新的跨平台电竞赛事和运营活动,进一步提升了虎牙平台的内容与品牌影响力。因此,虎牙直播移动端 MAU 同比小幅增长至 […]

抖音电商:过去一年投入超10亿元保障用户体验

抖音电商:过去一年投入超10亿元保障用户体验

《抖音电商消费者体验报告》公布的数据显示:过去一年,抖音电商客服团队总共提供了 2 亿次客服服务。 据悉,为了提高问题解决的效率,平台持续完善“平台客服”、“商家客服”、“达人客服”三个消费者求助渠道的服务能力,努力让消费者寻求帮助时“只联系一次”。 据抖音电商客服体验中心胡少锋介绍,为了保障服务质量,过去一年,平台在客服体验保障上投入了超 10 亿元。 除了客服体验外,发货物流和售后也是平台优化用户体验的另一个发力点。在物流上,一方面通过升级规则提升物流效率、加强商家预售发货管理等,将整体发货时长缩短了 11 个小时;另一方面,提供“当日达”“选日达”等特色物流服务,满足多元需求。 抖音电商售后体验中心吴天宇表示,售后上,“极速退”服务已覆盖 88% 的售后订单,退款时长大幅缩短。用户购买生鲜、鲜花等,可享受“坏了包退”服务。 在提升服务质量的同时,抖音电商还不断提升平台治理水平。抖音电商平台治理负责人马磊表示,过去一年,该平台分别从内容治理、商品治理以及价格管理规范三方面升级了平台规则。 马磊介绍,抖音电商升级了创作者治理体系。一方面,该平台对头部创作者提出了更高要求,如从严治理十类违反底线的行为;另一方面,平台持续打击低价引流和虚假比价等不实营销行为。 据了解,过去一年抖音电商治理了超过 8000 个虚假营销账号,清退相关账号超 1200 个,创作者违规率下降了 36%。同时,该平台还不断完善扶持机制,为优质创作者提供 1 对 1 的开播服务,搭建创作者成长体系等。 抖音电商还在商品治理及价格管控方面不断完善。据了解,为了加强商品源头的管控环节,抖音电商制定了更严谨的品控标准,同时升级质检技术,推行更严格的实地质。官方不定期委派权威质检机构全流程把控商品原料、分拣、包装等,以保障商品品质。 过去一年,抖音电商深入 12 个产业带对商家实地质检,验货总量超 3000 万件。针对月饼、大闸蟹、鲜花等 19 个季节性品类,以及珠宝潮奢、酒类、虚拟商品等具有复杂行业特性的商品,抖音电商实施了最严格的准入标准。 另外,抖音电商高度关注知识产权保护,已与 100 个品牌展开“防伪 dou 知道”合作,传播商品真伪鉴别窍门,帮助用户辨别并抵制假冒伪劣商品。同时,平台还配合警方开展了侵犯知识产权专项治理。

AEB误认高速广告牌车辆为真车,“幽灵刹车”为何频现

AEB误认高速广告牌车辆为真车,“幽灵刹车”为何频现

近日,一辆在高速公路上行驶的理想 L9 误将广告牌识别成真车致追尾一事引发关注。 一位湖北襄阳的理想 L9 车主在社交媒体上称,自己驾驶未上牌的新车理想 L9 在高速公路上开启了辅助驾驶系统,车辆在行驶中检测到高处广告牌上的小货车图片,突然急刹,导致后车追尾。涉事车辆为理想 L9 Pro 车型。事故发生后,经交警认定,该车主负此次事故的全部责任。 理想汽车方面表示,对此次事故分析的结论是,视觉误检前方广告牌上的卡车,导致自车异常减速,辅助驾驶目前确有一定局限性。 官方资料显示,理想 L9 Pro 版车型搭载了智能驾驶 AD Pro,可实现安全舒适的高速 NOA( 自动辅助导航驾驶),车型配有 10 个摄像头、12 个超声波雷达和 1 个毫米波雷达。今年北京车展期间,理想智能驾驶 AD Pro、AD Max 平台能力全面进化。其中,AD Pro 3.0 于 5 月初随 OTA 5.2 推送,实现千公里接管级别的高速 NOA、支持红绿灯路口起停的城市 LCC(车道居中辅助)、复杂车位的智能泊车。 去年 5 月,四川甘孜一车主驾驶理想 L7 在路上正常行驶,突然车速从 80km/h降速到 20km/h,直接刹停。该车主表示,当时路上没有任何障碍物,只有一块广告牌,上面有一个人准备起跑。车主联系了理想汽车,官方表示,该事件是因为激光雷达把广告牌上准备起跑的人物,识别成了在路中间的真人,所以才紧急刹停。 当驾驶员开启辅助驾驶功能后,车辆在前方没有障碍物或不会与前车发生碰撞的前提下,在高速行驶中突然刹车,也就是车辆 AEB(紧急制动功能)自动启动,这种现象被称为“幽灵刹车”。 “幽灵刹车”现象出现的原因是 AEB 功能出现识别错误。 辉羲智能研发人员马静表示,AEB 是目前很多车辆都已配置的一项功能,通过安装在车上的辅助驾驶系统——可以是摄像头、毫米波雷达、激光雷达,或各种组合——对自车状态及周围交通环境实时监控,并分析计算,判定合适的刹车介入时机。 AEB 的 […]

SK海力士宣布最早2026年推出HBM4E内存,带宽为上代 1.4 倍

SK海力士宣布最早2026年推出HBM4E内存

HBM 负责人 Kim Gwi-wook 近日在官方公告中声称当前业界 HBM 技术已经到了新的水平,行业需求促使 SK 海力士将加速开发过程,最早在 2026 年推出他们的 HBM4E 内存,相关内存带宽将是 HBM4 的 1.4 倍。 除了 HBM4E 外,据 IT 之家此前报道,有消息称 SK 海力士计划在 2025 年下半年推出采用 12 层 DRAM 堆叠的首批 HBM4 产品,而 16 层堆叠 HBM 稍晚于 2026 年推出。 HBM4 / HBM4E 的开发“加速过程”无疑显示了 AI 领域巨头对高性能内存的强劲需求,日益强大的 AI 处理器需要更高内存带宽的辅助。

哪吒汽车发布天津哪吒S着火事件说明

哪吒汽车发布天津哪吒S着火事件说明

针对天津哪吒 S 起火事故,哪吒汽车今日发布声明回应称,通过调取社区监控视频,本次火情首先从驾驶室方位冒烟然后形成明火蔓延至车顶。 根据哪吒汽车车辆数据监控平台分析,起火事件发生后,直到数据中断前,该车辆的动力电池电压信号、温度信号、绝缘信号均为正常,电池包处于安全受控状态,整车低压电路也未发生异常情况。13 日,哪吒汽车相关技术人员到达现场,对车辆进行初步核查,电池包外观完整,处于受控状态。 同时,本事故未造成任何人员伤亡,消防人员已经扑灭火情,哪吒汽车表示第一时间安排相关工作人员赶赴现场,了解相关情况,协助用户处理后续工作,配合有关部门调查原因。 事故的具体原因待有关部门进一步调查,哪吒汽车称会积极配合,并协助用户处理后续事宜,充分保障用户权益,做好善后工作。 IT 之家注意到,在 2023 年的国内造车新势力中,哪吒汽车是唯一销量下滑的企业:全年累计销量约 12.74 万辆,相较于上年呈现出约 16% 的下降,销量达成率仅为预期的 42.5%。同时,哪吒汽车在造车新势力中的排名也发生了变化,从 2022 年的第一下滑至 2023 年的第五。进入 2024 年,哪吒汽车依然未扭转销量颓势。今年一季度,哪吒汽车仅卖出了 2.44 万辆车,同比下滑了 6.9%。

王化回应小米SU7刹车故障:确为软件误识别,已修复该小概率事件

王化回应小米SU7刹车故障

小米集团公关部总经理王化今日在微博发文对小米 SU7 刹车故障一事进行回应:核实了一下,的确是软件的误识别。目前已经将这一小概率事件进行修复,大家也不必惊慌。 王化表示,已找了汽车部的工程师帮忙梳理情况,经分析确认,车辆当时为制动主控制器(DPB / BCP)的系统误识别降级触发备用制动策略,制动辅控制器(ESP / BCS)直接响应制动需求为车辆提供刹车减速的情况;同时,车辆大屏因此也报了制动系统故障提示。 过程中,车辆进入制动系统备用策略,ESP 抽取 DPB 制动液为车轮增加制动压力让车辆制动刹车;由于制动液被 ESP 从 DPB 抽走,制动主缸压力快速降低,驾驶员踩踏板“脚感力不足”。 因为制动系统做主次切换,所以原本主制动器的缸内压力值为 0,但并不意味着丧失全部制动力,此时 ESP 介入制动,未出现刹车系统完全失灵和车辆失控的情况。 王化表示,SU7 的制动系统采用 DPB+ESP 双备份机制设计。另外,他还披露了部分时间线:   5 月 9 日凌晨,事故车辆被救援拖运到长沙服务中心,门店工作人员检查车辆硬件确认无机械故障 / 受损,并在操作车辆制动系统自检程序后,大屏制动故障提示消失,车辆恢复正常。   5 月 9 日白天,门店工作人员将车辆情况和技术结论同步反馈给用户,并告知车辆检查记录和车辆日志数据完整可查。目前车辆已经恢复正常,但还是基于对用户负责的态度,工作人员向用户表示可以支持用户的退车 / 换车诉求,同时覆盖因退换车而产生的费用(如换车,将按照原订单号优先排产,并给予等待期的代步补偿)。 针对 400 未接通问题,王化表示由于当时处于进线高峰期,占线排队较多,出现未及时接通的情况,并对此深表歉意;随后用户专属服务群响应了用户的需求,并安排了道路救援支持。针对专业客服坐席紧缺问题,4 月我们已经紧急启动了招聘,预计 5 月底在线客服接起率会大幅提升。而 SOS 主要是针对车辆事故中,伤员的医疗救援的响应渠道,由行业内的专业平台机构合作提供该项服务;其他用车场景的服务,主要是小米售后服务提供。 王化向该用户对刹车问题的反馈致以感谢,并呼吁网友不信谣不传谣。

谷歌希望Pixel手机“无需特殊工具也能让用户自行维修”

谷歌希望Pixel手机“无需特殊工具也能让用户自行维修”

5 月 14 日消息,随着“维修权”的兴起,谷歌也开始强调其 Pixel 系列手机的可维修性。在最新一期播客中,该公司详细阐述了其“未来让 Pixel 手机和平板电脑更易于维修的计划”。 该公司早在 2022 年就已经与 iFixit 合作,为 Pixel 设备提供零件、工具和维修指南。今年早些时候,谷歌还正式支持了俄勒冈州的“维修权”法案,与苹果形成鲜明对比。 谷歌消费者硬件运营总监 Steven Nickel 表示,他的职责是确保 Pixel 设备在设计之初就充分考虑到后期可维修性,并为 Pixel 用户提供售后支持。 据称,他一直在谷歌内部倡导更好的“维修权”计划,而且他认为所有 Pixel 用户都应该能够自行维修设备。至于如何实现这一目标,他认为可以通过减少 Pixel 手机中使用的胶水量做起。 “我记得我参观了谷歌在日本的维修中心,他们非常有效地概述了拆机过程,”Nickel 说道,“他们按工位划分,其中一个工位只做移除粘合剂的工作。” 他表示,谷歌内部对于改善 Pixel 设备可维修性考虑了很多措施,例如为每款设备设定“可维修性评分”。Nickel 透露,每一代 Pixel 手机的分数都会有所提高,这也是他们共同努力的效果。 他还透露,谷歌没有“像行业惯例那样”将手机维修权限制在 Pixel 设备的生产 / 销售地,“这对我们来说毫无意义”。 最后,他还强调谷歌的长期目标是使 Pixel 设备成为“无需固定装置 / 无夹具”也可以进行维修的典范。Nickel 解释道,“我们的目标是让用户能够只通过厨房里随处可见的东西也能自行更换屏幕。” 谷歌在 Pixel 设备的可维修性方面确实取得了一定进展,但距离实现这一愿景还有很长的路要走,至少目前 Pixel 手机仍需要专用开口工具和螺丝刀等特殊工具才能实现维修。  

余龙武:人工智能与经济学的交汇与前瞻

余龙武

近年来,人工智能(AI)迅猛发展,不仅在生产生活中引发了巨大的变革,也在经济学研究领域掀起了一场革命。作为北京大学市场与网络经济研究中心的研究员,余龙武在这方面的研究成果尤为突出。本文将深入探讨余龙武的研究,揭示人工智能如何成为经济学的关键工具和研究议题,并展望其未来发展方向。 人工智能:经济学研究的新工具 余龙武指出,人工智能技术的飞速发展对经济社会的各个领域产生了深远影响,经济学自然也不例外。许多顶尖经济学家已经将人工智能纳入他们的研究框架,利用其强大的数据处理和模式识别能力,推动经济学理论和实证研究的进步。例如,机器学习技术可以与传统的计量经济学方法相结合,帮助研究者在海量数据中发现隐藏的经济规律和模式,从而构建更加精准的经济模型​​。 三次人工智能与经济学的交汇 余龙武的研究回顾了历史上经济学与人工智能的三次重要交汇。第一次是在20世纪50年代和60年代,诺贝尔经济学奖得主赫伯特·西蒙(Herbert Simon)等经济学家参与了人工智能学科的奠基工作,认为经济学和人工智能在研究决策过程和问题求解方面有很多共通之处​​。第二次交汇发生在本世纪初,博弈论、机制设计等经济学领域的理论进展被广泛应用于人工智能研究。当前,我们正处于第三次交汇的高潮,深度学习技术的突破使得人工智能成为经济学研究的热点话题之一​ 人工智能作为研究对象 从经济学角度看,人工智能不仅是一种工具,更是一个重要的研究对象。余龙武将人工智能视为通用目的技术(General Purpose Technology),其广泛应用将对经济活动产生深远影响。人工智能技术的自动化特性可能对劳动力市场产生替代效应,导致收入分配的不均。此外,人工智能的发展依赖于大数据,决定了其具有规模经济和范围经济的特性,对产业组织、竞争政策等问题产生重要影响​. 人工智能对经济增长的影响 余龙武的研究表明,人工智能技术对经济增长的影响具有不确定性。虽然人工智能的使用可以提升生产率,但其对资本回报份额的影响却是不确定的。如果人工智能仅带来短期冲击,其影响将是暂时的;而如果它能持续提升生产率,经济增长率也将随之增加,可能出现“经济奇点”现象。未来的经济增长将主要取决于人工智能对知识生产的影响,尤其是其能否突破知识生产的瓶颈。 人工智能对就业和收入分配的影响 人工智能的自动化特性可能导致“技术性失业”,尤其是对低技能劳动者的替代效应最为显著。余龙武的研究表明,人工智能对不同技能水平的劳动者影响不同,高技能劳动者可能从中受益,而低技能劳动者则面临失业风险. 为了应对这一挑战,政策制定者需要通过教育和培训,帮助劳动力适应新技术环境,平滑短期冲击,确保就业结构的顺利转换. 未来展望与个人观点 作为一名经济学研究员,余龙武的研究揭示了人工智能技术对经济学研究的深远影响。未来,随着人工智能技术的不断发展,经济学家应更加关注其对经济增长、收入分配、市场竞争等方面的影响,推动跨学科研究与合作,为社会进步提供坚实基础。 在北美,人工智能已经成为推动经济发展的重要引擎。从硅谷的科技创新到华尔街的金融科技,人工智能技术正在各个领域发挥重要作用。抓住这一机遇,不仅能提升技术能力和经济研究水平,还能为未来的发展奠定坚实的基础。 通过对余龙武研究成果的梳理和分析,我们可以更好地理解人工智能革命带来的深远影响,并为进一步的研究提供宝贵参考。希望这篇文章能为有志于研究人工智能的经济学者提供有价值的启示。

专访经济学者余龙武:全球金融危机应对措施是否会引发国际投资争端?

余龙武

为减轻全球金融危机的影响,澳大利亚、德国、爱尔兰、英国、美国等发达国家纷纷采取紧急应对措施。尽管这些措施在实施过程中不断变化,但初步证据表明,这些国家在执行应急方案时,对外国投资者和本国投资者存在差别对待。这种差别对待违反了国际投资法中的非歧视原则,可能引发法律责任。 截至目前,各国采取的应对措施大致可以分为三类:增强金融服务业稳定性、增加经济领域信贷可得性以及刺激公共支出和战略产业的财政措施。本文重点关注前两类措施,因为它们最可能涉及国际投资法。 余龙武教授,全球金融危机爆发后,许多发达国家采取了紧急应对措施。您认为这些措施是否可能引发国际投资争端? 余龙武:的确,许多发达国家如澳大利亚、德国、爱尔兰、英国和美国都采取了紧急措施,以应对金融危机的冲击。这些措施虽然在不断变化,但初步证据显示,外国投资者在一些国家的应急方案中遭受了与本国投资者不同的待遇。这种差别对待违反了国际投资法中的非歧视原则,可能会引发法律责任。 这些紧急措施主要涉及哪些方面呢? 余龙武:总体来看,这些措施可以分为三类:增强金融服务业稳定性、增加经济领域信贷可得性以及刺激公共支出和战略产业的财政措施。我们特别关注前两类,因为它们最可能涉及到国际投资法。 能否具体谈谈这些紧急措施如何影响外国投资者? 余龙武:许多国家的第一类措施旨在增强市场信心和确保银行资金的持续性,包括流动性支持、资本结构调整、购买特殊资产以及提供小额存款担保等。例如,澳大利亚和爱尔兰在小额存款和批发贷款方面引入了新的保险制度,使得资本从不受担保的外国银行分支机构中流向国内受担保机构。德国和英国的金融稳定计划仅覆盖本国金融机构,排除外国分支机构。 第二类措施直接为整个经济提供信贷支持。例如,英国和德国要求参与者向信誉良好的借款人提供贷款。如果这些贷款主要流向本国企业,也会构成对外国机构的歧视。 国际投资法对此有什么规定呢? 余龙武:全球约有2800个双边和区域性投资协定,这些协定通常包含非歧视条款,禁止缔约国对外国投资者的差别对待。尽管发达国家之间的多边投资协定较少,但投资者可以通过设立中介利用其他国家的双边投资协定来提出索赔。此外,旧的投资协定通常允许将争端移交至国际法院或在国内法院提出索赔。 这些措施是否可能被认定为违反国际投资协定? 余龙武:如果应急措施违反了给予外国投资者国民待遇的义务,这些措施可能会引发法律责任。国民待遇原则要求在类似情况下对外国投资者不得低于本国投资者的待遇。即使某一措施是临时性的,也不能免除法律责任。OECD的国民待遇文件提供了相关判定标准,仲裁庭通常从竞争互动的角度来判断国内外投资者是否处于类似情形。 各国为金融领域提供的审慎措施是否有豁免权? 余龙武:一些投资协定为金融领域的审慎措施提供了有条件的豁免,但这些豁免并不适用于所有协定。阿根廷在2001-2002年金融危机后的系列案件中,尝试以危急情况规则来逃避条约责任,但未能成功。因此,我们预计当前的措施也将面临类似的法律挑战。 您对这些问题的最终结论是什么? 余龙武:尽管各国公开承诺自由市场原则,但对外国投资者的歧视普遍存在。这种歧视不仅局限于某个国家,而是全球许多国家应对金融危机的一大特征。贸易保护主义的抬头可能引发一系列连锁反应。此外,当前国际法能否有效约束各国采取保护主义措施,仍存在疑问。如果当前趋势继续,各国在应对本轮全球金融危机时,可能也会面临类似的法律挑战。

全球经济危机与新兴市场的国际直接投资

余龙武

全球经济和金融危机对国际直接投资(FDI)产生了重大影响。FDI总量从2007年的2.09万亿美元(这是四年来的高点)下降到2008年的1.73万亿美元,跌幅达17%。据预测,2009年全球FDI总量将继续下跌44%,低于1万亿美元。尽管2009年近几个月全球经济有所回暖,但仍经历了一次巨大的经济衰退。2009年一个显著特征是新兴市场首次吸引了超过发达国家的国际直接投资。 主编: 余龙武老师 (email: dr.yu@northamericaheadlines.com) 编辑: 余龙武老师 2009年上半年全球FDI大幅下降 预计2009年上半年全球的国际直接投资较2008年同期缩减49%。这一估计基于54个国家(20个发达国家和34个新兴市场)的数据,这些国家占2008年全球FDI总量的90%。在这54个国家中,47个国家的2009年上半年FDI流入量低于2008年,仅有7个国家有所增长。发达国家的FDI流入量下降幅度明显大于新兴市场,分别为54%和40%。美国和英国的下降尤为突出,分别为68%和85%。在新兴市场中,东欧下降最严重,为55%;流入拉丁美洲和亚洲新兴市场的FDI均下降了1/3,中国作为主要的新兴市场FDI接收国,仅下降18%;巴西和墨西哥的FDI流入量下降25%。 预计2009年下半年FDI才会有所回升。尽管全球经济最近几个月有所回暖,但企业间的并购交易在短期内不会显著增加。许多公司仍保持谨慎态度,银行限制融资,即使投资者信心增加和股票市场反弹,也未能推动并购交易。根据Dealogic提供的数据,2009年前9个月全球的并购交易价值为1.62万亿美元,比2008年同期下降了37%。根据Thomson Reuters的数据,2009年第三季度全球并购交易价值为3690亿美元,比2008年下降了54%。如果不包括危机相关的金融交易,这些数字会更加糟糕,因为这些交易主要是国内交易,这意味着2009年跨境并购交易总量下降更为严重。 新兴市场FDI首次超越发达国家 初步数据显示,新兴市场的FDI流入量能够抵御全球经济危机的影响。2008年流入发达国家的FDI减少了1/3,而流入新兴市场的FDI却增加了11%。尽管2009年流入新兴市场的FDI总量下降,但新兴市场在全球FDI总量中的份额首次超过发达国家。这一预测遭到多方质疑,部分原因是2009年第四季度的一些大型跨境交易可能会打破平衡,重新有利于发达国家。即便新兴市场在全球FDI流量中的份额未能达到50%,2009年的份额仍为历史最高。 实践向理论靠拢 全球FDI的减少伴随着国际直接投资模式的转变。经济理论指出,资本应从资本充裕的国家流向资本稀缺的国家。然而,事实上,发达国家长期以来吸引了大量的全球FDI。新兴市场高风险性,发达国家先进的制度和基础设施以及良好的商业环境通常比新兴市场更具吸引力。 然而,经济衰退期间发达国家的兼并减少,使得国际直接投资流向新兴市场有所增加。此外,新兴市场的经济表现总体上优于发达国家,吸引了更多的FDI。发达国家正经历自二战以来最严重的经济衰退,而中国和印度的持续快速增长推动了新兴市场的经济表现。 全球化和日益增加的竞争压力也提高了不投资新兴市场的机会成本。经济学家的一项调查显示,投资新兴市场与良好公司财务表现之间存在联系。对新兴市场上收益超过5%的公司中,近40%声称其财务表现优于同行,而在新兴市场上收益不到5%的公司中,仅有23%的公司认为其表现优于同行。 近年来,许多新兴市场改善了商业环境,推动了国际直接投资的增长。此外,新兴市场日益增多的对外投资也增加了其总流入量的份额,因为部分对外投资流向其他新兴市场。 2010年及未来展望 尽管全球经济仍然疲软,但许多国家的情况正在逐渐改善。2009年下半年全球经济开始复苏,这一良好势头预计将延续到2010年。然而,2010年的经济复苏可能会缓慢且脆弱。全球经济增长不太可能迅速回到前几年的水平,受到2008-2009年经济危机后效应的抑制。因此,尽管2010年全球FDI流入量可能会有所增长,但经济复苏并不会十分显著。 未来几年,新兴市场预计将继续吸引大量FDI,甚至超过发达国家。约60%的公司期望在未来五年内从新兴市场获得超过20%的总收益,这几乎是当前比例的两倍。这表明2009年全球FDI分布的转变是一个长期趋势,而不仅仅是短期现象。 以上是2012年10月18日的文章,由经济学者余龙武作为主编。

余龙武:论中国国有商业银行组织制度模式选择

余龙武:论中国国有商业银行组织制度模式选择

余龙武先生在2009年撰写的《论中国国有商业银行组织制度模式选择》一文,提出了对中国国有商业银行组织制度的独到见解和建议。作为一名中国经济学家,余龙武的这篇文章探讨了我国国有商业银行在市场经济环境下的发展方向,并对银行组织制度的改进提出了具体方案。 一、现阶段我国国家专业银行组织制度的弊端分析 | 余龙武 著作 近几年来,专业银行围绕权力下放、逐级承包、实行经营目标责任制等进行了改革尝试,但对金融制度创新尤其是专业银行向现代商业银行转化所要求的产权制度、组织制度的改造方面较少触及。目前我国金融改革的滞后很大程度上归结于金融组织制度改造的中途停顿,尤其是国家专业银行的传统组织体系未能得到彻底重组。现阶段国家专业银行组织制度的弊端具体表现在以下几个方面。 (一) 专业银行行政化组织制度不适应市场经济的要求 现行国家银行的组织制度是在传统计划经济体制中形成的,带有浓厚的计划经济体制特征。这种高度集中的组织制度不适应社会主义市场经济条件下商业银行以市场为导向、灵活经营管理的内在要求。专业银行的“条条管理”使资金的纵向分配格局难以打破,基层经营单位难以走向市场开拓经营。此外,专业银行按行政区划设置分支机构,导致高昂的组织成本和地方政府行政干预的增加,使资金使用效率低下。 (二)“大银行”组织制度是形成国家专业银行垄断地位的重要因素 市场经济的活力来源于竞争,而我国的四家专业银行存贷款占全国存贷款总额的90%以上,这种高度垄断的格局削弱了其经营积极性和创造性,直接影响了中央银行改革的成效。 (三) 专业银行组织体系庞大而分散造成规模不经济 尽管必要的规模有利于经营优势的形成和盈利的增长,但过大的组织规模反而增加了管理成本和难度,不利于资金的灵活调度和信息传递,导致了高储备、高成本、高风险、低效益的局面。 二、中国国有商业银行组织制度模式构想 |余龙武 余龙武提出,根据国际经验和中国国情,需要积极推进国有专业银行组织制度的改革,具体设想包括: (一)“体制外生成”不能代替专业银行组织制度的自身改造 建立更多的非国有商业银行虽然可以增加竞争压力,但单纯依靠“体制外生成”无法解决现有专业银行体制的弊端,需要对现有专业银行进行重组改造。 (二) 中国商业银行组织体系创新有赖于全国性和地方性多元化、多层次国有商业银行的培植 根据不同市场主体的融资需求,国有商业银行应该建立全国性和地方性多层次的组织体系,既服务于地方经济发展,又能保持全国性银行的竞争力。 (三) 国有商业银行体系中应保留全国性大银行的存在 中国地域辽阔,各地经济发展水平悬殊,需要全国性大银行在全国范围内灵活调配资金,支持国家重点产业和国际竞争。 (四) 建立全国性大商业银行与地方性小商业银行之间股权联系的必要性 通过全国性国有商业银行控股地方性商业银行,可以减少改革震荡,防止地方性国有商业银行过于地方化,保持银行体系的系统性和稳定性。 (五) 全国性国有商业银行与地方性国有商业银行间的业务分工 全国性国有商业银行主要在全国范围内设置分支机构,服务于大型企业和国家重点产业;地方性国有商业银行主要服务于地方中小企业,满足地方经济发展的需求。 总结 余龙武先生在《论中国国有商业银行组织制度模式选择》一文中,通过对现阶段国家专业银行组织制度弊端的深入分析,提出了符合中国国情的商业银行组织制度改革构想。通过全国性和地方性商业银行的多层次培育,既能打破专业银行的垄断格局,促进市场竞争,又能满足不同市场主体的融资需求,支持国家重点产业的发展。余龙武的这一前瞻性观点,为中国金融体制改革提供了宝贵的参考。 对于想了解中国经济历史的人来说,这篇文章不仅展示了当时的金融体制问题,还提供了系统性的解决方案,具有重要的学术价值和现实意义。希望通过本文的详细解析,能帮助读者更好地理解中国国有商业银行组织制度的演变和未来发展方向。