清北硬核00后团队推出最新3D生成模型Unique3D

最新3D生成模型Unique3D

最近,3D生成圈迎来了一颗新星——Unique3D,一个开源的图像转3D模型,凭借其出色的性能迅速走红。不仅上线即登抱抱脸热榜,GitHub上的星数也迅速超过1.6k,成为新晋的热门项目。 背后的硬核团队 这款模型的背后是一支来自清华和北大的00后年轻初创团队。团队的CEO毕业于北大计算机系,曾获得NOI WC金牌和最佳女选手称号;CTO则来自清华姚班。团队中不少成员都是CG艺术家,擅长利用CG进行艺术创作,COO拥有北大艺术史论与工商管理双学位。这支明星团队在成立一年内顺利完成了三轮融资。 主要特点与技术优势 高保真度、高一致性、高效率 Unique3D的核心特点是高保真度、高一致性和高效率。与以往基于Score Distillation Sampling(SDS)等方法的模型相比,Unique3D解决了模型生成需要长时间优化、几何质量差和不一致性的问题。 多视图扩散模型优化 Unique3D优化了基于多视图扩散模型方法的局部不一致性和生成分辨率低的问题,能够产生精细的纹理和复杂的几何细节。 基于大型开源3D数据集Objaverse训练 团队使用大型开源3D数据集Objaverse进行训练,并在上线时开源了该模型版本,还提供了Demo供用户体验。 网友反馈与使用体验 网友们在体验Unique3D后,纷纷对其表现赞不绝口。不少网友表示,Unique3D生成的3D模型在胳膊、腿、手腕等细节处理上表现出色,生成的Mesh视图质量也非常高。甚至有人将生成好的3D模型搭入骨架,解锁了高阶玩法,在Blender中组建3D动画。 简单易用的界面 Unique3D的Demo界面设计简洁,用户只需上传一张图片,点击“Generate 3D”即可生成3D模型。生成速度非常快,相比此前模型需要几分钟的生成时间,Unique3D几乎在30秒内就能完成一张图的3D转换。 高度一致的纹理和质感 网友们特别称赞Unique3D生成的纹理和质感与原图高度一致,这一特点也使其在众多3D生成模型中脱颖而出。有人甚至表示,Unique3D的效果比Stability AI和Tripo AI合作推出的单图转3D模型TripoSR还要好。 未来发展 据量子位打听,基于Unique3D模型打造的产品即将上线一波新功能,包括一张图生成3D全景图和一键将视频人物替换为生成角色。随着这些新功能的推出,Unique3D团队有望在3D生成领域继续引领潮流。 结语 Unique3D的成功不仅展示了清北00后团队的硬核实力,也为3D生成技术的发展注入了新的活力。凭借其高保真度、高一致性和高效率,Unique3D有望在未来的3D生成应用中占据重要地位。期待这支年轻团队在未来带来更多惊喜与突破。

浪潮信息AI团队在CVPR 2024自动驾驶挑战赛中再夺一冠

浪潮信息AI团队在CVPR 2024自动驾驶

概述 在刚刚结束的CVPR 2024会议上,浪潮信息AI团队在备受瞩目的自动驾驶国际挑战赛“Occupancy & Flow”赛道中,以48.9%的出色成绩从全球90余支顶尖AI团队中脱颖而出,摘得桂冠。这是该团队继2022年、2023年在nuScenes 3D目标检测榜单上夺冠后,又一次展示其在自动驾驶领域的强大实力。 CVPR 2024自动驾驶国际挑战赛 CVPR(IEEE/CVF Conference on Computer Vision and Pattern Recognition)是计算机视觉领域的顶级学术会议,而自动驾驶国际挑战赛是其中的重要组成部分,专注于自动驾驶技术的创新与应用。今年的挑战赛包含感知、预测、规划三大方向的七个赛道,吸引了全球17个国家和地区的90余支顶尖AI团队参与。 Occupancy & Flow赛道 浪潮信息AI团队在占据栅格和运动估计(Occupancy & Flow)赛道中,展示了其在感知任务上的卓越能力。比赛基于nuScenes数据集,要求参赛队伍利用相机图像信息对栅格化三维空间的占据情况(Occupancy)和运动(Flow)进行预测,以评估感知系统在高度动态及不规则驾驶场景下的表现能力。 占据栅格(Occupancy) 占据栅格网络(Occupancy Networks)是一种全新的自动驾驶感知算法,通过获取立体的栅格占据信息,使系统能够在三维空间中确定物体的位置和形状,进而有效识别和处理未被明确标注或形状复杂的障碍物。这种方法相比传统的三维物体检测方法,具有更高的精度和分辨率,能够更准确地理解周围环境。 关键技术与创新 浪潮信息AI团队在此次挑战赛中提交的“F-OCC”算法模型,通过先进的模型结构设计、数据处理能力和算子优化能力,实现了该赛道的最强模型性能。 高效模型架构 团队选择了基于前向投影的感知架构,并采用了高效且性能良好的FlashInternImage模型。通过对整体流程进行超参调优和算子加速优化,模型在占据栅格和运动估计任务中均获得了最高分,同时提升了模型的运算效率和推理速度。 数据处理优化 比赛提供的体素标签包含大量在图像中无法观测到的点,训练过程中可能干扰基于图像数据的预测网络。浪潮信息AI团队通过模拟LiDAR光束的方法生成可视化掩码,提升了模型的预测精度;同时引入感知范围边缘的体素点参与训练,有效解决了误检问题,将模型的整体检测性能提升了11%。 3D体素编码优化 在3D体素特征编码模块中,团队将可形变卷积操作(DCN3D)应用于3D体素数据,以提升3D特征的表示能力。通过使用CUDA实现与优化DCN3D,大幅提升了模型的运算速度,并有效降低了显存消耗。最终,模型的占据预测能力提升超过5%。 其他赛道成绩 除Occupancy & Flow赛道外,浪潮信息AI团队还在“大语言模型在自动驾驶中的应用”(LLM4AD)赛道中取得了第五名的成绩,展示了其在多模态感知和理解方面的深厚实力。 总结 浪潮信息AI团队在CVPR 2024自动驾驶国际挑战赛中的出色表现,再次证明了其在自动驾驶技术领域的领先地位。通过创新的算法和优化的模型结构,他们成功应对了复杂的感知任务,为自动驾驶系统的安全性、精度和可靠性提供了新的解决方案。未来,随着技术的不断进步,我们期待看到浪潮信息AI团队在自动驾驶领域取得更多突破和成就。

无需人类或GPT-4打标签!

无需人类或GPT-4打标签!

量子位公众号 QbitAI 南大与旷视研究院的研究人员推出了一种适用于视觉大模型(VLM)的无监督范式,解决了视觉大模型的偏好对齐问题。这一新方法无需GPT-4或人类打标签,通过构造偏好样本对,显著改善了模型的输出质量。 研究背景 当前的视觉大模型虽然在性能上已经比较成熟,但在用户体验方面仍存在不足。模型往往不遵循指令、产生幻觉回答,并且可能违背“帮助、有害、诚实”(3H)准则。为了提升用户体验,研究团队提出了一种新的无监督范式:Self-Supervised Visual Preference Alignment(SeVa)。 SeVa范式 SeVa基于LLaVa-1.5-7B/13B模型进行开发,无需依赖GPT-4或人类打标签。该范式的关键在于通过构建正负样本对比数据集,自动化地完成偏好数据的构造,用于模型的对齐训练。 具体方法 1. 构建正负样本对比数据集 研究团队发现,视觉大模型(VLM)对图像层面的扰动非常敏感。轻微的图像增广可能导致VLM对同一个问题产生错误且不同的回答。基于这一观察,团队将原始图像的回答作为正样本,将增广后图像的回答作为负样本,构造了一个偏好数据集。 2. 实验与结果 作者通过严格的实验,从多个角度展示了这一自动化偏好数据构造方法对多模态理解和用户友好性的提升。在实验中,团队在LLaVA-1.5的测试阶段引入多种图像层面的扰动,并在三个常规的多模态基准测试上运行,结果显示,SeVa显著提高了模型的稳定性和准确性。 优势与应用 SeVa范式通过无监督学习的方式,解决了多模态对齐过程中偏好数据昂贵且稀缺的问题。它不仅提高了VLM在多模态任务中的表现,还大幅减少了对人类参与和高成本数据的依赖。 结论 南大与旷视研究院的研究展示了在不依赖人类或GPT-4打标签的情况下,如何有效解决视觉大模型的偏好对齐问题。SeVa范式的提出,为视觉语言模型的研究和应用提供了新的思路和方向。该方法不仅在学术界引起了广泛关注,也为工业界提供了高效、低成本的解决方案。 通过这一研究,视觉大模型在用户体验上的不足得到显著改善,进一步推动了视觉语言模型的发展和应用。未来,SeVa有望在更多实际场景中得到应用,为用户提供更优质的视觉语言服务.

提速199倍!清华&哈佛发布三维语义高斯泼溅LangSplat|CVPR 2024

清华&哈佛发布三维语义高斯泼溅

量子位公众号 QbitAI 清华大学和哈佛大学团队在CVPR 2024上发布了一项突破性研究——三维语义高斯泼溅技术LangSplat。这项研究在开放文本目标定位和语义分割任务上达到了新的SOTA(State of the Art)性能,查询速度比之前的最先进方法LERF快了199倍。 LangSplat:开创性的三维语义查询技术 LangSplat结合三维高斯泼溅技术,通过在每个高斯点上编码从CLIP提取的语义特征,重建了三维语义场。该方法显著提升了查询速度和精度,为三维空间中的开放文本查询提供了一个高效且准确的解决方案。 技术原理 结合三维高斯泼溅:LangSplat利用三维高斯泼溅技术,在每个高斯点上编码语义特征,避免了传统NeRF(Neural Radiance Fields)方法中计算成本高昂的渲染过程。 语义自编码器:首先训练特定场景下的语义自编码器,然后在场景特定的低维潜在空间(latent space)上学习语义特征,从而降低计算量。 多层次语义学习:通过使用SAM(Segment Anything Model)学习多层次语义,在不引入DINO特征的情况下,获得了更准确的语义场。 实验结果 广泛的实验结果表明,LangSplat在开放文本目标定位和语义分割任务上的性能显著超过了之前的SOTA方法LERF。在1440×1080分辨率的图像上,LangSplat的查询速度比LERF快了199倍,这一惊人的提升引发了学术界和工业界的广泛关注。 影响与前景 LangSplat的发布标志着三维语义查询技术的重大进步,尤其在开放文本查询和语义分割任务上展现了卓越的性能。该方法不仅在学术界引起了轰动,也在社交媒体上广受关注,论文视频浏览量已超过100,000次,论文代码已开源。 结论 清华大学和哈佛大学团队提出的LangSplat,通过结合三维高斯泼溅技术和语义自编码器,显著提升了三维语义场的重建速度和精度。这一创新方法在CVPR 2024上获得了Highlight认可,为三维语义查询技术的发展提供了新的思路和方向。 随着LangSplat的进一步研究和应用,我们期待看到更多关于三维语义查询技术的突破和发展。这一技术的成熟将为三维空间中的开放文本查询、语义分割等任务提供更高效和准确的解决方案,为人工智能领域带来更多可能性。

无痛玩转Llama 3:手把手教程及100元代金券领取指南

无痛玩转Llama 3

前言 近日,许多用户收到OpenAI暂停API服务的通知,这让国内开发者和企业倍感压力。然而,Llama 3大模型的出现,为大家提供了一个强有力的替代方案。本文将详细介绍如何高效使用Llama 3,帮助大家无缝过渡并充分利用这一先进模型。 Llama 3概述 Llama 3是一个完全开源的大语言模型,只要有合适的硬件支持,就能不限次数地处理各种任务。无论是80亿参数的小模型还是700亿参数的大模型,都可以根据需求进行微调,适应不同的业务场景。 获取Llama 3模型 使用Llama 3之前,需要在Meta官网填写表格并签署协议。完成后,Meta会提供GitHub地址和下载链接。对于700亿参数模型,下载时间较长,尤其是在没有科学加速的情况下。 下载和配置指南 填写表格并签署协议:访问Meta官网,填写相关信息并签署协议。 获取下载链接:根据指引,前往GitHub获取下载链接。 下载模型权重:下载700亿参数模型需要132GB存储,建议使用稳定的网络环境。 配置环境:确保你的机器具备足够的硬件资源,并按照指引配置Llama 3的推理和训练微调环境。 使用宝藏公司服务 为了节省时间和精力,我们推荐使用一家提供完整配置和下载服务的宝藏公司。这家公司已经预先下载并配置好了Llama 3的模型,用户可以直接使用。 优势 省时省力:不需要处理繁琐的依赖安装和配置问题。 高效体验:700亿参数模型已经放在公开数据中,直接上手使用。 经济实惠:提供的机器价格非常便宜,还有100元代金券可领取。 快速上手教程 1. 创建账户并领取代金券 访问宝藏公司官网,创建账户并领取100元代金券。 2. 选择适合的硬件配置 根据需求选择适合的硬件配置。对于80亿参数模型,单卡即可完成推理;对于700亿参数模型,推荐使用4卡进行微调。 3. 开始使用 登录账户,进入Llama 3的推理和训练微调环境。使用提供的界面或API接口,开始处理你的任务。 4. 微调模型 根据业务需求,对Llama 3模型进行微调。宝藏公司提供了简单易用的界面,帮助你快速上手微调过程。 常见问题解答 1. 如何确保下载和配置顺利完成? 确保网络环境稳定,并根据提供的指引一步步操作。如果遇到问题,可以联系宝藏公司的客服团队。 2. 微调过程需要多长时间? 对于700亿参数模型,使用4卡进行微调约需半小时,具体时间视任务复杂度而定。 3. 是否可以随时升级硬件配置? 可以。宝藏公司提供灵活的硬件配置选择,可以根据需求随时升级。 结语 Llama 3为AI开发者提供了一个强大的工具,尤其是在OpenAI暂停API服务的背景下。通过本文的教程,希望大家能够无痛过渡,充分利用Llama 3的优势,实现各类AI任务的高效处理。同时,不要忘记领取100元代金券,享受更多实惠。 立即行动,体验Llama […]

React 19 差点拖慢整个互联网!核心团队紧急叫停更新

React 19 差点拖慢整个互联网

前端开发“灾难”?React 19引发性能问题紧急叫停 在前端开发领域,React一直是最受欢迎的框架之一,广泛应用于Netflix、Airbnb、Discord以及Meta旗下的Facebook、Instagram和WhatsApp等知名平台。React驱动了数十亿人的日常互联网体验,因此React的每一次更新都会引起广泛关注。 React 19 RC版本发布带来的新功能 今年4月底,Meta公司的React开发团队发布了React 19的RC版本,带来了许多令人兴奋的新功能,包括“use”API、新钩子Actions、稳定服务器组件以及Server Actions等。这是自2022年3月React 18全面发布以来的首个主要版本更新。 潜在的性能问题引发担忧 然而,除了这些新功能和开发体验的改进之外,一个小变化直到上周才引起大家的重视,这个变化可能显著降低依赖React的网站的性能表现。 一切的起点,源自前端工具集TanStack Query核心维护者之一Dominik的一条推文。他指出,React 18和React 19在Suspense的并行获取处理方面存在差异。在React 18中,组件的并行获取是“按组件”区分设计的,即使将两个组件放在同一个Suspense边界内且各自执行获取,触发仍将并行执行。而在React 19中,查询现在会以瀑布形式运行,这意味着查询将顺序执行,等待一个查询完成后再开始下一个查询。 社区反应强烈 Dominik的发现引起了广泛关注和讨论,许多开发者表示确有同感。高级Web工程师Adam Rackis认为,这个变化让人抓狂且莫名其妙。NozzleIO联合创始人Tanner Linsley也表示,这个改动特别影响现有应用程序及用例,拉低其性能表现。 核心团队的回应 React核心团队迅速回应了这些担忧,承认这一变化可能带来的性能问题。目前,React 19.0.0版本尚未正式发布,这为React团队重新考虑这一调整留了一丝希望。 值得注意的是,Dominik并不是第一个发现这一问题的人。Gabriel Valfridsson在RC公告发布后的第二天就发现了这一变化,但当时并未引起广泛关注。Dominik在将React Query升级到React 19的过程中,才意识到问题的严重性。 性能测试结果 不少开发者分享了在React 18中几乎并行获取所有内容的应用程序在React 19中如何导致性能崩溃的情况。开发者Matias Gonzalez的测试显示,在更新到React 19后,加载相同模型的时间从2.5秒增加到3.5秒。 更糟糕的是,这次调整不仅大大影响性能表现,对许多依赖该模式的开发者造成冲击,React核心团队还毫不客气地承认了这一点。 其他重要变化 React 19还包括一些其他重要变化,例如批量同步、默认连续通道,以及不再对Suspended的兄弟组件进行预渲染。Dominik否认这一变化是bug,强调这是React核心团队的设计决定。 记者观点 作为一名新闻从业者,我认为这次React 19的事件突显了前端开发中平衡新功能和性能优化的重要性。React作为一个广泛使用的框架,每一次更新都可能影响到大量网站的性能和用户体验。虽然新功能能够提升开发体验,但如果没有充分考虑到性能问题,可能会对现有系统造成严重影响。 React核心团队的迅速回应和紧急叫停显示了他们对社区反馈的重视。这也是一个提醒,开发者在更新到新版本时,需要仔细测试和评估可能带来的影响,确保新版本的引入不会对系统性能和稳定性造成负面影响。 总之,技术进步固然重要,但在实现创新的同时,必须谨慎处理可能引发的问题。React 19的事件为我们敲响了警钟,提醒我们在追求技术进步的同时,不能忽视对现有系统的影响和性能优化。

超20%的Microsoft SQL Server不再受支持

超20%的Microsoft SQL Server不再受支持

Lansweeper警告:数百万SQL Server实例面临风险 IT资产管理平台Lansweeper近日发出警告,称在对超过一百万的SQL Server实例进行扫描后发现,有19.8%的SQL Server实例现已不再受微软支持。这个数据表明,近五分之一的企业数据库系统存在潜在的安全隐患和技术风险。   即将停止支持的SQL Server 2014 目前,12%的SQL Server实例运行的是SQL Server 2014,该版本将于7月9日停止扩展支持。这意味着,从下月初开始,超过32%的SQL Server实例将处于不受支持状态,进一步增加了企业IT系统的风险。 版本分布现状:旧版占比依然较高 虽然当前的SQL Server版本是2022,但Lansweeper的调查数据显示,仍有大量实例运行较老版本。具体来说,44%的实例运行的是SQL Server 2019,13.5%运行SQL Server 2017,SQL Server 2016则不到10%。此外,SQL Server 2014占12%,SQL Server 2012占9%,SQL Server 2008占8%以下。这些数据表明,企业在升级数据库版本方面进展缓慢。 支付费用也难掩潜在问题 尽管客户可以支付费用在未来三年内继续接收SQL Server 2014的安全更新,但这一发现仍然强调了一个重要问题:许多企业的业务依赖于早该淘汰的技术,存在极大的安全和技术风险。 用户坚持旧版本的原因 Lansweeper首席战略官Roel Decneut指出,让用户放弃旧版本非常困难,这与运行关系数据库的主要原因有关。这些数据库通常承载着企业关键应用程序,而这些应用程序的高粘性使得升级变得复杂且成本高昂。此外,过去几十年中对向后兼容性处理的不一致也增加了升级的难度。 不止微软面临挑战 值得注意的是,微软并非唯一面临这个问题的公司。Percona的技术推广者Dave Stokes指出,开源数据库同样面临生命周期结束的挑战。例如,MySQL 5.7版在去年10月达到了EOL状态,但在Percona监控和管理的系统中,这一版本仍占据很大比例。 企业升级意愿低下 Decneut表示,企业通常不会轻易升级他们的数据库系统。很多企业的基础业务应用程序设计简单但强大,他们对新功能的需求很低,只有在出现重大安全漏洞时才会考虑升级。而随着云计算、人工智能等新兴技术的出现,企业的关注点也逐渐转移。 记者观点 作为一名新闻从业者,我认为Lansweeper的这次调查结果发出了一个重要警示:企业在享受新技术带来的便利和创新时,不能忽视基础设施的安全和稳定性。数据库系统作为企业IT架构的核心,必须保持在一个受支持和安全的状态下运行。 技术的快速发展使得企业不断追求前沿应用,但在这个过程中,基础设施的更新和维护同样重要。企业应制定明确的升级和维护计划,确保系统始终处于最佳状态,以应对不断变化的安全威胁和业务需求。 总的来说,企业需要平衡技术创新和基础设施维护,在追求新技术的同时,不忘对现有系统进行必要的升级和维护,以保障业务的连续性和安全性。通过这次事件,我们希望更多企业能意识到数据库系统的重要性,并采取积极措施,确保其始终保持在受支持的状态下运行。

微软全新发布!Copilot+ PC率先预装Windows 11 24H2,功能引发热议

微软全新发布!Copilot+ PC率先预装

最新更新抢先看:Copilot+ PC率先搭载Windows 11 24H2 近日,微软发布了最新的Windows 11 24H2版本,而首批预装这一更新的设备竟然是本周上市的Copilot+ PC,这些PC搭载了高通Snapdragon X系列芯片。尽管大部分兼容PC用户预计要等到今年秋季才能获得这一更新,但这次率先预装的决定引发了广泛关注和热议。 Copilot+ PC的硬件要求 微软宣布,启用Copilot+ PC软件功能需要机器达到一定的硬件标准。这意味着,并不是所有设备都能立即享受到24H2的更新和Copilot+的强大功能。用户需要确保他们的设备符合相应的硬件配置,以便顺利运行最新的软件和功能。 争议功能Recall:隐私与安全的博弈 Copilot+ PC的一项备受争议的功能是Recall,这项功能因其潜在的安全和隐私问题引起了广泛讨论。Recall功能能够自动记录和回溯用户的操作历史,虽然在某些情况下可能提供便利,但也带来了严重的隐私风险。鉴于这些担忧,微软已宣布Recall将默认不启用。用户若希望使用此功能,需要手动进行设置和激活。 新版本的优势与期待 Windows 11 24H2版本引入了许多新功能和改进,旨在提升用户体验和系统性能。从改进的用户界面到增强的安全特性,这一版本无疑为用户带来了更好的使用体验。然而,正如每次重大更新一样,新功能的引入和硬件要求的提升也意味着用户需要做好相应的准备,确保他们的设备能够支持最新的软件版本。 记者观点 作为一名新闻从业者,我认为微软此次通过Copilot+ PC率先释出Windows 11 24H2,展示了公司在技术创新和市场战略上的前瞻性。这一举措不仅提升了Copilot+ PC的市场竞争力,也为用户提供了抢先体验最新操作系统的机会。然而,值得注意的是,功能的增加和更新带来的隐私和安全问题同样需要用户和企业的高度重视。 Recall功能的争议反映了科技公司在创新过程中面临的复杂挑战。如何在提供便捷功能的同时,保护用户的隐私和数据安全,是微软和其他科技公司必须面对的重要课题。默认不启用Recall功能的决定显示了微软在听取用户反馈后,做出的审慎选择。 总的来说,Windows 11 24H2的发布标志着微软在操作系统领域的又一次重要进步。随着秋季更新的逐步推送,更多用户将能够体验到这一版本带来的诸多改进和新功能。在此期间,我们期待微软继续优化系统,解决用户关心的问题,进一步提升用户的整体体验。未来,技术的不断进步将为我们的生活带来更多便利,同时也要求我们共同面对和解决新的挑战。

Apple Intelligence为何依赖最新硬件?苹果高管揭示背后原因

Apple Intelligence为何依赖最新硬件

新一代AI体验:Apple Intelligence为何需要最新硬件支持? 随着iOS 18、iPadOS 18和macOS Sequoia的推出,苹果即将发布一种全新的个性化人工智能体验,称为Apple Intelligence。这项新技术利用设备上的生成性大型语言模型,旨在提升iPhone、iPad和Mac的用户体验。 然而,这些新的人工智能功能只能在苹果最新的iPhone 15 Pro和iPhone 15 Pro Max机型上运行,而Mac和iPad则需要配备M1或更新的芯片才能支持Apple Intelligence。自这一消息公布以来,许多用户纷纷询问为何这些功能需要最新的硬件支持。 苹果高管解释硬件限制 在WWDC 2024的一场脱口秀直播节目中,Daring Fireball的约翰·格鲁伯向苹果的人工智能和机器学习主管约翰·詹南德雷亚、营销主管格雷格·乔斯维亚克以及软件工程主管克雷格·费德里奇提出了这一问题。三位高管详细解释了Apple Intelligence对硬件的需求。 苹果软件工程主管克雷格·费德里奇表示,公司在推出任何新功能时,首先会研究如何尽可能地将其应用到旧设备上。但对于Apple Intelligence来说,需要特定的硬件支持才能实现功能的最佳运行效果。“在iPhone上运行这种功能的模型是一件非常不寻常的事情,”他解释道。 强大的A17 Pro芯片和神经引擎 iPhone 15 Pro搭载的是A17 Pro芯片,内含16核神经引擎,其运算速度比iPhone 15和iPhone 15 Plus中的A16芯片快2倍,每秒可执行近35万亿次运算。费德里奇强调,这种计算能力对于Apple Intelligence至关重要。此外,新的AI功能还需要大量内存支持,因此与Apple Intelligence兼容的设备至少配备了8GB的RAM。 内存需求与性能优化 费德里奇暗示,RAM是实现新AI功能的另一个关键因素。这意味着,为了运行Apple Intelligence,设备需要足够的内存来支持复杂的计算和数据处理。这也解释了为什么只有最新的硬件才能完全支持这些新功能。 记者观点 作为一名新闻从业者,我认为苹果此次对新硬件的依赖不仅反映了技术进步的需求,也展示了公司在推陈出新方面的战略决策。Apple Intelligence的推出标志着苹果在个性化人工智能领域迈出了重要一步,虽然这意味着老设备用户可能无法享受到这些最新的功能,但从技术角度来看,这一选择是合理的。 新技术的发展往往伴随着对硬件更高的要求,这是科技进步的必然趋势。随着A17 Pro芯片和16核神经引擎的引入,Apple Intelligence得以在运算速度和处理能力上取得突破,为用户提供更加智能和个性化的体验。这也预示着未来的移动设备将越来越依赖强大的计算能力和内存支持,以满足日益复杂的应用需求。 总之,Apple Intelligence对最新硬件的依赖,反映了苹果在技术创新上的不懈追求。未来,我们可以期待更多基于先进硬件的创新功能,为用户带来更加丰富和智能的使用体验。在这场科技与硬件的竞赛中,苹果正引领着行业的潮流,不断推动技术的边界。

watchOS 11重磅更新:个性化活动目标,轻松掌控每一天

watchOS 11重磅更新

在最新发布的watchOS 11测试版中,Apple Watch带来了令人兴奋的新功能,让用户可以为一周中的每一天安排定制的活动目标。如果你需要休息,还可以暂停你的目标,给予你前所未有的灵活性和个性化体验。 定制化的活动目标 Apple Watch一直以其强大的健康追踪功能著称,而此次更新则将这一功能提升到了新的高度。用户在活动应用中查看移动、锻炼或站立目标时,只需点击+/-按钮,就可以看到一个新的“改变每日目标”选项。这一选项会引导你进入一周的时间表列表,允许你为每一天单独设置活动目标。 灵活安排你的活动目标 这一功能的加入意味着,如果你希望在周一、周三和周五设定较高的锻炼目标,而周末设定较低的目标,你可以轻松实现这一点。无论是工作日的高强度锻炼还是周末的休息调整,Apple Watch都能满足你的需求。 iOS 18 健身应用同步管理 不仅仅是通过Apple Watch,你还可以在iOS 18的健身应用中管理这些设置。在活动摘要中,同样有+/-按钮,让你能够调整今天的目标或为一周中的每一天设定时间表。这种多平台的管理方式,使得你的活动目标设置更加便捷和直观。 活动目标暂停功能 有时我们需要休息,这次更新也考虑到了这一点。用户可以选择暂停自己的活动目标,给自己一个完全放松的日子。无论是身体不适还是单纯想要休息一下,Apple Watch都能理解你的需求。 个性化体验提升 这种高度定制化的体验不仅提升了Apple Watch的实用性,也使得用户能够更加精确地管理自己的健康和锻炼计划。无论你是严肃的健身爱好者还是日常活动的追踪者,这一功能都能为你提供更贴心的服务。 记者观点 作为一名新闻从业者,我认为Apple Watch的这一更新无疑是个性化健康管理的一大进步。现代人生活节奏快、压力大,能够根据个人需求灵活调整活动目标,对于保持长期健康非常重要。这不仅体现了Apple对用户需求的深刻理解,也展示了科技在人性化服务中的潜力。 总之,watchOS 11的新功能为Apple Watch用户提供了更大的灵活性和控制权,使其能够更加轻松地管理日常活动和健康目标。这一变化无疑将受到广大用户的欢迎,并进一步巩固Apple Watch在智能手表市场的领先地位。期待更多用户在这次更新中发现新的惊喜,享受更加健康、愉快的生活。

AI重新定义导航:高德地图智能预警,网友称“导航成精了!”

AI重新定义导航

最近,高德地图的用户纷纷在社交平台晒出体验,感叹导航变得如此智能。许多骑友在帖子中疯狂推荐:“跑山请开高德,求扩散!”这到底是什么功能,让用户纷纷点赞直呼“黑科技”? 高德地图的“车道级安全预警”功能 高德地图推出的“车道级安全预警”功能成为了用户热议的焦点。这个功能无需额外硬件,仅需一个APP,就能为两轮和四轮车提供前所未有的安全提示,不论新老司机都觉得非常实用。 智能导航,惊艳用户 在各大社交平台上,尤其是假期前后出行高峰期,高德地图的智能导航功能频频被用户称赞。视频中的用户展示了白天黑夜、会车超车和弯道等各种场景下的使用体验。 例如,一段视频中,车辆在夜间行驶时,导航突然提醒“后方有大型货车逼近,请小心驾驶”。几秒钟后,果然有一辆大货车疾驰而过,让用户惊叹不已:“高德是在后面装了透视眼吗?” 高德地图不仅能预警后方来车,还能实时通知前方路况。例如,一位用户在高速公路上堵车时,收到“前方有车辆急刹,请小心行驶”的提示。没过多久,前方的车辆果然发生了事故,用户感叹:“好险!” “千里眼”功能,让驾驶更安心 高德地图的智能预警功能在各种复杂路况下表现出色。例如,在山中弯道这种视野盲区,高德地图能提前提醒“前方弯道来车,注意不要压线”,让驾驶更加安全。 不仅是开车的用户,骑摩托车的用户也受益于高德地图的智能预警功能。系统会依据后方来车的速度和类型,提供特殊警报,引导用户作出合适的避让动作。 技术背后的支持 高德地图的车道级安全预警功能,利用北斗卫星感知用户位置关系,判断行车风险,及时预警。这一功能从过去的“车道级导航”进化到“车道级安全预警”,每天使用次数达千万级。 这种技术不仅提升了导航的精确度,更在时间和空间上提供了安全保障。通过实时探测和预警,高德地图让用户感受到“千里眼”般的安心体验。 海量用户,赋能技术 高德地图的用户规模是其实现这一功能的关键优势。据阿里巴巴2024财年Q2财报显示,高德地图日活跃用户峰值超过2.8亿。QuestMobile披露的数据显示,2024年Q1高德地图月活用户为8.01亿,稳居地图导航赛道第一。 在海量用户基础上,高德地图结合技术创新,打造了车道级安全预警功能。通过对车辆急刹预警的实现,高德地图利用北斗卫星高精定位能力,结合时空感知模型,提前提醒后方受前车急刹影响的车辆,确保行车安全。 AI赋能,普惠用户 高德地图的此次升级,代表了一种新的出行趋势。AI技术的加强,使导航不再只是简单的路径指引工具,更是一个智能的风险预警助手。高德地图通过大量数据积累和深度学习,提供个性化和安全的导航服务。 未来,高德地图将继续推出更多个性化服务,满足不同驾驶者的需求。例如,针对不同驾驶习惯,高德地图将提供更精细的场景和高效的导航决策。 我的观点 高德地图的智能预警功能是AI在出行领域的一个重要应用。通过技术创新和用户需求的深度结合,高德地图不仅提升了导航的精确度,更在安全性上有了显著提升。这一功能的普及,不仅让更多用户享受到AI带来的便利,也为未来智能出行提供了无限可能。AI技术的发展,将继续推动导航服务的进步,实现更加个性化和安全的出行体验。

Yandex推出开源LLM训练工具,GPU资源节省高达20%

Yandex推出开源LLM训练工具

跨国科技公司Yandex近日发布了一种名为YaFSDP的开源方法,用于训练大型语言模型(LLM)。这一工具被誉为目前最有效的公开可用工具之一,能够显著增强GPU通信并减少LLM训练中的内存使用量。与现有的FSDP方法相比,YaFSDP的训练速度提升最高可达26%,具体取决于架构和参数数量。这意味着,通过使用YaFSDP,LLM的训练时间大大缩短,能够节省高达20%的GPU资源。 YaFSDP:提高效率,降低成本 YaFSDP(Yandex Fully Sharded Data Parallel)是Yandex开发的一种创新性工具,旨在优化大型语言模型的训练过程。在训练LLM时,GPU资源的消耗往往是一个关键瓶颈。传统的FSDP(Fully Sharded Data Parallel)方法已经能够通过分片数据并行处理来提高效率,但YaFSDP在此基础上进一步优化,使得GPU的利用率更高,通信更高效,内存使用更少。 性能提升,突破瓶颈 根据Yandex的测试结果,YaFSDP在不同架构和参数数量下的训练速度提升幅度各异,最高可达26%。这种性能提升不仅意味着训练时间的显著减少,还意味着在相同资源条件下可以进行更多次实验和模型优化。这对于需要大量计算资源的大型语言模型训练来说,是一个重要的进步。 节省资源,环保高效 GPU资源的节省不仅仅是降低成本的问题,更是提高环保效益的重要手段。随着人工智能模型规模的不断扩大,训练这些模型所需的计算资源也在快速增加。通过使用YaFSDP,可以在保持或提高模型训练效率的前提下,减少高达20%的GPU资源消耗。这不仅能降低企业的运营成本,还能减少对环境的影响。 开源优势,推动创新 Yandex选择将YaFSDP开源,意味着更多的研究机构和企业可以免费使用这一工具。这将有助于推动整个AI社区的技术进步,促进更多创新的产生。开源工具的普及也意味着更多的研究人员能够共享资源、互相合作,共同解决AI训练中的难题。 结语:未来可期 Yandex推出的YaFSDP开源工具,为大型语言模型的训练带来了显著的性能提升和资源节省。通过优化GPU通信和内存使用,YaFSDP在提高训练效率方面表现出色。这一工具的开源也为更多研究机构和企业提供了便利,使他们能够在降低成本的同时,继续推动AI技术的发展。未来,随着更多类似创新工具的出现,AI领域必将迎来更大的突破和发展。 我的观点 Yandex推出的YaFSDP是一项重要的技术进步,它在提高大型语言模型训练效率的同时,显著节省了GPU资源。这不仅有助于降低成本,还具有重要的环保意义。开源这一工具,将有助于整个AI社区的进步和创新。我相信,随着技术的不断发展,类似YaFSDP这样的工具将会越来越多,为AI领域带来更多的可能性和机会。

懂车帝欲单飞,雷军成为最大挑战

懂车帝欲单飞,雷军成为最大挑战

近期,懂车帝传出一个“大新闻”:据知情人士透露,字节跳动正在为旗下汽车资讯平台懂车帝筹集7亿至8亿美元,为其IPO(首次公开募股)做准备。 懂车帝的独立之路 懂车帝最早源自今日头条的汽车频道,经过七年的发展,已经成为一站式汽车信息、交易与服务平台。近年来,懂车帝加速业务转型,从线上走向线下,转变为重资产的汽车交易与服务平台。例如,2023年懂车帝与抖音二手车业务融合升级,并推出线下养车品牌“懂懂养车”。 事实上,懂车帝在对外融资消息传出之前,就已经在为上市做准备。2023年底,懂车帝进行了工商信息变更,今日头条退出公司的股权架构,由最新成立的厦门懂车族科技有限公司100%持股。今年1月,懂车帝相关员工将迁往一个新成立的全资子公司,法定代表人由懂车帝战略负责人担任。未来,懂车帝将拥有独立的办公地点。 这一系列动作表明,字节跳动正在加速推进懂车帝的分拆,使其成为独立发展的公司实体,为上市铺路或实现独立核算、降本增效。如果懂车帝成功上市,它将成为字节跳动旗下首个分拆并上市的业务单元。 字节跳动的多元化调整 懂车帝的独立,反映了字节跳动在业务调整方面的整体策略。2023年3月,字节跳动CEO梁汝波在年会上明确表示,将“信息平台”和“电商”列为主干业务。他强调未来一年公司将聚焦这两类业务,同时进行人员优化、降本增效。 在这一背景下,字节跳动加速处理不赚钱的业务,如甩卖证券业务,关停跨境电商独立站等。对于赚钱但与主业交集较低的业务,字节跳动也加快了调整或分拆的步伐。例如,曾准备打包出售的游戏业务朝夕光年,最近迎来新的负责人,并进行了大幅组织架构调整。 懂车帝的分拆,是字节跳动在房产、金融、社交、跨境电商、互联网医疗等多元化努力中的又一次调整。对于懂车帝的独立,字节跳动解释称是基于业务正常发展的需要。事实上,这也是字节跳动在财务角度实现最大利益化的目标。 懂车帝面临的挑战 尽管懂车帝在新能源汽车高速发展的风口上发展态势良好,但依然面临巨大的内容化和商业化挑战。以去年“出圈”的新能源汽车冬季续航测试为例,懂车帝公布的测试成绩引发了车企的集体声讨。车企认为懂车帝的测试不科学、不严谨,伤害了自身的公信力。 懂车帝“既做运动员又做裁判员”的做法,难以让车企信服。只要其商业模式里难以撇清盈利或者商业化因素,懂车帝就逃脱不了“夹带私货”、“偏向合作品牌或者车型”的质疑。 另外,中国消费者协会发布的《“第三方测评”对消费者权益影响调查报告》指出,许多“第三方测评”存在测评标准不明确、商测一体等问题,影响公正性。 此外,懂车帝面临的最大挑战来自于雷军等车企领导人的个人IP打造。雷军、余承东等通过短视频、直播、社交平台与用户零距离沟通,重构汽车行业的流量秩序。如果车企将大量的独家信息封闭在自家体系内,懂车帝赖以生存的流量来源将被切断。 例如,长城汽车在冬测事件后,发布了“关于共建新能源测试标准的倡议”,释放出甩开懂车帝,另起炉灶的信号。华为则更加强势,多个智选车品牌已与懂车帝停止合作,并计划从2024年1月起停止与懂车帝、汽车之家、易车的合作。 我的观点 懂车帝的独立是字节跳动战略调整的一部分,反映了其在多元化业务上的探索和调整。尽管懂车帝在新能源汽车领域发展迅速,但内容化和商业化的挑战依然巨大。特别是在车企领导人个人IP打造的新模式下,懂车帝面临流量被分食和信息差打压的双重压力。未来,懂车帝需要在保持内容公正性和拓展商业模式之间找到平衡,才能在激烈的市场竞争中立于不败之地。

港科大GraphWiz模型破解图推理,挑战GPT-4

港科大GraphWiz模型破解图推理

大模型执行图推理任务时,我们不仅需要它给出结果,更希望它能提供详细的推理过程。最近,港科大团队开发的GraphWiz模型在这一领域取得了突破性进展。 GPT-4的挑战与局限 在图推理任务中,GPT-4的表现并不尽如人意。它给出了一个错误且简短的答案,判断图中没有环。这可能是因为GPT-4在处理长输入时存在局限性,或是对复杂图结构理解不足。这显示了大型模型在适应图论问题时面临的挑战。 GraphWiz的优势 相比之下,港科大的GraphWiz不仅正确地解决了问题,还提供了详细的推理路径。GraphWiz的设计旨在提升当前开源大模型解决图推理任务的能力,通过针对性的微调,处理不同复杂度的图推理任务,并输出明确的推理路径。 人类要在大型图中检测环是极具挑战性的,通常需要借助外部工具或花费大量时间。而GraphWiz在空间推理和记忆保持方面的能力,证明了它已有效吸收图论的基本原理,能自主在复杂图结构中进行导航和推理。这表明了GraphWiz在实际应用中的巨大潜力。 GraphInstruct数据集与GraphWiz训练 GraphWiz的成功离不开GraphInstruct数据集的支持。团队为每种任务生成随机图问题,并设计了独特的模板,捕捉图的特有属性。此外,团队还利用GPT-4生成初步的推理路径,并通过拒绝采样策略增强数据集,确保多样性和准确性。 基于GraphInstruct,团队训练了GraphWiz,采用创新的两阶段训练方法:混合任务指令调优和直接偏好优化对齐(DPO)。第一阶段专注于提升模型解释和解决图问题的能力,第二阶段通过区分有效与无效的解决路径,进一步增强模型的推理能力。 GraphWiz的性能评测 团队评估了GraphWiz在不同复杂度图问题上的表现,特别是与GPT-4的比较。结果显示,GraphWiz在各种任务中表现优异,显著超过了GPT-4。DPO进一步提高了模型的平均性能,但对某些特定任务可能有不利影响,表明需要进一步调整以避免负面影响。 随着训练数据量的增加,GraphWiz的性能有所提升,尤其是在处理复杂任务时。然而,在某些任务上,如三角形和哈密尔顿路径问题,准确性未显著提高,甚至略有下降。这可能是过拟合现象的结果,即模型记住了训练数据中的模式,但这些模式并不适用于未见过的数据。 团队还研究了GraphWiz在不同图任务中的迁移能力。通过建立GraphWiz-High模型,团队验证了其在高复杂度任务上的表现,并测试了其在低复杂度任务上的零样本迁移能力。结果表明,GraphWiz具有出色的跨任务泛化能力,展示了实际应用的巨大潜力。 图大小对性能的影响 团队还探讨了图大小对GraphWiz性能的影响。在环检测和最短路径任务中,随着图的大小增加,性能均有所下降。然而,GraphWiz在大多数情况下表现优于GPT-4,表明其对图结构具有更强的理解和处理能力。 在最短路径任务中,随着节点数量的增加,性能显著下降。这可能是由于任务要求高推理和记忆能力,导致模型在处理大规模图时面临挑战。尽管如此,GraphWiz在处理与图相关的任务方面明显优于GPT-4。 参数ß的影响 团队还探究了参数ß对模型效果的影响。结果表明,较高的ß在一定程度上有利于困难任务的性能,但并非严格的线性关系,并且在不同模型大小之间也不一致。这表明需要仔细调整参数ß,以在不同任务之间取得最佳平衡,提升模型整体准确性。 我的观点 港科大的GraphWiz模型在图推理任务中展现了巨大的潜力,通过详细的推理路径,显著超越了GPT-4。这一突破性进展不仅证明了GraphWiz的技术优势,也为未来AI模型在图论领域的应用提供了新的方向。随着AI技术的发展,像GraphWiz这样的创新将进一步推动图论问题的解决,拓展实际应用的广度和深度。在技术进步的同时,我们也要保持对模型性能和应用场景的持续关注,确保其能够在广泛的任务中实现高效、准确的推理。

微软外包AI研发引争议:是否会沦为咨询公司?

微软外包AI研发引争议:是否会沦为咨询公司?

微软将其AI工具和软件的研发工作外包给OpenAI的战略举措在业界引发了巨大争议。Okta首席执行官Todd McKinnon在接受CNBC采访时表示,这一决定可能导致微软在AI领域的地位下降,最终变成一家咨询公司。他形容道:“这事太离奇了。想象一下在微软工作的情景,OpenAI在制造所有令人兴奋的东西,而微软几乎要变成一家咨询公司了。” 微软已经向OpenAI投资了约130亿美元,这一合作使得OpenAI的技术被大量整合到微软的产品中。例如,Copilot生成式AI聊天机器人和配备生成式AI软件的个人电脑。尽管这种合作使微软产品在AI功能上得到了显著增强,但也引发了人们对微软在AI市场中战略定位的质疑。 McKinnon的担忧并非毫无根据。在AI领域的竞争中,微软与其他科技巨头如谷歌相比,其自身AI技术的研发力度似乎有所减弱。谷歌尽管在AI产品上遇到了一些公开问题,如其AI产品Gemini在广告中提供错误答案,以及其图像生成器产生不准确的历史图像导致暂停使用,但谷歌在生成式AI技术方面的基础工作仍然十分强大。 这种竞争局面不仅仅关乎技术领先地位,还涉及巨额投资和网络安全的担忧。各大科技公司在AI领域的巨额投资,使得竞争愈发激烈,网络安全问题也变得更加复杂。随着AI技术的发展和应用的普及,保护用户数据和隐私成为了重中之重。 微软对OpenAI的依赖也引发了业内对其长远战略的质疑。将AI研发外包给一家第三方公司,尽管在短期内可能带来技术优势,但从长远来看,可能会削弱微软自身的研发能力和创新潜力。 在这一背景下,我们需要关注的是,微软是否能够在与OpenAI合作的同时,保持自身在AI领域的核心竞争力。微软曾凭借其强大的研发实力和技术创新能力,在科技行业中占据领先地位。如果过于依赖外部合作伙伴,可能会影响其未来的发展方向和市场地位。 综上所述,微软将AI研发外包给OpenAI的战略举措,虽然在短期内可能带来技术上的优势,但也需要谨慎评估其长期影响。科技公司在推进AI技术的过程中,必须平衡外部合作与内部研发的关系,确保在保持技术领先的同时,不丧失自身的核心竞争力和创新能力。 我的观点 微软将AI研发工作外包给OpenAI的举措,确实引发了关于其战略定位的广泛讨论。从短期来看,这一决定可能带来技术上的优势,使微软的产品在AI功能上更加先进。然而,从长期来看,微软需要警惕自身研发能力的削弱。科技行业瞬息万变,只有保持强大的自主研发能力,才能在激烈的市场竞争中立于不败之地。微软需要在外部合作与内部研发之间找到一个平衡点,既能充分利用外部资源,又不丧失自身的创新驱动力。

马斯克批苹果整合ChatGPT:威胁禁用苹果设备

马斯克批苹果整合ChatGPT

苹果在刚刚结束的全球开发者大会(WWDC)上宣布,将在iOS18中整合ChatGPT功能,这一消息立刻引发了埃隆·马斯克的强烈反应。马斯克表示,如果苹果真的将ChatGPT集成到系统级别,他旗下的所有公司将禁止使用苹果设备。 苹果在大会上介绍,未来Siri将通过与OpenAI合作,提供ChatGPT接口,用户可以通过Siri直接使用GPT-4,且无需注册。苹果称,此功能是自愿使用的,所有的文档和图片都会在获得用户明确授权后才传送给ChatGPT。 然而,这一举措引发了马斯克的极大不满。他在社交媒体上扬言,如果苹果真的集成ChatGPT,所有马斯克旗下公司的员工和访客将被禁止使用苹果设备,并且这些设备将在进入公司时被暂存在法拉第笼中,以屏蔽信号。 马斯克批评苹果没有能力开发自己的人工智能,却依赖OpenAI来保护用户的安全和隐私,这种做法是极其荒谬的。他认为,一旦用户数据交给OpenAI,安全和隐私根本无法保障。他还表示,即使苹果宣称数据未经授权不会泄露给OpenAI,但这并不能保证数据安全。 一些网友对此表示调侃,称马斯克的公司难道要回到纸笔和飞鸽传书的时代?也有网友质疑马斯克是否会全面禁用苹果和微软的电脑,因为这些设备也可能涉及类似的问题。 在WWDC上,OpenAI的CEO山姆·奥特曼也出席了现场,并确认了与苹果的合作。他在社交媒体上庆祝这一消息,并表示ChatGPT将于今年晚些时候集成到苹果设备中。 苹果详细介绍了新功能的使用方式。当用户提出Siri自家模型无法解决的问题时,Siri会推荐使用ChatGPT并询问用户是否同意。一旦用户接受建议,便能立即获得来自ChatGPT的答案。苹果强调,所有的文档和图片在传送给ChatGPT之前,都会单独确认用户授权。 此外,苹果还表示,ChatGPT的订阅用户可以选择关联自己的账户,并接入ChatGPT的付费功能。这个新功能预计将在今年稍晚推出,未来还将增加对其他AI模型的支持。 马斯克的批评不仅针对苹果,更是对老冤家OpenAI的不满。他指出,OpenAI曾因未经允许克隆演员的声音而引发争议,虽然后来OpenAI澄清了事实,但马斯克依然对其信任度表示怀疑。 值得一提的是,马斯克近期也因聘请第三方公司收集X用户的个人信息和生物识别信息而引发质疑。一些网友反问他如何保证这些信息在第三方手中是安全的,这无疑给他的批评增加了些许讽刺意味。 马斯克还批评ChatGPT过于“觉醒”(woke),他认为这样的AI如果规模指数级增长,将会带来巨大的问题。这一观点与他一贯反对“觉醒AI”的立场一致,他曾表示自己的Grok AI绝不会“觉醒”。 截至目前,苹果和OpenAI都没有对马斯克的批评做出回应,两者之间的合作也已正式公布。至于马斯克是否真的会禁用苹果设备,只有时间能给出答案。 我的观点 苹果将ChatGPT整合到iOS18中的举措,无疑是为了进一步提升用户体验和AI技术的应用,但这种合作确实引发了关于数据安全和隐私的广泛讨论。马斯克的批评尽管有些过于激烈,但也提醒我们在享受新技术带来便利的同时,必须重视数据安全和隐私保护。科技公司在推进AI技术时,应更加透明和负责任,确保用户数据在任何情况下都能得到有效保护。这不仅是对用户隐私的尊重,也是赢得用户信任的关键。

厦大&腾讯优图联合发布:多模态CoT思维链架构Cantor现已开源

多模态CoT思维链架构Cantor现已开源

厦门大学和腾讯优图团队近日发布了一种名为“Cantor”的决策感知多模态思维链架构,无需额外训练即可显著提升性能。这一突破性技术在ScienceQA和MathVista等基准测试中表现出色,展示了多模态大模型的新潜力。 多模态思维链:增强推理能力 思维链(Chain-of-Thought, CoT)是一种通过添加中间推理步骤来增强大模型推理能力的方法。然而,在视觉推理任务中,模型需要结合图像信息进行具体分析,多模态思维链应运而生。 Cantor架构赋予多模态大语言模型(MLLM)或大语言模型(LLM)类似合唱团领唱员的协调能力,使其能够同时处理视觉和文本上下文,形成全面理解并进行决策感知,避免决策幻觉。 创新架构:决策生成与执行 Cantor的架构包含两个主要步骤:决策生成和执行。首先,模型对问题进行分析与解耦,结合各种专家模块生成合理的决策。然后,调用专家模块执行子任务,并汇总信息生成最终答案。 团队设计了四种专家模块: TextIntel Extractor:提取图像中的文本信息。 ObjectQuant Locator:识别并定位图像中的对象。 VisionIQ Analyst:处理和解释视觉数据。 ChartSense Expert:分析和解释图表信息。 在决策生成过程中,Cantor将具体任务分配给各专家模块,使模型能够获得高级认知信息,辅助推理。例如,比较两瓶溶液的温度大小时,Cantor会分析粒子温度与动能的关系,并结合图像信息进行任务分配。 卓越表现:提升准确率 在ScienceQA基准测试中,基于GPT-3.5的Cantor准确率达到了82.39%,比基于GPT-3.5的思维链方法提升了4.08%。在更具挑战性的MathVista测试中,基于Gemini的Cantor准确率比原始Gemini提高了5.9%。 实验结果显示,Cantor在各种问题上都显著超过了基线,甚至超过了一些著名的多模态大模型,如SPHINX和LLaVA-1.5。这表明,正确的决策和模块化专家可以激发模型的细粒度、深入的视觉理解和组合推理能力。 免训练的优势 Cantor无需额外训练即可超越传统的微调方法。基于GPT-3.5和Gemini的版本均展现了卓越的性能,特别是在复杂的视觉推理任务中表现突出。团队进一步展示了Gemini与Cantor(Gemini)的具体比较,Cantor通过任务分配和角色扮演,实现了更准确的推理过程。 未来展望 Cantor的成功展示了多模态思维链架构的巨大潜力,为AI领域的进一步发展提供了新思路。这一创新不仅在理论上具有重要意义,还在实际应用中展现了强大的实用价值。 记者观点 Cantor架构的发布,展示了厦门大学和腾讯优图团队在多模态AI技术上的领先地位。通过创新性的思维链方法,这一架构显著提升了模型的推理能力,为复杂的视觉和文本任务提供了更高效的解决方案。随着这一技术的开源,更多开发者将能够参与其中,共同推动AI技术的发展和应用。这一创新无疑将为多模态大模型的研究和应用带来新的突破和机遇。

中国电信攻克最难方言:新语音大模型支持30种方言

中国电信攻克最难方言

中国电信人工智能研究院发布了首个能够听懂30多种方言的大模型——星辰语音大模型。在2024智算云生态大会上,这一强大的工具被正式发布并开源。由AI领域Fellow大满贯科学家李学龙带队,这款大模型不仅能识别被称为“魔鬼的语言”的温州话,还具备超自然的语音生成能力。 多方言识别的突破 星辰语音大模型能够打破单一模型只能识别特定方言的局限,同时支持粤语、上海话、四川话、温州话等30多种方言的识别和理解。这一创新已经获得国际权威赛事的认可,并在多个实际应用场景中落地。 在国际语音顶会INTERSPEECH 2024的离散语音单元建模挑战赛上,星辰语音大模型斩获语音识别赛道冠军。同时,在美国国家标准与技术研究院(NIST)举办的低资源粤语电话Babel语音识别任务中,取得业内最佳结果。 实际应用与广泛覆盖 星辰语音大模型已经在北京、福建、江西、广西等地的智能客服系统中试点应用,日均处理约200万通电话。它能秒懂方言,服务用户。智能客服翼声平台也接入了星辰大模型的语音理解和分析能力,实现31省全覆盖,每天处理125万通客服电话。 传统语音识别模型需要针对一种方言单独训练一个模型,这对运营维护提出了不小的挑战。而星辰语音大模型的多方言联合建模技术,显著降低了对新方言标注数据的需求,实验显示需求量降低到仅1%。 技术创新与挑战 星辰语音大模型的成功背后是多项技术创新。首先是超大规模语音预训练,团队提出了“蒸馏+膨胀”联合训练算法,成功实现80层模型的稳定训练。其次是多方言联合建模,通过离散语音表征,语音识别大模型将推理时的语音传输比特率降低数十倍。 在数据准备上,中国电信AI研究院构建了超过30种、30万小时的高质量方言数据库。算力基础设施方面,中国电信作为国内最早进入云计算领域的运营商,积累了大量算力建设和调度的核心技术。 为何专注方言? 中国电信选择方言作为突破口,背后有着深厚的技术和业务需求。我国是语言资源丰富的国家之一,但很多方言正面临濒危或消亡。保护方言、传承文化显得尤为重要。同时,当前全国仍有约20%的人口尚未普及普通话,尤其是老年人群体,他们面对信息化服务时常常面临困难。 星辰语音大模型能够有效应对这些挑战,通过高效的方言识别技术,帮助更多人群享受到信息化服务的便利。电信选择开源,也是希望联合开发者共建覆盖更多方言的大模型,共同推动AI技术普惠。 业务需求与战略布局 作为头部运营商,中国电信的核心业务场景之一是智能客服。每天处理的几百万通电话中,大比例是方言或带方言口音的普通话。星辰语音大模型已经在这一场景中创造了实际价值,并逐步覆盖更多地区。 此外,星辰语音大模型还应用于12345市民热线、防范校园霸凌等多个场景,展现了其强大的实际应用能力。 中国电信的AI战略 中国电信早在2022年12月就启动了语义大模型的研发,并相继开源7B、12B、52B大模型。如今,随着语音大模型的发布,中国电信已经形成了语义、语音、视觉以及多模态一整套完备的大模型布局。 中国电信的最终目标是成为领先的通用人工智能服务提供商。通过大规模的技术投入和资源积累,他们在大模型领域的布局进展迅速,影响深远。 记者观点 中国电信在AI领域的创新与努力,特别是对方言的重视,展示了其技术和业务能力的结合。通过星辰语音大模型的成功,中国电信不仅展示了其在AI技术上的突破,也为保护和传承方言文化提供了有力支持。这一创新将推动更多人享受到信息化服务的便利,也为未来的AI技术应用提供了新的方向。

陈丹琦团队新突破:SimPO微调8B模型,超越Claude 3 Opus

陈丹琦团队新突破

陈丹琦团队推出了一种全新的模型微调方法SimPO(Simple Preference Optimization),在多项测试中表现出色,甚至超越了Claude 3的顶级版本Opus。这种方法不仅比斯坦福的直接偏好优化(DPO)更简单,而且显著减少了训练时间和GPU消耗。 SimPO的创新之处在于它摆脱了对参考模型的依赖,简化了训练流程,同时避免了训练和推理不一致的问题。这一成果获得了普林斯顿PLI主任Sanjeev Arora教授的高度评价,他表示:“与使用SimPO方法调整的模型聊天感觉令人难以置信。” SimPO:简便且高效的微调方法 SimPO的全称是Simple Preference Optimization,意在突出其简便性。与DPO相比,SimPO不需要参考模型,完全基于当前优化的模型进行设计,简化了训练流程。SimPO采用长度归一化的对数概率作为奖励函数,这意味着模型生成的回复越自然、连贯,得分就越高。此外,SimPO还通过引入奖励差异项(γ)来加强优化信号,促使模型更清晰地区分正负样本。 卓越表现:战胜Claude 3 Opus 在AlpacaEval 2基准测试中,SimPO微调后的Llama3-Instruct-8B模型表现优异,胜率超过了Claude 3的顶级版本Opus。SimPO不仅在胜率上领先,还显著减少了训练时间和GPU消耗。在多项基准测试中,SimPO微调的模型表现都优于DPO等其他优化方法。 技术细节:优化和创新 SimPO的成功归功于其独特的技术设计。首先,SimPO采用了长度归一化的对数概率作为奖励函数,避免了过长回复的倾向。其次,引入奖励差异项(γ),加强了优化信号,使模型对正负样本的区分更加明显。实验结果表明,这两项技术都是提升SimPO表现的关键。 未来展望与挑战 尽管SimPO在许多方面表现出色,但作者也指出了其不足之处。例如,SimPO未明确考虑安全性和诚实性,未来需要加强安全措施。此外,在需要密集推理的任务上,如数学问题,SimPO的表现有所下降,未来可能需要集成一些正则化策略进行改进。 有网友指出,SimPO在某些标准上取得超越Claude 3 Opus的成绩,可能存在过拟合现象。对此,作者表示确实存在这种可能,但强调在单独一个标准上的成绩超越并不意味着全面超越。 记者观点 SimPO的推出展示了陈丹琦团队在AI优化方法上的创新能力。通过简化训练流程和减少对资源的需求,SimPO为大模型微调提供了一种高效、简便的新途径。尽管面临一些挑战,这一成果无疑为AI领域带来了新的启发,值得进一步探索和发展。随着更多优化方法的出现,未来的大模型微调将变得更加高效和实用。

国产开源项目Sora再升级:全面支持国产AI算力,新增ReVideo视频编辑功能

国产开源项目Sora再升级

国产开源项目Sora迎来重大更新!由大兔展联合发起的Sora开源复现计划(Open-Sora-Plan)今天宣布,现在可以生成最长约21秒的视频。以下是一些生成视频的示例。首先是一个时长9.2秒的视频: 接下来是一个2.7秒的人形机器人种花视频: 如往常一样,所有数据、代码和模型均已开源。目前,Open-Sora-Plan在GitHub上已获得10.4k颗星星,感兴趣的读者可以前往体验。 上个月,Open-Sora-Plan刚刚在开源社区上新,支持单镜头16秒的视频生成,最高分辨率为720p。这次版本更新主要在两个方面取得了进展: 采用了更高质量的视觉数据与caption 优化了CausalVideoVAE的结构 项目团队还宣布,Open-Sora-Plan现已全面支持使用国产AI计算系统(如华为昇腾)进行完整的训练和推理。 新版本Open-Sora-Plan v1.1.0 此次更新的版本是Open-Sora-Plan v1.1.0。项目团队展示了该版本的三个主要功能,并注明演示背后使用了3000小时的视频数据。 首先是10秒版的文生视频(10s×512×512)。以下是一些示例: (此处插入示例图片) 其次是2秒版的文生视频(2s×512×512)。以下是一些示例: (此处插入示例图片) 最后,团队展示了用Open-Sora-Plan v1.1.0进行的视频编辑功能(2s×512×512),这部分内容采用了团队刚推出的ReVideo模型。以下是一些示例: (此处插入示例图片) 虽然团队承认“我们仍然离Sora有一段距离”,但也展示了失败案例。例如,生成的视频在重建细粒度特征时会出现抖动,或者视频中的小狗头出现了语义扭曲的问题。团队认为,可能需要通过扩大模型和数据量来解决这些问题。 背后技术 整体框架上,Open-Sora-Plan由三部分组成:Video VAE、Denoising Diffusion Transformer(去噪扩散型Transformer)和Condition Encoder(条件编码器)。与Sora技术报告的内容基本相似。 此次更新的Open-Sora-Plan v1.1.0是一个基于Transformer的文本到视频模型,经过T5文本嵌入的训练。训练过程采用多阶段的级联方法,分三个阶段进行。第二阶段采用了华为昇腾算力进行训练,完全由国产芯片支持。 相比上个月发布的前作Open-Sora-Plan v1.0.0,最新版本主要有两方面的优化: 优化了CausalVideoVAE的结构 采用了更高质量的视觉数据与captions 优化CausalVideoVAE的结构 团队减少了CausalConv3D的数量,只保留encoder的最后两个stage的CausalConv3D,从而在几乎保持原有性能的情况下大幅度降低开销。为了改善高频信息丢失问题,团队在v1.1.0中改进了temporal module,引入了卷积并增加了可学习的权重。 采用更高质量的视觉数据与captions Open-Sora-Plan v1.1.0采用了更高质量的视觉数据与captions,使模型对世界运行规律有了更好的理解。数据收集分为图片和视频两部分,并进行了独立处理。 研究人员从Pixart-Alpha获取了11M个图像文本对,并从Laion-5B中筛选高质量图片提高生成人类的质量。视频数据集大约有3000小时,大大超过了v1.0.0的300小时。 未来计划 接下来的工作将主要围绕两个方面进行:一是数据扩展,重点关注数据来源和数据量;二是模型设计,主要对CausalVideoVAE和扩散模型进行优化。不变的是,所有数据、代码和模型都会继续开源。 记者观点 Sora开源复现计划的快速迭代和持续创新令人印象深刻。项目团队不仅在技术上不断突破,还积极支持国产AI算力,展示了国产开源项目的强大潜力。尽管仍有一些技术难题需要解决,但随着数据量和模型规模的扩大,Sora的未来发展前景可期。这个项目不仅为开源社区带来了更多可能,也为国产AI算力的应用提供了重要参考。

独角兽Inflection AI被微软挖角,新团队重组!情感AI助力商业机器人

独角兽Inflection AI被微软挖角

在微软挖角AI独角兽Inflection AI后,这家公司近况如何?上周,Inflection AI在接受VentureBeat独家采访时,首次公开了由硅谷资深专家组成的新领导团队。公司资金充足,正在扩大工程团队,并计划将情感AI嵌入商业机器人,以其在AI情感智能领域的优势进军2B市场。 今年3月,AI领域的领军人物Mustafa Suleyman离开Inflection AI,转而领导微软的人工智能部门。这一消息在科技界引起了广泛热议,但很少有人关注这次离职对Inflection AI的影响。 新团队强势登场 尽管Suleyman和大约70名团队成员转投微软,Inflection AI并未因此陷入困境。相反,公司通过一笔高达6.5亿美元的交易获得了微软的资金支持,其中6.2亿美元用于技术的非独家许可费,3000万美元用于避免诉讼。联合创始人Reid Hoffman表示,公司资金充足,在未来18个月内将继续运作。 在VentureBeat的采访中,Inflection AI公布了新领导团队。新任首席执行官Sean White拥有用户体验和增强现实技术背景,曾领导Mozilla的研发工作。首席技术官Vibhu Mittal曾帮助创建谷歌翻译,首席运营官Ted Shelton来自贝恩公司,带来了丰富的人工智能应用咨询经验。主导产品的Ian McCarthy则拥有在微软、索尼、雅虎和LinkedIn的工作经验。 专注情感AI Inflection AI的新使命是在人工智能的情感智能领域保持领先地位,打造具有同理心的商业机器人,以适应企业的独特沟通需求。Hoffman举例说明了公司产品Pi在竞争中的优势。当他询问主要的大语言模型如何安慰失去宠物的朋友时,其他模型列出了清单,而Pi则关注情感结构,提供更具同理心的回答。 新团队强调,情感智能(EQ)是一个经常被忽视但至关重要的组成部分。这种能力将使Inflection AI在聊天机器人市场中脱颖而出。White认为,Inflection AI的优势在于其模型不仅具备高智商(IQ),还拥有出色的情商(EQ)。Pi的语音模块和支持性语气确保了更有同理心的互动。 团队合作与创新 新团队成员拥有丰富的合作经验和共同的愿景,希望技术不仅能满足用户需求,还能让用户感受到温暖。首席执行官White发明了“情境可视化”一词,强调随着用户环境变化而改变视觉信息。他在神经科学领域的研究让他对情商在对话中的作用有了深刻理解。首席技术官Mittal早在35年前就开始研究生成式人工智能,首席运营官Shelton则在贝恩公司帮助企业克服AI部署挑战。 情感微调与个性定制 Inflection AI的模型经过真人情感对话的大型数据集训练,并通过“移情微调”进一步定制个性。Mittal表示,这种微调几乎达到了预训练本身的规模。与其他模型不同,Pi能够记住至少100次对话,确保个性在模型中保持稳定。 去年,Inflection AI发布了Inflection 2.5,声称其性能比GPT-4高出94%以上。White认为,公司出色的IQ和EQ使其在市场中占据领先地位。 资金充足,扩展团队 Inflection AI资金充足,正扩大工程团队,重点关注微调和平台工程。公司计划与品牌合作,打造个性化助手,为企业提供同理心客服和内部员工服务的机器人。White透露,公司将继续从消费者互动中学习,并与品牌合作构建AI工作室。 记者观点 Inflection AI的成功离不开其团队结构和专注情感智能的策略。尽管经历了人才流失,公司仍展现出强大的韧性和创新能力。新领导团队的丰富经验和共同愿景,使公司在竞争激烈的市场中保持领先地位。随着情感AI技术的发展,Inflection AI有望为企业和消费者带来更具同理心的智能体验。

余龙武博士专访:前瞻人工智能与量子计算的未来发展

余龙武博士专访:前瞻人工智能与量子计算的未来发展

人工智能的未来趋势与挑战 在最新的一次专访中,知名人工智能与量子计算专家余龙武博士分享了他对人工智能领域未来发展的深刻见解。余龙武博士指出,2023年是生成式人工智能如ChatGPT等大放异彩的一年,而展望2024年,人工智能技术将继续呈现几个重要的趋势。 人工智能大模型迈向通用人工智能 余龙武博士首先提到,AI大模型将逐步迈向通用人工智能。以ChatGPT为代表的大模型展示了其强大的自然语言处理能力,但下一代的目标是实现通用人工智能。余龙武博士透露,OpenAI正在训练下一代人工智能,暂名“Q*”。据他所知,这一代人工智能首次采用“从零开始”的方式训练,其智能不依赖于人类活动的数据,且具有修改自身代码以适应更复杂学习任务的能力。虽然“Q*”目前只能解决小学难度的数学问题,但其未来潜力不容小觑。 他说:“通用人工智能不仅限于某些特定任务,而是能够解决广泛的科学和技术问题。例如,OpenAI正在训练下一代人工智能,暂名‘Q*’。这标志着一个新的里程碑。” 合成数据打破训练数据瓶颈 余龙武博士指出,合成数据在未来人工智能发展中将扮演重要角色。数据瓶颈一直是限制AI发展的主要因素之一,而合成数据能够提供大量高质量的数据,缓解这一瓶颈。此外,合成数据有助于解决数据隐私和安全问题,减少法律纠纷。 他解释道:“合成数据是在模仿真实数据的基础上,由机器学习模型生成的数据。其优势在于提供大量高质量的数据,解决现有数据不足的问题。此外,合成数据可以解决数据隐私和安全问题,避免法律纠纷。” 量子计算在人工智能中的应用 | 余龙武博士读解 余龙武博士看好量子计算机在人工智能领域的应用。量子计算机具有强大的并行计算能力,可以极大提升人工智能的算力。随着量子计算技术的不断进步,量子计算有望成为解决AI算力瓶颈的关键。 他指出:“量子计算机的并行计算能力使其在解决复杂的计算问题上具有显著优势。例如,在机器学习中,许多算法需要进行大量的矩阵运算和优化问题,量子计算可以大大加快这些过程。” 自我监督学习和多模态学习 余龙武博士还提到,自我监督学习、多模态学习和边缘计算等技术将在未来人工智能的发展中起到重要作用。自我监督学习通过利用未标注数据进行训练,可以减少对标注数据的依赖;多模态学习能够处理和整合来自不同来源的数据;而边缘计算则能够在数据生成的地方进行实时处理,减少延迟,提高效率。 他说:“自我监督学习通过利用未标注数据进行训练,可以大大减少对标注数据的依赖,提高训练效率。多模态学习能够处理和整合来自不同来源的数据,将大大扩展人工智能的应用范围。” 未来挑战与应对 尽管前景光明,余龙武博士也提醒我们要谨慎应对未来的挑战。他指出,人工智能的发展并非没有阻力和问题。首先是技术瓶颈和资源限制。大规模模型的训练和运行需要大量的计算资源和电力,这对环境和经济都是巨大的负担。此外,数据隐私和安全问题依然严峻。人工智能系统需要大量的数据进行训练,这些数据中往往包含敏感信息和个人隐私,如何保护这些数据的安全,是一个重大挑战。 他说:“我们必须制定和实施有效的法律和政策,确保人工智能的发展符合伦理和道德规范,防止滥用和恶意利用。” 量子计算与人工智能的融合 量子计算在人工智能中的应用前景 在谈到量子计算与人工智能的融合时,余龙武博士表现出极大的热情。他指出,量子计算在人工智能中的应用前景非常广阔。首先,量子计算机的并行计算能力使其在解决复杂的计算问题上具有显著优势,例如在机器学习中,许多算法需要进行大量的矩阵运算和优化问题,量子计算可以大大加快这些过程。 他说:“量子计算机能够处理经典计算机无法解决的一些问题,如破解复杂的加密算法、模拟分子和材料的量子行为以及解决复杂的优化问题等。” 量子机器学习 余龙武博士还强调,量子计算与人工智能的结合可以提升AI模型的训练效率。量子机器学习算法可以在量子计算机上运行,加速模型训练过程,提高训练精度。特别是对于需要大量计算资源的深度学习,这将带来显著的改进。 他说:“量子机器学习算法可以在量子计算机上运行,加速模型训练过程,提高训练精度。这对于需要大量计算资源的深度学习尤为重要。” 面临的挑战 余龙武博士也指出,目前量子计算在实际应用中仍面临许多挑战,如量子位数的限制、量子纠错问题、量子算法的开发以及硬件技术的限制。尽管如此,他对量子计算的未来充满信心,认为随着技术的不断进步,量子计算将在人工智能的发展中发挥越来越重要的作用。 他说:“尽管面临这些挑战,但我相信随着技术的不断进步,量子计算在未来一定会发挥越来越重要的作用,推动人工智能的发展。” 量子计算与传统计算的协同 余龙武博士认为,未来量子计算机不会完全取代传统计算机,而是两者将协同发展,各自发挥所长。量子计算机在处理复杂的并行计算任务时具有显著优势,而传统计算机在执行一些简单的、线性任务时仍然表现优异。通过将量子计算和传统计算结合,可以实现最佳的计算效率和性能。 他说:“量子计算和传统计算各有所长,未来两者将协同发展,结合各自的优势,实现最佳的计算效率和性能。” 具体应用场景 在具体应用场景方面,余龙武博士提到,量子计算可以在药物发现、材料科学、优化问题、金融建模等领域发挥重要作用。例如,在药物发现中,量子计算可以模拟分子的量子行为,加速药物筛选过程;在材料科学中,量子计算可以帮助设计新材料,优化其性能;在优化问题中,量子计算可以快速找到最优解,提升决策效率;在金融建模中,量子计算可以提高风险评估和投资策略的准确性。 他说:“量子计算在药物发现、材料科学、优化问题、金融建模等领域具有广阔的应用前景,可以极大地提升这些领域的研究和应用水平。” 人工智能的社会影响与未来展望 人工智能对社会的影响 在专访的最后,余龙武博士讨论了人工智能对社会的深远影响。他指出,人工智能在提升生产力和改善生活质量方面具有巨大的潜力。例如,AI可以用于医疗诊断,帮助医生更准确地诊断疾病,提高治疗效果;可以用于自动驾驶,提高交通安全和效率;可以用于智能家居,使我们的生活更加便利和舒适。此外,人工智能还可以用于科学研究,加速科学发现,解决一些人类面临的重大挑战,如气候变化、能源短缺等。 他说:“人工智能在提升生产力和改善生活质量方面具有巨大的潜力,可以极大地改善各个领域的效率和效果。” 面临的挑战与风险 然而,余龙武博士也对人工智能带来的挑战提出了警示。他提到,人工智能的发展可能导致一些传统工作岗位的消失,从而引发就业问题。企业可能会尝试雇用更少的人来完成相同的任务,导致大量劳动者失业。此外,数据隐私和安全问题也是人工智能面临的重要挑战。人工智能需要大量的数据进行训练和运行,这些数据中可能包含个人隐私和敏感信息,如何保护这些数据的安全,是一个重大挑战。 他说:“人工智能的发展可能导致一些传统工作岗位的消失,企业可能会尝试雇用更少的人来完成相同的任务,这将对就业市场带来冲击。” 人工智能的伦理与道德问题 第三是人工智能的伦理问题。余龙武博士指出,人工智能的发展可能带来一些伦理和道德问题,例如人工智能的决策是否公平,人工智能是否会对人类造成威胁等。如何制定和实施有效的法律和政策,确保人工智能的发展符合伦理和道德规范,是一个需要深入研究和探讨的问题。 他说:“人工智能的发展带来了一些伦理和道德问题,我们必须确保人工智能的发展符合伦理和道德规范。” 未来展望 余龙武博士对未来人工智能的发展充满期待。他希望人工智能能够在更多领域发挥作用,解决更多实际问题,并且在智能和自主性方面取得更大突破。同时,他强调,人工智能的发展必须是安全和可控的,需要建立健全的人工智能治理体系,确保其不对人类社会造成威胁。 他说:“我希望人工智能能够在更多领域发挥作用,解决更多实际问题,同时确保人工智能的发展是安全和可控的。” 对年轻研究者和学生的建议 最后,余龙武博士对年轻研究者和学生提出了几点建议。他鼓励他们保持好奇心和探索精神,注重基础知识的学习,培养跨学科的思维能力,注重团队合作和沟通能力,并且要有社会责任感。他相信,年轻一代的研究者将会在未来人工智能的发展中发挥重要作用,为人类社会带来更多的福祉。 他说:“我鼓励年轻的研究者和学生保持好奇心和探索精神,注重基础知识的学习,培养跨学科的思维能力,注重团队合作和沟通能力,并且要有社会责任感。” 总结 在这次深入的专访中,余龙武博士为我们描绘了人工智能和量子计算的未来蓝图。他的洞见不仅揭示了当前技术的发展方向,也为我们提供了应对未来挑战的思路和方法。随着技术的不断进步,人工智能和量子计算将继续推动社会进步,为人类带来更美好的未来。

余龙武:人工智能与经济学的交汇与前瞻

余龙武

近年来,人工智能(AI)迅猛发展,不仅在生产生活中引发了巨大的变革,也在经济学研究领域掀起了一场革命。作为北京大学市场与网络经济研究中心的研究员,余龙武在这方面的研究成果尤为突出。本文将深入探讨余龙武的研究,揭示人工智能如何成为经济学的关键工具和研究议题,并展望其未来发展方向。 人工智能:经济学研究的新工具 余龙武指出,人工智能技术的飞速发展对经济社会的各个领域产生了深远影响,经济学自然也不例外。许多顶尖经济学家已经将人工智能纳入他们的研究框架,利用其强大的数据处理和模式识别能力,推动经济学理论和实证研究的进步。例如,机器学习技术可以与传统的计量经济学方法相结合,帮助研究者在海量数据中发现隐藏的经济规律和模式,从而构建更加精准的经济模型​​。 三次人工智能与经济学的交汇 余龙武的研究回顾了历史上经济学与人工智能的三次重要交汇。第一次是在20世纪50年代和60年代,诺贝尔经济学奖得主赫伯特·西蒙(Herbert Simon)等经济学家参与了人工智能学科的奠基工作,认为经济学和人工智能在研究决策过程和问题求解方面有很多共通之处​​。第二次交汇发生在本世纪初,博弈论、机制设计等经济学领域的理论进展被广泛应用于人工智能研究。当前,我们正处于第三次交汇的高潮,深度学习技术的突破使得人工智能成为经济学研究的热点话题之一​ 人工智能作为研究对象 从经济学角度看,人工智能不仅是一种工具,更是一个重要的研究对象。余龙武将人工智能视为通用目的技术(General Purpose Technology),其广泛应用将对经济活动产生深远影响。人工智能技术的自动化特性可能对劳动力市场产生替代效应,导致收入分配的不均。此外,人工智能的发展依赖于大数据,决定了其具有规模经济和范围经济的特性,对产业组织、竞争政策等问题产生重要影响​. 人工智能对经济增长的影响 余龙武的研究表明,人工智能技术对经济增长的影响具有不确定性。虽然人工智能的使用可以提升生产率,但其对资本回报份额的影响却是不确定的。如果人工智能仅带来短期冲击,其影响将是暂时的;而如果它能持续提升生产率,经济增长率也将随之增加,可能出现“经济奇点”现象。未来的经济增长将主要取决于人工智能对知识生产的影响,尤其是其能否突破知识生产的瓶颈。 人工智能对就业和收入分配的影响 人工智能的自动化特性可能导致“技术性失业”,尤其是对低技能劳动者的替代效应最为显著。余龙武的研究表明,人工智能对不同技能水平的劳动者影响不同,高技能劳动者可能从中受益,而低技能劳动者则面临失业风险. 为了应对这一挑战,政策制定者需要通过教育和培训,帮助劳动力适应新技术环境,平滑短期冲击,确保就业结构的顺利转换. 未来展望与个人观点 作为一名经济学研究员,余龙武的研究揭示了人工智能技术对经济学研究的深远影响。未来,随着人工智能技术的不断发展,经济学家应更加关注其对经济增长、收入分配、市场竞争等方面的影响,推动跨学科研究与合作,为社会进步提供坚实基础。 在北美,人工智能已经成为推动经济发展的重要引擎。从硅谷的科技创新到华尔街的金融科技,人工智能技术正在各个领域发挥重要作用。抓住这一机遇,不仅能提升技术能力和经济研究水平,还能为未来的发展奠定坚实的基础。 通过对余龙武研究成果的梳理和分析,我们可以更好地理解人工智能革命带来的深远影响,并为进一步的研究提供宝贵参考。希望这篇文章能为有志于研究人工智能的经济学者提供有价值的启示。