#跟随音乐开始今天的大模型之旅^_^
NVIDIA CES聚焦生成式AI
在本周的CES开幕前,NVIDIA的演讲中重点介绍了生成式AI模型及其在创造逼真角色方面的应用,并推出了一款新的GPU,专为游戏玩家和内容创作者设计。NVIDIA的股价上涨6.43%,市值达到1.29万亿美元。NVIDIA强调生成式AI正在成为技术发展的新拐点,NVIDIA是这一转型的核心。NVIDIA的RTX GPU出货量已超过1亿台,这些GPU在新兴的生成式AI领域发挥着重要作用。NVIDIA还介绍了Stable Diffusion XL和SDXL Turbo,使用TensorRT加速,性能提升高达60%。NVIDIA还推出了GeForce RTX 40 SUPER系列GPU,包括RTX 4080 SUPER、RTX 4070 Ti SUPER和RTX 4070 SUPER,具备强大的游戏和生成式AI性能。此外,NVIDIA还宣布了RTX笔记本电脑的新进展,以及越来越多的游戏将支持RTX技术。NVIDIA的嵌入式和边缘计算副总裁介绍了生成式AI在机器人技术中的应用。NVIDIA还宣布与中国理想汽车、长城汽车、极氪和小米达成协议,为这些公司即将推出的电动汽车自动驾驶等功能提供硬件。根据声明,理想汽车已选择NVIDIA集中式车载计算平台DRIVE Thor为其下一代车队提供动力。此外,NVIDIA计划于2024年第二季度开始大规模生产一款专为国内市场设计的AI芯片,以符合美国的出口规定。
Baracoda推出BMind AI魔镜
Baracoda在2024年消费电子展上推出了BMind AI智能镜,这是一款心理健康伴侣,旨在通过识别情绪和管理压力来改善用户的心理健康。这款智能镜子结合了人工智能和自然语言处理技术,通过分析用户的表情、手势和音调来识别情绪,并提供相应的光疗、冥想指导和自我肯定来调整情绪。BMind智能镜还获得了2024年CES智能家居创新奖。它通过CareOS平台工作,允许第三方提供商连接其应用程序,并在镜像界面内显示。此外,BMind还具有定制功能,如引导刷牙、皮肤分析和指导、浴室水温监测等。需要注意的是,人工智能和心理健康可能存在潜在的算法偏见和隐私问题。Baracoda指出,CareOS平台在本地存储健康和个人数据,并且不会未经用户明确请求和同意与任何一方共享。BMind镜子将于2024年底以500美元至1000美元的价格出售。
德勤推出PairD AI聊天机器助力员工
德勤,作为“四大”会计师事务所之一,为其7.5万名员工推出了一款名为PairD的聊天机器人工具,以帮助他们快速执行简单的任务。PairD是一个内部生成式人工智能平台,由德勤人工智能研究院开发,旨在帮助员工执行日常任务,如起草内容、编写代码和安全可靠地进行研究。德勤还与公司的AI研究院联合推出了全球生成式人工智能市场孵化器,旨在提供早期的概念证明和生成式人工智能的快速原型。PairD能够创建项目计划,给出项目管理最佳实践建议,以及建议任务优先级。德勤表示,员工可以使用PairD来回答电子邮件、起草书面内容、编写代码以自动化任务、创建演示文稿、进行研究和创建会议议程。然而,《金融时报》报道称,这个聊天机器人可能仍然是一个正在进行中的项目,员工已经被警告该工具可能会产生关于人物、地点和事实的不准确信息。德勤还致力于缩小数字鸿沟,与残疾平等慈善机构Scope合作,使人工智能对所有人都易于访问。自2021年1月以来,德勤已经捐赠了超过12,000台笔记本电脑给学校、慈善机构和难民团体,以帮助解决数字技能差距,支持人们克服教育和就业的障碍。
百川智能推出Baichuan-NPC角色大模型
百川智能推出了Baichuan-NPC角色大模型,该模型具备理解上下文对话语义和符合人物性格的对话和行动能力。同时,百川智能还提供了“角色创建平台+搜索增强知识库”的定制化方案,使游戏厂商能通过简单文字描述快速构建所需角色,实现低成本、高效率的角色定制。Baichuan-NPC在CharacterEval评测中表现出色,大幅领先于其他模型。角色创建平台是一个无需编写代码的开发套件,提供了标准化模板、自定义选项、所见即得的调优界面及搜索增强知识库。平台还具备一键复制功能,方便用户将角色代码集成到业务场景中。百川智能已与众多泛娱乐行业品牌深度合作,共同拓展AIGC创作的应用场景。
钉钉推出AI助理产品助力企业智能化
钉钉在7.5版本发布会上推出了AI助理产品,允许用户和企业根据需求创建和使用AI助理。钉钉总裁叶军宣布,钉钉用户已达7亿,企业组织有2500万,付费企业有12万。钉钉目标是打造一个低门槛、高频和开放的AI助理平台,预计未来三年将有1000万个AI助理在钉钉上诞生。AI助理具备感知、记忆、规划和行动能力,能跨应用执行任务,与第三方应用和企业自建应用无缝对接。用户可通过点击钉钉首页的魔法棒唤起AI助理,完成多项高频功能。钉钉AI助理分为个人和企业版本,用户可创建适合自己需求的AI助理,企业可创建招聘、财务等AI助理。AI助理可通过开放接口与第三方APP连接,完成差旅订票、酒店预订等任务。钉钉还将推出AI助理市场,成为孵化、分发和交易平台。此外,钉钉7.5版本还有多项升级,包括个人版全量上线、协作Tab页升级为信息流、自定义能力升级、推出“敲一敲”功能等。钉钉生态朋友圈持续扩大,公布与微软中国、小冰、好未来等公司的合作。同时,钉钉推出了创业版,定价980元/年,提供定制化工作台等增值权益,并宣布创业扶持计划,向1万家新注册企业提供1年免费使用支持。针对深度融合的ISV,钉钉宣布加码激励机制,最高可享返佣100%。
Getty iStock推出文生库存照片功能
Getty Images和Nvidia扩展了它们的AI合作,推出了iStock提供的Generative AI平台,这是一个旨在为库存照片市场创建文字到图像的平台。与Getty Images的AI服务不同,iStock的生成式AI专注于为中小型企业提供服务,允许用户更高效地查找和使用库存照片,包括创建无法通过传统摄影实现的图像。该平台使用Nvidia的Picasso模型进行训练,并从Getty的创意图库和iStock的库存中学习,不包括编辑图库以避免生成商标或已知人物的图像。定价为14.99美元用于100次提示,每次提示生成四张图片。与Getty Images的Generative AI不同,iStock平台为每个资产设定了1万美元的赔偿上限,并提供内填充和外扩充功能,这些功能将很快推出。内填充允许用户用文本提示填充图像的遮罩区域,而外扩充则可以扩展照片的不同长宽比并填充新区域。
McAfee推出AI音频伪造检测技术
在CES 2024展会上,网络安全公司McAfee推出了一项名为“Project Mockingbird”的新型AI技术,旨在保护消费者免受深度伪造音频诈骗和虚假信息威胁。该系统利用高级AI模型分析视频,判断其音频是否被深度伪造技术操纵,准确率超过90%。McAfee强调,需要抵御滥用生成式AI工具的现象,这些工具让犯罪分子能够轻易创造令人信服的假音频,用于定向诈骗或传播虚假信息。该技术通过上下文、行为和分类检测模型运行音频,为消费者提供了一个评估恶意伪造可能性的工具。McAfee将这个解决方案定位为使用AI保护在线隐私和身份的下一个发展方向。尽管McAfee声称Mockingbird拥有很高的准确率,但有效检测深度伪造技术的斗争仍在进行中,AI生成内容的不断发展意味着,像Mockingbird这样的工具是必要的,但它们是持续对抗数字欺骗行为更大努力的一部分。
苹果Vision Pro将于2月2日在美上市
苹果公司宣布将于2月2日在美国发布Vision Pro混合现实头显,这是自2015年苹果手表以来的首个重大发布。Vision Pro的税前售价高达3499美元,是Meta旗下顶级Quest Pro头显价格的两倍多。苹果公司首席执行官Tim Cook表示,空间计算的时代已经到来,并称Vision Pro是“有史以来最先进的消费电子设备”。尽管Meta在元宇宙领域是领导者,但其在该领域的发展进展缓慢,许多人怀疑苹果公司是否会进入这一领域。苹果公司表示,这款头盔可以在工作场所使用,观看流媒体娱乐和玩游戏。
LangChain发布首个稳定版本v0.1.0
LangChain,一个开源框架,旨在简化基于大型语言模型(LLM)的AI应用开发,迎来了其首个稳定版本v0.1.0。这一更新带来了显著的改进,包括增强的可观察性、集成性、可组合性、流式处理、输出解析、检索以及智能体的构建。LangChain通过与LangSmith的集成,提供了业界领先的调试体验,记录了LLM应用中每个步骤的详细信息。此外,LangChain支持近700个集成,覆盖了从LLM到向量存储的广泛技术栈,并且通过分离第三方集成到langchain-community,提升了依赖管理和版本控制。可组合性方面,LangChain表达式语言(LCEL)允许用户轻松创建任意序列的chain,类似于数据工程管道中的数据编排工具。流式处理方面,所有使用LCEL构建的chain都支持流式处理,包括中间步骤的流。输出解析方面,LangChain提供了结构化格式的输出,简化了LLM响应的处理。检索功能方面,LangChain提供了先进的检索方法,包括文本分割、retrieval和索引管道。智能体方面,LangChain支持工具使用和推理,允许LLM调用函数或工具,并提供了灵活的方法来自定义调用方式。最后,LangChain推出了langgraph,这是一个新库,允许用户创建更多的自定义循环行为,这对于智能体来说非常重要。
三维具身图文大模型系统助力机器人操控
近期,家务活越来越多地被机器人所取代。来自斯坦福的机器人不仅会烹饪,还会操作咖啡机。但要实现机器人在没有示范视频的情况下,第一次见到各种家具家电就能熟练使用,仍是一个挑战。为了解决这一难题,斯坦福大学的Leonidas Guibas教授、北京大学的王鹤教授团队与智源人工智能研究院合作,提出了一个三维具身图文大模型系统。该系统结合了三维视觉的精准几何感知模型和擅长规划的二维图文大模型,能够无需样本数据,解决与家具家电相关的复杂长程任务。研究团队创造性地将基于三维视觉的GAPart引入了机器人的物体操控系统SAGE。SAGE通过可泛化的三维零件检测和精确的位姿估计为VLM和LLM提供信息。新方法在决策层解决了二维图文模型精细计算和推理能力不足的问题;在执行层,新方法通过基于GAPart位姿的鲁棒物理操作API实现了对各个零件的泛化性操作。SAGE构成了首个三维具身图文大模型系统,为机器人从感知、物理交互再到反馈的全链路提供了新思路,为机器人能够智能、通用地操控家具家电等复杂物体探寻了一条可行的道路。
#大模型日知录LLM与你同行^_^