AI视野:Gemini即将登陆Pixel8Pro;GPT商店将于第一季度推出;聊天机器人Grok登陆X;阿里夸克大模型通过备案
📰🤖📢AI新鲜事
谷歌Gemini AI模型即将登陆Pixel8Pro
谷歌宣布Gemini AI模型首次亮相Pixel8Pro,旨在提升设备智能、加速反应速度,将逐步覆盖整个Android生态系统。
【AiBase提要:】
🚀 谷歌Gemini AI模型将首次登陆Pixel8Pro,推动设备智能革新。
💡 Gemini Nano是本地优先版本,加速反应速度,无需互联网连接。
📱 Pixel8Pro成为首款兼容Gemini Nano的手机,提供独特离线体验。
聊天机器人Grok登陆X
Elon Musk的xAI推出的聊天机器人Grok登陆X,以“一点机智”和“叛逆精神”自居,通过实时访问X数据提供更时效性的答案,面向Premium Plus订户。
【AiBase提要:】
🚀 Grok是xAI推出的ChatGPT竞争对手,以“一点机智”和“叛逆精神”为特色,主要服务X的Premium Plus订户。
🎙️ Grok通过实时访问X数据,相较于ChatGPT和Google's Bard,提供更时效性的答案,能回答其他AI系统拒绝的“辛辣问题”。
🌐 Grok计划改进底层模型以处理视频、音频等多模态数据,为X转型提高订阅吸引力,与广告商撤离形成对策。
OpenAI宣布GPT商店将于第一季度推出
OpenAI计划在2024年第一季度推出GPT商店,用户可在商店中出售他们创建的GPT。同时,董事会将从三人扩充至九人,加强AI峰会纽约的发展。此外,企业客户将有自助门户,通过信用卡支付服务费用。
【AiBase提要:】
🚀 GPT商店计划: OpenAI将在2024年第一季度推出GPT商店,用户可在商店中销售定制的GPT。
🤝 董事会扩充: OpenAI董事会将从三人扩充至九人,推动AI峰会纽约的发展。
🌐 企业客户门户: OpenAI计划推出企业客户自助门户,用户可通过信用卡支付服务费用。
谷歌承认Gemini AI模型演示视频不真实
谷歌刚发布的Gemini AI模型被指控在宣传视频中误导性陈述其性能,公司承认演示实际上使用了静态图像帧,引发争议。
【AiBase提要:】
🔍 误导演示视频: 谷歌Gemini发布后,被指责在演示视频中夸大其性能,实际使用静态图像帧而非实时操作。
🤖 官方回应: 谷歌回应称为简洁起见缩短了Gemini演示视频,并表示所有用户提示和输出是真实的,以激发开发者的灵感。
👀 争议背景: 此不是谷歌首次涉及争议性演示视频,引发对Gemini实际能力的质疑。
新一代酷睿Ultra处理器已适配超10款国内大模型
英特尔新一代酷睿Ultra处理器在联想举办的“AIPC产业创新论坛”上透露,已适配超过10款国内大型AI模型,强调对“尺寸适合”的模型进行全适配,加强与国内产业链合作。
【AiBase提要:】
🔄 英特尔酷睿Ultra处理器成功适配10款国内大模型。
🤖 英特尔承诺与模型厂商合作,将新模型快速移植到平台上。
🤝 合作伙伴联想集团宣布“AI PC先锋行动”推动AI PC的普及和落地。
谷歌推王炸级图像生成功能Generative Powers of Ten
Google发布了名为“Generative Powers of Ten”的图像生成功能,通过联合多尺度扩散采样方法,实现对生成图像的无限放大,能够在不同比例下创建深层次的缩放,是一项重要突破。
论文地址:https://arxiv.org/pdf/2312.02149.pdf
【AiBase提要:】
🌐 多尺度扩散采样方法: 采用联合多尺度扩散采样,保持不同尺度的一致性,比传统方法实现更深层次的缩放。
🚀 预训练扩散模型: 使用预训练的扩散模型去噪多个不同尺度的场景图像,实现对应清晰图像的估计。
🔬 突破性进展: 与其他生成缩放方法相比,该方法能够产生更深层次的缩放,并在不同缩放级别间保持一致性,是一项重要的技术突破。
ChatGPT在图灵测试中败给上世纪60年代的计算机程序ELIZA
加州大学圣迭戈分校的研究发现,ELIZA在图灵测试中成功率达27%,超过ChatGPT的14%,但GPT-4则表现更强大,成功率为41%。
【AiBase提要:】
📉 UC圣迭戈研究发现ELIZA在图灵测试中胜过ChatGPT,引发对OpenAI的尴尬评价。
🤯 ELIZA以27%的成功率模拟人类,而GPT-3.5仅为14%,但GPT-4成功率为41%。
🧐 有学者认为,ChatGPT并非为在图灵测试中表现良好而设计,而GPT-4在测试中表现更强大。
微软计划推出超越OpenAI的大模型
微软高管透露计划推出更多超越OpenAI的大语言模型,以满足企业客户的需求。微软强调其生成式 AI 应用及驱动这些应用的模型是安全可靠的,但专注于文本生成的公司能更快推进。
【AiBase 提要:】
微软计划推出更多超越 OpenAI 的大语言模型;
生成式 AI 应用是安全可靠的;
专注文本生成的公司能更快推进。
🤖📈💻💡大模型动态
Meta发布高效SAM模型EffcientSAM
Meta发布EfficientSAM模型,通过引入SAMI预训练成功降低SAM模型计算复杂性,实现20倍速度提升、参数减少20倍,性能仅损失约1.5mIoU。
项目地址:
https://yformer.github.io/efficient-sam/
在线demo地址:
https://6639e86fff1fc7b618.gradio.live
【AiBase提要:】
🚀 创新方法: EfficientSAM引入SAMI预训练,通过SAM图像编码器重建特征,有效提升视觉表示学习,在零样本实例分割任务上表现优越。
⚖️ 性能提升: 在多个视觉任务中,EfficientSAM在图像分类、目标检测、实例分割和语义目标检测等方面表现卓越,为SAM模型实际应用提供更广泛可能性。
🌐 新可能性: EfficientSAM的提出为SAM模型的应用提供新的可能性,特别在计算资源有限的实际场景中,通过SAMI预训练成功平衡性能和计算复杂性。
阿里夸克大模型通过备案
阿里智能信息事业群的夸克大模型已完成备案,将在通识、健康、创作等领域升级内容产品与智能工具,推出一系列AIGC创新应用。夸克大模型在搜索、生产力工具和资产管理等应用中展现出卓越性能,将全面升级,提升用户在学习、工作和生活上的效率。
【AiBase提要:】
🚀 技术备案完成: 阿里夸克大模型通过备案,即将在多领域升级内容产品与智能工具。
🌐 AIGC创新应用: 以生成式人工智能为基础,夸克大模型将在通识、健康、创作等领域推出创新应用。
🔍 全面升级用户体验: 阿里将借助大模型的能力,提升用户在学习、工作、生活中的整体体验。
Stability AI发布30亿参数语言模型StableLM Zephyr3B
最新发布的StableLM Zephyr3B是一款30亿参数的大语言模型,专为聊天应用场景进行了优化,包括文本生成、摘要和内容个性化。这款新模型是Stability AI早在今年四月首次提及的StableLM文本生成模型的较小、优化版本。
【AiBase 提要:】
🚀Stability AI 发布30亿参数语言模型 StableLM Zephyr3B,优化用于聊天应用,更小更快更节省资源。
🔍该模型通过直接偏好优化训练,结合优化数据集,在性能评估中表现出色。
🌐Stability AI 继续推动能力和工具的发展,致力于实现生成语言模型的民主化。
🤖📱💼AI应用
JetBrains推出中立供应商的新AI编码助手
JetBrains发布了一款新的AI编码助手,结合多个大型语言模型,实现供应商中立。该助手从开发者IDE获取信息,使用多个语言模型提供编码建议、代码重构和文档支持。开发者可根据任务选择不同模型,确保灵活性。服务目前仅对付费客户开放,但JetBrains计划将其推广到其他产品中。尽管只有17%的开发者愿将代码创作委托给AI,但有56%表示愿意让AI助手编写代码注释和文档。
【AiBase提要:】
🚀 供应商中立的AI编码助手: JetBrains发布了一款AI编码助手,使用多个大型语言模型,避免依赖单一AI平台,实现供应商中立。
💡 任务定制化选择模型: 开发者可根据任务选择不同模型,灵活应对编码建议、代码重构和文档支持需求。
💰 付费客户先行,拓展计划进行中: 服务目前仅对付费客户开放,计划将来推广到其他产品,提供更广泛的支持。
👨💻💡🎯聚焦开发者
ComfyUI推出最新插件workspace-manager,支持一键安装模型
ComfyUI的最新插件workspace-manager推出,用户可在界面上一键安装模型,实现便捷工作流管理,支持工作流程共享。
项目地址:https://github.com/11cafe/comfyui-workspace-manager
【AiBase提要:】
🚀 ComfyUI推出workspace-manager插件,用户可轻松在界面上切换工作流,省去本地保存和替换的步骤。
🔄 安装简便,只需将存储库克隆到ComfyUI根文件夹,即可享受轻松切换工作流、创建和重命名工作流程的功能。
🌐 未来计划包括一键模型安装和工作流程共享,提升用户体验,使得ComfyUI成为高效工作流管理的理想选择。
北大等发布智能体Jarvis-1
最近,北大、北邮、UCLA和BIGAI的研究团队合作发布了一款名为 Jarvis-1的智能体,引起了广泛关注。该智能体在开放世界游戏「我的世界」中表现出色,实现了多模态感知、记忆增强和多任务处理。
论文地址:https://arxiv.org/pdf/2311.05997.pdf
【AiBase提要:】
🚀 北大、北邮、UCLA和BIGAI联合发布的Jarvis-1在开放世界游戏「我的世界」中取得重大突破,采用多模态 记忆增强 多任务处理,表现卓越。
🎮 Jarvis-1通过多模态感知、记忆增强和终身学习,在游戏中展现近乎完美性能,成功完成复杂任务,标志通用智能体迈向更高学习水平。
🛠️ Jarvis-1的成功源于感知能力升级、多模态记忆应用以及自我指导和完善,为开放世界智能体的发展提供了重要经验和启示。
研究人员推视频运动控制器MotionCtrl
研究人员近日推出了名为MotionCtrl的视频生成技术,通过独立控制摄像机和物体的运动,实现了更精细和多样化的运动控制。MotionCtrl的两个模块,摄像机运动控制模块(CMCM)和物体运动控制模块(OMCM),以及精心设计的架构和训练策略,使其在生成视频时表现出较之前方法更为出色的性能。
论文地址:https://arxiv.org/pdf/2312.03641.pdf
【AiBase提要:】
🎮 MotionCtrl是一款视频生成技术,独立控制摄像机和物体运动,实现更灵活、精细的运动控制。
🌐 通过两个模块独立训练,MotionCtrl在有限数据集上展现出优异的性能。
📹 运动条件由摄像机姿态和轨迹决定,生成的视频保持物体自然外观,具有更真实感。
新视频编辑模型VideoSwap 可精细化替换视频主体
新加坡国立大学的VideoSwap框架采用语义点对应取得卓越效果,解决了传统视频编辑中形状变化挑战,实现源视频主体与目标主体的精细化替换。
论文网址:https://arxiv.org/pdf/2312.02087.pdf
项目网址:https://videoswap.github.io/
【AiBase提要:】
🔄 视频主体定制替换:VideoSwap框架通过语义点对应实现源视频主体与目标主体的形状变化替换。
🚗 形状变化挑战:传统基于扩散的视频编辑在处理形状变化时效果有限,VideoSwap引入语义点对应以应对这一挑战。
🌐 视频编辑革新:采用语义点对应的VideoSwap框架在自定义视频主体替换方面取得了卓越的效果,为视频编辑领域带来创新。
MIT斯坦福Transformer最新研究:过度训练会让中度模型“结构顿悟”
通过过度训练,中度Transformer模型展现出结构性泛化能力,被称为"结构顿悟",在捕捉句子层级结构方面表现优异。研究发现深度与泛化呈倒U形关系,中深度模型的泛化能力最强。
AiBase提要
😲 中度Transformer模型经过过度训练后展现出"结构顿悟",在泛化到新结构输入时捕捉句子层级结构更为有效。
📊 模型深度与结构顿悟呈倒U形关系,中深度模型在泛化能力上超过深度和浅度模型。
🤖 提前停止训练会低估泛化性能,中度深度的Transformer模型在泛化到新结构输入时具有显著优势。
大海捞针”实验验证RAG GPT-4Turbo模型卓越性能
通过“大海捞针”实验证明,RAG GPT-4Turbo模型在生成响应时表现卓越,仅需4%的成本,为大型语言模型领域带来重要突破。
【AiBase提要:】
🚀 性能飙升,低成本高性价比: RAG GPT-4Turbo在“大海捞针”实验中展现出卓越性能,仅需4%的成本,实现生成响应的高准确性。
🔍 超具体响应实现关键技术: 下一阶段的LLM重点在于通过上下文窗口填充、RAG和微调等技术,实现在不同使用情境下的超具体响应。
⚡️ RAG技术优越性: 在实验中,RAG模型以较低成本(仅为GPT-4Turbo的4%)表现出色,尤其在大规模上下文处理方面优于传统上下文窗口填充。
- 0001
- 0002
- 0000
- 0000
- 0000