AI视野:百度Apollo开放平台9.0发布;OpenAI公布ChatGPT安全框架;Etched AI推AI推理加速芯片Sohu;美图云修Pro版正式发布;Runway上线文字生成语音功能
📰🤖📢AI新鲜事
百度Apollo开放平台9.0发布
百度发布Apollo开放平台9.0,全面升级自动驾驶开发领域,包括工程、算法和工具三方面,重构12万行代码,新增20万行。工程框架拆分成小软件包,提高灵活性;算法优化感知算法,支持4D毫米波雷达;工具升级包括高精地图、传感器标定等,提升Dreamview 效率。
【AiBase提要:】
🚗 工程框架全面升级,模块拆分提高灵活性;
🔍 算法优化感知算法,支持4D毫米波雷达;
🧰 工具升级包括高精地图、传感器标定,提升效率。
OpenAI公布ChatGPT安全框架
OpenAI发布ChatGPT安全框架,采用风险“记分卡”衡量潜在危害,雇佣跨领域专家团队监测技术,与第三方合作测试技术,与竞争对手Anthropic的政策形成差异。
【AiBase提要:】
🔒 安全框架发布:OpenAI推出ChatGPT安全框架,采用风险“记分卡”评估潜在危害,不断完善框架以确保AI安全。
🌐 跨领域专家团队:雇佣AI研究、国家安全、政策专业人员组成“应对”团队,监测技术风险并提供预警。
🤝 开放合作与竞争对手对比:允许第三方测试技术,与Anthropic的政策形成鲜明对比,展现出框架的灵活性。
Etched AI推AI推理加速芯片Sohu
美国芯片初创公司Etched AI成功开发了一项技术,将Transformer架构直接嵌入芯片,创造出专为Transformer推理的超强服务器Sohu,可运行万亿参数模型,挑战英伟达。
官网地址:https://www.etched.ai/
【AiBase提要】
🔥 Etched AI成功将Transformer架构“烧录”到芯片,创造强大服务器Sohu。
🚀 技术支持实时语音代理、高级解码等多项功能。
💡 服务器配备144GB HBM3E,支持MoE和转换器变体,为高性能提供有力支持。
百度数字人生成专利公布
百度公布一项数字人生成专利,专利涉及人工智能技术领域,通过计算机视觉、自然语言处理和深度学习等技术,实现对数字人赋予不同人格。
【AiBase提要:】
😊 多人格数字人生成专利: 百度公布一项数字人生成专利,通过语言模型训练和三维建模,使数字人具备不同人格。
😃 应用领域广泛: 该专利涉及计算机视觉、自然语言处理和深度学习,可应用于元宇宙等场景,提升数字人的交流与互动自然度。
😎 赋予情感与意识: 生成的数字人可像人类一样表达情感和意识,为人机交互提供更丰富、自然的体验。
OpenAI官方发布Prompt工程指南
OpenAI官方发布的Prompt工程指南分享了六个策略,帮助用户优化ChatGPT等大型语言模型的输出,包括写清楚指令、提供参考文本、拆分复杂任务等。
指南地址:https://platform.openai.com/docs/guides/prompt-engineering
【AiBase提要:】
📌 写清楚指令: 用户需明确、详细指导模型,减少猜测,提高满意度。
📚 提供参考文本: 使用参考文本帮助模型减少错误输出,指导回答问题。
🧩 拆分复杂任务: 将任务分解为简单子任务,降低错误率,提高整体性能。
Adobe终止200亿美元收购Figma
Adobe和Figma宣布终止200亿美元的合并交易,因欧洲监管机构强烈反对,认为该交易将损害竞争,导致用户面临更高的价格和更少的选择。
【AiBase提要:】
💔 Adobe和Figma终止200亿美元的合并交易,欧洲监管机构认为交易将损害竞争,不予批准。
💼 Adobe首席执行官表示尽管相信合并的好处,但由于欧洲监管无法获得批准,共同同意终止交易。
💰 根据合同规定,Adobe需支付Figma10亿美元的终止费,反映科技行业监管日益严格。
Mistral AI CEO宣布于2024年开源GPT-4级别模型
法国初创公司Mistral AI计划于2024年开源GPT-4级别模型,最近获得4.15亿美元融资,推出基于MoE架构的8X7B模型,同时推进多语言模型Mistral Medium的开发。
【AiBase提要:】
🚀 Mistral AI首席执行官Arthur Mensch宣布公司将于2024年开源GPT-4级模型,引起行业广泛关注。
💰 公司最近获得4.15亿美元融资,估值20亿美元,推出基于MoE架构的8X7B模型,同时推出API服务“La Plateforme”。
🌐 Mistral AI正在开发支持多语言的Mistral Medium模型,在标准基准测试中表现优异,预计将于2024年发布。
🤖📱💼AI应用
美图云修Pro版正式发布
美图公司旗下的美图云修正式推出Pro版,搭载全新图像处理引擎,实现实时预览,为商业摄影提供即时修图解决方案。同时,智能修图API服务也正式开放,支持多端应用,助力快速出图。数据显示,美图云修已拥有超过百万用户和3万余家商业摄影机构使用,年修图量超过5亿张,有效提升修图效率和生产力。
美图云修官网:https://yunxiu.meitu.com/home
【AiBase提要】
🚀 Pro版亮点: 全新图像处理引擎,实时预览,适用于约拍和旅拍等即时修图场景。
💡 API服务开放: 美图云修智能修图API服务全面开放,支持多端应用,实现“即拍即修”。
📈 数据亮点: 超过百万用户、3万余家商业摄影机构使用,年修图量超5亿张,提升修图效率。
Runway上线文字生成语音功能
Runway最近悄悄上线了文字生成语音功能,初次尝试英文效果惊艳,但中文语音仍带有外国口音,可能需要解决。
体验地址:https://app.runwayml.com
【AiBase提要】
🔊 语音功能惊艳登场:Runway最新推出的文字生成语音功能,在英文表达方面展现出惊人的自然丰富情感。
🌐 多模型选择,点数消耗低:该功能提供多种语音模型,仅需右上角点数即可生成长时间可用的语音。
🌐 中文语音仍存问题:尽管英文效果惊艳,中文语音仍存在外国口音问题,可能需要解决。
超强小说生成工具Midreal AI 情节有逻辑还具有互动能力
小说生成工具Midreal AI强于其他LLM直接生成的小说,以内存跨越技术和长篇写作能力为特色,用户可在关键节点选择剧情走向,获得具有逻辑和互动能力的小说。
体验地址:discord.gg/ReKvgchE3P
【AiBase提要:】
🧠 内存跨越技术:Midreal AI采用内存跨越技术,实现几乎无限的记忆保留,确保长期无缝连接的游戏体验。
📝 长篇写作能力:具备长篇写作能力,保持叙事连贯和引人入胜,为用户提供高质量的阅读体验。
🌐 中英文支持:Midreal AI支持中文和英文,为喜爱阅读和写作的用户提供全新的创作体验。
CSM ai推实时草图转3D功能
CSM AI最新推出的实时绘图工具进化,用户可通过简单草图生成3D模型,并导出至3D软件,在儿童游戏和专业3D创意工作中具备广泛应用。
体验地址:https://3d.csm.ai/canvas
【AiBase提要】
🎨 实时草图转3D: CSM AI推出的工具允许用户通过简单的草图实时生成3D模型。
🔄 导出至3D软件: 生成的3D模型可直接导出到其他3D软件中进行进一步编辑和应用。
🌐 免费体验功能: 用户可以通过访问体验地址免费尝试这一功能,为创意设计提供便利。
🤖📈💻💡大模型动态
谷歌推视觉语言模型PixelLLM
通过与加州大学圣迭戈分校合作,谷歌AI研究团队推出PixelLLM,实现了细粒度定位和视觉-语言对齐。该模型通过在语言模型的每个输出单词与像素位置建立密集对齐,成功解决了大语言模型在定位任务中的挑战。
项目体验网址:https://top.aibase.com/tool/pixelllm
论文网址:https://arxiv.org/abs/2312.09237
【AiBase提要:】
🧠 PixelLLM采用密集对齐策略,成功解决了大型语言模型在细粒度定位任务中的挑战。
🌐 在密集目标描述、位置条件描述和引用定位等视觉任务中,PixelLLM表现出卓越性能,取得最先进的结果。
📈 通过引入新的视觉-语言模型,PixelLLM为实现更精确的视觉-语言对齐和定位提供了新的可能性。
元象开源高性能大模型XVERSE-65B-2底座版
元象宣布开源XVERSE-65B-2底座版,强化代码和数学能力,保持生成创作、角色扮演等能力,为生态贡献“文理兼修、大有可为”的大模型。
【AiBase提要:】
🚀 XVERSE-65B-2通过综合优化器状态和学习率策略进行Continual Pre-Training,总训练token量达3.2万亿。
🌐 模型支持40多种语言,上下文窗口为16K,在六个维度11项标准中八成超越GPT3.5。
💡 XVERSE-65B显著提升大模型的理解、生成、逻辑和记忆等能力,是国内最早开源的650亿参数免费商用模型。
项目地址:
Github:https://github.com/xverse-ai/XVERSE-65B
Hugging Face:https://huggingface.co/xverse/XVERSE-65B-2
ModelScope魔搭:https://modelscope.cn/models/xverse/XVERSE-65B-2
UIUC清华联手发布全新代码大模型Magicoder
UIUC和清华合作推出的Magicoder是一款在代码生成领域表现出色的大型语言模型,仅使用了7B参数,并以全面开源的方式分享了其代码、权重和数据。
论文地址:https://arxiv.org/pdf/2312.02120.pdf
【AiBase提要:】
🚀 模型介绍: UIUC和清华合作推出的Magicoder,在代码生成领域以不到7B参数媲美顶级模型,并全面开源其代码、权重和数据。
🛠️ OSS-INSTRUCT方法: Magicoder采用OSS-INSTRUCT方法,从开源代码中获取灵感,生成多样、真实和可控的编码指令数据,注重真实性对于指令调整的重要性。
📈 性能表现: 在Python、其他编程语言以及数据科学库领域,Magicoder表现出色,在DS-1000dataset上改善了8.3个百分点,展现了在实际用例中的潜力。
音乐生成深度学习模型StemGen
字节跳动AI研究团队推出StemGen项目,采用非自回归、基于Transformer的模型,通过听取音乐上下文生成音乐,在音频质量和音乐与上下文协调性方面取得竞争性成果。
项目网址:https://julian-parker.github.io/stemgen/
论文网址:https://arxiv.org/abs/2312.08723
【AiBase提要】
🤖 革新性方法: StemGen采用非自回归、基于Transformer的模型,通过听取音乐上下文生成音乐,突破传统抽象条件的模型。
🌐 模型效果验证: 采用标准指标和主观测试证明StemGen模型在音频质量和音乐与上下文的强大协调性方面表现出竞争性。
🚀 技术进步: 结合图像和语言处理技术,以端到端方式推动深度学习音频生成,提出非自回归、基于Transformer的架构训练模型的新范例。
👨💻💡🎯聚焦开发者
创新3D技术Gaussian-SLAM 通过分析视频重建逼真的3D场景
通过分析视频流中的图像,Gaussian-SLAM技术能够实时渲染并重建逼真的3D模型,为自动驾驶、机器人导航、增强现实等领域提供新的可能性。
【AiBase提要:】
🌐 光学真实的渲染: Gaussian-SLAM以高度真实的方式重建和渲染真实世界和合成场景。
🔄 高斯斑点场景表示: 使用高斯斑点作为场景的表示单位,与传统的点云或网格表示不同。
📷 适用于单目RGBD输入: 针对单目RGBD输入数据进行优化,适用于多种场景。
论文地址:https://ivi.fnwi.uva.nl/cv/paper/GaussianSLAM.pdf
项目地址:https://github.com/VladimirYugay/Gaussian-SLAM
演示地址:https://vladimiryugay.github.io/gaussian_slam/
- 0001
- 0008
- 0000
- 0000
- 0000