首页站长资讯AI视野：百度Apollo开放平台9.0发布；OpenAI公布ChatGPT安全框架；Etched AI推AI推理加速芯片Sohu；美图云修Pro版正式发布；Runway上线文字生成语音功能

AI视野：百度Apollo开放平台9.0发布；OpenAI公布ChatGPT安全框架；Etched AI推AI推理加速芯片Sohu；美图云修Pro版正式发布；Runway上线文字生成语音功能

站长网2023-12-19 15:28:021阅

📰🤖📢AI新鲜事

百度Apollo开放平台9.0发布

百度发布Apollo开放平台9.0，全面升级自动驾驶开发领域，包括工程、算法和工具三方面，重构12万行代码，新增20万行。工程框架拆分成小软件包，提高灵活性;算法优化感知算法，支持4D毫米波雷达;工具升级包括高精地图、传感器标定等，提升Dreamview 效率。

【AiBase提要:】

🚗 工程框架全面升级，模块拆分提高灵活性;

🔍 算法优化感知算法，支持4D毫米波雷达;

🧰 工具升级包括高精地图、传感器标定，提升效率。

OpenAI公布ChatGPT安全框架

OpenAI发布ChatGPT安全框架，采用风险“记分卡”衡量潜在危害，雇佣跨领域专家团队监测技术，与第三方合作测试技术，与竞争对手Anthropic的政策形成差异。

【AiBase提要:】

🔒 安全框架发布:OpenAI推出ChatGPT安全框架，采用风险“记分卡”评估潜在危害，不断完善框架以确保AI安全。

🌐 跨领域专家团队:雇佣AI研究、国家安全、政策专业人员组成“应对”团队，监测技术风险并提供预警。

🤝 开放合作与竞争对手对比:允许第三方测试技术，与Anthropic的政策形成鲜明对比，展现出框架的灵活性。

Etched AI推AI推理加速芯片Sohu

美国芯片初创公司Etched AI成功开发了一项技术，将Transformer架构直接嵌入芯片，创造出专为Transformer推理的超强服务器Sohu，可运行万亿参数模型，挑战英伟达。

官网地址:https://www.etched.ai/

【AiBase提要】

🔥 Etched AI成功将Transformer架构“烧录”到芯片，创造强大服务器Sohu。

🚀 技术支持实时语音代理、高级解码等多项功能。

💡 服务器配备144GB HBM3E，支持MoE和转换器变体，为高性能提供有力支持。

百度数字人生成专利公布

百度公布一项数字人生成专利，专利涉及人工智能技术领域，通过计算机视觉、自然语言处理和深度学习等技术，实现对数字人赋予不同人格。

【AiBase提要:】

😊 多人格数字人生成专利: 百度公布一项数字人生成专利，通过语言模型训练和三维建模，使数字人具备不同人格。

😃 应用领域广泛: 该专利涉及计算机视觉、自然语言处理和深度学习，可应用于元宇宙等场景，提升数字人的交流与互动自然度。

😎 赋予情感与意识: 生成的数字人可像人类一样表达情感和意识，为人机交互提供更丰富、自然的体验。

OpenAI官方发布Prompt工程指南

OpenAI官方发布的Prompt工程指南分享了六个策略，帮助用户优化ChatGPT等大型语言模型的输出，包括写清楚指令、提供参考文本、拆分复杂任务等。

指南地址:https://platform.openai.com/docs/guides/prompt-engineering

【AiBase提要:】

📌 写清楚指令: 用户需明确、详细指导模型，减少猜测，提高满意度。

📚 提供参考文本: 使用参考文本帮助模型减少错误输出，指导回答问题。

🧩 拆分复杂任务: 将任务分解为简单子任务，降低错误率，提高整体性能。

Adobe终止200亿美元收购Figma

Adobe和Figma宣布终止200亿美元的合并交易，因欧洲监管机构强烈反对，认为该交易将损害竞争，导致用户面临更高的价格和更少的选择。

【AiBase提要:】

💔 Adobe和Figma终止200亿美元的合并交易，欧洲监管机构认为交易将损害竞争，不予批准。

💼 Adobe首席执行官表示尽管相信合并的好处，但由于欧洲监管无法获得批准，共同同意终止交易。

💰 根据合同规定，Adobe需支付Figma10亿美元的终止费，反映科技行业监管日益严格。

Mistral AI CEO宣布于2024年开源GPT-4级别模型

法国初创公司Mistral AI计划于2024年开源GPT-4级别模型，最近获得4.15亿美元融资，推出基于MoE架构的8X7B模型，同时推进多语言模型Mistral Medium的开发。

【AiBase提要:】

🚀 Mistral AI首席执行官Arthur Mensch宣布公司将于2024年开源GPT-4级模型，引起行业广泛关注。

💰 公司最近获得4.15亿美元融资，估值20亿美元，推出基于MoE架构的8X7B模型，同时推出API服务“La Plateforme”。

🌐 Mistral AI正在开发支持多语言的Mistral Medium模型，在标准基准测试中表现优异，预计将于2024年发布。

🤖📱💼AI应用

美图云修Pro版正式发布

美图公司旗下的美图云修正式推出Pro版，搭载全新图像处理引擎，实现实时预览，为商业摄影提供即时修图解决方案。同时，智能修图API服务也正式开放，支持多端应用，助力快速出图。数据显示，美图云修已拥有超过百万用户和3万余家商业摄影机构使用，年修图量超过5亿张，有效提升修图效率和生产力。

美图云修官网:https://yunxiu.meitu.com/home

【AiBase提要】

🚀 Pro版亮点: 全新图像处理引擎，实时预览，适用于约拍和旅拍等即时修图场景。

💡 API服务开放: 美图云修智能修图API服务全面开放，支持多端应用，实现“即拍即修”。

📈 数据亮点: 超过百万用户、3万余家商业摄影机构使用，年修图量超5亿张，提升修图效率。

Runway上线文字生成语音功能

Runway最近悄悄上线了文字生成语音功能，初次尝试英文效果惊艳，但中文语音仍带有外国口音，可能需要解决。

体验地址:https://app.runwayml.com

【AiBase提要】

🔊 语音功能惊艳登场:Runway最新推出的文字生成语音功能，在英文表达方面展现出惊人的自然丰富情感。

🌐 多模型选择，点数消耗低:该功能提供多种语音模型，仅需右上角点数即可生成长时间可用的语音。

🌐 中文语音仍存问题:尽管英文效果惊艳，中文语音仍存在外国口音问题，可能需要解决。

超强小说生成工具Midreal AI 情节有逻辑还具有互动能力

小说生成工具Midreal AI强于其他LLM直接生成的小说，以内存跨越技术和长篇写作能力为特色，用户可在关键节点选择剧情走向，获得具有逻辑和互动能力的小说。

体验地址:discord.gg/ReKvgchE3P

【AiBase提要:】

🧠 内存跨越技术:Midreal AI采用内存跨越技术，实现几乎无限的记忆保留，确保长期无缝连接的游戏体验。

📝 长篇写作能力:具备长篇写作能力，保持叙事连贯和引人入胜，为用户提供高质量的阅读体验。

🌐 中英文支持:Midreal AI支持中文和英文，为喜爱阅读和写作的用户提供全新的创作体验。

CSM ai推实时草图转3D功能

CSM AI最新推出的实时绘图工具进化，用户可通过简单草图生成3D模型，并导出至3D软件，在儿童游戏和专业3D创意工作中具备广泛应用。

体验地址:https://3d.csm.ai/canvas

【AiBase提要】

🎨 实时草图转3D: CSM AI推出的工具允许用户通过简单的草图实时生成3D模型。

🔄 导出至3D软件: 生成的3D模型可直接导出到其他3D软件中进行进一步编辑和应用。

🌐 免费体验功能: 用户可以通过访问体验地址免费尝试这一功能，为创意设计提供便利。

🤖📈💻💡大模型动态

谷歌推视觉语言模型PixelLLM

通过与加州大学圣迭戈分校合作，谷歌AI研究团队推出PixelLLM，实现了细粒度定位和视觉-语言对齐。该模型通过在语言模型的每个输出单词与像素位置建立密集对齐，成功解决了大语言模型在定位任务中的挑战。

项目体验网址:https://top.aibase.com/tool/pixelllm

论文网址:https://arxiv.org/abs/2312.09237

【AiBase提要:】

🧠 PixelLLM采用密集对齐策略，成功解决了大型语言模型在细粒度定位任务中的挑战。

🌐 在密集目标描述、位置条件描述和引用定位等视觉任务中，PixelLLM表现出卓越性能，取得最先进的结果。

📈 通过引入新的视觉-语言模型，PixelLLM为实现更精确的视觉-语言对齐和定位提供了新的可能性。

元象开源高性能大模型XVERSE-65B-2底座版

元象宣布开源XVERSE-65B-2底座版，强化代码和数学能力，保持生成创作、角色扮演等能力，为生态贡献“文理兼修、大有可为”的大模型。

【AiBase提要:】

🚀 XVERSE-65B-2通过综合优化器状态和学习率策略进行Continual Pre-Training，总训练token量达3.2万亿。

🌐 模型支持40多种语言，上下文窗口为16K，在六个维度11项标准中八成超越GPT3.5。

💡 XVERSE-65B显著提升大模型的理解、生成、逻辑和记忆等能力，是国内最早开源的650亿参数免费商用模型。

项目地址:

Github:https://github.com/xverse-ai/XVERSE-65B

Hugging Face:https://huggingface.co/xverse/XVERSE-65B-2

ModelScope魔搭:https://modelscope.cn/models/xverse/XVERSE-65B-2

UIUC清华联手发布全新代码大模型Magicoder

UIUC和清华合作推出的Magicoder是一款在代码生成领域表现出色的大型语言模型，仅使用了7B参数，并以全面开源的方式分享了其代码、权重和数据。

论文地址:https://arxiv.org/pdf/2312.02120.pdf

【AiBase提要:】

🚀 模型介绍: UIUC和清华合作推出的Magicoder，在代码生成领域以不到7B参数媲美顶级模型，并全面开源其代码、权重和数据。

🛠️ OSS-INSTRUCT方法: Magicoder采用OSS-INSTRUCT方法，从开源代码中获取灵感，生成多样、真实和可控的编码指令数据，注重真实性对于指令调整的重要性。

📈 性能表现: 在Python、其他编程语言以及数据科学库领域，Magicoder表现出色，在DS-1000dataset上改善了8.3个百分点，展现了在实际用例中的潜力。

音乐生成深度学习模型StemGen

字节跳动AI研究团队推出StemGen项目，采用非自回归、基于Transformer的模型，通过听取音乐上下文生成音乐，在音频质量和音乐与上下文协调性方面取得竞争性成果。

项目网址:https://julian-parker.github.io/stemgen/

论文网址:https://arxiv.org/abs/2312.08723

【AiBase提要】

🤖 革新性方法: StemGen采用非自回归、基于Transformer的模型，通过听取音乐上下文生成音乐，突破传统抽象条件的模型。

🌐 模型效果验证: 采用标准指标和主观测试证明StemGen模型在音频质量和音乐与上下文的强大协调性方面表现出竞争性。

🚀 技术进步: 结合图像和语言处理技术，以端到端方式推动深度学习音频生成，提出非自回归、基于Transformer的架构训练模型的新范例。

👨‍💻💡🎯聚焦开发者

创新3D技术Gaussian-SLAM 通过分析视频重建逼真的3D场景

通过分析视频流中的图像，Gaussian-SLAM技术能够实时渲染并重建逼真的3D模型，为自动驾驶、机器人导航、增强现实等领域提供新的可能性。

【AiBase提要:】

🌐 光学真实的渲染: Gaussian-SLAM以高度真实的方式重建和渲染真实世界和合成场景。

🔄 高斯斑点场景表示: 使用高斯斑点作为场景的表示单位，与传统的点云或网格表示不同。

📷 适用于单目RGBD输入: 针对单目RGBD输入数据进行优化，适用于多种场景。

论文地址:https://ivi.fnwi.uva.nl/cv/paper/GaussianSLAM.pdf

项目地址:https://github.com/VladimirYugay/Gaussian-SLAM

演示地址:https://vladimiryugay.github.io/gaussian_slam/

AI视野百度Apollo开放平台90发布OpenAI公布ChatGPT安全框架EtchedAI推AI推理加速芯片Sohu美图云修Pro版正式发布Runway上线文字生成语音功能

0001

评论列表

共(0)条

AI视野：百度Apollo开放平台9.0发布；OpenAI公布ChatGPT安全框架；Etched AI推AI推理加速芯片Sohu；美图云修Pro版正式发布；Runway上线文字生成语音功能

华为发布会正式召开余承东：Mate 60系列正加班加点生产

OpenAI豪赌7万亿，能买4个英伟达！奥特曼芯片帝国占全球GDP 10%，或引世界经济末日？

抖音做不好，那就放弃！

黑莓研究表明大多数机构正在考虑禁止生成式人工智能

上千万人在抖音围观钓鱼、种草图书，谁能接住好内容的流量？

AI视野：百度Apollo开放平台9.0发布；OpenAI公布ChatGPT安全框架；Etched AI推AI推理加速芯片Sohu；美图云修Pro版正式发布；Runway上线文字生成语音功能

华为发布会正式召开 余承东：Mate 60系列正加班加点生产

OpenAI豪赌7万亿，能买4个英伟达！奥特曼芯片帝国占全球GDP 10%，或引世界经济末日？

抖音做不好，那就放弃！

黑莓研究表明 大多数机构正在考虑禁止生成式人工智能

上千万人在抖音围观钓鱼、种草图书，谁能接住好内容的流量？

华为发布会正式召开余承东：Mate 60系列正加班加点生产

黑莓研究表明大多数机构正在考虑禁止生成式人工智能