AI视野:阿里云开源Qwen-72B大模型;Meta推三项新AI项目;Sam Altman首次回应Q* 相关问题;天工SkyAgents发布
🤖📈💻💡大模型动态
阿里云开源Qwen-72B大模型
阿里云开源了通义千问Qwen-72B(720亿参数)、Qwen-1.8B(18亿参数)以及音频大模型Qwen-Audio,提供对话模型和量化版,支持开发者推理训练。
体验地址:https://modelscope.cn/studios/qwen/Qwen-72B-Chat-Demo/summary
【AiBase提要:】
🎉 Qwen-72B模型:720亿参数,拥有强大系统指令能力,支持通过提示词定制AI助手。
🗣️ Qwen-1.8B模型:18亿参数,可进行对话任务,提供对话模型和量化版,开发者可在魔搭社区体验下载。
🔊 Qwen-Audio模型: 针对音频,可将语音转换成文本,为大规模音频语言模型领域带来重大突破。
DeepMind发布自监督扩散模型SODA
Google DeepMind发布的自监督扩散模型SODA通过无监督方式精准控制扩散模型,实现风格与内容分离及3D视图生成。
【AiBase提要:】
🔄 模型介绍: DeepMind发布SODA,一种自监督扩散模型,利用图像编码器和去噪解码器实现无监督学习,捕获视觉语义。
🎨 强大生成能力: SODA展示在多个数据集上的强大表示和生成能力,包括线性探测分类、图像重建、新视角合成等实验。
🌐 潜在应用: 该模型不仅在图像生成方面表现出色,还能学习强大的语义表示,为动态组合场景等领域提供新思路。
📰🤖📢AI新鲜事
Meta AI实验室推三项新AI项目
Meta AI实验室庆祝成立十周年,推出Ego-Exo4D视频学习数据集、Seamless Communication语言交流AI模型、以及Audiobox音频生成模型,展示了在增强现实、跨语言交流和音频生成领域的创新成果。
【AiBase提要:】
🌐 Ego-Exo4D: Meta发布支持视频学习和多模态感知的数据集,覆盖复杂人类活动,如运动、音乐、烹饪,可用于增强现实、机器学习和社交网络。
💬 Seamless Communication: 推出四个AI研究模型,旨在实现更自然、真实的跨语言交流,包括语音表达和语境保留的SeamlessExpressive等功能。
🎶 Audiobox: Meta的新音频生成模型,通过语音输入和自然语言文本提示生成声音和音效,为研究人员提供先进的音频生成研究支持。
海纳AI完成数千万元A轮融资
近日,海纳AI成功获得数千万元A轮融资,由联想创投独家投资。这笔资金将用于人才招募、AI模型研发和营销体系搭建,以提升产品和服务品质,扩大竞争优势。海纳AI在2023年推出基于最新GPT技术的Hina AI2.0大模型,专注于打造AI面试测评平台,服务包括沃尔玛、顺丰、吉利等500强企业,面试人数超过700万。
【AiBase提要:】
🚀 融资成功: 海纳AI获得数千万元A轮融资,由联想创投独家投资。
💡 资金用途: 资金将用于人才招募、AI模型研发、营销体系搭建,提升产品品质和服务竞争优势。
🌐 AI面试服务: 基于最新GPT技术推出的Hina AI2.0大模型,服务包括500强企业,面试人数超过700万。
Sam Altman首次回应Q* 相关问题
经历董事会政变后,Sam Altman回归OpenAI首席执行官,就解雇原因拒绝透露,表示董事会将进行独立审查。
【AiBase提要:】
🔄 复职背后的心路历程: Sam Altman回应董事会请求,表示对公司的热爱和对团队的信任驱使他回归。
❓ 解雇原因成谜: Altman对于自己被解雇的原因保持沉默,董事会将进行独立审查,他欢迎这一决定。
🚀 未来展望: 公司治理结构调整将需要时间,Altman强调对安全工作的承诺,而最近关于Q*模型的突破则未受事件影响。
亚马逊否认计划使用AI完成《Road House》续集
亚马逊否认使用人工智能完成《Road House》续集,与制片人乔尔·席尔弗的指控相悖,强调电影已于2022年10月杀青,不存在在罢工期间使用AI的可能性。
【AiBase提要:】
📰 亚马逊否认计划使用AI制作《Road House》续集,反驳制片人席尔弗的指控。
🎬 制片人因反对在罢工期间使用AI而被开除,亚马逊称指控毫无真实性。
🚫 电影已于2022年10月杀青,亚马逊强调不存在在罢工期间使用AI的可能性。
COLE AI系统利用多模型联合生成高质量设计
一年过去了,微软亚洲研究院和北京大学的研究人员合作开发的COLE AI系统在图形设计领域取得了显著进展。该系统通过多个AI模型的协同作业,为用户提供可编辑的图形设计,不仅生成图像,还能嵌入相关文本,具备可编辑文本和视觉元素的功能。
论文网址:https://arxiv.org/pdf/2311.16974.pdf
【AiBase提要:】
🌐 COLE采用了Meta的Llama2-13B、DeepFloyd IF、LLaVA1.5-13B和GPT-4V等多个AI模型的组合,通过对互联网上的高质量原始图形设计图像进行训练,实现了出色的设计生成效果。
🖌️ COLE不仅能生成清晰有序的图形设计,还能在图像内生成可编辑的文本和对象区块,为用户提供直接编辑的便捷方式,避免了导出到其他设计软件的繁琐步骤。
🚀 COLE系统在生成各种设计项目时表现出色,研究人员认为它有可能让没有图形设计培训或专业知识的人能够生成与专业设计师媲美的高质量设计。
🤖📱💼AI应用
阿里国际站上线OKKI AI
OKKI AI是面向全行业企业的外贸SaaS工具,以客户管理和辅助决策为核心能力,能帮助外贸商家从琐碎事务中解放出来,提高效率和决策质量。
【AiBase提要:】
😎 OKKI AI是外贸SaaS工具,主打客户管理和决策辅助,解放商家时间,提高工作效率。
🚀 一键生成开发信、智能客户管理和业务分析是OKKI AI的亮点,受到外贸业务员好评。
📈 对于管理者,OKKI AI提供全盘业务了解,包括订单跟进、客户分布、团队成员报告等,助力决策。
快速绘制,实时推理,tldraw LCM太好玩啦!
近期,清华发布的潜在一致性模型LCM与fal.ai的API推出的实时绘图工具drawfast结合,通过创新性方法实现了仅需少数几步推理即可高效生成高分辨率图像。drawfast是一款开源协作式数字白板,结合GPT4-Version,用户能在画布上绘制草稿实时生成UI,并复制相关html/css代码,为用户提供了便捷的绘图工具。
体验地址:https://top.aibase.com/tool/drawfast
【AiBase提要:】
🚀 LCM与drawfast结合,提供用户快速绘制、实时推理的绘图体验。
🖌️ drawfast是一款开源协作式数字白板,搭配GPT4-Version,实时生成UI并提供代码。
💡 用户可在drawfast上产生高效、美观的作品,释放创意潜力,展示工具的创意性和可玩性。
在线图像编辑器miniPaint:开源Photoshop网页最强替代品
miniPaint是一款基于HTML5技术的在线图像编辑器,无需下载安装,直接在浏览器中运行,支持丰富的编辑功能,是Photoshop的强大替代品。
项目地址:https://github.com/viliusle/miniPaint
【AiBase提要:】
🎨 miniPaint利用HTML5技术,无需下载安装,成为浏览器中的最强在线图像编辑器。
🌐 支持多种图像编辑功能,包括图层、滤镜,操作直接在浏览器中完成,保障用户隐私安全。
🛠️ 项目开源,采用MIT许可证,提供丰富特效和工具,鼓励用户贡献和反馈。
Wombo推AI头像应用程序Wombo Me
Wombo公司推出的新应用Wombo Me,通过一张自拍照片即可迅速生成多个逼真的头像,强调趣味性,支持化身名人、电影角色等,未来计划加入更多互动元素。
【AiBase提要:】
🚀 创新应用发布: Wombo Me由Wombo公司推出,通过一张自拍照片即可快速生成多个逼真头像,相较其他应用更高效。
😄 注重趣味体验: 应用强调趣味性,用户可尝试不同角色,如名人、电影角色,分享到社交媒体展示专业和个性形象。
🌐 未来发展计划: 公司计划引入更多互动元素,如语音和视频,以推动AI在社交媒体内容创造领域更深入的发展。
👨💻💡🎯聚焦开发者
昆仑万维发布天工SkyAgents
昆仑万维推出「天工 SkyAgents」AI Agent 开发平台,基于「天工大模型」,支持零代码构建个性化 AI 智能体。适用于个人和企业,实现一键服务部署。
AiBase提要:
🚀 用户可零代码打造私人智能体,基于大模型实现自主学习和模块化任务。
🏢 企业可用于构建个性化应用,包括 IT、智能客服、企业培训、HR、法律顾问等,并支持一键服务部署。
🔄 模块化语言模型和图形界面支持完全无代码操作,用户可以通过自然语言和简单操作进行任务设定和部署。
使用PyTorch加速生成式AI模型
介绍PyTorch团队如何通过本机PyTorch优化加速生成式AI模型,包括Torch.compile编译器、GPU量化、推测性解码和张量并行等技术。
【AiBase提要:】
💻 编译优化: 使用Torch.compile和静态KV缓存减少CPU开销,通过模型编译器提高性能。
🚀 内存带宽优化: 通过INT8仅权重量化缓解内存带宽瓶颈,提高模型推理速度。
🤖 推测性解码: 利用推测解码打破生成过程的串行依赖性,加速权重加载,提高生成速度。
基于大学水平考试的多模态AI测试基准MMMUs发布
最新发布的MMMUs基准挑战GPT-4V等模型,包含六个学科的30个科目,共有1.15万个多模态问题,考察机器在广泛多样任务上的专家级多模态理解和推理能力。
论文地址:https://arxiv.org/abs/2311.16502
项目网站:https://mmmu-benchmark.github.io/
【AiBase提要:】
🌐 MMMUs基准挑战GPT-4V,包含六个学科30个科目,1.15万多模态问题。
📚 问题设计注重深度,考察感知、知识和推理等基本技能。
🚀 MMMUs作为全面多模态AI测试基准,为评估专家级AGI提供新视角。
- 0000
- 0000
- 0000
- 0000
- 0001