AI视野:OpenAI发布DALL-E3文生图模型;华为发布盘古汽车大模型;《权力的游戏》作者起诉OpenAI侵犯版权
🤖📈💻💡大模型动态
OpenAI 发布 DALL-E3文生图模型
OpenAI发布了DALL-E3,与ChatGPT完全集成的AI图像合成模型,具有出色的文本到图像生成能力,预计将在十月提供给ChatGPT Plus和企业客户。
图片来自OpenAI
地址:https://openai.com/dall-e-3
AiBase提要:
1. DALL-E3是OpenAI的最新AI图像合成模型,能够根据文字描述生成高度逼真的图像,通过与ChatGPT的完全集成提供更出色的图像生成。
2. 这一模型在处理细节和提示保真度方面取得了显著突破,能够更有效地呈现小细节,创建引人入胜的图像,同时还可以处理图像中的文本描述。
3. OpenAI采取了措施来应对争议,包括拒绝要求以特定艺术家风格制作图像的请求,并提供创作者选择不让他们的图像用于未来模型训练的选项。此外,DALL-E3已经实施了关键字和图像检测过滤器,以限制生成不良内容。
华为发布盘古汽车大模型和医学大模型
华为在全联接大会2023上发布了盘古汽车大模型和医学大模型,同时推出了昇腾AI云服务的“百模千态”专区。这一举措旨在提供更多领域的大模型应用支持和AI算力服务。
AiBase提要:
1、华为发布盘古汽车和医学大模型,扩展了大模型在不同领域的应用。
2、昇腾AI云服务正式上线,为企业提供便捷的AI算力支持。
3、“百模千态”专区包含多个开源大模型,有助于企业和开发者更快地创建自己的大模型应用。
360智脑大模型全面接入360全家桶 正式面向公众开放
360宣布360智脑大模型全面接入360全家桶,向公众开放。用户可通过ai.360.com登录体验360智脑app、360搜索、360安全浏览器、LoRA360、AI数字员工等大模型服务。
AiBase提要:
1.360智脑全家桶提供强大智能助手,简化网页操作,提高信息获取效率。
2. 大模型数字人结合360搜索知识库,智能识别用户意图,生成高质量AI问答结果。
3. 支持多轮问答生成和引导,激发用户创造力。
生数科技发布自研多模态通用大模型
生数科技发布了自主研发的多模态通用大模型,并推出了PixWeaver和VoxCraft两款应用产品。该大模型融合了文本、图像、3D、视频等多模态知识,具备强大的语义理解和训练速度,支持图像生成、3D模型生成和视频编辑。
体验地址:https://pw.shengshu-ai.com/
AiBase提要:
1. 生数科技发布多模态通用大模型,融合多种知识模态,提供强大的语义理解和快速训练速度。
2. 大模型在图像生成、3D模型生成和视频编辑等任务中表现出色。
3. 生数科技推出了PixWeaver和VoxCraft应用产品,分别是视觉创意设计平台和3D资产创建工具。
Xwin-LM击败GPT-4登顶斯坦福AlpacaEval
Xwin-LM是一款基于Llama2微调的语言模型,最近在斯坦福大学的AlpacaEval评估中击败了GPT-4,成为新的榜首模型。Xwin-LM分别推出了70B、13B、7B规模的模型,在多项性能评估和自然语言处理任务中表现出色。AlpacaEval是一款自动评估工具,用于比较模型在遵循指令和性能表现方面的能力,对模型的性能提供了有效的评估方法。
项目地址:https://tatsu-lab.github.io/alpaca_eval/
AiBase提要:
1. Xwin-LM击败了GPT-4,登上了斯坦福AlpacaEval的榜首位置。
2. Xwin-LM推出不同规模的模型,在性能评估和自然语言处理任务中表现出色,包括70B、13B和7B规模的模型。
3. AlpacaEval是一款自动评估工具,用于比较模型的指令遵循和性能表现,尽管有局限性,但为研究人员提供了有效的比较模型能力的方式。
商汤科技开源书生·浦语大模型InternLM-20B
商汤科技与上海人工智能实验室联合发布了InternLM-20B,一款拥有200亿参数的大模型,性能超越了Llama2-70B,提供全链条工具链并提供免费商用授权。
代码库
https://github.com/InternLM/InternLM
魔搭社区
https://modelscope.cn/organization/Shanghai_AI_Laboratory
AiBase提要:
1. 商汤科技和上海人工智能实验室合作发布InternLM-20B,参数达到200亿,性能强大。
2. InternLM-20B超越了Llama2-70B,具备更强的综合能力和应用便捷性。
3. 提供全链条工具链,包括数据、预训练、微调、部署和评测,同时提供免费商用授权。
上交AI数学开源模型阿贝尔在数学推理领域取得了重大突破
上海交大生成式人工智能研究组的阿贝尔模型在数学推理领域取得突破,取得多个榜单上的开源模型第一,打破了美国AI公司的霸榜局面。
项目地址:https://gair-nlp.github.io/abel/
开源模型:https://github.com/GAIR-NLP/abel
AiBase提要:
1、阿贝尔模型通过有监督精调方法在数学推理领域取得显著成绩,超越了美国AI公司OpenAI和Google等竞争对手。
2、有监督精调方法是阿贝尔项目的核心,通过精心策划训练数据,帮助模型解决复杂的数学推理问题,展示了其在培养大模型能力方面的巨大潜力。
3、尽管取得成功,阿贝尔模型仍存在过拟合、泛化性、多语言性等局限性,需要进一步改进和拓展,但为国内人工智能研究团队赢得了国际认可,注入了新的活力。
📰🤖📢AI新鲜事
《权力的游戏》作者等作家起诉OpenAI侵犯版权
乔治·R·R·马丁等《权力的游戏》原著作者与其他知名作家共同起诉OpenAI侵犯版权,指控其未经授权使用他们的作品来训练大型语言模型,损害了创作者的生计。
AiBase提要:
1. 乔治·R·R·马丁等17位作家起诉OpenAI,指控其未经授权使用他们的作品进行大型语言模型的训练,可能导致侵权作品的生成,对作家市场造成潜在损害。
2. 诉讼希望被归类为集体诉讼,同时强调OpenAI本可以使用公有领域作品而非未经授权的版权材料进行训练。
3. 这是继之前发生的多起生成式AI公司侵权诉讼事件之后的最新一起案件,突显了生成式AI领域的法律挑战。
智谱AI全资收购清华系大模型公司聆心智能
智谱AI全资收购清华系大模型公司聆心智能,交易金额几亿人民币左右,提供资金支持和资源整合,保留一定独立性。
要点:
1、智谱AI全资收购聆心智能,交易金额几亿人民币左右,提供资金支持和资源整合。
2、智谱AI是国内市值最高的大模型公司之一,估值达到120亿元。
3、聆心智能此前与智谱AI合作发布了基于GLM基座的CharacterGLM超拟人大模型,保留独立性继续研究情感陪伴支持的AI技术。
麻省理工学院研究:辩论让AI机器人更加聪明
麻省理工学院的研究表明,多个AI系统辩论问题的答案可以显著提高AI机器人的准确性和推理能力。他们将这一方法称为“多智能体社会”,通过多轮回的响应生成和评论,模型可以改善输出结果,类似于团队讨论的结果。
AiBase提要:
1、多智能体辩论方法,通过多个AI模型合作来解决问题,提高了AI机器人的准确性和推理能力。
2、这一方法可以应用于现有的语言模型,如ChatGPT,以改进其输出质量。
3、在各种基准测试中,多智能体方法在自然语言处理和解谜等领域取得了卓越的成绩,显示了其潜力。
出于对AI的担忧,亚马逊限制自助出版商每日最多发表3本书
亚马逊因对人工智能(AI)滥用担忧,限制自助出版商每日最多发表3本书。尽管出版数量未激增,但他们认为这举措有助于防止潜在问题,同时发布了内容类型指南,要求创作者通知其关于AI生成内容,以控制AI对出版的影响。
AiBase提要:
1、亚马逊限制自助出版商每日最多发表3本书,以防止AI滥用。
2、出版数量未出现激增,但亚马逊担忧潜在问题。
3、亚马逊发布内容类型指南,要求创作者通知有关AI生成内容,以控制其影响。
ChatGPT发布9个月已成2023年最大金矿
ChatGPT在发布9个月后成为2023年最大的金矿,人们通过它赚到了钱。绝大多数生成式AI产品都是新兴的,许多企业自筹资金,且付费意愿强烈。大部分领先产品是从零开始构建的,靠自有模型或微调模型,而不是巨额投资。ChatGPT目前仍然遥遥领先其他生成式AI产品。
AiBase提要:
1. 生成式AI产品中,大多数是新兴企业,80%自筹资金,付费意愿强烈,90%已实现盈利,15%筹集至少5000万美元资本。
2. 领先产品主要是从零开始构建的,有自有模型或微调模型,不需要大笔投资。ChatGPT仍然占据领先地位。
3. 生成式AI产品中,聊天机器人占据主导,但伴侣AI和内容生成工具也崭露头角,模型中心也表现出色,市场仍在发展中。
反AI工具已经来了,数字水印是保护内容安全的关键
AI生成的内容日益充斥我们的生活,但很难分辨真伪。为提高内容透明度,各平台采取了添加数字水印的方法,以识别和保护AI生成内容。
AiBase提要:
1. AI生成的内容泛滥,真伪难辨,导致欧盟预测未来90%的内容将由AI产生或编辑。
2. 各平台采取数字水印技术来标记AI生成的内容,提高透明度和可信度。
3. 谷歌的SynthID和商汤科技的SenseTrust等工具可以嵌入肉眼不可见的水印,提供内容来源追溯和识别真伪的功能。
KYP.ai获得欧洲顶级科技风投支持,融资1870万美元
KYP.ai是一家欧洲生产力优化软件初创公司,成功完成了A轮融资,融资总额为1870万美元,由OTB Ventures领投,42CAP和Tola Capital跟投。他们的核心产品是名为"Productivity360°"的智能管理工具,旨在提高企业生产效率。
图源备注:图片由AI生成,图片授权服务商Midjourney
AiBase提要:
1. KYP.ai完成了价值1870万美元的A轮融资,由欧洲的OTB Ventures领投,并获得42CAP和Tola Capital的跟投。
2. 公司的核心产品是"Productivity360°",一款帮助企业提高生产效率的智能管理工具,通过分析数据和自动化任务来提供优化建议。
3. KYP.ai计划利用融资扩展其美国业务,并在欧洲和亚洲扩大现有客户群体,推广新的生成式AI模型和工具,为多个领域的客户提供服务,包括技术、保险、医疗保健、公用事业等。
🤖📱💼AI应用
GitHub的AI编程助手Copilot Chat面向个人用户开放
GitHub宣布将Copilot Chat公测版扩展至个人用户,提供实时编程帮助。用户可通过订阅每月或每年的个人用户费用来体验该功能,提高编码效率和质量。
AiBase提要:
1. GitHub将Copilot Chat公测版面向个人用户开放,允许与AI助手实时交流。
2. 开发者可在编写代码时学习新语言、解决错误、获取编程问题答案,无需离开开发环境。
3. AI编程助手在编程领域的广泛应用为开发者提供更多支持和便利,推动AI技术在编程领域的普及和应用。
亚马逊生成式 AI 增强语音助手:通过 Alexa LLM 改善智能家居的大脑
亚马逊的新Alexa语音助手将通过生成式人工智能提供更具对话能力、上下文理解和多重请求响应功能,提升智能家居体验。
AiBase提要:
1. 亚马逊揭示了由全新Alexa语言模型(LLM)支持的新Alexa语音助手,旨在通过生成式人工智能提供革命性的改进,使其更灵活、智能化。
2. 新的Alexa将更好地理解用户的对话,无需过于具体的术语,能够同时响应多个请求,并利用智能家居API提供更多上下文理解,以实现更高级的自动化控制。
3. 初期,新的Alexa将在美国以预览计划的形式推出,未来可能考虑向其他地区扩展,并可能提供收费的高级功能,使智能家居更强大。
金山办公:WPS AI 已接入金山办公全线产品
金山办公宣布WPS AI已接入全线产品,提供全组件AI功能,加强智能办公体验。CEO章庆元强调AI和协作是公司的战略,推出新产品AIGC、Copilot和Insight,同时将AI技术赋能给企业客户,打造一站式协作办公平台。
AiBase提要:
1、金山办公宣布WPS AI已接入全线产品,用户可体验全组件AI功能。
2、公司将推出新产品AIGC、Copilot和Insight,加强智能办公体验。
3、金山办公致力于将AI技术赋能给企业客户,打造一站式协作办公平台。
👨💻💡🎯聚焦开发者
韩国研究人员开发小样本学习模型,仅凭脑波数据就能发现人的意图
韩国Daegu科技大学的研究团队成功开发了一种小样本学习模型,能够仅凭少量脑波数据就准确分类人的意图,为脑波研究和应用带来新的可能性。
AiBase提要:
1、传统深度学习模型需要大量脑波数据,而新模型能仅使用少量数据便能准确分类脑波,推动了脑波相关研究。
2、研究团队采用了特征提取、时间注意、聚合注意和关系模块,提高了模型的分类准确性,克服了脑波数据个体差异的挑战。
3、这一突破有望在医疗和脑机接口领域产生深远影响,为更好理解和应用脑波数据打开了新的可能性。
GitHub CEO称AI不会取代开发人员,需求将超过供应
GitHub CEO Thomas Dohmke强调AI不会取代开发人员,软件需求将持续增长,包括维护遗留代码和使用生成AI,将继续推动对技术人才的需求。
图源备注:图片由AI生成,图片授权服务商Midjourney
AiBase提要:
1、AI工具如Copilot将提高开发人员的生产力,但不会替代他们,帮助他们更高效地工作。
2、未来十年内,软件数量将指数增长,几乎每家公司都将成为软件公司,增加了对开发人员的需求。
3、维护遗留代码和使用生成AI将进一步增加对技术人才的需求,而计算机科学专业的学生短缺将使需求不断上升。
新型AI超分辨率方法StableSR 利用预训练扩散模型提高图像保真度
StableSR是一项创新的AI超分辨率方法,利用预训练扩散模型提高图像保真度,与传统方法不同,它通过微调轻量级的时间感知编码器和特征调制层来执行超分辨率任务。该方法引入了可控的特征包装模块和渐进聚合采样策略,以解决扩散模型的随机性,并在任意分辨率下获得一致的输出。
项目地址:https://github.com/IceClear/StableSR
AiBase提要:
1、StableSR利用预训练扩散模型增强图像超分辨率,提供了高效的替代方案,不需要从头开始训练模型。
2、它采用时间感知编码器和特征调制层微调,以提高训练效率和保留生成先验知识。
3、引入可控的特征包装模块和渐进聚合采样策略,解决了处理任意分辨率的SR任务的挑战,提供了独特的解决方案。
LayoutNUWA:一个基于大型语言模型的布局生成工具
LayoutNUWA 是一基于大型语言模型的布局生成工具,可以将编码指令转化为出色的网页布局,提高设计效率和吸引力。
项目地址:https://github.com/projectnuwa/layoutnuwa
AiBase提要:
1、LayoutNUWA利用强大的自然语言处理和代码生成能力的LLaMA2-7B和CodeLLaMA-7B模型,自动生成美观的网页布局,减少编程工作。
2、支持Rico和PubLayNet数据集,用户可以轻松下载和准备数据,实现自动化布局生成,提高设计效率。
3、提供模型训练、推理和评估功能,用户可自定义训练参数,获得最佳布局生成模型,有助于设计和开发协同工作。
ViTMatte:采用最新抠图技术 提供快速、高质量的抠像功能
ViTMatte是一款基于HuggingFace Transformers库的图像抠像工具,由NielsRogge开发,旨在提供快速、高质量的图像抠像功能。
项目地址:
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/ViTMatte/Quick_inference_with_ViTMatte_for_image_matting.ipynb
AiBase提要:
1、快速图像抠像:ViTMatte能够在几秒内自动将图像中的前景与背景分离,无需复杂手动操作。
2、高质量的抠像结果:借助先进的Transformer技术,ViTMatte能够实现高质量的抠像效果,保留细节并减少失真。
3、用户友好的界面:ViTMatte提供简单易用的用户界面,即使对图像处理不熟悉的用户也能轻松上手。
- 0000
- 0000
- 0000
- 0000
- 0000