TCG体育腾讯清华等推出图生视频模型；华为系大模型创企获千万级融资；小米手机上线AIGC修图丨AIGC大事日报

公司相册 | 2024-03-16 19:21

　　TCG体育 TCG体育18、OpenAI模型驱动人形机器人自主对线、OpenAI官宣新的国际新闻机构合作伙伴

　　今天，根据预印本平台arXiv，苹果研究人员公布了最新多模态大模型研究成果MM1，这一系列模型参数最高为30B。得益于大规模的预训练，MM1具有增强的上下文学习和多图像推理等能力，可以实现少量的思维链提示。

　　据彭博社报道，苹果今年早些时候已收购加拿大AI创企DarwinAI，并将这家创企的数十名员工纳入了其AI部门中。DarwinAI的主要业务包括为制造商制造可以进行视觉检查的AI系统，以及“使神经网络模型更小、更快”。

　　今天，大模型创企Anthropic联合创始人Daniela Amodei在接受彭博社采访时提到，归功于其新发布的大模型Claude 3系列，Anthropic正在吸引金融服务和医疗保健领域的企业。

　　昨天，甲骨文宣布将在甲骨文融合云应用套件中推出新的生成式AI功能，包括嵌入财务、供应链、人力资源、销售、营销和服务等现有业务工作流程中的新功能，以及Oracle Guided Journeys的可扩展性框架的支持。

　　昨天，小米官方宣布，小米相册AIGC编辑功能正式上线 Ultra手机，并将在本月内全量上线 Pro和Redmi K70系列手机。

　　在3月14-15日举行的华为中国合作伙伴大会2024上，华为联合伙伴发布政务大模型和城市大模型首批应用场景。华为基于城市智能中枢的架构，提供昇腾适配使能、自然语言大模型使能、多模态大模型使能、工具平台开发使能等四大核心能力。华为联合致远互联、华海智汇、国泰新点、南威软件、泛微网络等发布了政务大模型首批应用场景。联合奥看科技、四方伟业、国泰新点、丰图科技、数字冰雹、睿呈时代等发布了城市大模型首批应用场景。

　　据36氪报道，近日深圳夸夸菁领科技有限公司获千万级天使轮融资，投资方为个人。夸夸菁领成立于2023年，主要为企业和政府客户提供基于AI大模型的新型用工模式，夸夸菁领以华为盘古大模型为基底，为“数智员工”提供通识教育；而后通过与人力资源行业、法律等行业合作为其喂养行业数据，完成专业训练；进入企业或政府单位后，接受数月的流程培训和场景化训练便可正式投入应用。

　　AI驱动美图2023年净利润大涨233.2%、今天，美图披露2023年业绩报告：总收入27亿元，同比增长29.3%。经调整后归属于母公司权益持有人净利润3.7亿元，同比增长233.2%。总收入与净利润增长主要得益于AI推动主营业务收入增长。美图用户每天处理数亿份图片和视频，约83%都用到了泛AI功能。

　　今天，大模型创企生数科技宣布，生数科技多模态大模型正式通过国家《生成式人工智能服务管理暂行办法》备案，这也是国内首个原生多模态大模型通过国家备案。

　　今天，海信发布自研星海大模型。海信视像科技总裁李炜透露，星海大模型基于海信自有的千万级别高质量语言、图像等数据进行训练，在权威测评榜单C-Eval上位列第二，电视行业第一。

　　昨天，杭州市科技局、杭州技术转移转化中心共同发布了国内首个成果转化领域大模型“智者大模型1.0”。杭转中心相关负责人介绍，“智者大模型1.0”的主要功能是企业的智能画像、成果的智能化评价、供需的智能化匹配等。

　　今天，汉王科技天地大模型正式通过国家《生成式人工智能服务管理暂行办法》备案。天地大模型于去年10月正式发布，具备多模态、语义理解、逻辑推理、数学计算、知识搜索、工具调用、内容生成、多语言和多轮对线、首个区域实时文生图架构发布

　　昨天，开源平台Hugging Face上的论文，提出了一种实时、交互式的文本到图像生成系统StreamMultiDiffusion。论文的摘要部分显示，这是第一个基于区域的实时文本到图像生成框架。研究人员通过稳定快速推理技术将模型重组为新提出的多提示流批处理架构，其全景图生成速度比现有解决方案快10倍，并且在基于区域的文本到图像合成中的生成速度为1.57 FPS单个RTX 2080 Ti GPU。

　　今天，在预印本平台arXiv上，一篇论文介绍了3D视觉-语言-动作生成世界模型3D-VLA。研究人员通过引入一系列新的具体化基础模型来提出3D-VLA，这些模型通过生成世界模型无缝链接3D感知、推理和行动。具体来说，3D-VLA 构建在基于3D的大语言模型之上，并引入了一组交互令牌来与具体环境进行交互。研究保留数据集的实验表明，3D-VLA提高了具体环境中的推理、多模态生成和规划能力。

　　在3月14-15日举办的华为中国合作伙伴大会上，华为公司董事ICT产品与解决方案总裁杨超斌透露，预计2024年中国区AI训推一体机的市场空间为168亿元。杨超斌称，2023年昇腾的模型和算子覆盖率、鲲鹏的应用覆盖率均快速提升，今年将发展超过50家鲲鹏和昇腾的伙伴。

　　昨天，欧盟宣布委员会已根据《数字服务法（DSA）》正式向Bing和谷歌搜索两大超大型在线搜索引擎以及Facebook、Instagram、Snapchat、TikTok、YouTube和X六大在线平台，发送有关生成式人工智能风险信息的请求。委员会要求这些服务平台提供更多信息，说明各自针对与生成式AI相关风险的缓解措施，例如AI提供虚假信息的所谓“幻觉”、深度伪造品的病毒式传播等。有关公司必须在2024年4月5日之前向委员会提供有关选举保护相关问题的信息，并在2024年4月26日之前向委员会提供其余问题的信息。

　　前日晚间，人形机器人独角兽Figure发布了机器人Figure 01的最新进展视频。在OpenAI大模型的驱动下，它能自主与人对话、理解意图并执行决策。据Figure的AI技术负责人称，视频中的行为都是机器人自己学习并完成的，没有任何人为操控，而且视频是标准的“1倍速”。Figure创始人称，OpenAI提供了视觉推理和语言理解能力，而Figure的神经网络则负责实现快速、灵敏的机器人动作。

　　昨天，OpenAI宣布与国际新闻机构Le Monde和Prisa Media合作，将法语和西班牙语新闻内容引入ChatGPT。在接下来的几个月中，ChatGPT用户将能够通过精选的摘要，与这些发布商的相关新闻内容进行交互，从其新闻网站访问其他信息或相关文章。

　　据《商业内幕》报道，昨天，OpenAI CEO阿尔特曼在接受采访时称，当马斯克对OpenAI及几位联合创始人提起诉讼，他给马斯克发送了一条“无关紧要的”短信。记者询问他是不是发了类似“WTF”的内容，他说比那个要友善一些。在那之后，他们又“互相发送了一些表情符号”。

　　昨天，微软宣布Copilot for Security（国际版）将于4月1日在全球范围内正式发布。这是全球信息安全领域首个独立的生成式AI解决方案，面向安全和IT专业人员，能全面洞察安全态势，更快地采取行动，并增强团队专业技能。据介绍，微软Copilot for Security每天处理超过78万亿超大规模的安全信号，资深安全专业人员在使用Copilot后工作效率提高了22%，任务准确率提高了7%。

　　据MSPowerUser昨天报道，微软Copilot Pro介绍中出现GPT-5字眼，显示开通可以优先访问GPT-5 Turbo。微软广告和网络服务首席执行官Mikhail Parakhin回应称，这是一个拼写错误，应该是GPT-V。也有网友发现，在其他购买页面的详情中所写的是GPT-4 Turbo。截至目前，微软仍未修复该错误。

　　前天晚间，谷歌DeepMind团队发布了可扩展、可指导的多世界智能体SIMA（Scalable Instructable Multiworld Agent），该智能体可以遵循自然语言指令在各种视频游戏环境中执行任务，从个别游戏转向通用的、可指导的游戏AI智能体。据介绍，SIMA适用于3D虚拟环境，可通过语言接口将先进的AI模型能力转化为有用的现实世界行动。

　　昨天，谷歌发布了一种从单个人物输入图像，生成基于文本和音频驱动的人类说话视频的方法VLOGGER。它基于生成扩散模型，包括一种随机的人物到3D动作扩散模型，以及一种新的基于扩散的架构，将文本到图像模型与时间和空间控制相结合。据介绍，VLOGGER可以生成高质量、长度可变的视频，并通过人脸和身体的高级表达进行控制。

　　据百度营销中心微信公众号前天发文，百度联合深圳市消费者委员会推出全国首个消费者组织数字人“鹏维维”。数字人“鹏维维”由百度AIGC创意生成平台擎舵提供数字人建模、语音克隆、动作捕捉、AI和算法驱动等技术支持。擎舵基于文心一言底层大数据模型，利用数字人建模技术和语音克隆技术，实现了对线还原，让数字人带给用户更接近真人的交流体验。

　　据达摩院DAMO微信公众号发文，昨日，2024阿里巴巴全球数学竞赛开启报名。今年赛事首次向AI开放，邀请全球AI大模型挑战竞赛难度试题。本届大赛初赛时间为4月13日-14日，参赛的AI模型将与人类选手一同在线上应对初赛试题的挑战，组委会将重点评估AI模型对题目的理解、逻辑推理准确性和问题解决能力。为了确保公平竞赛，避免人类的情况出现，参赛者需要在开赛前提交模型代码，供校验复现。最终得分排名前三的AI团队将依次获得奖金10000美元、5000美元、2000美元。

　　昨日，大模型创企零一万物发布了Yi大模型API（应用程序接口）开放平台。据悉，此次 API 开放平台提供以下模型：Yi-34B-Chat-0205，支持通用聊天、问答、对话、写作、翻译等功能；Yi-34B-Chat-200K，支持200K 上下文，多文档阅读理解、超长知识库构建；Yi-VL-Plus多模态模型，支持文本、视觉多模态输入，中文图表体验超过GPT-4V。

　　据腾讯科技昨日报道，AI创企百川智能CEO王小川在接受其采访时谈道，公司的工程师在技术会上试着说服他尝试文生视频，但他认为像Sora之类的文生视频模型既不靠近AGI理想，也不靠近现实场景，并明确拍板：百川不走Sora路径。王小川认为，现在的Sora不懂物理规律，没有深入到后面的分子、细胞相变，只是模拟引擎，因此Sora要把物理学全都学会才会变成世界引擎。他还称，Sora的高度、突破性、应用价值低于GPT。

　　据旷视MEGVII微信公众号发文，前天，中央、国务院总理李强在北京调研，旷视联合创始人、CEO印奇作为北京市AI企业代表参加座谈会，汇报了公司在大模型领域的技术创新思路。印奇称，旷视将推动多模态大模型的技术创新和行业应用，发挥在软硬结合方面的优势，围绕“大模型+机器人”的发展方向，推动AI为实体产业创造价值。

　　据硬氪昨日报道，篆芯半导体南京有限公司日前完成2亿元A2轮融资，此次融资由隆湫资本领投，睿悦投资、柠盟投资、君盛资本、卓源亚洲、华方资本等多家新老股东跟投。本轮融资资金将用于技术研发和产品升级。据悉，篆芯于2021年成立，主要业务是为AI、云计算、万物互联时代打造网络芯片，服务国内主流的网络设备提供商。篆芯即将推出第一款芯片“兰亭”，其具备高性能、可编程交换的特性，在云计算数据中心、园区网、核心骨干网等关键基础设施中均可适配。

　　据英伟达微信公众号前天发文，英伟达即将推出一项新的生成式AI专业认证，助力开发者在这一重要领域证明自身技术实力。这项认证将在3月18日至21日举行的GTC大会上正式推出，同时提供现场和线上的相关培训课程。目前新推出的专业认证计划包含两项入门级（Associate-level）生成式AI认证，这两项认证专注于考察对大语言模型和多模态工作流技能的掌握程度。

　　据彭博社昨日援引知情人士消息报道，软银集团正在探索对法国大模型创企Mistral AI的潜在投资。据称，软银已表示有兴趣在Mistral下一次融资时为其提供支持，任何交易都有可能使Mistral的估值超过20亿美元。双方的商议仍在进行中，目前还不能确定是否会达成协议。软银和Mistral的代表拒绝置评。

　　据VentureBeat报道，昨日，欧盟议会批准了《人工智能法案》（EU AI Act），这是全球首部全面监管AI的法规。这部法案诞生于2021年，将AI技术分为不同的风险类别，从“不可接受”到高、中和低四个级别TCG体育。法案根据不同的风险等级对AI的不同用途进行监管，违规者最高将面临其全球营收7%的罚款。该法案仍需要获得欧盟理事会的批准，如果通过将于今年5月底正式立法生效。

　　前天晚间，AI芯片创企Cerebras发布了Wafer Scale Engine 3（WSE-3），其将现有最快AI芯片的世界纪录加倍。在相同的功耗和价格下，WSE-3的性能是之前的纪录保持者Cerebr的两倍。WSE-3使用台积电的5nm工艺打造，包含4万亿个晶体管、90万个AI核心、44GB片上SRAM，外部存储器为1.5TB、12TB或1.2PB，峰值性能为125 FP16 PetaFLOPS。该芯片能训练高达24万亿个参数的AI模型，其打造的集群规模达2048个CS-3系统。

　　据路透社报道，英伟达支持的AI基础设施创企Together AI近日完成1.06亿美元融资，由Salesforce领投，Coatue Management等老股东跟投。自去年秋天以来，随着投资者纷纷支持生成式AI初创公司，其估值翻了一番，此次融资对Together AI的估值为12.5亿美元。