《科创板日报》5月16日讯继表态“支持头部企业打造对标ChatGPT的大模型”后,北京市近日公开待定的新措施,直指AIGC发展中算力、数据不足两大痛点。
据北京市政府网站消息,为抢抓大模型发展机遇,重视通用人工智能发展,北京市科委、中关村管委会制定了《北京市促进通用人工智能创新发展的若干措施(2023-2025年)(征求意见稿)》,公开征集意见时间为2023年5月12日至5月19日。
(资料图片)
除了算力、数据要素,这些措施还涵盖了AI发展的多个关键环节,包括大模型技术、AI应用、审慎监管。
▌实施算力伙伴计划 新增算力建设项目
针对算力不足的问题,北京市提出了三项待定举措:发展商业算力、新增算力基建、建设多云算力调度平台。
具体为组织商业算力定向满足本市紧迫需求,加强与头部公有云厂商等市场主体合作,实施算力伙伴计划,并将新增算力建设项目纳入算力伙伴计划,加快推动海淀区“北京人工智能公共算力平台”,朝阳区“北京数字经济算力中心”等项目建设,建设统一的多云算力调度平台,实现异构算力环境统一管理、统一运营。
其建设算力基础设施的目标是支撑千亿级参数量的大型语言模型、多模态大模型、大规模精细神经网络模拟仿真模型、脑启发神经网络等研发。
建设多云算力调度平台是为了方便企业在不同云环境上无缝、经济、高效地运行各类AI计算任务。
值得注意的是,该措施提出要为此建设北京与河北、天津、山西、内蒙古等省(市)算力集群的直连基础光传输网络,进一步提升平台对四地算力资源感知能力,探索开展算力交易。
▌中文语料太少怎么办?将建设合规语料库
目前,国内各公司发展大模型缺乏用于AI训练的大规模中文语料集,无论高质量的还是低质量的中文语料集都极端缺乏。
对此,北京市提出,针对目前大模型训练高质量中文语料占比过少,不利于中文语境表达及产业应用的问题,整合现有开源中文预训练数据集和高质量互联网中文数据并进行合规清洗。同时持续扩展高质量多模态数据来源,建设合规安全的中文、图文对、音频、视频等大模型预训练语料库,通过北京国际大数据交易所社会数据专区进行定向有条件开放。
解决了棘手的数据来源问题,数据的收集和处理同样是个昂贵且缓慢的过程,北京市提出要打造“国家数据基础制度先行先试示范区”,谋划国家级数据训练基地、搭建数据集精细化标注众包服务平台,研发数据采集、清洗、标注、脱敏、存储等功能在内的数据处理工具。
另外,对于数据应用、数据监管,北京市均有相关具体措施,包括加大对政务、医疗、科研、自动驾驶等领域数据的挖掘利用;确保训练数据集的规范性、加强个人数据保护等。
▌“算力即权力” 数据将成“胜负手”
当下,人工智能已成为新一轮科技热潮的核心发力方向。
5月5日中央财经委二十届第一次会议和国常会相继召开,会议强调,要把握人工智能等新科技革命浪潮。国家发改委近日表示,要加快发展数字经济,重视通用人工智能发展。
以ChatGPT为代表的AIGC工具开启了以大为美的人工智能新时代,随着人工智能生产力被充分激发、多模态的兴起,以及各种开源、小模型频频亮相,巨大的算力消耗能力、海量的数据需求已然成为技术迭代路上的拦路石。
谁能最先突破瓶颈,谁就能成为这轮科技革命的佼佼者。
国盛证券表示,“算力即权力”,算力是人工智能从玩具向工具的使能者。未来的算力将会呈现出从云端到边缘梯度分布的格局,云端算力负责复杂科学计算,大模型运算推理等任务,边缘侧则凭借隐私、时延与成本三大优势,成为小模型与AI应用触及万千用户与场景的通道。
该机构分析师宋嘉吉称,随着边缘算力需求持续增加,模组作为边缘算力的最佳载体,将成为AI的毛细血管,边缘IDC也将为城域级算力建设打开全新空间,他列出了下列关注方向:
1)光通信:新易盛、天孚通信、中际旭创、太辰光、德科立、华工科技;
2)云算力:光环新网、奥飞数据、数据港、润泽科技;
3)边缘算力:美格智能、广和通、龙宇股份;
4)服务器&交换机:中兴通讯、紫光股份、锐捷网络;
5)核心网:震有科技。
东吴证券则指出,对于我国而言,算法和算力都可以通过挖掘优质人才、引进优秀工程实践,或者直接购买海外优质资产追赶。而培养中文环境的优质数据集、语料库却必须长期自我积累沉淀,未来数据将成为AI发展的胜负手,并有望为中国训练自己的大模型,走出差异化道路提供重要基础。
该机构分析师王紫敬看好以下三个环节:
1)数据运营:预计医保数据将有望成为公共数据放开的第一站,重点推荐久远银海,建议关注山大地纬、中科江南等;
2)数据基础设施:有望成为最先放量兑现的环节。重点推荐深桑达A,易华录,云赛智联,建议关注中国电信;
3)数据安全:看好具备央国企背景和数据安全业务积累的相关厂商。推荐启明星辰、奇安信、安恒信息、电科网安等。