今日要闻!直指AI发展两大瓶颈北京这份文件给出答案：实施算力伙伴计划、建设预训练语料库

《科创板日报》5月16日讯继表态“支持头部企业打造对标ChatGPT的大模型”后，北京市近日公开待定的新措施，直指AIGC发展中算力、数据不足两大痛点。

据北京市政府网站消息，为抢抓大模型发展机遇，重视通用人工智能发展，北京市科委、中关村管委会制定了《北京市促进通用人工智能创新发展的若干措施（2023-2025年）（征求意见稿）》，公开征集意见时间为2023年5月12日至5月19日。

(资料图片)

除了算力、数据要素，这些措施还涵盖了AI发展的多个关键环节，包括大模型技术、AI应用、审慎监管。

▌实施算力伙伴计划新增算力建设项目

针对算力不足的问题，北京市提出了三项待定举措：发展商业算力、新增算力基建、建设多云算力调度平台。

具体为组织商业算力定向满足本市紧迫需求，加强与头部公有云厂商等市场主体合作，实施算力伙伴计划，并将新增算力建设项目纳入算力伙伴计划，加快推动海淀区“北京人工智能公共算力平台”，朝阳区“北京数字经济算力中心”等项目建设，建设统一的多云算力调度平台，实现异构算力环境统一管理、统一运营。

其建设算力基础设施的目标是支撑千亿级参数量的大型语言模型、多模态大模型、大规模精细神经网络模拟仿真模型、脑启发神经网络等研发。

建设多云算力调度平台是为了方便企业在不同云环境上无缝、经济、高效地运行各类AI计算任务。

值得注意的是，该措施提出要为此建设北京与河北、天津、山西、内蒙古等省（市）算力集群的直连基础光传输网络，进一步提升平台对四地算力资源感知能力，探索开展算力交易。

▌中文语料太少怎么办？将建设合规语料库

目前，国内各公司发展大模型缺乏用于AI训练的大规模中文语料集，无论高质量的还是低质量的中文语料集都极端缺乏。

对此，北京市提出，针对目前大模型训练高质量中文语料占比过少，不利于中文语境表达及产业应用的问题，整合现有开源中文预训练数据集和高质量互联网中文数据并进行合规清洗。同时持续扩展高质量多模态数据来源，建设合规安全的中文、图文对、音频、视频等大模型预训练语料库，通过北京国际大数据交易所社会数据专区进行定向有条件开放。

解决了棘手的数据来源问题，数据的收集和处理同样是个昂贵且缓慢的过程，北京市提出要打造“国家数据基础制度先行先试示范区”，谋划国家级数据训练基地、搭建数据集精细化标注众包服务平台，研发数据采集、清洗、标注、脱敏、存储等功能在内的数据处理工具。

另外，对于数据应用、数据监管，北京市均有相关具体措施，包括加大对政务、医疗、科研、自动驾驶等领域数据的挖掘利用；确保训练数据集的规范性、加强个人数据保护等。

▌“算力即权力” 数据将成“胜负手”

当下，人工智能已成为新一轮科技热潮的核心发力方向。

5月5日中央财经委二十届第一次会议和国常会相继召开，会议强调，要把握人工智能等新科技革命浪潮。国家发改委近日表示，要加快发展数字经济，重视通用人工智能发展。

以ChatGPT为代表的AIGC工具开启了以大为美的人工智能新时代，随着人工智能生产力被充分激发、多模态的兴起，以及各种开源、小模型频频亮相，巨大的算力消耗能力、海量的数据需求已然成为技术迭代路上的拦路石。

谁能最先突破瓶颈，谁就能成为这轮科技革命的佼佼者。

国盛证券表示，“算力即权力”，算力是人工智能从玩具向工具的使能者。未来的算力将会呈现出从云端到边缘梯度分布的格局，云端算力负责复杂科学计算，大模型运算推理等任务，边缘侧则凭借隐私、时延与成本三大优势，成为小模型与AI应用触及万千用户与场景的通道。