人工智能的三个核心要素:1、数据;2、算法;3、算力。这三个要素缺一不可,相互促进、相互支撑,都是智能技术创造价值和取得成功的必备条件。
1、数据数据是人工智能发展的基础。公司旗下拥有中国第一大中文数据库--知网,知网旗下富含海量数据,涵盖了各个领域,具有最高的专业性及时效性。
同方旗下知网公众号发布:去年12月,OpenAI推出的生成式人工智能产品ChatGPT在全球引发广泛关注。业界预测,ChatGPT所依赖的预训练大模型将成为数字经济时代智能信息处理的基础设施,有望成为新一代生产力工具。
要发展以ChatGPT为代表的生成式人工智能技术,韩泳江认为,高质量、大规模、多种类的数据资源是必不可少的。ChatGPT就是通过“博览群书”,在一个拥有3000多亿字的超大语料数据基础上预训练而成的。
韩泳江介绍说,同方股份正加强政策引导,加大科研投入,充分发挥自己的数据资源优势,研发中文大语言模型相关技术,力争率先在学术领域及教育、医疗等重点垂直领域做出有中国特色的类ChatGPT产品,为未来数字赋能产业转型升级提供强大的数据生产力支撑。
他强调,数据是此次人工智能浪潮的基石,数据的数量和质量是人工智能算法可靠性的基础。我国数据产业发展已具备一定基础,但需要加快建立数据产权制度,完善相关法律法规,从而促进数据要素价值有效释放,更好地服务数字中国建设。
人工智能是需要语料的喂养的,而现如今的中文互联网因为各种规则使然,其中包含的语料已经变得越来越小圈层化,黑话不少。为了避免某些关键字,“依托答辩”这样的新式词汇层出不穷,这给期望ChatGPT反馈出严谨靠谱内容的实用场景带来了不小问题。在认真说话已经成为奢望的如今,靠谱的语料反而成了一种稀有物品。
中文最靠谱的语料,莫过于精心打磨的论文。论文虽然大多是新东西,但是其前面的序言部分是对学科内容的总结,一般也是专业人员经过认真书写得到,是不可多得的好语料。而要ChatGPT迅速成为某些领域的入门级专家,那么中国知网的数据库不可缺少。需要注意的是,知网具有一定的垄断特性,其中文数据量是国内首屈一指的。如果大模型能够通过知网的数据库进行训练,那么AI的进化会非常快。相对来说,算力与模型构造能力都是充分竞争的市场,各个企业的研发能力均有稳定的梯队。新增的需求会给他们带来增量业务,但是很难说会给互联网江湖以及算力行业的格局带来重大变革。相反,拥有龙头优势的中国知网反而可能通过卖语料获得新的商业模式,摆脱之前被广为诟病的向高校涨价的单一模式,获得新生。
2、算法
算法是人工智能发展的框架。
中国知网作为最大的中文文献数据库,拥有极强的数据处理能力,NLP也是日常工作中最常用的技术。
同方股份旗下全资子公司同方威视在AI算法领域也具有领先的计算能力3、算力