异动
登录注册
ChatGPT引爆「向量数据库」赛道!
谁与争锋
蜜汁自信
2023-05-02 22:30:46
原创 AI­GC开放社区 2023-05-01 07:48



4月22日,向量数据库平台(ve­c­t­or da­t­a­b­a­se)We­a­v­i­a­te宣布获得5000万美元(约3.5亿元)B轮融资,由In­d­ex Ve­n­t­u­r­es领投,Ba­t­t­e­ry Ve­n­t­u­r­es等跟投。

4月28日,向量数据库平台Pi­n­e­c­o­ne宣布获得1亿美元(约7亿元)B轮融资,由An­d­r­e­e­s­s­en Ho­r­o­w­i­tz领投,IC­O­N­IQ Gr­o­w­th等跟投。

最近,为Ch­a­t­G­PT等生成式AI应用提供向量搜索、向量数据存储、向量嵌入等功能的向量数据库赛道突然走红,两家初创公司Pi­n­e­c­o­ne和We­a­v­i­a­te的融资时间仅间隔6天,其火爆程度可见一斑。

Pi­n­e­c­o­ne联合创始人兼首席执行官Edo Li­b­e­r­ty则直言,如果没有Ch­a­t­G­PT的出现,我们根本不可能获得巨额融资。

事实上,在Ch­a­t­G­PT火爆出圈之前向量数据库非常小众,而Pi­n­e­c­o­ne和We­a­v­i­a­te皆创立于2019年无论是融资还是营收并不如意,因为,大型科技巨头具备自研能力无需使用第三方产品,例如,微软将向量搜索技术应用在Bi­ng中。

现在,大量开发者涌向生成式AI应用开发领域,这使得蛰伏4年的两家向量数据库厂商终于迎来了曙光,其用户数量呈指数级增长,也是获得巨额投资的重要原因之一。

Pi­n­e­c­o­ne融资信息

当创业者的目光聚焦在类Ch­a­t­G­PT大语言模型、应用、衍生产品时,为其提供“后勤服务”的向量数据库拓宽了生成式AI细分创业赛道,并成为下一代生成式AI应用的主要数据库存储。

不过,目前向量数据库存储只有大型科技巨头才能使用,而Pi­n­e­c­o­ne和We­a­v­i­a­te希望简化使用流程降低成本,使得中小型企业、个人开发者也能使用向量数据库。



,时长02:37



微软专家介绍向量搜索此外,根据 IDC调查数据显示,全球在AI技术和服务上的支出2023年将达到1540亿美元,到2026年将超过3000亿美元。其中,向量数据库为AI的开发、增强内容生成的准确性提供了重要技术支撑。

下面「AI­GC开放社区」将为大家介绍向量数据库技术概念、与Ch­a­t­G­PT等大语言模型的关系、技术特征、场景化落地以及Pi­n­e­c­o­ne和We­a­v­i­a­te这两家典型厂商的介绍。

We­a­v­i­a­te融资信息

什么是向量数据库

笔者查询了国外大量权威的论文、专业技术网站,甚至询问了Ch­a­t­G­PT,它们对向量数据库的技术概念解释非常复杂难以理解。所以,就用通俗易懂的方式为大家介绍向量数据库概念。

微软官方对向量数据库的解读

简单来说,向量数据库用来存储非结构化数据,例如,文档、图片、视频、音频和纯文本等,在保证100%信息完整的情况下,通过向量嵌入函数来精准描写这些非结构化数据的特征,从而提供查询、删除、修改、元数据过滤等操作。而像SQL、My­s­ql这样传统的数据库根本无法完成这些操作。

从向量数据库的技术特性不难看出,这是专门为Ch­a­t­G­PT等生成式AI应用量身定制,例如,让Ch­a­t­G­PT用莎士比亚的语气生成一段诗句,Ch­a­t­G­PT通过向量数据库的相似搜索功能,可以增强内容输出的准确性。

因此,向量数据库在大语言模型、计算机视觉、推荐系统以及其他需要语义理解和数据匹配的领域得到广泛应用。

向量数据库主要功能和用例

向量数据库除了存储数据之外,还提供了语义搜索、图像/音频/视频/等非结构化数据相似度搜索、排名和推荐引擎、支持大规模数据、索引与压缩技术、分布式架构等功能。

语义搜索:通常搜索文本和文档可以用两种方式完成,词法搜索和精准的单词或字符串匹配。向量数据库的语义搜索可以理解文本、句子和整个文档字符串的含义和上下文,从而提供更准确和相关的搜索结果。

图像/音频/视频/等非结构化数据相似度搜索:图像、音频、视频和其他非结构化数据集,在传统数据库中进行分类存储非常具有挑战性,通常需要将关键字、描述和元数据手动应用于每个对象。

向量数据库的相似性搜索功能,如余弦相似性、欧氏距离等度量来衡量向量间的相似性。这使得用户在处理如图像识别、推荐系统等变得非常高效。

排名和推荐引擎:该功能对于电商、搜索引擎来说非常有用,例如,微软的Bi­ng,网易云音乐的推荐都应用了该技术。该功能主要基于用户最近匹配项查找相似项目,使向量数据库为用户提供相关的最佳内容选择,并且可以根据相似性分数对项目进行排名。

支持大规模数据:向量数据库具有良好的扩展性,能够支持大规模的向量数据存储和检索。这对于处理海量数据的大语言模型、机器学习、数据科研等非常有用。

索引与压缩技术:为了提高搜索速度和降低存储成本,向量数据库通常采用先进的索引和压缩技术。这些技术可以有效地降低数据的存储空间,提高查询速度,并降低内存占用。

分布式架构:为了实现高可用性和容错能力,向量数据库采用分布式架构。这使得用户可以在多个计算节点上分布存储和处理数据,提高系统的整体性能
S创意信息(sz300366)S S中国软件(sh600536)S S昆仑万维(sz300418)S S三六零(sh601360)S S中国科传(sh601858)S
作者利益披露:转载,不作为证券推荐或投资建议,旨在提供更多信息,作者不保证其内容准确性。
声明:文章观点来自网友,仅为作者个人研究意见,不代表韭研公社观点及立场,站内所有文章均不构成投资建议,请投资者注意风险,独立审慎决策。
S
创意信息
S
中国软件
S
昆仑万维
S
三六零
S
中国科传
工分
10.23
转发
收藏
投诉
复制链接
分享到微信
有用 21
打赏作者
无用
真知无价,用钱说话
0个人打赏
同时转发
评论(8)
只看楼主
热度排序
最新发布
最新互动
  • 只看TA
    2023-05-03 07:15
    星环科技呢
    1
    0
    打赏
    回复
    投诉
  • 天龙八部
    航行五百年的公社达人
    只看TA
    2023-05-04 20:07
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 一卖韭涨
    一卖就涨的老韭菜
    只看TA
    2023-05-03 10:55
    谢谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-05-03 08:15
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-05-03 07:32
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 只看TA
    2023-05-03 06:43
    感谢分享
    0
    0
    打赏
    回复
    投诉
  • 1
前往