局部优化乘积量化 一句话概括本篇文章,在IVF(或者任何粗量化器)的每个cell内单独对残差训练一个fine-quantizer。之前普遍的方法是对残差也全局来训。LOPQ是...
局部优化乘积量化 一句话概括本篇文章,在IVF(或者任何粗量化器)的每个cell内单独对残差训练一个fine-quantizer。之前普遍的方法是对残差也全局来训。LOPQ是...
十亿级深度学习向量数据集的高效索引 作者来自俄罗斯Yandex 编者的总结 核心思路是使用VQ而非PQ避免分段产生各分段之间的互信息损失。 技术手段是使用VQ中的RVQ做两层...
HCNNG (Hierarchical Clustering-Based Nearest Neighbor Graph)是近些年在多个benchmark中评测位列前茅的图索引...
如题,又是一个血泪教训。。。 二维vector,比如vector<vector >a,如果要写入文件,或者读取,切忌不可fwrite(&a[0][0], sizeof(int...
说明:本人8月5日成功申请到“2020年国家建设高水平大学公派研究生项目”联合培养博士,由于疫情影响网申时间顺延为5月15日至6月10日,本文记录了我的CSC申请全过程。 申...
Steiner Tree是一个经典的NP-hard问题,问题定义不在这里重复了,主要介绍几种近年来典型的解法思路。Steiner Forest扩展了Tree的定义,设置一组起...
本文作者来自丹麦和意大利,曾设计ann-benchmarks获得ANN领域广泛关注。 编者的思考 只选了数据集中的点当做query,可能会有bias。 LID, expans...
2019BIGVIS-Progressive Similarity Search on Time Series Data标题:时间序列similarity-search的一个...
作者来自英伟达 编者:本文只介绍图结构,GPU部分暂时省略。 编者的总结(图结构方面) 是NSSG的一个改版,用一个K较大的KNN-Graph做初始化,然后在其中通过两条绕路...
标题:高维数据的最近邻:hub的产生和影响本文还有扩展版:Hubs in Space: Popular Nearest Neighbors in High-Dimension...
hubness(exact入度)比较大的点,最终在nn-descent产生的Kgraph中的召回普遍比较高,hubness比较小的点则说不准,有的召回高,有的召回低。 原因:...
标题:大规模高维数据可视化作者来自MSRA代码开源好用:https://github.com/lferry007/LargeVis[https://github.com/lf...
标题:层次化最近邻图嵌入以高效降维作者来自德国,代码开源好用。https://github.com/koulakis/h-nne[https://github.com/kou...
请教下3.2部分概率模型那里,没有看懂是怎么从knnGraph投影过去的
Visualizing large-scale and high-dimensional dataAbstract: 之前的降维技术用t-SNE等技术:计算量大我们:LargeVis,利用K近邻算法,效率和效力都好,对不同的数据集表现稳定。 Introduction 对于...
Abstract: 之前的降维技术用t-SNE等技术:计算量大我们:LargeVis,利用K近邻算法,效率和效力都好,对不同的数据集表现稳定。 Introduction 对于...
标题:efanna:基于KNN-Graph的超快ANN算法 基本思路:在KNN-Graph上保留一个randomize kd-trees,作为KNN-Graph的入口点 搜索...
Marigold: 高效的高维k-means聚类 ABSTRACT & 1 INTRODUCTION k-means的泛用性不必多说,但在高维空间中,由于距离计算的代价线性...
作者来自东华、UNSW和天津科技大学。 Abstract 本文想要回答两个问题: 为什么基于图的算法搜索性能这么好? 什么样的数据特征会影响搜索性能,以及如何影响? I. I...
标题:通过优化的有指导搜索和贪婪算法实现近邻图上的两阶段搜索作者来自杭电 编者的总结 本文将图上的贪婪查询分为两阶段,第一阶段导航重点在效率,第二阶段搜局部近邻重点在精度。 ...
编者的总结 本文在billion级别数据集上做的对比实验,结果不出意外,HNSW, Vamnna性能最稳定。值得注意的是,HCNNG在out-of-distribution数...