Закажи экспресс-аудит своего дела онлайн всего за 199 ₽
и получи рекомендации по улучшению - Жми сюда !

Qdrant TurboQuant: объяснение принципа работы TurboQuant? Является ли TurboQuant панацеей?

Большинство инженеров рассматривают квантование как уменьшение векторов. TurboQuant задает более сложный вопрос: можно ли уменьшить их, не нарушая их геометрию?

Делиться

a6d076331d30c31f93162f3cbb9bbc0f
Изображение предоставлено автором с помощью ChatGPT.

Большинство инженеров рассматривают квантование как компромисс между памятью и полнотой. Стандартом является формат Float32, обеспечивающий высокую точность, но и значительные затраты памяти. Базовым решением является скалярное квантование, которое уменьшает каждое значение до меньшего количества битов (примерно в 4 раза сильнее сжатие) с небольшой потерей полноты. Хотя бинарное квантование обеспечивает гораздо большую точность, часто достигая 32-кратного сжатия, результат извлечения может стать непоследовательным из-за потери информации. С другой стороны, квантование произведения может быть более эффективным, но его сложнее настраивать и использовать в реальных производственных условиях.

В начале мая 2026 года компания Qdrant выпустила TurboQuant, новый метод квантизации. Они заявили, что «TurboQuant может сократить использование памяти, не делая качество поиска слишком нестабильным ». TurboQuant звучит как именно тот тип векторного поиска признаков, который нужен командам разработчиков.

Однако меня заинтересовало, сохраняет ли TurboQuant свою эффективность при тестировании на наборах данных разных размеров. Действительно ли он обеспечивает существенное улучшение по сравнению с распространенными методами квантования, или его преимущество зависит от типа данных?

Я провел эксперименты, чтобы сравнить его с более распространенными методами квантования, такими как скалярное и бинарное квантование. Цель состояла в том, чтобы понять, где TurboQuant полезен, где он рискован и можно ли рассматривать его как серьезный вариант по умолчанию для векторного поиска.

Я считаю, что это поможет инженерам, специалистам по машинному обучению и пользователям векторных баз данных понять, какое место занимает TurboQuant по сравнению с более распространенными методами квантования, особенно при переходе от экспериментов к производству.

1. Что такое квантование?

Каждое число типа float32 в векторе занимает 4 байта. В результате, 1536-мерное векторное представление занимает 6 КБ на вектор; при миллионе векторов база данных занимает до 6 ГБ только для индекса.

Вот тут-то нам и нужна квантизация . Квантизация уменьшает каждое число в векторе до меньшего байтового значения. Стандартный подход — скалярная квантизация. Он начинается с нахождения минимума и максимума по каждому измерению. Затем этот диапазон делится на 255 равных интервалов. Каждое значение в векторе округляется до ближайшего интервала, а номер интервала хранится в виде одного байта вместо четырех.

Исходное представление Float32 теперь преобразуется в представление uint8 с 4-кратным сжатием, что означает уменьшение объема хранимых данных в 4 раза.

На рисунке 1 ниже приведена простая демонстрация этого процесса на 6D-векторе.

8f8e43a29815daa508b73a1264657d0d
Рисунок 1: Процесс скалярного квантования и сравнение. Небольшая ошибка (ошибка квантования) накапливается по всем измерениям в процессе вычисления скалярного произведения. Изображение предоставлено автором.

Небольшая ошибка в последней строке называется ошибкой квантования, и она накапливается по шести измерениям вектора во время вычисления скалярного произведения. Именно это приводит к небольшим неточностям в оценках сходства.

Однако существуют и более агрессивные методы сжатия, такие как 8x (4-битное), 16x (2-битное) или 32x (1-битное). Чем сильнее сжатие, тем меньше размер вектора и тем больше ошибка по сравнению с исходным значением. Это показано на рисунке 2 ниже, демонстрирующем ошибку после преобразования числа Float32 в различные пространства квантования.

c69335a223c53ce7801b3de373fc54c6
Рисунок 2: Различия в методах сжатия по сравнению с оригиналом. Изображение предоставлено автором.

Компромисс между сжатием и воспроизведением (или памятью и воспроизведением) очевиден. Чем сильнее сжатие, тем хуже воспроизведение.

2. Настоящий вопрос не в степени сжатия.

Главный вопрос: какая векторная геометрия остаётся после сжатия?

Традиционные квантизаторы в большинстве случаев напрямую сжимают вектор. Скалярное квантование применяет одну и ту же фиксированную сетку ко всем измерениям, независимо от того, содержат ли эти измерения полезный сигнал или шум. Бинарное квантование сохраняет только знаковый бит. Поэтому ни один из методов не проверяет предварительно, несут ли одни измерения больше сигнала, чем другие.

В Qdrant 1.18 эта схема изменена благодаря встроенному TurboQuant . Основанный на алгоритме Google Research, представленном на ICLR 2026, TurboQuant поворачивает вектор перед сжатием. Это случайное вращение более равномерно распределяет дисперсию по измерениям, поэтому каждый бит может сохранить больше полезной информации.

TurboQuant лучше не потому, что использует меньше битов. Он лучше потому, что упрощает сжатие вектора до того, как эти биты будут использованы.

Основные отличия TurboQuant от других программ показаны на рисунке 3 ниже.

  • Скалярные кванты навязывают единую сетку для всех измерений, подобно тому как всем людям подходит одна и та же пара обуви, независимо от длины стопы.
  • Бинарное квантование преобразует значения в 0 или 1 по следующим правилам: значения ≥ 0 становятся 1; значения < 0 становятся 0. Это похоже на то, как если бы каждую туфлю можно было выбрать только один вариант: левая или правая, большая или маленькая, да или нет. Это чрезвычайно дешево, но при этом теряется почти вся информация о форме, поэтому «подгонка» становится очень грубой.
  • Метод Product Quant изучает кодовые книги для каждого подпространства; он подгоняет каждую пару обуви под каждую ногу. Он отлично подходит всем, но чрезвычайно дорог.

TurboQuant сначала делает все размеры одинаковыми, а затем использует одну хорошо продуманную кодовую книгу. Это то же самое, что изменить все размеры ног на одинаковые и иметь одну пару обуви для всех.

c43128e4efbf91d9d9e8c01bc868416e
Рисунок 3: Сравнение четырех типов квантования — скалярного, бинарного, произведения и TurboQuant. Изображение предоставлено автором с помощью ChatGPT.

3. TurboQuant вкратце: сначала вращение, затем сжатие.

Каждый вектор в модели встраивания имеет свою структуру.

1536-мерное векторное представление может содержать большую часть полезного сигнала лишь в небольшом подмножестве координат. Остальные измерения часто вносят гораздо меньший вклад, но они все равно присутствуют в каждом векторе, что добавляет шум и делает сравнение расстояний менее надежным.

3.1 Конвейер TurboQuant

Идея проста. Перед сжатием вектор поворачивают на случайный ортогональный угол . Это вращение не меняет расстояний — оно просто перераспределяет энергию, так что каждое измерение несет примерно одинаковое количество информации. Затем к повернутым векторам применяется единый предварительно вычисленный код, который одинаково хорошо обрабатывает все измерения. Настройка для каждого измерения не требуется. Обучение на ваших данных не требуется.

На рисунке 4 ниже представлено краткое описание процесса.

e68f68c3a076b79dfde3ae401114bf0a
Рисунок 4: Конвейер TurboQuant — вращение делает координаты предсказуемыми до того, как будут израсходованы какие-либо биты. Изображение предоставлено автором с помощью ChatGPT.

3.2 Как вращение влияет на координаты?

5d58b035fe32a75cf904e5bde675560c
Рисунок 5: До и после вращения с помощью TurboQuant — энергия равномерно перераспределяется по измерениям, расстояния остаются неизменными. Изображение предоставлено автором.

На рисунке 5, до вращения, большую часть энергии несут несколько измерений. Остальные несут гораздо меньше сигнала и зачастую больше шума.

После вращения каждое измерение несет примерно одинаковую энергию и одинаковое количество информации.

Однако означает ли это, что преобразование энергии сохраняет важную информацию и поддерживает расстояние относительно другого вектора, как и в случае с исходным вектором?

Я выполнил простое вычисление между двумя 4D-векторами, при этом вектор A был преобразован с помощью TurboQuant, а затем, во время вывода, повернул вектор B с той же матрицей и измерил косинусное сходство в том же повернутом пространстве. Это косинусное сходство сравнивается с косинусным сходством исходного вектора A и исходного вектора B.

3.3 Стандартный процесс TurboQuant

60ed5d323d1da69d2fa43a2db17607ae
Рисунок 6: Визуализация TurboQuant. Изображение предоставлено автором.

На рисунке 6 после применения TurboQuant к исходному вектору A расстояние между новым вектором A и вектором B практически не изменяется по сравнению с исходным вектором A и вектором B, что доказывает сохранение важной геометрической структуры между векторами и высокую степень полноты.

3.4 Каким именно образом Qdrant применяет Turboquant в базе данных?

На платформе Qdrant есть 2 отдельных процесса:

3.4.1. Процесс индексирования:

69a237b1d102f073c99a0c9485363405
Рисунок 7: Как индексировать вектор с помощью TurboQuant в Qdrant. Изображение предоставлено автором с помощью ChatGPT.

Схема процесса индексирования представлена на рисунке 7. В основном, обработка вектора происходит следующим образом:

Исходный вектор → нормализация/подготовка в зависимости от метрики → добавление при необходимости → вращение Адамара → опциональная калибровка по координатам: x → (x + сдвиг) · масштабирование → присвоение центроида Ллойд-Макса → упакованные коды TurboQuant

В частности, в TurboQuant система Qdrant хранит информацию, указанную в таблице 1:

3d3b9946b34fe57b4445a1cc2590b8c7
Таблица 1: Что Qdrant хранит для TurboQuant. Источник: автор

Важным фактором, вносимым Qdrant, является перенормализация длины, или масштабный коэффициент . Она происходит после квантования, когда Qdrant измеряет, насколько короче стала квантованная реконструкция по сравнению с исходной длиной, сохраняет это отношение в виде масштабного коэффициента для каждого вектора, а затем применяет его во время оценки в момент запроса.

Коэффициент масштабирования = исходная_длина / длина_реконструкции_центроида

Зачем нам нужна перенормализация длины?

После квантования проводится наблюдение.

Квантированный вектор указывает в нужном направлении, но он слишком короткий.

Это означает, что при квантовании вектора всегда возникает ошибка квантования, которая систематически уменьшает длину каждого вектора. Во время выполнения запроса, когда вы вычисляете скалярное произведение квантованного вектора и повернутого и закодированного запроса, вы вычисляете скалярное произведение немного слишком короткого вектора, что дает постоянно заниженный результат. Qdrant называет это «смещением, ухудшающим полноту» .

Чтобы это исправить, нам нужен множитель, который будет использоваться для обратного умножения на этапе оценки, вместо того чтобы фиксировать векторы. Эта тактика проста и эффективна.

3.4.2. Процесс выполнения запроса

1a8a9c08ccc92eebaa8356b146aee3db
Рисунок 8: Как запрос соотносится с векторами, квантованными с помощью Turbo на Qdrant? Изображение предоставлено автором с помощью ChatGPT.

На рисунке 8 показан процесс выполнения запросов к векторной базе данных TurboQuant.

Запрос поворачивается и преобразуется в представление с SIMD-оценкой, а Qdrant использует асимметричную оценку для прямого сравнения закодированного запроса с упакованными кодами TurboQuant, хранящимися для векторов базы данных.

После этого сохраненный коэффициент масштабирования умножается на полученный балл.

4. Какой метод попробовать первым?

Qdrant предлагает несколько вариантов квантования, а TurboQuant также предлагает несколько вариантов побитового сжатия, таких как bits4, bits2, bits1.5 и bits1.

Согласно их документу, меньшая битовая глубина обеспечивает более высокое сжатие за счет точности.

На рисунке 9 представлены некоторые рекомендации для ознакомления, если вы все еще сомневаетесь, какие методы сжатия использовать.

e7bf1fae7b5b2c32de2274d2048120ed
Рисунок 9: Блок-схема принятия решений — начните сверху, следуйте своим ограничениям. Зеленый прямоугольник — рекомендуемая отправная точка по умолчанию. Изображение предоставлено автором на основе статьи Qdrant по адресу https://qdrant.tech/blog/qdrant-1.18.x/.

5. Начало работы: Первый эксперимент

Для включения TurboQuant достаточно изменить всего одну настройку в текущем коде Qdrant. Ваши существующие коллекции останутся без изменений.

Подробности см. в приведенном ниже фрагменте кода.

 from qdrant_client import QdrantClient, models client = QdrantClient("localhost", port=6333) # New collection — one config change client.create_collection( collection_name="my_collection", vectors_config=models.VectorParams( size=1536, distance=models.Distance.COSINE, ), quantization_config=models.TurboQuantization( turbo=models.TurboQuantQuantizationConfig( bits=models.TurboQuantBitSize.BITS4, always_ram=True, ) ), ) # Existing collection — patch without recreating vectors client.update_collection( collection_name="existing_collection", quantization_config=models.TurboQuantization( turbo=models.TurboQuantQuantizationConfig( bits=models.TurboQuantBitSize.BITS4, always_ram=True, ) ), )

Для получения более подробной информации о настройке, пожалуйста, ознакомьтесь с документацией Qdrant по TurboQuant здесь.

6. Критерий оценки: Подтверждается ли теория?

Чтобы сравнить TurboQuant с другими квантизаторами Qdrant на реальных векторных представлениях, я провел несколько тестов с векторами разных размеров (10K, 50K и 100K) и различными методами квантизации Qdrant.

6.1 Почему именно набор данных DBpedia?

Я выбрал набор данных DBpedia embeddings (лицензия: CC-BY-SA 4.0 и лицензия GNU Free Documentation License), потому что он имеет коэффициент дисперсии координат 233,5x — сильно анизотропный. Несколько измерений несут большую часть сигнала; остальные несут шум. Это именно то распределение, где вращение TurboQuant должно помочь больше всего, и где фиксированная сетка скалярного квантования тратит больше всего битов.

Подробную информацию о тестовой среде см. в разделе 9.2 Приложения.

6.2 Воспроизведение по шкале

Подробные данные о результатах тестирования по запоминанию представлены на рисунке 10.

47a82461635fdd667b1008c666fa947f
Рисунок 10: Показатель Recall@10 при 50K и 100K векторах. Источник: автор.

Выделяются четыре момента:

  • Показатель полноты TQ остается неизменным по мере роста набора данных. Хотя бинарное квантование падает с 0,916 до 0,78 при удвоении размера набора данных, варианты TurboQuant показывают гораздо лучшие результаты. Этап вращения помогает каждому биту сохранить больше информации, что делает TQ менее чувствительным к росту корпуса.
  • Большинство вариантов TQ близки по полноте результатов к Float32 и скалярному квантованию. За исключением TQ 1-бит и TQ 4-бит, результаты TurboQuant в целом остаются сопоставимыми с базовым показателем для Float32 и скалярного квантования.
  • 4-битный TQ обеспечивает наилучший компромисс между точностью и сжатием. Он достигает показателя полноты, близкого к скалярному квантованию, при этом используя примерно вдвое меньше памяти: 8-кратное сжатие против 4-кратного у скалярного. При 100 000 векторов 4-битный TQ достигает показателя полноты 0,965, всего на 1,5 пункта ниже, чем у скалярного (0,980). После переоценки разница исчезает: 0,996 для 4-битного TQ против 0,993 для скалярного.
  • Переоценка результатов восстанавливает значительную часть разрыва в полноте, даже при агрессивном сжатии (TQ 1-бит). Показатель TQ 1-бит значительно улучшается при переоценке результатов. Бинарное квантование с переоценкой результатов может работать на небольших наборах данных, но его показатель полноты снижается быстрее по мере роста набора данных.

6.3 Задержка в разных масштабах

Подробные данные о задержке тестирования представлены на рисунке 11.

1f2175b201205740abfe8f522e1cfb86
Рисунок 11: Медианная задержка запроса при 50 000 и 100 000 векторах. Источник: автор.
  • Ситуация с задержкой ясна: переоценка результатов добавляет некоторые затраты, но незначительные. При 100 000 векторов TQ 4-бит + переоценка результатов выполняется за 6,4 мс, что быстрее, чем Float32 (7,6 мс) и лишь немного отстает от скалярного квантования (6,8 мс).
  • В различных вариантах TQ переоценка увеличивает задержку, но остается быстрее, чем базовый показатель Float32.

6.4 Площадь, занимаемая хранением

На рисунке 12 ниже показан размер тестового хранилища для каждого метода квантования.

ba99e9447d855466b8f5f570d15d27a7
Рисунок 12: Размер памяти при использовании разных методов. Сплошные полосы = квантованный индекс в оперативной памяти. Штриховка = исходный float32 на диске (только для пересчета). Источник: автор
  • Однобитный TQ занимает столько же места на диске, сколько и двоичное квантование: оба метода используют 18 МБ, что примерно в 32 раза превышает степень сжатия.
  • Двухбитный и четырехбитный TQ используют больше памяти для сохранения большего объема информации. Двухбитный TQ примерно вдвое увеличивает объем памяти по сравнению с однобитным TQ, а четырехбитный TQ — примерно в 4 раза . Тем не менее, оба варианта все еще значительно меньше, чем скалярное квантование .

6.5 Время построения индекса

Подробные сведения о времени построения индекса тестирования представлены на рисунке 13.

b23178414aa45032a3920d569f80f13e
Рисунок 13: Время построения индекса включает в себя создание, квантование и калибровку HNSW. Источник: автор.
  • Конфигурация TQ является самой быстрой: 64 секунды для 50 000 векторов и 179 секунд для 100 000 векторов, в основном потому, что извлечение знакового бита обходится недорого.
  • Для 4-битного TQ требуется 57 с / 224 с, а для 1,5-битного TQ — 75 с / 239 с. Оба показателя сопоставимы или даже быстрее, чем для Float32 (110 с / 289 с). Это говорит о том, что поворот и калибровка кодовой книги добавляют лишь небольшие затраты на индексацию.
  • Конфигурация TQ 2-bit является самой медленной (73 с / 357 с). Это может быть связано с менее распространенным шаблоном упаковки битов или накладными расходами, специфичными для данной реализации. Тем не менее, она все равно завершает индексацию 100 000 векторов менее чем за 6 минут.

Время индексирования более чувствительно к условиям окружающей среды, поэтому рассматривайте эти значения как направленные, а не абсолютные. Результаты могут варьироваться в зависимости от процессора, пропускной способности памяти, дискового ввода-вывода, параллелизма и общей нагрузки на машину во время выполнения.

7. Что это означает на практике

В целом, TurboQuant выглядит многообещающе, если мы будем отдавать приоритет балансу сжатия и стабильному качеству поиска. Результаты показывают, что не все форматы сжатия ведут себя одинаково по мере роста набора данных. Некоторые методы быстро теряют полноту, в то время как другие остаются гораздо ближе к базовому показателю Float32.

  1. Двухбитный и четырехбитный TQ обеспечивают относительно стабильную полноту по мере роста корпуса. В то время как бинарное квантование и однобитный TQ заметно снижают полноту по мере увеличения размера набора данных. Это говорит о том, что этап вращения в TurboQuant помогает сохранить больше полезной информации в каждом бите. В результате эти двухбитные и четырехбитные варианты TQ менее чувствительны к росту корпуса.
  2. 4-битный TQ обеспечивает наилучший баланс между полнотой памяти и сжатием. По полноте памяти TQ 4-бит приближается к скалярному квантованию, но с удвоенным сжатием (скалярное квантование обеспечивает примерно 4-кратное сжатие, в то время как TQ 4-битный — примерно 8-кратное). Это означает, что TQ 4-бит позволяет экономить память примерно вдвое.
  3. TQ 1,5-бит с переоценкой — это самый мощный вариант для экстремального сжатия: он обеспечивает примерно 24-кратное сжатие, сохраняя при этом полноту, близкую к Float32 после переоценки. Это полезно, когда основным ограничением является объем памяти, но системе все еще требуется приемлемое качество извлечения. Без переоценки агрессивное сжатие может привести к потере слишком большого количества информации. С переоценкой большая часть этой потери может быть компенсирована.
  4. Использование TQ с переоценкой результатов — более безопасный подход, когда необходимо сбалансировать задержку и точность. Это соответствует другим практикам. Переоценка результатов действительно добавляет некоторую задержку и более эффективна для улучшения качества поиска при сильном сжатии. Это делает переоценку результатов разумным компромиссом. Она дает системе возможность использовать более сильное сжатие без существенного снижения качества поиска.

Короче говоря, TurboQuant — это не только сокращение объёма памяти. 4-битная версия TQ — наиболее сбалансированный вариант для общего использования. 1,5-битная версия TQ с переоценкой результатов лучше подходит, когда приоритетом является сжатие. Эффективная схема — это сочетание TurboQuant с переоценкой результатов.

Важно : эти цифры не следует рассматривать как правило для использования в производственной среде. Они служат ориентиром для вашей собственной оценки. Перед переходом к производственной среде измерьте производительность ваших эмбеддингов, запросов, оборудования и целевых показателей полноты.

8. Ограничения TurboQuant

f0d2477ccd5df865dbbcec174d5e01f0
Рисунок 14: Ограничения реализации TurboQuant на Qdrant. Изображение предоставлено автором.

TurboQuant улучшает компромисс между сжатием и эффективностью. Но полностью этот компромисс не устраняется.

Это ещё относительно новая технология. Она была запущена 11 мая 2026 года. Поэтому реальный опыт её использования в производственной среде пока ограничен. Безопасный подход прост: сначала проведите тестирование, а затем решите, стоит ли её использовать в качестве основной.

Я хотел бы изложить некоторые ограничения, которые необходимо учитывать. Краткое описание ограничений можно найти на рисунке 14:

Первое ограничение — это зрелость. Результаты тестирования Qdrant выглядят многообещающе. Но ваши данные могут вести себя иначе. Ваша модель встраивания, шаблон запроса, фильтры и распределение данных могут не соответствовать эталонным наборам данных. Поэтому TurboQuant следует рассматривать как достойный вариант, а не как автоматическую замену.

TurboQuant также может быть медленнее, чем бинарное квантование при том же объеме памяти. Это важно, если ваша главная цель — пропускная способность или скорость . Если скорость важнее, чем полнота, бинарное квантование все равно будет лучшим выбором. TurboQuant более полезен, когда вам нужна более высокая полнота при небольшом объеме памяти.

Также существуют затраты на калибровку . TurboQuant требует однократной калибровки для каждого сегмента. Обычно это занимает секунды, а не минуты. Но это все равно затраты. Если ваша система создает много сегментов или часто перестраивает индексы, этот дополнительный шаг следует учитывать.

Тип расстояния — ещё одно ограничение. TurboQuant лучше всего работает с L2, скалярным произведением и косинусным сходством. Вращение хорошо сохраняет эти соотношения расстояний. Но оно не сохраняет L1 или манхэттенское расстояние так же хорошо. L1 и манхэттенское расстояние всё ещё могут работать, но для каждого сравнения требуется полная реконструкция вектора. Это может замедлить поиск. Если манхэттенское расстояние важно в вашей системе, скалярное квантование — более безопасный выбор.

Как показали результаты тестирования, TQ 1-бит — небезопасный выбор. TQ 1-бит обеспечивает очень высокую степень сжатия, но полнота может слишком сильно снизиться. Шаг вращения помогает, но 1 бит на измерение часто оказывается слишком малым. Он не всегда может сохранить достаточное количество геометрии в масштабе. Рассмотрите возможность переоценки, если TQ 1-бит не обеспечивает ожидаемой производительности. Или TQ 1,5-бит выглядит более практичным нижним пределом. Он по-прежнему обеспечивает сильное сжатие, но сохраняет более стабильную полноту. Для очень агрессивного сжатия это более безопасный выбор, чем TQ 1-бит .

Главный вывод не в том, что «всегда используйте TurboQuant». Главный вывод в том, чтобы тестировать то, что важно для ваших собственных данных. TurboQuant смещает баланс в лучшую сторону. Он помогает уменьшить потери при определении полноты до того, как будет исчерпан битовый бюджет. Но он не делает сжатие бесплатным. Вам все равно придется выбирать между памятью, скоростью, полнотой и поведением на расстоянии.

Вкратце, TurboQuant — это новый перспективный вариант. Он особенно полезен при переоценке результатов и умеренных битовых настройках. Но его не следует использовать вслепую. Сначала протестируйте его на собственных эмбеддингах и тщательно измерьте производительность, прежде чем внедрять в производство.

9. Приложение:

9.1 Поддержка квантования в популярных векторных базах данных

На рисунке 15 ниже представлено краткое описание 4 вариантов квантования, доступных в популярных векторных базах данных, для вашего ознакомления.

Qdrant — одна из первых компаний на рынке, предложивших TurboQuant.

30e104e4e566ef9192bc53b7ebb1cf1c
Рисунок 15: Матрица поддержки квантования для Qdrant, Pinecone, Weaviate, Milvus и pgvector. Источник: автор.

9.2 Тестовая среда

  • Компьютер: Apple M3, 16 ГБ ОЗУ, macOS 15.6.1
  • Тестовая база данных:
    • Qdrant v1.18.0, одноузловой Docker, без ограничений по ресурсам.
    • HNSW с настройками по умолчанию (m=16, ef_construct=100)
    • Расстояние: Косинус
  • Набор данных:
    • Имя: Qdrant/dbpedia-entities-openai3-text-embedding-3-small-1536-100K.
    • Лицензия: CC-BY-SA 4.0 и лицензия GNU Free Documentation License.
    • Размеры встраивания: OpenAI text-embedding-3-small, 1536 размеров, предварительно нормализованные

10. Ресурсы

  • Документация по квантованию Qdrant
  • TurboQuant в Qdrant (документация Qdrant)
  • Примечания к выпуску Qdrant 1.18
  • Блог Google Research TurboQuant
  • Статья о TurboQuant, ICLR 2026
  • Статья RaBitQ

Чиен Ву Минь: посмотреть все из Чиен Ву Минь

Источник: towardsdatascience.com

✅ Найденные теги: Qdrant, TurboQuant, новости, Объяснение, Принципа, Работы

Добавить комментарий

Новости других рубрик

Архив рубрики ~Обо всем~: Отслеживание выпуска моделей ИИ: показатели несоответствия в Opus 4.8 аналогичны показателям в предварительной версии Claude Mythos. Архив рубрики ~Обо всем~: Подсказки, ответы и помощь от NYT Strands за 30 мая #818 Архив рубрики ~Обо всем~: Умерла обладательница премии «Оскар» за монтаж «Звездных войн» Марсия Лукас. Архив рубрики ~Обо всем~: Компания Perplexity запускает Bumblebee: чем отличается новый сканер для разработчиков, работающий только в режиме чтения, от Chainguard. Архив рубрики ~Обо всем~: Компания Ultrahuman добавляет терапию красным светом в свою линейку персонализированных оздоровительных услуг. Архив рубрики ~Обо всем~: Базовая версия Enterprise RAG: от PDF-файла до выделенного ответа. Архив рубрики ~Обо всем~: Поэзия для инженеров: Киборг-лаборатория Архив рубрики ~Обо всем~: Кольцо Oura Ring 5 — это значительно более тонкое «умное» кольцо.