Krystian Safjan's Blog

Data Scientist and Team Leader writing about Machine Learning, MLOps, and Python

Follow on LinkedIn

2023-02-09

Datasets for Embeddings Performance Evaluation

Dataset: BEIR (ArguAna, ClimateFEVER, DBPedia, FEVER, FiQA2018, HotpotQA, NFCorpus, QuoraRetrieval, SciFact, TRECCOVID, Touche2020)

Dataset: SentEval (STS 2012–2016)

Dataset: SentEval (MR, CR, SUBJ, MPQA, SST, TREC, MRPC)

See also: Vectorview - analyzing data and user queries, providing actionable insights for a better fit between model and user needs

Tags: machine-learning NLP embeddings openai dataset