This website shows the results of analysing the distribution of ClinVar variants at certain CADD-Score Thresholds.


What to do here?
  1. You can look at the results of the calculations with the whole dataset here .

  2. If you are interested in the comparison of the different CADD versions and genome releases you can look here .

  3. If you have a specific use case and know the genes for the variants, you are looking at you can look here .


What is CADD?

CADD (Combined Annotation Dependent Depletion) is a tool that is used for scoring the deleteriousness of single nucleotide variants, multi nucleotide substitutions and insertions/deletions variants in the human genome.
When using CADD there are two scores. The raw and the PHRED-score. For the PHRED-score all potential single nucleotide variants (SNVs) in the genome (~9 billion) are sorted by their pathogenicity in comparison to all others. Each SNV then gets assigned a PHRED score depending on their rank. This means a variant that ranks in the top 10 percent of potentially pathogenic variants receives a PHRED score of 10 or higher. Variants in the top 1 percent receive a score of 20 or higher. PHRED scores are less resolved than Raw scores but are often used as they can be compared better with other scores.
It might seem useful to have a universal cut-off value that clearly seperates pathogenic from benign variants. However, the CADD authors advise against this, as the threshold depends on the specific analysis and use case. Applying a single universal cut-off would risk a considerable loss of valuable information.
Still, it is useful to see how variants are spread across different thresholds and to understand which factors affect what might be a good cut-off. The score distribution of known benign and pathogenic variants has been analysed and made usable on this website to help with finding a good cut-off for specific use cases.

For more information and reference please refer to the CADD Website.
You may also look at these publications:

The most recent manuscript describes CADD v1.7, an extension to the annotations included in the model. Most prominently, this version improves the scoring of coding variants with features derived from the ESM-1v protein language model as well as the scoring of regulatory variants with features derived from a convolutional neural network trained on regions of open chromatin:

Schubach M, Maass T, Nazaretyan L, Röner S, Kircher M.
CADD v1.7: Using protein language models, regulatory CNNs and other nucleotide-level scores to improve genome-wide variant predictions.
Nucleic Acids Res. 2024 Jan 5. doi: 10.1093/nar/gkad989.
PubMed PMID: 38183205.


Then there is CADD-Splice (CADD v1.6), which specifically improved the prediction of splicing effects:

Rentzsch P, Schubach M, Shendure J, Kircher M.
CADD-Splice—improving genome-wide variant effect prediction using deep learning-derived splice scores.
Genome Med. 2021 Feb 22. doi: 10.1186/s13073-021-00835-9.
PubMed PMID: 33618777.


Our third manuscript describes the updates between the initial publication and CADD v1.4, introduces CADD for GRCh38 and explains how we envision the use of CADD. It was published by Nucleic Acids Research in 2018:

Rentzsch P, Witten D, Cooper GM, Shendure J, Kircher M.
CADD: predicting the deleteriousness of variants throughout the human genome.
Nucleic Acids Res. 2018 Oct 29. doi: 10.1093/nar/gky1016.
PubMed PMID: 30371827.


Finally, the original manuscript describing the method was published by Nature Genetics in 2014:

Kircher M, Witten DM, Jain P, O'Roak BJ, Cooper GM, Shendure J.
A general framework for estimating the relative pathogenicity of human genetic variants.
Nat Genet. 2014 Feb 2. doi: 10.1038/ng.2892.
PubMed PMID: 24487276.


Which dataset was used and how?

The variants used for the calculations were taken from ClinVar (accessed February 28, 2025). The original file had 6.806.227 entries.
To only use qualitative variants, only variants with the rating of “criteria provided, multiple submitters, no conflicts”, “reviewed by expert panel”, or “practice guideline” were kept. After removing the other entries 1.135.635 entries were left. Also, only variants with the clinical classification “benign”, “likely benign”, “pathogenic”, and “likely pathogenic” are usable so only these were kept. Now 668.455 entries were left. Because ClinVar has both reference genomes GRCh37/hg19 and GRCh38/hg38, these had to be separated too. In the end we were left with 334.246 entries for GRCh37 and 334.209 entries for GRCh38.
All the variants that were left were now scored with CADD version 1.6 and 1.7 including annotations. CADD does not score InDels with more than 50 base pairs, variants where the reference allele does not fit with the reference allele of the reference genome and mitochondrial variants. So, CADD did not score 4.085 variants for GRCh37 and 4.196 variants for GRCh38.
It might be interesting to note that CADD sometimes assigns more than one annotation to one variant. As the score for each annotation stays the same, one entry per variant is enough, so all duplicates were randomly deleted. That means for the table in the bab "Genes" only one annotation is included.
GRCh37 has 252.785 benign and 77.3776 pathogenic variants while GRCh38 has 252.626 benign and 77.387 pathogenic variants.


Used Metrics
Metric Meaning
True Negatives (TN) Negative values were correctly identified as negative
True Positives (TP) Positive values were correctly identified as positive
False Negatives (FN) Positive values were incorrectly identified as negative
False Positives (FP) Negative values were incorrectly identified as positive
Precision TP / (TP + FP): proportion of correctly positive predictions among all predicted positives
Recall (Sensitivity) TP / (TP + FN): proportion of correctly positive predictions among all actual positives
False Positive Rate (FPR) FP / (FP + TN): proportion of false positive predictions among all actual negatives
Specificity TN / (TN + FP): proportion of correct negative predictions among all actual negatives
F1 Score 2 * (Precision * Recall) / (Precision + Recall): harmonic mean of precision and recall
F2 Score Same as F1 Score but recall is weighted more heavily: 5 * (Precision * Recall) / (4 * Precision + Recall)
Accuracy (TP + TN) / (TP + FP + FN + TN): proportion of correct predictions
Balanced Accuracy (Recall + Specificity) / 2: useful for unbalanced classes

Results of the calculations with the whole dataset

  • You can choose a genome release in combination with a CADD version and then choose the metrics you would like to look at. Then a line graph will load. You can hover over the lines to see specific data or zoom in, as well as change the range of the x-axis.

Distributions

  • You can also look at the distribution of the variants for the different thresholds for your chosen CADD version and genome release. It is possible to adjust the x-axis for the more small-scaled bar chart.
  • If you want to know the consequences of all the pathogenic variants at different threshold, you may look at the last bar chart. (the likely pathogenic variants have a lower opacity)

Metrics Calculation for specific genes

  1. Upload a list of your genes (as csv, txt, tsv file) or write them in the text field.
  2. Choose your genome release and CADD version and then click on the “Generate metrics” button.
  3. Now all the metrics will load in one line graph. (If you want to see one metric, double click on the name on the legend. If you want to see more than one metrics, deselect all others b clicking once on the name on the legend.)
  • If you want to know which variants were used for calculating, together with their annotations, you can look at the table. You may choose if you want to look at the ClinVar or CADD annotations or both. For ClinVar only these annotations were kept: 'AlleleID', 'Type_x', 'Name', 'GeneID_x', 'GeneSymbol', 'Origin', 'OriginSimple', 'Chromosome', 'ReviewStatus', 'NumberSubmitters', 'VariationID', 'PositionVCF', 'ReferenceAlleleVCF', 'AlternateAlleleVCF', 'ClinicalSignificance'
  • To see how many variants were used per gene and if they are pathogenic or benign you can look at the bar chart (it might not be visible if you used a lot of variants, you could still zoom in). Below the bar chart is also a table that summarizes the information from the bar chart.
Export as csv

Metrics Calculation for gene panels (from PanelApp)

  1. Choose your genome release and CADD version.
  2. Select a gene panel from the dropdown menu.
  3. Click on the “Generate metrics” button.
  4. Now all the metrics will load in one line graph. (If you want to see one metric, double click on the name on the legend. If you want to see more than one metrics, deselect all others by clicking once on the name on the legend.)
  • If you want to know which variants were used for calculating, together with their annotations, you can look at the table. You may choose if you want to look at the ClinVar or CADD annotations or both. For ClinVar only these annotations were kept: 'AlleleID', 'Type_x', 'Name', 'GeneID_x', 'GeneSymbol', 'Origin', 'OriginSimple', 'Chromosome', 'ReviewStatus', 'NumberSubmitters', 'VariationID', 'PositionVCF', 'ReferenceAlleleVCF', 'AlternateAlleleVCF', 'ClinicalSignificance'
  • To see how many variants were used per gene and if they are pathogenic or benign you can look at the bar chart (it might not be visible if you used a lot of variants, you could still zoom in). Below the bar chart is also a table that summarizes the information from the bar chart.

Note:

  • The gene panels are retrieved from Panel App. The data is updated regularly, but there might be some delay between the latest PanelApp data and the data used in this tool.
  • The gene names in the panels are matched against the gene names in the ClinVar and CADD databases. If a gene from the panel is not found in these databases, it will be skipped, and a message will be displayed indicating which genes were not found.
Export as csv

Impressum / Imprint

The following information is required by German law. For your convenience, we are making a translation of the German text available at the bottom of the page. Please note that in case of a legal dispute, the German version takes precedence over the English version.

Projektleitung / Project leadership

  • Prof. Dr. Martin Kircher
  • E-Mail: martin.kircher [at] bih-charite.de
  • Tel: +49 30 450 543 004

Postanschrift / Postal Address

  • Charité – Universitätsmedizin Berlin
  • Campus Charité Mitte
  • Charitéplatz 1
  • D-10117 Berlin

Webmaster

  • Prof. Dr. Martin Kircher
  • Tel: +49 30 450 543 004

Disclaimer - Deutsch

Haftung für Inhalte Die Inhalte unserer Seiten wurden mit größter Sorgfalt erstellt. Für die Richtigkeit, Vollständigkeit und Aktualität der Inhalte können wir jedoch keine Gewähr übernehmen.

Als Diensteanbieter sind wir gemäß § 7 Abs. 1 TMG für eigene Inhalte auf diesen Seiten nach den allgemeinen Gesetzen verantwortlich. Nach §§ 8 bis 10 TMG sind wir als Diensteanbieter jedoch nicht verpflichtet, übermittelte oder gespeicherte fremde Informationen zu überwachen oder nach Umständen zu forschen, die auf eine rechtswidrige Tätigkeit hinweisen. Verpflichtungen zur Entfernung oder Sperrung der Nutzung von Informationen nach den allgemeinen Gesetzen bleiben hiervon unberührt. Eine diesbezügliche Haftung ist jedoch erst ab dem Zeitpunkt der Kenntnis einer konkreten Rechtsverletzung möglich. Bei bekannt werden von entsprechenden Rechtsverletzungen werden wir diese Inhalte umgehend entfernen.

Datenschutzerklärung (DSGVO)

Diese Webseite sieht sich als Teil der Webpräsenz des Berlin Institute of Health (BIH) und der Charité - Universitätsmedizin Berlin. Es gelten die Datenschutzerklärung des BIH und die Datenschutzerklärung der Charité.

Diese Internetseite erfasst mit jedem Aufruf der Internetseite durch eine betroffene Person oder ein automatisiertes System eine Reihe von allgemeinen Daten und Informationen. Diese allgemeinen Daten und Informationen werden in den Logfiles des Servers gespeichert. Erfasst werden können:

die Unterwebseiten, welche über ein zugreifendes System auf unserer Internetseite angesteuert werden, das Datum und die Uhrzeit eines Zugriffs auf die Internetseite, eine Internet-Protokoll-Adresse (IP-Adresse), der Internet-Service-Provider des zugreifenden Systems und sonstige ähnliche Daten und Informationen, die der Gefahrenabwehr im Falle von Angriffen auf unsere informationstechnologischen Systeme dienen, sämtliche Dateien und Informationen, die bei der Benutzung der bereitgestellen Services anfallen. Auf dieser Internetseite können bestimmte Dienste (z.B. Bewerten genomischer Varianten durch die Software CADD) unter Angabe von personenbezogenen Daten durchgeführt werden. Welche personenbezogenen Daten dabei übermittelt werden, ergibt sich aus der jeweiligen Eingabemaske. Allgemein werden bei der Benutzung der bereitgestellten Services, dem Bewerten genomischer Varianten durch die Software CADD, die folgenden Daten und Informationen erfasst:

sämtliche auf der Webseite durch Nutzende hochgeladen Dateien, die zur Kontaktierung Nutzender in der Eingabemaske angegeben Informationen (Email-Adresse, weitere Informationen), sämtliche mit diesen Daten und Informationen in Verbindung stehenden Informationen (Metadaten) wie Dateinamen, Datum und Uhrzeit, sowie bereits im vorhergehenden Abschnitt genannte allgenmeine Daten und Informationen. Es sei darauf hingewiesen, dass es ausdrückliche Aufgabe Nutzender dieser Webseite ist, dafür Sorge zu tragen, dass dabei keinerlei persönliche Daten Dritter verarbeitet werden.

Bei der Nutzung der genannten Daten und Informationen ziehen wir keine Rückschlüsse auf die betroffene Person. Diese Informationen werden vielmehr benötigt, um

die Inhalte unserer Internetseite korrekt auszuliefern, die Inhalte unserer Internetseite zu optimieren, die Nutzenden über die Verarbeitung ihrer Daten zu informieren, die dauerhafte Funktionsfähigkeit unserer informationstechnologischen Systeme und der Technik unserer Internetseite zu gewährleisten sowie um Strafverfolgungsbehörden im Falle eines Cyberangriffes die zur Strafverfolgung notwendigen Informationen bereitzustellen. Diese anonym erhobenen Daten und Informationen werden daher von uns einerseits statistisch und ferner mit dem Ziel ausgewertet, den Datenschutz und die Datensicherheit in unserem Unternehmen zu erhöhen, um letztlich ein optimales Schutzniveau für die von uns verarbeiteten personenbezogenen Daten sicherzustellen. Die anonymen Daten der Server-Logfiles werden getrennt von allen durch eine betroffene Person angegebenen personenbezogenen Daten gespeichert.

Haftung für Links

Unser Angebot enthält Links zu externen Webseiten Dritter, auf deren Inhalte wir keinen Einfluss haben. Deshalb können wir für diese fremden Inhalte auch keine Gewähr übernehmen. Für die Inhalte der verlinkten Seiten ist stets der jeweilige Anbieter oder Betreiber der Seiten verantwortlich. Die verlinkten Seiten wurden zum Zeitpunkt der Verlinkung auf mögliche Rechtsverstöße überprüft. Rechtswidrige Inhalte waren zum Zeitpunkt der Verlinkung nicht erkennbar. Eine permanente inhaltliche Kontrolle der verlinkten Seiten ist jedoch ohne konkrete Anhaltspunkte einer Rechtsverletzung nicht zumutbar. Bei bekannt werden von Rechtsverletzungen werden wir derartige Links umgehend entfernen.

Urheberrecht Webseite

Die durch die Seitenbetreiber erstellten Inhalte und Werke auf diesen Seiten unterliegen dem deutschen Urheberrecht. Die Software CADD, sowie alle darüber bereit gestellten Dienste unterliegen dem amerikanischen Urheberrecht. Beiträge Dritter sind als solche gekennzeichnet. Die Vervielfältigung, Bearbeitung, Verbreitung und jede Art der Verwertung außerhalb der Grenzen des Urheberrechtes bedürfen der schriftlichen Zustimmung des jeweiligen Autors bzw. Erstellers. Downloads und Kopien dieser Seite sind nur für den privaten, nicht kommerziellen Gebrauch gestattet.

Die Betreiber der Seiten sind bemüht, stets die Urheberrechte anderer zu beachten bzw. auf selbst erstellte sowie lizenzfreie Werke zurückzugreifen.

Urheberrecht und Lizenzen zu CADD

Die Software CADD unterliegt dem amerikanischen Urherberrecht und den unten in englischer Sprache abgedruckten Nutzungs- und Haftungsbedingungen. Die Nutzung jeglicher mit der Software CADD verbundenen Daten und Dienste sind nur für den privaten oder nicht kommerziellen Gebrauch gestattet. Jegliche kommerzielle Nutzung bedarf der schriftlichen Zustimmung der Urheber. Lizenzen zur kommerziellen Nutzung sind über das UW CoMotion Express Licensing System erwerbbar. Sollten Zweifel bezüglich des kommerziellen Charakters einer Anwendung bestehen, bitte kontaktieren Sie Martin Kircher, Jay Shendure und Gregory M. Cooper, und beschreiben Sie die genaueren Umstände.

Disclaimer - English

Liability for Contents

The contents of our pages and social media channels have been created with great care. However, we cannot take any responsibility for the accuracy, completeness or timeliness of the contents.

As a service provider, we are responsible according to § 7 para 1 TMG (Tele Media Act) for own contents on these pages under the general laws. According to §§ 8 to 10 TMG, we are not required to monitor transmitted or stored information or to investigate circumstances that indicate illegal activity. The obligation to remove or block the use of information under the general laws remains unaffected by this. However, any liability is only possible from the date of knowledge of a specific infringement. Upon gaining knowledge of such violations, we will immediately remove this content.

Data Privacy Statement

This website is considered part of the online presence of Berlin Institute of Health (BIH) and Charité - Universitätsmedizin Berlin. Accordingly, the Data Privacy Statement of BIH (German only) and Data Privacy Statement of Charité apply.

This website records a number of general data and information each time a human user or automated system accesses the website. This general data and information is stored in the log files of the server. The following can be recorded:

the sub-websites, which are accessed on our website,

Impressum / Imprint

Hinweis / Note

Dies ist ein Muster-Impressum. Ersetzen Sie die untenstehenden Angaben durch die für Ihre Organisation zutreffenden Informationen. Im Streitfall hat die deutsche Fassung Vorrang.


Projektleitung / Project leadership

Postanschrift / Postal address

Charité – Universitätsmedizin Berlin Campus Charité Mitte Charitéplatz 1 D‑10117 Berlin

Webmaster / Technical contact

  • Prof. Dr. Martin Kircher
  • Tel: +49 30 450 543 004

Haftung für Inhalte (Deutsch)

Die Inhalte dieser Webseite wurden mit größter Sorgfalt erstellt. Für die Richtigkeit, Vollständigkeit und Aktualität der Inhalte übernehmen wir jedoch keine Gewähr. Als Diensteanbieter sind wir gemäß § 7 Abs. 1 TMG für eigene Inhalte auf diesen Seiten nach den allgemeinen Gesetzen verantwortlich.

Nach §§ 8 bis 10 TMG sind wir als Diensteanbieter jedoch nicht verpflichtet, übermittelte oder gespeicherte fremde Informationen zu überwachen oder nach Umständen zu forschen, die auf eine rechtswidrige Tätigkeit hinweisen. Verpflichtungen zur Entfernung oder Sperrung der Nutzung von Informationen nach den allgemeinen Gesetzen bleiben hiervon unberührt.


Datenschutzerklärung / Data privacy

Diese Webseite ist Teil der Webpräsenz des Berlin Institute of Health (BIH) und der Charité – Universitätsmedizin Berlin. Es gelten die Datenschutzhinweise des BIH und der Charité.

Bei jedem Zugriff werden allgemeine Daten (Server-Logfiles) erfasst, z. B. IP‑Adresse, Zeitpunkt des Zugriffs, aufgerufene Unterseiten und ggf. übertragene Dateien. Werden personenbezogene Daten im Rahmen der Nutzung von Diensten übermittelt (z. B. Uploads), so richtet sich die Erhebung und Verarbeitung nach der jeweiligen Eingabemaske.

Die anonym erhobenen Daten werden statistisch ausgewertet, um Betriebssicherheit und Datenschutz zu verbessern; Server-Logs werden getrennt von personenbezogenen Daten gespeichert.


Haftung für Links / Liability for links

Diese Website enthält Links zu externen Websites Dritter. Für die Inhalte externer Seiten sind ausschließlich deren Betreiber verantwortlich. Rechtswidrige Inhalte waren zum Zeitpunkt der Verlinkung nicht erkennbar; eine fortlaufende inhaltliche Kontrolle ist ohne konkrete Anhaltspunkte nicht zumutbar.


Urheberrecht / Copyright

Die von den Seitenbetreibern erstellten Inhalte unterliegen dem deutschen Urheberrecht. Beiträge Dritter sind als solche gekennzeichnet. Vervielfältigung, Bearbeitung oder Verbreitung bedürfen der schriftlichen Zustimmung des jeweiligen Autors.


Hinweise zur Nutzung von CADD / CADD license and disclaimer

CADD (Combined Annotation Dependent Depletion) und die zugehörigen Softwarebestandteile unterliegen den jeweiligen Urheberrechten der beteiligten Institutionen (u. a. University of Washington). CADD‑Scores sind für nicht-kommerzielle Nutzung freigegeben. Für kommerzielle Nutzung sind Lizenzen erforderlich (z. B. über UW CoMotion Express Licensing).

Nachfolgend der standardmäßige Haftungsausschluss (englisch):

THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.

© University of Washington, Hudson‑Alpha Institute for Biotechnology and Berlin Institute of Health at Charité – Universitätsmedizin Berlin 2013–2023. All rights reserved.