This website shows the results of analysing the distribution of ClinVar variants at certain CADD-Score Thresholds.
What to do here?
-
You can look at the results of the calculations with the whole dataset
here
.
-
If you are interested in the comparison of the different CADD versions and genome releases you can look
here
.
-
If you have a specific use case and know the genes for the variants, you are looking at you can look
here
.
What is CADD?
CADD (Combined Annotation Dependent Depletion) is a tool that is used for scoring the deleteriousness of single nucleotide variants, multi nucleotide substitutions and insertions/deletions variants in the human genome.
When using CADD there are two scores. The raw and the PHRED-score. For the PHRED-score all potential single nucleotide variants (SNVs) in the genome (~9 billion) are sorted by their pathogenicity in comparison to all others. Each SNV then gets assigned a PHRED score depending on their rank. This means a variant that ranks in the top 10 percent of potentially pathogenic variants receives a PHRED score of 10 or higher. Variants in the top 1 percent receive a score of 20 or higher. PHRED scores are less resolved than Raw scores but are often used as they can be compared better with other scores.
It might seem useful to have a universal cut-off value that clearly seperates pathogenic from benign variants. However, the CADD authors advise against this, as the threshold depends on the specific analysis and use case. Applying a single universal cut-off would risk a considerable loss of valuable information.
Still, it is useful to see how variants are spread across different thresholds and to understand which factors affect what might be a good cut-off. The score distribution of known benign and pathogenic variants has been analysed and made usable on this website to help with finding a good cut-off for specific use cases.
For more information and reference please refer to the CADD Website.
You may also look at these publications:
The most recent manuscript describes CADD v1.7, an extension to the annotations included in the model. Most prominently, this version improves the scoring of coding variants with features derived from the ESM-1v protein language model as well as the scoring of regulatory variants with features derived from a convolutional neural network trained on regions of open chromatin:
Schubach M, Maass T, Nazaretyan L, Röner S, Kircher M.
CADD v1.7: Using protein language models, regulatory CNNs and other nucleotide-level scores to improve genome-wide variant predictions.
Nucleic Acids Res. 2024 Jan 5. doi: 10.1093/nar/gkad989.
PubMed PMID: 38183205.
Then there is CADD-Splice (CADD v1.6), which specifically improved the prediction of splicing effects:
Rentzsch P, Schubach M, Shendure J, Kircher M.
CADD-Splice—improving genome-wide variant effect prediction using deep learning-derived splice scores.
Genome Med. 2021 Feb 22. doi: 10.1186/s13073-021-00835-9.
PubMed PMID: 33618777.
Our third manuscript describes the updates between the initial publication and CADD v1.4, introduces CADD for GRCh38 and explains how we envision the use of CADD. It was published by Nucleic Acids Research in 2018:
Rentzsch P, Witten D, Cooper GM, Shendure J, Kircher M.
CADD: predicting the deleteriousness of variants throughout the human genome.
Nucleic Acids Res. 2018 Oct 29. doi: 10.1093/nar/gky1016.
PubMed PMID: 30371827.
Finally, the original manuscript describing the method was published by Nature Genetics in 2014:
Kircher M, Witten DM, Jain P, O'Roak BJ, Cooper GM, Shendure J.
A general framework for estimating the relative pathogenicity of human genetic variants.
Nat Genet. 2014 Feb 2. doi: 10.1038/ng.2892.
PubMed PMID: 24487276.
Which dataset was used and how?
The variants used for the calculations were taken from ClinVar (accessed February 28, 2025). The original file had 6.806.227 entries.
To only use qualitative variants, only variants with the rating of “criteria provided, multiple submitters, no conflicts”, “reviewed by expert panel”, or “practice guideline” were kept. After removing the other entries 1.135.635 entries were left. Also, only variants with the clinical classification “benign”, “likely benign”, “pathogenic”, and “likely pathogenic” are usable so only these were kept. Now 668.455 entries were left. Because ClinVar has both reference genomes GRCh37/hg19 and GRCh38/hg38, these had to be separated too. In the end we were left with 334.246 entries for GRCh37 and 334.209 entries for GRCh38.
All the variants that were left were now scored with CADD version 1.6 and 1.7 including annotations. CADD does not score InDels with more than 50 base pairs, variants where the reference allele does not fit with the reference allele of the reference genome and mitochondrial variants. So, CADD did not score 4.085 variants for GRCh37 and 4.196 variants for GRCh38.
It might be interesting to note that CADD sometimes assigns more than one annotation to one variant. As the score for each annotation stays the same, one entry per variant is enough, so all duplicates were randomly deleted. That means for the table in the bab "Genes" only one annotation is included.
GRCh37 has 252.785 benign and 77.3776 pathogenic variants while GRCh38 has 252.626 benign and 77.387 pathogenic variants.
Used Metrics
| Metric |
Meaning |
| True Negatives (TN) |
Negative values were correctly identified as negative |
| True Positives (TP) |
Positive values were correctly identified as positive |
| False Negatives (FN) |
Positive values were incorrectly identified as negative |
| False Positives (FP) |
Negative values were incorrectly identified as positive |
| Precision |
TP / (TP + FP): proportion of correctly positive predictions among all predicted positives |
| Recall (Sensitivity) |
TP / (TP + FN): proportion of correctly positive predictions among all actual positives |
| False Positive Rate (FPR) |
FP / (FP + TN): proportion of false positive predictions among all actual negatives |
| Specificity |
TN / (TN + FP): proportion of correct negative predictions among all actual negatives |
| F1 Score |
2 * (Precision * Recall) / (Precision + Recall): harmonic mean of precision and recall |
| F2 Score |
Same as F1 Score but recall is weighted more heavily: 5 * (Precision * Recall) / (4 * Precision + Recall) |
| Accuracy |
(TP + TN) / (TP + FP + FN + TN): proportion of correct predictions |
| Balanced Accuracy |
(Recall + Specificity) / 2: useful for unbalanced classes |
Impressum / Imprint
The following information is required by German law. For your convenience, we are making a translation of the German text available at the bottom of the page. Please note that in case of a legal dispute, the German version takes precedence over the English version.
Projektleitung / Project leadership
- Prof. Dr. Martin Kircher
- E-Mail: martin.kircher [at] bih-charite.de
- Tel: +49 30 450 543 004
Postanschrift / Postal Address
- Charité – Universitätsmedizin Berlin
- Campus Charité Mitte
- Charitéplatz 1
- D-10117 Berlin
Webmaster
- Prof. Dr. Martin Kircher
- Tel: +49 30 450 543 004
Disclaimer - Deutsch
Haftung für Inhalte
Die Inhalte unserer Seiten wurden mit größter Sorgfalt erstellt. Für die Richtigkeit, Vollständigkeit und Aktualität der Inhalte können wir jedoch keine Gewähr übernehmen.
Als Diensteanbieter sind wir gemäß § 7 Abs. 1 TMG für eigene Inhalte auf diesen Seiten nach den allgemeinen Gesetzen verantwortlich. Nach §§ 8 bis 10 TMG sind wir als Diensteanbieter jedoch nicht verpflichtet, übermittelte oder gespeicherte fremde Informationen zu überwachen oder nach Umständen zu forschen, die auf eine rechtswidrige Tätigkeit hinweisen. Verpflichtungen zur Entfernung oder Sperrung der Nutzung von Informationen nach den allgemeinen Gesetzen bleiben hiervon unberührt. Eine diesbezügliche Haftung ist jedoch erst ab dem Zeitpunkt der Kenntnis einer konkreten Rechtsverletzung möglich. Bei bekannt werden von entsprechenden Rechtsverletzungen werden wir diese Inhalte umgehend entfernen.
Datenschutzerklärung (DSGVO)
Diese Webseite sieht sich als Teil der Webpräsenz des Berlin Institute of Health (BIH) und der Charité - Universitätsmedizin Berlin. Es gelten die Datenschutzerklärung des BIH und die Datenschutzerklärung der Charité.
Diese Internetseite erfasst mit jedem Aufruf der Internetseite durch eine betroffene Person oder ein automatisiertes System eine Reihe von allgemeinen Daten und Informationen. Diese allgemeinen Daten und Informationen werden in den Logfiles des Servers gespeichert. Erfasst werden können:
die Unterwebseiten, welche über ein zugreifendes System auf unserer Internetseite angesteuert werden,
das Datum und die Uhrzeit eines Zugriffs auf die Internetseite,
eine Internet-Protokoll-Adresse (IP-Adresse),
der Internet-Service-Provider des zugreifenden Systems und sonstige ähnliche Daten und Informationen, die der Gefahrenabwehr im Falle von Angriffen auf unsere informationstechnologischen Systeme dienen,
sämtliche Dateien und Informationen, die bei der Benutzung der bereitgestellen Services anfallen.
Auf dieser Internetseite können bestimmte Dienste (z.B. Bewerten genomischer Varianten durch die Software CADD) unter Angabe von personenbezogenen Daten durchgeführt werden. Welche personenbezogenen Daten dabei übermittelt werden, ergibt sich aus der jeweiligen Eingabemaske. Allgemein werden bei der Benutzung der bereitgestellten Services, dem Bewerten genomischer Varianten durch die Software CADD, die folgenden Daten und Informationen erfasst:
sämtliche auf der Webseite durch Nutzende hochgeladen Dateien,
die zur Kontaktierung Nutzender in der Eingabemaske angegeben Informationen (Email-Adresse, weitere Informationen),
sämtliche mit diesen Daten und Informationen in Verbindung stehenden Informationen (Metadaten) wie Dateinamen, Datum und Uhrzeit,
sowie bereits im vorhergehenden Abschnitt genannte allgenmeine Daten und Informationen.
Es sei darauf hingewiesen, dass es ausdrückliche Aufgabe Nutzender dieser Webseite ist, dafür Sorge zu tragen, dass dabei keinerlei persönliche Daten Dritter verarbeitet werden.
Bei der Nutzung der genannten Daten und Informationen ziehen wir keine Rückschlüsse auf die betroffene Person. Diese Informationen werden vielmehr benötigt, um
die Inhalte unserer Internetseite korrekt auszuliefern,
die Inhalte unserer Internetseite zu optimieren,
die Nutzenden über die Verarbeitung ihrer Daten zu informieren,
die dauerhafte Funktionsfähigkeit unserer informationstechnologischen Systeme und der Technik unserer Internetseite zu gewährleisten sowie
um Strafverfolgungsbehörden im Falle eines Cyberangriffes die zur Strafverfolgung notwendigen Informationen bereitzustellen.
Diese anonym erhobenen Daten und Informationen werden daher von uns einerseits statistisch und ferner mit dem Ziel ausgewertet, den Datenschutz und die Datensicherheit in unserem Unternehmen zu erhöhen, um letztlich ein optimales Schutzniveau für die von uns verarbeiteten personenbezogenen Daten sicherzustellen. Die anonymen Daten der Server-Logfiles werden getrennt von allen durch eine betroffene Person angegebenen personenbezogenen Daten gespeichert.
Haftung für Links
Unser Angebot enthält Links zu externen Webseiten Dritter, auf deren Inhalte wir keinen Einfluss haben. Deshalb können wir für diese fremden Inhalte auch keine Gewähr übernehmen. Für die Inhalte der verlinkten Seiten ist stets der jeweilige Anbieter oder Betreiber der Seiten verantwortlich. Die verlinkten Seiten wurden zum Zeitpunkt der Verlinkung auf mögliche Rechtsverstöße überprüft. Rechtswidrige Inhalte waren zum Zeitpunkt der Verlinkung nicht erkennbar. Eine permanente inhaltliche Kontrolle der verlinkten Seiten ist jedoch ohne konkrete Anhaltspunkte einer Rechtsverletzung nicht zumutbar. Bei bekannt werden von Rechtsverletzungen werden wir derartige Links umgehend entfernen.
Urheberrecht Webseite
Die durch die Seitenbetreiber erstellten Inhalte und Werke auf diesen Seiten unterliegen dem deutschen Urheberrecht. Die Software CADD, sowie alle darüber bereit gestellten Dienste unterliegen dem amerikanischen Urheberrecht. Beiträge Dritter sind als solche gekennzeichnet. Die Vervielfältigung, Bearbeitung, Verbreitung und jede Art der Verwertung außerhalb der Grenzen des Urheberrechtes bedürfen der schriftlichen Zustimmung des jeweiligen Autors bzw. Erstellers. Downloads und Kopien dieser Seite sind nur für den privaten, nicht kommerziellen Gebrauch gestattet.
Die Betreiber der Seiten sind bemüht, stets die Urheberrechte anderer zu beachten bzw. auf selbst erstellte sowie lizenzfreie Werke zurückzugreifen.
Urheberrecht und Lizenzen zu CADD
Die Software CADD unterliegt dem amerikanischen Urherberrecht und den unten in englischer Sprache abgedruckten Nutzungs- und Haftungsbedingungen. Die Nutzung jeglicher mit der Software CADD verbundenen Daten und Dienste sind nur für den privaten oder nicht kommerziellen Gebrauch gestattet. Jegliche kommerzielle Nutzung bedarf der schriftlichen Zustimmung der Urheber. Lizenzen zur kommerziellen Nutzung sind über das UW CoMotion Express Licensing System erwerbbar. Sollten Zweifel bezüglich des kommerziellen Charakters einer Anwendung bestehen, bitte kontaktieren Sie Martin Kircher, Jay Shendure und Gregory M. Cooper, und beschreiben Sie die genaueren Umstände.
Disclaimer - English
Liability for Contents
The contents of our pages and social media channels have been created with great care. However, we cannot take any responsibility for the accuracy, completeness or timeliness of the contents.
As a service provider, we are responsible according to § 7 para 1 TMG (Tele Media Act) for own contents on these pages under the general laws. According to §§ 8 to 10 TMG, we are not required to monitor transmitted or stored information or to investigate circumstances that indicate illegal activity. The obligation to remove or block the use of information under the general laws remains unaffected by this. However, any liability is only possible from the date of knowledge of a specific infringement. Upon gaining knowledge of such violations, we will immediately remove this content.
Data Privacy Statement
This website is considered part of the online presence of Berlin Institute of Health (BIH) and Charité - Universitätsmedizin Berlin. Accordingly, the Data Privacy Statement of BIH (German only) and Data Privacy Statement of Charité apply.
This website records a number of general data and information each time a human user or automated system accesses the website. This general data and information is stored in the log files of the server. The following can be recorded:
the sub-websites, which are accessed on our website,
Impressum / Imprint
Hinweis / Note
Dies ist ein Muster-Impressum. Ersetzen Sie die untenstehenden Angaben durch die für Ihre Organisation zutreffenden Informationen. Im Streitfall hat die deutsche Fassung Vorrang.
Projektleitung / Project leadership
Postanschrift / Postal address
Charité – Universitätsmedizin Berlin
Campus Charité Mitte
Charitéplatz 1
D‑10117 Berlin
Webmaster / Technical contact
- Prof. Dr. Martin Kircher
- Tel: +49 30 450 543 004
Haftung für Inhalte (Deutsch)
Die Inhalte dieser Webseite wurden mit größter Sorgfalt erstellt. Für die Richtigkeit, Vollständigkeit und Aktualität der Inhalte übernehmen wir jedoch keine Gewähr. Als Diensteanbieter sind wir gemäß § 7 Abs. 1 TMG für eigene Inhalte auf diesen Seiten nach den allgemeinen Gesetzen verantwortlich.
Nach §§ 8 bis 10 TMG sind wir als Diensteanbieter jedoch nicht verpflichtet, übermittelte oder gespeicherte fremde Informationen zu überwachen oder nach Umständen zu forschen, die auf eine rechtswidrige Tätigkeit hinweisen. Verpflichtungen zur Entfernung oder Sperrung der Nutzung von Informationen nach den allgemeinen Gesetzen bleiben hiervon unberührt.
Datenschutzerklärung / Data privacy
Diese Webseite ist Teil der Webpräsenz des Berlin Institute of Health (BIH) und der Charité – Universitätsmedizin Berlin. Es gelten die Datenschutzhinweise des BIH und der Charité.
Bei jedem Zugriff werden allgemeine Daten (Server-Logfiles) erfasst, z. B. IP‑Adresse, Zeitpunkt des Zugriffs, aufgerufene Unterseiten und ggf. übertragene Dateien. Werden personenbezogene Daten im Rahmen der Nutzung von Diensten übermittelt (z. B. Uploads), so richtet sich die Erhebung und Verarbeitung nach der jeweiligen Eingabemaske.
Die anonym erhobenen Daten werden statistisch ausgewertet, um Betriebssicherheit und Datenschutz zu verbessern; Server-Logs werden getrennt von personenbezogenen Daten gespeichert.
Haftung für Links / Liability for links
Diese Website enthält Links zu externen Websites Dritter. Für die Inhalte externer Seiten sind ausschließlich deren Betreiber verantwortlich. Rechtswidrige Inhalte waren zum Zeitpunkt der Verlinkung nicht erkennbar; eine fortlaufende inhaltliche Kontrolle ist ohne konkrete Anhaltspunkte nicht zumutbar.
Urheberrecht / Copyright
Die von den Seitenbetreibern erstellten Inhalte unterliegen dem deutschen Urheberrecht. Beiträge Dritter sind als solche gekennzeichnet. Vervielfältigung, Bearbeitung oder Verbreitung bedürfen der schriftlichen Zustimmung des jeweiligen Autors.
Hinweise zur Nutzung von CADD / CADD license and disclaimer
CADD (Combined Annotation Dependent Depletion) und die zugehörigen Softwarebestandteile unterliegen den jeweiligen Urheberrechten der beteiligten Institutionen (u. a. University of Washington). CADD‑Scores sind für nicht-kommerzielle Nutzung freigegeben. Für kommerzielle Nutzung sind Lizenzen erforderlich (z. B. über UW CoMotion Express Licensing).
Nachfolgend der standardmäßige Haftungsausschluss (englisch):
THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.
© University of Washington, Hudson‑Alpha Institute for Biotechnology and Berlin Institute of Health at Charité – Universitätsmedizin Berlin 2013–2023. All rights reserved.