Nextflow Parameters¶

Complete reference for all pipeline parameters.

Required Parameters¶

Parameter	Description
`--input`	Path to samplesheet CSV
`--variants`	Path to VCF/MAF variants file
`--fasta`	Reference FASTA (with .fai index). Also used for CRAM decoding.

Mode¶

Parameter	Default	Description
`--mode`	`dna`	Analysis mode: `dna` (cfDNA/somatic) or `rna` (RNA-seq with transcriptome-aware filtering)

Output Options¶

Parameter	Default	Description
`--outdir`	`results`	Output directory
`--format`	`vcf`	Output format (`vcf` or `maf`)
`--suffix`	`''`	Suffix for output filenames
`--column_prefix`	`''`	Prefix for gbcms count columns in MAF output
`--preserve_barcode`	`false`	Keep original Tumor_Sample_Barcode from input MAF

mFSD Options (DNA only)¶

Parameter	Default	Description
`--mfsd`	`false`	Enable mFSD analysis — adds 34 mFSD columns to MAF and 7 `MFSD_*` INFO fields to VCF. See mFSD metrics.
`--mfsd_parquet`	`false`	Write a companion `<sample>.fsd.parquet` with raw per-variant fragment size arrays. Requires `--mfsd`.
`--mfsd_report`	`false`	Generate an interactive HTML report with per-variant fragment size distributions. Implies `--mfsd` and `--mfsd_parquet`. See mFSD Report.
`--mfsd_report_min_alt`	`3`	Minimum ALT fragment count to include a variant in the HTML report.
`--mfsd_report_max_variants`	`20`	Maximum variants in the HTML report. Use `-1` for no limit.

Quality & Filtering Options¶

Parameter	Default	Description
`--min_mapq`	`20`	Minimum mapping quality
`--min_baseq`	`20`	Minimum base quality
`--fragment_qual_threshold`	`10`	Quality margin for fragment consensus — when R1/R2 disagree on a non-INDEL variant, the higher-quality allele wins only if the difference exceeds this. INDEL conflicts with structural CIGAR evidence bypass this threshold.
`--context_padding`	`5`	Minimum flanking bases for Phase 3 alignment (auto-increased in repeats)
`--adaptive_context`	`true`	Dynamically increase context padding in tandem repeat regions
`--filter_duplicates`	`true`	Filter duplicate reads
`--filter_secondary`	`true`	Filter secondary alignments
`--filter_supplementary`	`true`	Filter supplementary alignments
`--filter_qc_failed`	`true`	Filter QC failed reads
`--filter_improper_pair`	`false`	Filter improperly paired reads
`--filter_indel`	`false`	Filter reads with indels
`--filter_by_sample`	`false`	Filter multi-sample MAF by `Tumor_Sample_Barcode` (details)
`--show_normalization`	`false`	Add `norm_*` columns showing left-aligned coordinates in output
`--rescue_mnp`	`false`	Enable MNP rescue pass — decomposes MNPs into individual SNPs for re-counting when `ad=0`
`--rescue_mnp_threshold`	`1.0`	Maximum disc/len ratio for MNP rescue eligibility (0.0–1.0). `1.0` = all MNPs eligible (C++ compatible). `0.5` = conservative sparse-only mode. `0.0` = disable rescue eligibility (diagnostics still emitted).

UMI & BAQ Options¶

Parameter	Default	Description
`--umi_tag`	`''`	UMI BAM tag for deduplication (e.g., `XM`, `RX`). When set, reads sharing the same UMI are grouped as a single observation.
`--apply_baq`	`false` (DNA) / `true` (RNA)	Apply Base Alignment Quality downgrade. Reduces false positives near indels and splice junctions (CIGAR `N`). See BAQ Options.

RNA-Specific Options¶

These parameters are only used when --mode rna is specified.

Parameter	Default	Description
`--rna_editing_db`	`''`	Path to REDIportal editing database file (e.g., `TABLE1_hg38_v3.txt`). Flags ALT sites that overlap known A→I RNA editing positions.
`--enforce_strandedness`	`true`	Enforce dUTP strand-specific library prep. Disable with `false` for unstranded RNA-seq libraries (`--no-strandedness` equivalent).

RNA mode defaults

RNA mode uses different PairHMM gap penalties by default (gap_open=5e-3, gap_extend=0.25) to tolerate RT-induced stutter at homopolymers. These can be overridden via the alignment backend parameters below.

Alignment Backend (Advanced)¶

Parameter	Default	Description
`--alignment_backend`	`pairhmm`	Phase 3 alignment backend: `pairhmm` (WFA2 + PairHMM, default) or `sw` (Smith-Waterman). See CLI Reference.
`--llr_threshold`	`2.3`	PairHMM log-likelihood ratio threshold for confident calls
`--gap_open_prob`	`1e-4`	PairHMM gap-open probability for non-repeat regions
`--gap_extend_prob`	`0.1`	PairHMM gap-extend probability for non-repeat regions
`--gap_open_prob_repeat`	`1e-2`	PairHMM gap-open probability for tandem repeat regions
`--gap_extend_prob_repeat`	`0.5`	PairHMM gap-extend probability for tandem repeat regions

Merge Options¶

These parameters control the multi-BAM merge step. Requires a bam_type column in the samplesheet.

Parameter	Default	Description
`--merge_counts`	`false`	Enable multi-BAM merge — combine per-type MAFs into a single output with type-prefixed count columns. Requires `bam_type` in samplesheet.
`--merge_add_combined`	`true`	When both `duplex` and `simplex` inputs are present, compute additive `simplex_duplex_*` combined columns (20 columns including strand bias).
`--merge_legacy_naming`	`false`	Use `t_{metric}_{type}` naming (genotype_variants compatible).

Resource Limits¶

Parameter	Default	Description
`--max_cpus`	`16`	Maximum CPUs per job
`--max_memory`	`128.GB`	Maximum memory per job
`--max_time`	`240.h`	Maximum runtime per job

Performance Benchmarks¶

Representative metrics from cfDNA duplex BAM samples:

Sample Type	BAM Size	Variants	Runtime	CPUs
ctDNA (plasma)	1.3 GB	608	~25s	4
Plasma control	776 MB	608	~20s	4

Execution Profiles¶

Profile	Description
`docker`	Local with Docker containers
`singularity`	HPC with Singularity
`slurm`	SLURM cluster with Singularity
`local`	No container (requires local install)

Advanced¶

task.ext.args — Arbitrary CLI Arguments

Any CLI option not exposed as a Nextflow parameter can be passed via task.ext.args in your config:

process {
    withName: GBCMS_DNA {
        ext.args = '--verbose'
    }
}

See DNA CLI Reference or RNA CLI Reference for all available options.

Samplesheet — Input format
Examples — Usage patterns
DNA CLI Reference — Underlying DNA command
RNA CLI Reference — Underlying RNA command