CESSC

causal and non-causal sentence classification dataset and model

CESSC provides a curated dataset and a fine-tuned BERT-based model for binary classification of causal and non-causal sentences within social science texts. The work is connected to the paper (Norouzi et al., 2025).

1,000 manually annotated sentences, supplementary machine-labeled sentences, scripts for model fine-tuning and evaluation, and benchmark results.

References

Capturing Causal Claims: A Fine-tuned Text Mining Model for Extracting Causal Sentences from Social Science Papers

Rasoul Norouzi, Bennett Kleinberg, Jeroen K. Vermunt, and 1 more author

Research Synthesis Methods, 2025

DOI Bib HTML

@article{norouzi2025capturing,
  title = {Capturing Causal Claims: A Fine-tuned Text Mining Model for Extracting Causal Sentences from Social Science Papers},
  author = {Norouzi, Rasoul and Kleinberg, Bennett and Vermunt, Jeroen K. and van Lissa, Caspar J.},
  journal = {Research Synthesis Methods},
  volume = {16},
  number = {1},
  pages = {139--156},
  year = {2025},
  doi = {10.1017/rsm.2024.13},
}