Die Wissensbasen bilden den inhaltlichen Kernbestandteil von MSITM. In jahrelanger Expertenarbeit wurden Subwörter in verschiedenen Sprachen definiert. Sie stellen inhaltlich atomare Einheiten dar und können Wörter sein, aber auch Wortbestandteile oder ganze Wortgruppen.

Beispielsweise sind im Deutschen das Subwort herz, im Englischen heart und im Spanischen corazon definiert. In allen Sprachen existiert darüber hinaus der lateinische Ausdruck card. Diese Subwörter sind sprachübergreifend zusammengefasst zu dem Konzept HEART. Entsprechende Konzepte existieren für alle anderen relevanten Bestandteile der medizinischen Sprache.

Mit Hilfe eines Parsers ist es möglich, Subwörter und Konzepte aus Dokumenten zu extrahieren. Für Herzmuskelentzündung, Entzündung des Hermuskels, Myokarditis oder inflammation of the heart muscle werden dabei jedesmal die Konzepte HEART, MUSCLE und INFLAMMATION extrahiert und die Dokumente somit sprachlich normalisiert.