汉字构词矩阵的研究讨论

【术语】构词矩阵
【定义】把一些汉字作为行,一些汉字作为列所形成的方格本,填入词汇(行向量与列向量组合),从而形成的矩阵。
汉语的双字词一直是中文信息处理的重点。新词不断地产生,汉语有多少词汇?百万,千万?
分词词典要多大?1千万吗?
汉语构词的规律如何?
如果把8万汉字与8万汉字组成构词矩阵,会产生64亿个词汇的构词矩阵。以海量文本的数据,研究汉语构词规律是一项重大的科研任务。
一个实例:
工 人 民 头

工 / 工人 / 工头
人 人工 人人 人民 人头
民 民工 / / /
头 / 头人 / 头头

【词位】4个字可以构成产生16个双字词的可能,数16称为词位。
【构词占位率】中文已经称为词的数量与词位的比,称为构词占位率。
上述实例 4个汉字的构词占位率是 9/16 =69.23%
(根据反馈,陆续发帖)