Overview

Use PTT (bulletin board system (BBS) in Taiwan) and Chinese Wiki corpora to build count-based and prediction-based word embeddings.
The evaluations in similarity/relatedness tasks are better than the other pre-trained word embeddings.

Chinese Word Embeddings

Download

Hyperparameter

Chinese_word_embedding_count_based

Hyperparameter	Setting
Frequency weighting	SPPMI_k10
Window size	3
Dimensions	700
Remove first k dimensions	6
Weighting exponent	0.5
Discover new words	no

Chinese_word_embedding_CBOW

Hyperparameter	Setting
Window size	2
Dimensions	500
Model	CBOW
Learning rate	0.025
Sampling rate	0.00001
Negative samples	2
Discover new words	no

Reference

If you use the Chinese word embedding in your works, please cite this paper:

Ying-Ren Chen (2021). Generate coherent text using semantic embedding, common sense templates and Monte-Carlo tree search methods (Master's thesis, National Tsing Hua University, Hsinchu, Taiwan).

License

This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

Name		Name	Last commit message	Last commit date
Latest commit History 75 Commits
corpora		corpora
evaluation		evaluation
reports		reports
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Overview

Chinese Word Embeddings

Hyperparameter

Reference

License

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Overview

Chinese Word Embeddings

Hyperparameter

Reference

License

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages