資料來源
最後更新:2026-05-10
辿り道把資料分成兩層:一層是自行編撰的核心,涵蓋華人 JLPT 學習者最常用的詞彙與漢字;另一層是 JMdict / KANJIDIC2 fallback,接住閱讀器中貼進來的冷僻詞。本頁完整列出哪一塊來自哪裡、以什麼授權使用。
辿り道自行編撰
以下內容版權歸 Mason AI Lab 所有:
- vocab_entries — 8,047 詞核心詞庫:中文(繁/簡)/ 英文釋義 / 學習者筆記 / 例句 / 搭配 / 語域 / 領域 / 30+ metadata 欄位,皆由 Claude(Anthropic)從日文出發直接生成並經審核。詞條 id 為自有命名(tdrm-XXXXX),不繼承任何外部資料來源的編號。
- kanji — 2,682 漢字核心:中英文意義、聲符組分析、部件拆解、記憶口訣、形似字、複合詞選詞、學習者筆記,全部原創。
- grammar_points — 723 條 JLPT N1–N5 句型:pattern 句型、用法規則、相似句型辨析、例句,從零撰寫。
- articles — JLPT 分級閱讀文章:每篇本文、摘要、詞彙標注、句型標注、metadata 皆為辿り道原創。
- UI、設計、程式碼、學習演算法、模擬考邏輯:皆為 Mason AI Lab 所有。
事實資料層
部分資料屬於客觀語言事實(在我們營運的所有司法管轄區皆不受著作權保護),與原創內容並存於 DB 之中:
- 漢字字形本身、筆畫數、音讀訓讀
- 康熙部首歸類(公有領域古典參考)
- 詞性分類(動詞 / 形容詞 / 名詞 等)
- 詞彙頻率(JPDB / 每日新聞語料庫)
- JLPT 等級標記(根據公開的考試大綱整理)
JMdict / KANJIDIC2 fallback
核心 8,047 詞範圍外的日文詞彙,閱讀器 hover 查詢會 fallback 至 JMdict(日多語字典)與 KANJIDIC2 社群專案。涵蓋專有名詞、古語、行業術語等冷僻詞,以及使用者貼到閱讀器裡的任意文章用詞。
- JMdict — © James William Breen 與 EDRDG(Electronic Dictionary Research and Development Group),以 CC BY-SA 4.0授權。我們完整匯入字典,並把不在核心範圍內的長尾子集(208,286 筆)存放在 fallback 表。
- KANJIDIC2 — © EDRDG,同樣以 CC BY-SA 4.0授權。用於漢字事實層資料(筆畫、部首、音讀訓讀、JLPT 等級)。
對匯入資料的修改:只保留長尾子集(已被核心涵蓋的詞條不重複),其餘 JMdict / KANJIDIC2 紀錄維持原樣。
其他社群資源
- JLPT 詞彙等級標記 — 來自 yomitan-jlpt-vocab(社群維護,標明來源)。
- JLPT N4 漢字等級補齊 — 來自 davidluzgouveia/kanji-data(MIT,
jlpt_new欄位)。用於補上 KANJIDIC2 舊四級制沒有的新制 N4 等級。 - 重音字典 — 來自 mifunetoshiro/kanjium(社群整理之 NHK《日本語発音アクセント新辭典》資料,可自由再散布)。
- 詞彙頻率 — JPDB / 每日新聞語料庫。
- 分詞器 — kuromoji.js(Apache 2.0)。
語音合成(TTS)
本站詞彙、漢字、句型、文章閱讀的日文語音為預生成音檔,合成引擎為 VOICEVOX(開源日語語音合成引擎), 使用聲音角色為 VOICEVOX:四国めたん(Shikoku Metan,ノーマル style)。選用此角色的原因:VOICEVOX 提供 per-mora 重音控制,可以精確對齊本站顯示的重音編號,這是 Web Speech API 做不到的,故採取預生成方式。
- 引擎 — VOICEVOX/voicevox_engine,LGPL-3.0 授權。
- 聲音角色 — VOICEVOX:四国めたん。該角色有其獨立 利用規約,允許含信用標示之商業再散布。角色本身著作權歸其權利人所有,本站不主張任何角色相關權利。
衍生資料授權
依照 CC BY-SA 4.0 share-alike 義務,本站 jmdict_fallback* 表中存放的 JMdict / KANJIDIC2 長尾子集,若再散布,會以同樣的 CC BY-SA 4.0 授權釋出。本站自行編撰的 vocab_entries / kanji / grammar_points / articles 表不對外散布,維持自有授權。
聯絡
關於資料來源、授權、或自編內容之商業使用問題,請寄 [email protected]。