Spaces:

Orion-zhen
/

tokenize-it

Running

App Files Files Community

tokenize-it / app.py

Orion-zhen

Update app.py

db765cd verified 8 months ago

raw

history blame contribute delete

5.82 kB

	import os
	import gradio as gr
	from html import escape
	from transformers import AutoTokenizer


	def get_available_models() -> list[str]:
	"""获取models目录下所有包含config.json的模型"""
	models_dir = "models"
	if not os.path.exists(models_dir):
	return []

	available_models = []
	for model_name in os.listdir(models_dir):
	model_path = os.path.join(models_dir, model_name)
	config_file = os.path.join(model_path, "config.json")

	if os.path.isdir(model_path) and os.path.isfile(config_file):
	available_models.append(model_name)

	return sorted(available_models)


	def tokenize_text(
	model_name: str, text: str
	) -> tuple[str \| None, str \| None, int \| None, dict \| None, int, int]:
	"""处理tokenize请求"""
	if not model_name:
	return "Please choose a model and input some texts", None, None, None, 0, 0
	if not text:
	text = "Please choose a model and input some texts"

	try:
	# 加载tokenizer
	model_path = os.path.join("models", model_name)
	if os.path.isdir(model_path):
	tokenizer = AutoTokenizer.from_pretrained(
	model_path, trust_remote_code=True, device_map="cpu"
	)
	else:
	tokenizer = AutoTokenizer.from_pretrained(
	model_name, trust_remote_code=True, device_map="cpu"
	)

	tokenizer_type = tokenizer.__class__.__name__

	if hasattr(tokenizer, "vocab_size"):
	vocab_size = tokenizer.vocab_size
	elif hasattr(tokenizer, "get_vocab"):
	vocab_size = len(tokenizer.get_vocab())
	else:
	vocab_size = -1

	sp_token_list = [
	"pad_token",
	"eos_token",
	"bos_token",
	"sep_token",
	"cls_token",
	"unk_token",
	"mask_token",
	"image_token",
	"audio_token",
	"video_token",
	"vision_bos_token",
	"vision_eos_token",
	"audio_bos_token",
	"audio_eos_token",
	]
	special_tokens = {}
	for token_name in sp_token_list:
	if (
	hasattr(tokenizer, token_name)
	and getattr(tokenizer, token_name) is not None
	):
	token_value = getattr(tokenizer, token_name)
	if token_value and str(token_value).strip():
	special_tokens[token_name] = str(token_value)

	# Tokenize处理
	input_ids = tokenizer.encode(text, add_special_tokens=True)

	# 生成带颜色的HTML
	colors = ["#A8D8EA", "#AA96DA", "#FCBAD3"]
	html_parts = []

	for i, token_id in enumerate(input_ids):
	# 转义HTML特殊字符
	safe_token = escape(tokenizer.decode(token_id))
	# 交替颜色
	color = colors[i % len(colors)]
	html_part = (
	f'<span style="background-color: {color};'
	f"margin: 2px; padding: 2px 5px; border-radius: 3px;"
	f'display: inline-block; font-size: 1.2em;">'
	f"{safe_token}<br/>"
	f'<sub style="font-size: 0.9em;">{token_id}</sub>'
	f"</span>"
	)
	html_parts.append(html_part)

	# 统计信息
	token_len = len(input_ids)
	char_len = len(text)

	return (
	"".join(html_parts),
	tokenizer_type,
	vocab_size,
	special_tokens,
	token_len,
	char_len,
	)

	except Exception as e:
	error_msg = f"Error: {str(e)}"
	return error_msg, None, None, None, 0, 0


	banner_md = """# 🎨 Tokenize it!

	Powerful token visualization tool for your text inputs. 🚀

	Works for LLMs both online and locally on your machine!"""
	banner = gr.Markdown(banner_md)
	model_selector = gr.Dropdown(
	label="Choose or enter model name",
	choices=get_available_models(),
	interactive=True,
	allow_custom_value=True,
	)
	text_input = gr.Textbox(label="Input Text", placeholder="Hello World!", lines=4)
	submit_btn = gr.Button("🚀 Tokenize!", variant="primary")

	tokenizer_type = gr.Textbox(label="Tokenizer Type", interactive=False)
	vocab_size = gr.Number(label="Vocab Size", interactive=False)
	sp_tokens = gr.JSON(label="Special Tokens")

	output_html = gr.HTML(label="Tokenized Output", elem_classes="token-output")
	token_count = gr.Number(label="Token Count", value=0, interactive=False)
	char_count = gr.Number(label="Character Count", value=0, interactive=False)

	with gr.Blocks(title="Token Visualizer", theme="NoCrypt/miku") as webui:
	banner.render()

	with gr.Row(scale=2):
	with gr.Column():
	model_selector.render()
	text_input.render()
	submit_btn.render()
	output_html.render()
	with gr.Column():
	with gr.Accordion("Details", open=False):
	with gr.Row():
	tokenizer_type.render()
	vocab_size.render()
	sp_tokens.render()
	with gr.Row():
	token_count.render()
	char_count.render()

	# 定义CSS样式
	webui.css = """
	.token-output span {
	margin: 3px;
	vertical-align: top;
	}
	.stats-output {
	font-weight: bold !important;
	color: #2c3e50 !important;
	}
	"""

	submit_btn.click(
	fn=tokenize_text,
	inputs=[model_selector, text_input],
	outputs=[
	output_html,
	tokenizer_type,
	vocab_size,
	sp_tokens,
	token_count,
	char_count,
	],
	)

	if __name__ == "__main__":
	os.makedirs("models", exist_ok=True)
	webui.launch(pwa=True)